Bilişimsel dilbilim (bilgisayarlı dilbilim), dilin kavranma ve incelenme şekillerini önemli ölçüde değiştirdi. İlk defa çok fazla sayıdaki kelimenin yoğun hesaplamaları, kelimelerin ve onların birbirleriyle olan ilişkilerinin kavranışında da yeni düşünüş biçimleri gelişmesine yol açtı.
Sözcükler arası yakınlığı ve alakayı hesaplayan bu yoğun hesaplama süreci, sözcüklerin nasıl kullanıldığının belirlenmesi açısından da önemli bir faktör teşkil ediyor. Örneğin, “olimpiyatlar” sözcüğü; koşmak, atlamak ve atmak gibi kelimelerle anlamsal içeriği bakımından yakın görünürken, elektron ya da Stegosaurus gibi kelimelerle alakasız görünür. Bu ilişki dizileri, olimpiyatlar sözcüğünün bir anlamda vektör uzayı olarak da tanımlayabileceğimiz dil olgusu içinde ne şekilde kullanıldığını açıklayan çok boyutlu bir vektör olarak düşünülebilir.
İşte köklü değişiklikler tam da bu noktada başlıyor. Bu yeni yaklaşım, dillerin matematiksel özellikler yüklenebilen vektör uzayı niteliği kazanmasına olanak sağlaması açısından dilsel araştırmaların vektör uzayı matematiği ile ilişkilendirilmesinin yolu açılmış durumda.
Avustralya’daki Melbourne Üniversitesi’nden araştırmacılar, vektör uzayının en merak uyandıran konularından biri olan vektör ekleme ve çıkarmanın aynı uzayda bir başka vektör üretmesi durumunu irdelediler. Ekip, bileşik vektörlerin anlamını çözmeye çalışırken vektörler arasındaki farkın, dilin incelenmesinde ve sözcükler arasındaki ilişkilerin irdelenmesinde yararlanılabilecek güçlü bir unsur olduğunu saptadılar.
Öncelikle biraz temelden alalım ve sözcüklerin nasıl vektör gibi eklenip çıkarılabildiğini bir örnekle inceleyelim: “Kral – Erkek + Kadın = Kraliçe”. Cinsiyet ilişkisinin temsil eden bu örnekte, kral ve kadın ile alakalı vektörleri ekleyip erkeği çıkarmak suretiyle kraliçe vektörü elde ediliyor. Bir başka örnek ise, “Paris – Fransa + Polonya = Varşova”. Bu durumda ise Paris ve Fransa arasındaki vektör farkı ile başkent teması elde ediliyor.
Araştırmacılar, bu yaklaşımın ne kadar sağlıklı olduğunu ve ne kadar ileriye götürülebileceği konusundaki çalışmalarını sürdürüyor. Bu aşamada, incelenen kelimelerin bütününü göz önüne alarak vektör bağlantılarının değişimini karşılaştırıyorlar. Bunun için de, sözcük sınıfları arasındaki belli başlı bağlantılarla ilgili olan vektörlere bakılıyor. Bu genelde bir cisim ve o cisme ait bir bölüm (uçak ve kokpit), bir eylem ve onun konusu olan bir şey (av ve geyik), bir isim ve topluluk adı (karınca ve sürü) olmak üzere çeşitli kategorilerden oluşuyor. Listede aynı zamanda isim ve ismin çoğulu (köpek-köpekler), fiil ve fiilin geçmiş zaman hali (gelmek-geldi), fiil ve fiilin üçüncü kişi çekimi (gelmek-geliyor) gibi gramer unsurları da bulunuyor. Elde edilen sonuçlara göre, bu bağlantılarda saptanan vektör toplulukları genellikle bütünle ilişkilenen vektör uzaylarında sıkı kümeler oluşturuyor.
Ne var ki, sözcüklerin birden fazla anlama sahip olup belirsiz şekilde simgelendikleri vektör uzaylarında aykırı bir durum meydana geliyor. İngilizce’de hem isim hem de fiil olarak kullanılabilen study-studies (çalışma/çalışmak-çalışıyor), run-runs (koşu/koşmak-koşuyor), increase-increases (artış/artmak-artıyor) gibi sözcükler uzaydaki bu vektörleri bozuyor.
Ekibin araştırdığı bir diğer sorun ise bu yaklaşımının günlük hayattaki kullanım alanları. Bunlardan birisi makinelerin insan dilini anlamaları amacıyla kullanılması, bir diğeri ise diller arası çeviride yararlanılması. Bu alanın en büyük öncülerinden birisi Google ve makine çevirisi ekibi. Google makine çevirisi ekibinin bulgularına göre, İngilizce'deki bir vektör ilişkisi; İspanyolca, Almanca ve diğer tüm dillerde geçerli. Hatta Google makine çevirisini bu şekilde gerçekleştiriyor. Temel olarak, vektöre bakıp her ikisinde de aynı pozisyondaysa iki dil arasında da eşdeğer olan bir cümle buluyor. Bu yaklaşımla ise eski anlamı neredeyse alakasız hale geliyor. Elbette dillerin kendine has özelliklerinden dolayı ortaya çıkabilen sayısız istisna var, bu sebeple makine çevirisi algoritmalarında sorunlar meydana gelebiliyor. Saptanan belirsizliklerin ortadan kaldırılabilmesi amacıyla çalışmalar devam ediyor.- King - Man + Woman = Queen: The Marvelous Mathematics of Computational Linguistics. MIT Technology Review. https://www.technologyreview.com/s/541356/king-man-woman-queen-the-marvelous-mathematics-of-computational-linguistics/
- Take and Took, Gaggle and Goose, Book and Read: Evaluating the Utility of Vector Differences for Lexical Relation Learning. arXiv preprint arXiv, (2015). https://arxiv.org/abs/1509.01692
Dilediğiniz miktarda aylık veya tek seferlik bağış yapabilirsiniz.
Destek Ol