Kelimelerin Vektör Uzayı ve Bilişimsel Dilbilimin Harika Matematiği

Bilişimsel dilbilim (bilgisayarlı dilbilim), dilin kavranma ve incelenme şekillerini önemli ölçüde değiştirdi. İlk defa çok fazla sayıdaki kelimenin yoğun hesaplamaları, kelimelerin ve onların birbirl..
Görsel Telif: fatmawati achmad zaenuri / ShutterStock

Bilişimsel dilbilim (bilgisayarlı dilbilim), dilin kavranma ve incelenme şekillerini önemli ölçüde değiştirdi. İlk defa çok fazla sayıdaki kelimenin yoğun hesaplamaları, kelimelerin ve onların birbirleriyle olan ilişkilerinin kavranışında da yeni düşünüş biçimleri gelişmesine yol açtı.

Sözcükler arası yakınlığı ve alakayı hesaplayan bu yoğun hesaplama süreci, sözcüklerin nasıl kullanıldığının belirlenmesi açısından da önemli bir faktör teşkil ediyor. Örneğin, “olimpiyatlar” sözcüğü; koşmak, atlamak ve atmak gibi kelimelerle anlamsal içeriği bakımından yakın görünürken, elektron ya da Stegosaurus gibi kelimelerle alakasız görünür. Bu ilişki dizileri, olimpiyatlar sözcüğünün bir anlamda vektör uzayı olarak da tanımlayabileceğimiz dil olgusu içinde ne şekilde kullanıldığını açıklayan çok boyutlu bir vektör olarak düşünülebilir.

İşte köklü değişiklikler tam da bu noktada başlıyor. Bu yeni yaklaşım, dillerin matematiksel özellikler yüklenebilen vektör uzayı niteliği kazanmasına olanak sağlaması açısından dilsel araştırmaların vektör uzayı matematiği ile ilişkilendirilmesinin yolu açılmış durumda.

Avustralya’daki Melbourne Üniversitesi’nden araştırmacılar, vektör uzayının en merak uyandıran konularından biri olan vektör ekleme ve çıkarmanın aynı uzayda bir başka vektör üretmesi durumunu irdelediler. Ekip, bileşik vektörlerin anlamını çözmeye çalışırken vektörler arasındaki farkın, dilin incelenmesinde ve sözcükler arasındaki ilişkilerin irdelenmesinde yararlanılabilecek güçlü bir unsur olduğunu saptadılar.

Öncelikle biraz temelden alalım ve sözcüklerin nasıl vektör gibi eklenip çıkarılabildiğini bir örnekle inceleyelim: “Kral – Erkek + Kadın = Kraliçe”. Cinsiyet ilişkisinin temsil eden bu örnekte, kral ve kadın ile alakalı vektörleri ekleyip erkeği çıkarmak suretiyle kraliçe vektörü elde ediliyor. Bir başka örnek ise, “Paris – Fransa + Polonya = Varşova”. Bu durumda ise Paris ve Fransa arasındaki vektör farkı ile başkent teması elde ediliyor.

Araştırmacılar, bu yaklaşımın ne kadar sağlıklı olduğunu ve ne kadar ileriye götürülebileceği konusundaki çalışmalarını sürdürüyor. Bu aşamada, incelenen kelimelerin bütününü göz önüne alarak vektör bağlantılarının değişimini karşılaştırıyorlar.  Bunun için de, sözcük sınıfları arasındaki belli başlı bağlantılarla ilgili olan vektörlere bakılıyor. Bu genelde bir cisim ve o cisme ait bir bölüm (uçak ve kokpit), bir eylem ve onun konusu olan bir şey (av ve geyik), bir isim ve topluluk adı (karınca ve sürü) olmak üzere çeşitli kategorilerden oluşuyor. Listede aynı zamanda isim ve ismin çoğulu (köpek-köpekler), fiil ve fiilin geçmiş zaman hali (gelmek-geldi), fiil ve fiilin üçüncü kişi çekimi (gelmek-geliyor) gibi gramer unsurları da bulunuyor. Elde edilen sonuçlara göre, bu bağlantılarda saptanan vektör toplulukları genellikle bütünle ilişkilenen vektör uzaylarında sıkı kümeler oluşturuyor.

Ne var ki, sözcüklerin birden fazla anlama sahip olup belirsiz şekilde simgelendikleri vektör uzaylarında aykırı bir durum meydana geliyor. İngilizce’de hem isim hem de fiil olarak kullanılabilen study-studies (çalışma/çalışmak-çalışıyor), run-runs (koşu/koşmak-koşuyor), increase-increases (artış/artmak-artıyor) gibi sözcükler uzaydaki bu vektörleri bozuyor.

Ekibin araştırdığı bir diğer sorun ise bu yaklaşımının günlük hayattaki kullanım alanları. Bunlardan birisi makinelerin insan dilini anlamaları amacıyla kullanılması, bir diğeri ise diller arası çeviride yararlanılması. Bu alanın en büyük öncülerinden birisi Google ve makine çevirisi ekibi. Google makine çevirisi ekibinin bulgularına göre, İngilizce’deki bir vektör ilişkisi; İspanyolca, Almanca ve diğer tüm dillerde geçerli. Hatta Google makine çevirisini bu şekilde gerçekleştiriyor. Temel olarak, vektöre bakıp her ikisinde de aynı pozisyondaysa iki dil arasında da eşdeğer olan bir cümle buluyor. Bu yaklaşımla ise eski anlamı neredeyse alakasız hale geliyor. Elbette dillerin kendine has özelliklerinden dolayı ortaya çıkabilen sayısız istisna var, bu sebeple makine çevirisi algoritmalarında sorunlar meydana gelebiliyor. Saptanan belirsizliklerin ortadan kaldırılabilmesi amacıyla çalışmalar devam ediyor.


Kaynak ve İleri Okuma:
-Take and Took, Gaggle and Goose, Book and Read: Evaluating the Utility of Vector Differences for Lexical Relation Learning. arXiv preprint arXiv, (2015). https://arxiv.org/abs/1509.01692
-King – Man + Woman = Queen: The Marvelous Mathematics of Computational Linguistics. MIT Technology Review. https://www.technologyreview.com/s/541356/king-man-woman-queen-the-marvelous-mathematics-of-computational-linguistics/


Bu içerik BilimFili.com yazarı tarafından oluşturulmuştur. BilimFili.com`un belirtmiş olduğu “Kullanım İzinleri”ne bağlı kalmak kaydıyla kullanabilirsiniz.

Etiket
  • Projelerimizde bize destek olmak ister misiniz?
  • Dilediğiniz miktarda aylık veya tek seferlik bağış yapabilirsiniz.
  • Destek Ol
Yorum Yap (1 )

Yorum yapabilmek için giriş yapmalısınız.

  • ubarez 01 Kasım 2017 - 13:27
  • Merhaba.

    ÖNERME 1: Sözcükler-arası ilişkiler vektörel değil, kümeseldir!
    Çünkü doğrusal değil, grift ilişkiler sözkonusu: Bir yada birden fazla
    sözcüğün BİRLEŞİM’i, KESİŞİM’i, KAPSAMA’sı, ALT KÜME’si…

    ÖNERME 2: Sözcükler-arası ilişkiler sadece vektörel değil, AYNI ZAMANDA
    kümeseldir!
    Çünkü, KÜMELER-ARASI vektörel ilişkiler olabileceği gibi, bir kümenin
    içinde SÖZCÜKLER-ARASI ilişkiler de olabilir.

    Bunlara MATRIS’ler de eklenebilir.

Bunlar da ilginizi çekebilir

Bağış Yap, Destek Ol!
Projelerimizde bize destek olmak isterseniz,
Patreon üzerinden
bütçenizi zorlamayacak şekilde aylık veya tek seferlik bağışta bulunabilirsiniz.
E-Bülten Üyeliği
Duyurulardan e-posta ile
haberdar olmak istiyorum.
Reklam Reklam Ver
Arşiv