"Kral-erkek + kadın = kraliçe" nin arkasındaki kelime benzetme ilkesi nedir? | ACL 2019

Deneysel gösteri ile kutsama, geçmişteki açıklamadan daha güvenilirdir!

AI Technology Review Press: Son yıllarda doğal dil işleme araştırmalarında "kelime benzetmesi" çok ilginç bir fenomendir ve en klasik örnek "kral-erkek + kadın = kraliçe" dir. Bununla birlikte, bu büyülü fenomeni açıklamak için sinir ağının kara kutusunun nasıl parçalanacağı, her zaman araştırılması gereken ilginç bir bilimsel problem olmuştur. Son zamanlarda, "Doğrusal Kelime Analojilerini Anlamaya Doğru" (https://arxiv.org/abs/1810.04882) başlıklı ACL 2019 makalesi sorunu araştırdı ve csPMI teorisi perspektifinden açıkladı.

İyi bilinen , Kelime vektörünün büyülü bir özelliği vardır, yani: vektör aritmetiği yoluyla genellikle kelime benzetmesine ulaşabiliriz. En meşhur örnekler:

Ama bu neden? Aritmetik operatörler neden "word2vec" gibi doğrusal olmayan modeller tarafından üretilen vektörlere uygulanır? Vektör uzayında, bu benzetmelerin eğitim külliyatında tutulması için hangi koşulların karşılanması gerekir?

Şaşırtıcı bir şekilde, çok az teori bu fenomeni açıklamaya çalışır ve mevcut teoriler, kelime frekansları veya vektör uzayları hakkında güçlü varsayımlar yapar. ACL 2019'da yayınlanan "Towards Understanding Linear Word Analies" başlıklı makalemizde ( http : //arxiv.org/abs/1810.04882), bu kadar güçlü varsayımlar yapmadan, "GloVe" ve "negatif örneklemeye dayalı atlama programı" iki gömme modeli için kelime benzetme işlemlerinin resmi bir açıklamasını önerdik. . Buna karşılık, teorimiz şunları da sağlar:

1. SGNS ve GloVe uzayında Öklid mesafesinin ilk bilgiye dayalı açıklaması;

2. SGNS kelime vektörleri için yeni bir temel oluşturmak için toplamayı kullanın;

3. "GloVe" modelinin orijinal makalesinde (https://nlp.stanford.edu/pubs/glove.pdf) önerilen kelime analojisinin sezgisel yorumunun resmi kanıtı.

En önemli nokta, teorimizin deneysel argümanlarla desteklenmesi ve geçmiş açıklamalardan daha güvenilir olmasıdır.

Geçmiş yorumların eksiklikleri

2016 TACL makalesinde "PMI Tabanlı Kelime Gömmelerine Gizli Değişken Model Yaklaşımı" başlıklı makalenin yazarı, araştırmacıların ilk girişimi olan bir gizli değişken modeli (https://arxiv.org/abs/1502.03520) önermiştir. Analog aritmetiğini tam olarak açıklayın. Gittens ve diğerleri "Skip-Gram - Zipf + Uniform = Vector Additivity" başlıklı makaledeki (https: // www. aclweb.org/anthology/P17-1007) bu teoriyi eleştirdiler ve teorinin vektör kelimesinin önceki bir olasılık olduğunu varsaydığına ve birim yüzeyden örneklenen vektörün rastgele ölçeklenmesiyle oluşturulduğuna inanıyorlar. (Veya işlemle tutarlı özelliklere sahip olun). Gizli değişken modeli ayrıca, deneysel çalışmalar SGNS vektörlerinin genellikle bu özelliğe sahip olmadığını kanıtlamış olsa da, kelime vektörlerinin izotropisine dayanır (ilgili çalışma için lütfen şu adrese bakın: https: // www. aclweb.org/anthology/D17-1 30 8).

Bir 2017 ACL makalesi "Skip-Gram - Zipf + Uniform = Vector Additivity", bir açıklama modeli önerdi (açıklama modeli, https: // www. aclweb.org/anthology/P17-1007), p (w | c_1, ..., c_m) = p (w | c) tutarsa, bağlam kelime dizisi C = {c_1, ..., c_m} 'nin Anlamsal olarak belirli bir c kelimesine eşdeğerdir. Kelime frekansı tekdüze bir dağılıma uyuyorsa, o zaman C kelime dizisinin yorumunu bağlam vektörlerinin toplamı olarak yazabiliriz; vektör aritmetiği, kümedeki dahil etme veya dışlamaya karşılık gelir. Bununla birlikte, makalenin yazarı bu hipotezin biraz pratik olmadığını kabul ediyor: kelime frekansları genellikle standart dağılımdan uzak bir Zipf dağılımını takip ediyor. ICML 2019'da (https://arxiv.org/pdf/1901.09813.pdf) yayınlanan yeni bir çalışma, SGNS'deki negatif örneklemenin etkisini dikkate almadan bu varsayımı değiştirdi.

Kelime benzetmelerinin yapısı

En yaygın kabul gören görüş, kelime benzetmesinin "a'dan b'ye, x'den y'ye eşittir" şeklinde bir ifade olmasıdır, bu da a ve x'in sırasıyla b ve y'ye dönüştürüleceği anlamına gelir ve bunun tersi de geçerlidir. . Bu tersine çevrilebilir bir dönüşüm olduğundan, onu daha resmi olarak şu şekilde tanımlayabiliriz: kelime benzetmesi f, S sıralı kelime çiftleri kümesi üzerinde kurulan tersinir bir dönüşümdür, if ve

. F olarak ifade edilebildiği zaman

Biçiminde, buna doğrusal bir kelime analojisi diyoruz. Bu doğrusal kelimeyi karşılaştıracağız (örneğin,

) Daha fazla açıklama için. Doğru olduklarında, (yukarıdaki tanıma göre) vektör uzayında bir paralelkenar yapı oluşturacaklardır:

Bu tür paralelkenarlar kullanabileceğimiz bazı pratik özelliklere sahiptir. Örneğin, bir dörtgen, ancak ve ancak her bir karşıt taraf kümesinin uzunluğu eşitse (ve yüksek boyutlu bir uzayda, dört köşenin tümü eşdüzlemselse) bir paralelkenardır. Bunun anlamı:

Doğrusal bir kelime benzetmesi, sıralı kelime çiftleri kümesi üzerinde kurulur, ancak ve ancak her (x, y) kelime çifti için varsa

Vb; (a, b) ve (x, y) kelimelerinin her iki çifti için

, S'deki tüm kelimelerin vektörleri eş düzlemlidir.

İç ürünü açıklayın

Yukarıdaki koşulların anlamını net bir şekilde açıklamak için, iki kelime vektörü arasındaki iç çarpımı (yani iç çarpımı) açıklayabilmemiz gerekir.

Bununla birlikte, mevcut literatür bize sadece bir kelime ile bir bağlam vektörü arasındaki iç çarpımı nasıl yorumlayacağımızı söyler. SGNS ve GloVe'nin her kelime için iki temsil oluşturduğunu hatırlayın; bunlardan biri, kelimenin hedef kelime olduğu durumda garanti edilirken, diğerinin de kelimenin bir bağlam kelimesi olduğu (yani, kelimenin diğerinde olduğu durum için) Kelimenin bağlam penceresinde). İkinci gösterime "bağlam vektörü" denir ve genellikle eğitimden sonra silinir.

Bir kelime ve bağlam vektörünün iç çarpımını net bir şekilde açıklayabiliriz, çünkü SGNS ve GloVe vektörleri yinelemeli olarak öğrenseler bile, birlikte oluşum istatistiklerini içeren bir "kelime bağlamı" matrisini örtük olarak ayrıştırırlar. Ayrıştırılmış matris mükemmel bir şekilde yeniden yapılandırılabildiğinde,

Kelime vektörü

Karşılık gelen bağlam vektörü:

İlk denklem, GloVe'nin (https://nlp.stanford.edu/pubs/glove.pdf) kısmi hedefidir.

Birlikte oluşların sayısını temsil eder, b_x, b_y öğrenilen her kelimenin önyargısını temsil eder. İkinci denklem Levy ve Goldberg tarafından önerildi (https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf), SGNS'nin örtük olarak "Kelime bağlamı" çiftinin noktasal karşılıklı bilgi (PMI, https://en.wikipedia.org/wiki/Pointwise_mutual_information) matrisi ayrıştırılır ve negatif örneklerin sayısının logaritması k çıkarılır. Ayrıştırılmış matris simetrik olduğu için,

.

Bağlam uzayında analoji

Bu denklemleri ve ayrıştırılmış "kelime-bağlam" matrisinin simetrisini kullanarak, kelime uzayında tutulan herhangi bir doğrusal analoji f'nin bağlam uzayında tutan karşılık gelen bir doğrusal analojiye g sahip olduğunu kanıtlıyoruz. özellikle:

Yeniden yapılandırma hatası olmadan SGNS veya GloVe kelime uzayında sıralı bir çift S üzerine doğrusal bir analoji

Yalnızca ve ancak karşılık gelen bağlam uzayında sıralı S çiftinde varsa doğrudur

, Yapımı

.

Bu yapabileceğimiz anlamına gelir

yazı

ile

Daha yorumlanabilir olması için iç çarpımı 1 / ile çarpılır.

Doğrusal kelime benzetmesi ne zaman kurulur?

Şimdi, vektör uzayında doğrusal bir analojinin sağlanması gereken koşulları ve iki kelime vektörünün iç çarpımının nasıl yorumlanacağını biliyoruz.

Bu, eğitim külliyatının istatistikleriyle ilgili olarak bu koşulları yeniden yazmak için artık yukarıda bahsedilen SGNS veya GloVe denklemlerini kullanabileceğimiz anlamına gelir. Hangi denklemi seçersek seçelim, sonunda birlikte oluşum ofset noktası karşılıklı bilgi teoremini (veya kısaca csPMI teoremini) uygulayacağız. SGNS ve GloVe tamamen farklı gömme modelleri olsalar da, vektör uzaylarında analoji fenomenlerinin ortaya çıkma koşullarının aynı olduğunu belirtmekte fayda var!

Birlikte oluşum ofset noktası karşılıklı bilgi teoremi (csPMI)

W, SGNS veya GloVe'nin yeniden yapılandırma hatası olmayan kelime vektör uzayı, M, SGNS veya GloVe'nin örtük ayrıştırılmasıyla elde edilen "kelime bağlamı" matrisi ve S, | S | 'yi sağlayan sıralı çiftler kümesi olsun. > 1 ve S'deki tüm kelimelerin W vektör uzayında karşılık gelen bir vektörü vardır.

Doğrusal bir f kategorisi, ancak ve ancak aşağıdaki durumlarda S kelime çiftini tutar:

Her (x, y) kelime çiftinin csPMI (x, y) eşittir

Her iki kelime çifti (x, y), (a, b) için csPMI (a, x) = csPMI (b, y) vardır

Her iki kelime çifti için

Doğrusal olarak ilişkilidir

Örneğin, yapmak

Gürültüsüz bir SGNS veya GloVe alanına kurun

Derlemeyi aşağıdaki koşulları karşılayacak şekilde eğitmemiz gerekiyor:

  • csPMI (kral, kraliçe) = csPMI (erkek, kadın)

  • csPMI (kral, erkek) = csPMI (kraliçe, kadın)

  • Ayrıştırılmış "kelime bağlamı" matrisindeki dört kelimenin satır vektörleri eş düzlemlidir

Gürültüye karşı sağlam

Aslında, gürültünün varlığında bile, doğrusal kelime benzetmesi geçerlidir. Bu neden?

1. Vektör eşitliğinin tanımı aslında daha gevşek. Bir benzetme görevi `` (a,?): :( x, y) '' en yakın olanı bularak bulunabilir.

Çözülecek kelime (dahil değil

Olası bir cevaptır). Sonunda bulunan cevap doğru olmasa bile, neden değildir

Tanımlanmış uçak, ancak yine de doğru cevabı bulabiliriz.

2. Teorem, tüm kelime çiftlerinin yeniden yapılandırma hataları olmadığını varsaysa da, eğer eş düzlemselliğin kısıtlamasını dikkate almazsak, f'nin sıralı S çiftini tutmasını istiyorsak, sadece

Yeniden inşa edilmesi gerekiyor.

3. Benzetme yalnızca sık oluşan kelime çiftleri için doğrudur, böylece daha az gürültü olur. Örneğin, Wikipedia'da ülke ve başkenti analojisinin medyanı 3436,5, bu analojinin doğruluğu% 95,4'e varan yüksek; ülke ve para birimi analojisinin medyanı sadece 19, dönemin doğruluğu ise sadece 9,2. %.

etkiler

Sezgi her zaman doğrudur!

Orijinal GloVe modelini öneren makale (https://nlp.stanford.edu/pubs/glove.pdf) spekülasyon yapıyor: "a'dan b'ye, x'e y'ye eşdeğerdir" formunun benzetmesi ancak ve ancak Kelime dağarcığındaki tüm kelimeleri:

Resmi kanıt olmamasına rağmen, bu her zaman kelime benzetmelerinin sezgisel bir açıklaması olarak görülmüştür. Makalemizde bu varsayımın gerçekten doğru olduğunu kanıtladık (en azından SGNS için).

Vektör toplama şeklinde kelime analojisi

Sıfır vektörü kavramını tanıtarak (herhangi bir boşlukta sıfır vektör modulo ile eşlenmiş), vektörler ekleyebiliriz

İçinde olmak için tasarlandı

Doğrusal analoji üzerine. Z kelime listesindeyse, vardır

,onların arasında

Model ile ilgili bir sabittir. Bu da şu anlama gelir:

Bu, iki SGNS vektörünün eklenmesinin dolaylı olarak daha sık görünen kelimelerin ağırlığını azalttığını göstermektedir, çünkü SIF gibi ağırlıklandırma şemaları ( http : // www. offconvex.org/2018/06/17/textembeddings/), TF-IDF duruma bağlıdır. Örneğin, "x = the " ve "y =" yi temsil ediyorsanız uygulama Le " vektörleri, "z =" the_'nin bir temsilini oluşturmak için eklenir. uygulama le ". Ve eğer bu aslında kelime listesindeki bir öğeyse, csPMI (the_ uygulama le , uygulama le ) > csPMI (the_ uygulama le ',' the '). Aslında, iki karakterli kelimelerin çoğu kelime listesinde bulunmasa da, bu deneysel gözlemleri açıklamaya yardımcı olur (https: // www. cs.cmu.edu/~jwieting/wieting2016ICLR.pdf): Ortalama kelime vektörü, kelimeleri birleştirmenin çok etkili bir yoludur.

Öklid mesafesini açıklayın

var olmak

, Gürültüsüz SGNS veya GloVe uzayındaki herhangi iki kelime x ve y için, şunlar vardır:

.

Karesi alınmış iki kelime arasındaki Öklid mesafesi, negatif csPMI'larının azalan doğrusal bir fonksiyonudur. Bu çok sezgiseldir: csPMI ile ölçüldüğünde, eğitim külliyatında daha benzer olan iki kelimenin kelime vektörleri arasındaki mesafe daha küçüktür. Yine de, bildiğimiz kadarıyla, kelime vektör uzayındaki Öklid mesafesinin bilgi teorisi perspektifinden açıklandığı ilk zamandır.

Deneysel kanıt

Daha önce bahsedildiği gibi, önceki teorilerle ilgili temel sorun, onları destekleyecek çok az (varsa) deneysel kanıt olmasıdır. Aşağıda, araştırmamıza kanıt sağlayan iki deneyden elde edilen bulguları gösteriyoruz.

CsPMI tahmin et

CsPMI teoremine göre, gürültüsüz kelime vektör uzayında bir dizi kelime çifti üzerinde bir analoji kurulursa, o zaman her kelime çifti aynı csPMI değerine sahiptir. Bunu test etmek için, Wikipedia'da birlikte geçen kelimelerin sayısını hesapladık ve word2vec kağıdında oluşturulması gereken kelime çiftlerinin analojisinin ortalama csPMI değerini hesapladık (örneğin, "başkent-ülke" kelime çifti için, {( Paris, Fransa), (Berlin, Almanya)} kuruldu). Daha sonra, kosinüs mesafesini en aza indirmenin geleneksel yöntemiyle bu analojileri çözmek için Wikipedia verileri üzerinde eğitilmiş SGNS vektörünü kullanmayı denedik.

Yukarıdaki tabloda şunları görebiliriz:

1. csPMI varyansı küçük olduğunda, analoji çözümünün doğruluğu daha yüksektir (Pearson korelasyon katsayısı r = -0.70). Bunun nedeni, geometrik çeviri aynı olduğunda ve bu nedenle csPMI'nin değeri aynı olduğunda, analojinin bir dizi kelime çiftinde geçerli olma olasılığı daha yüksektir.

2. Benzer benzetmeler ("başkent-ülke" ve "başkent-sivil-ülke" gibi) benzer ortalama csPMI değerlerine sahiptir. Teorimiz bunu ima eder (çünkü benzer analojilerin benzer çeviri vektörleri vardır).

3. Ortalama csPMI'daki değişiklik, coğrafi bilgilerden (kırmızı) zamana (mor) ve sıfatlara (mavi) kadar benzetme türlerindeki değişimi yansıtır. Tek aykırı değer, yüksek csPMI varyansına, çok düşük doğruluk oranına sahip "para birimi" dir ve kelime çiftleri Wikipedia'da nadiren birlikte görünür. Ortalama csPMI değişikliklerine olan benzerlik çok tutarlı olsa da, bunların ortalama PMI ile ilişkili olmadığı da unutulmamalıdır.

Öklid mesafesi ve csPMI

CsPMI teoreminin Öklid mesafesi üzerindeki yorumunu test etmek için Wikipedia verileri üzerinde eğitilen SGNS vektörünü çiziyoruz.

Apsis ile mi

Görüntü ordinattır.

Beklendiği gibi, yatay ve dikey koordinatlar arasında güçlü bir pozitif korelasyon vardır (Pearson korelasyon katsayısı r = 0.502); iki kelime (csPMI ile tanımlandığı gibi) ne kadar benzerse, iki kelime vektörü arasındaki Öklid Mesafe ne kadar küçükse. Normalleştirilmiş kelime uzayında, korelasyon da çok güçlüdür (Pearson korelasyon katsayısı r = 0.514).

Sonuç

Gürültüsüz bir SGNS veya Glove uzayında, lineer benzetme bir dizi kelime çifti üzerinde tutulur, ancak ve ancak her kelime ve herhangi iki kelime çifti için, bunlar ayrıştırılmış "kelime bağlamı" matrisinde ise Satır vektörleri eş düzlemli olduğunda, birlikte oluşma ofset noktası karşılıklı bilgi (csPMI) aynıdır.

Bu da, "benzer" fenomenin neden geçerli olduğu konusunda insanların uzun süredir devam eden sezgilerini bir kez daha kanıtlıyor. Vektör toplamanın, kelimeleri birleştirmenin iyi bir yolu olduğunu açıklamaya yardımcı oluyor ve aynı zamanda, kelime vektör uzayında Öklid mesafesinin olduğunu da gösteriyor. Yeni bir açıklama önerildi. Geçmişteki algoritma kelimesi analoji teorisinden farklı olarak, bu makale csPMI teoremini desteklemek için yeterli deneysel kanıta sahiptir ve bu da onu daha makul hale getirir.

https://kawine.github.io/blog/nlp/2019/06/21/word-analogies.html aracılığıyla

2019 Küresel Yapay Zeka ve Robotik Zirvesi

12-14 Temmuz 2019 , Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen ve Shenzhen Yapay Zeka ve Robotik Enstitüsü tarafından ortaklaşa düzenlenen Çin Bilgisayar Federasyonu (CCF) sponsorluğunda 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019 olarak kısaltılmıştır) Shenzhen'de resmen açılacak.

O zamanda, Nobel Ödüllü JamesJ. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkan , Tanınmış Dost, birçok ağır konuk savaşta oturacak Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

"Red Velvet" "Paylaş" 190614 hayranlarının arkeolojik yıldız takibi! İdolle pirinçten kum heykeli
önceki
Robotların görüntüleri temel alarak görevleri tamamlamaları için en etkili RL yöntemi: geleceği tahmin etmeye veya kesin varsayımlara gerek yok
Sonraki
Slash Youth: "Borderless" daha mı heyecanlı? Güçlü destek
Çin, açık kaynaklı çipler alanında bir atılımı nasıl buluyor? RISC-V harika bir fırsat olacak
Geliştirme | Y = X'ten eksiksiz bir yapay sinir ağı oluşturmaya
Sohbet etmek için birden fazla sohbet botunu bir araya getirin, sonuç ne olacak? Bu oyunun bir cevabı olabilir
Günlük seyahati basit ve şık hale getirin
İş önerisi alanı çevrimiçi! | Cömert bonuslar ve rahat bir atmosferle Shanghai Krypton Technology işe alıyor
"City Image" profesyonel fotoğrafçısının dijital ekranı var mı?
Bakış Açısı | Hong Xiaowen'in Piramit Felsefesi
190614 Wang Yuan'ın taze portakalı ve birçok el yazısıyla yazılmış metinleri, uzaktaki manzarayı görmeniz için size eşlik edecek
Çocuklar öğrenmeyi sever, 4G tam Netcom 360 çocuk saati P1 genel testi
OpenMMLab ikinci sürümü yayınlandı: endüstrinin dikkatini çeken tarihteki en eksiksiz nesne algılama araç kutusu
Yeni cep telefonu ve eski SLR karşılaştırması: 10 yıllık bir fotoğraf değerlendirmesi
To Top