Tsinghua Üniversitesi'nden Qi Fanchao: Yiyuan'a Giriş ve Yiyuan'ın Otomatik Tavsiyesi AI Araştırma Enstitüsü'nün 76. Ders Salonu Özeti

Sememe, dilbilimdeki en küçük bölünemez semantik birimi ifade eder ve HowNet, en ünlü Sememe bilgi tabanıdır. Son yıllarda, HowNet dahil olmak üzere dil bilgi tabanları, derin öğrenme modellerinde gittikçe daha önemli hale geldi.Ancak, bu yapay olarak oluşturulmuş dil bilgi tabanları genellikle sürekli ortaya çıkan yeni kelimelerin zorluğuyla karşı karşıya. HowNet bir istisna değildir ve yalnızca Çince ve İngilizce kelimeleri anlamlarla etiketler, bu da diğer dillerdeki NLP görevlerindeki uygulamasını sınırlar.

Son zamanlarda, Leifeng.com'un Yapay Zeka Araştırma Enstitüsü'nün açık bir sınıfında, Tsinghua Üniversitesi Bilgisayar Bilimleri Bölümü'nde doktora öğrencisi olan Qi Fanchao, otomatik olarak Çince yeni kelimeler için anlam kaynakları önermek ve başka dillerdeki kelimeler için anlam kaynakları önermek için makine öğreniminin kullanımını paylaştı. Açık sınıfın video URL'sini tekrar oynatın:

Qi Fanchao : Tsinghua Üniversitesi Bilgisayar Bilimleri Bölümü'nde doktora adayı olup, danışmanı Profesör Maosong Sun'dır. Ana araştırma yönü doğal dil işlemedir.Araştırma çalışmaları EMNLP'de yayınlanmıştır.

Konuyu paylaş: Yoshihara'nın tanıtımı ve Yoshihara'nın otomatik önerisi

Ana hatları paylaşın:

Yiyuan ve HowNet'e Giriş

Çince yeni kelimelerin anlamı üzerine öneriler

Çapraz Dilde Kelime Önerileri

AI Araştırma Kulübü Paylaşılan içeriği aşağıdaki gibi düzenleyin:

Bugün sizlerle Yiyuanın tanıtımını ve Yiyuanın otomatik tavsiyesini paylaşacağım.

Yiyuan ve HowNet'e Giriş

Öncelikle, Yoshihara'nın temel kavramlarından bahsedelim. Doğal dil işlemede, dildeki farklı anlamsal birimleri analiz eder ve işleriz.Semantik birimler, nispeten büyük bölümler ve paragraflardan nispeten küçük cümleler, tümcecikler ve kelimelere kadar değişir. Genel doğal dil işleme görevleri için, en küçük anlamsal birim bir sözcük olabilir, ancak aslında bir sözcükten daha küçük olan bir anlamsal birim vardır - orijinal anlam.

Dilbilimcilerin tanımına göre Yiyuan, anlambilimin en küçük bölünemez birimidir. Bazı dilbilimciler, kelimeler dahil tüm kavramların anlambiliminin sınırlı bir anlamlar kümesi ile temsil edilebileceğine inanırlar. Anlambilim nispeten örtük bir anlam birimidir, bu nedenle insanların bir kelimenin anlamını elde etmek için yerleşik anlam bilgisi bilgi tabanını kullanması gerekir.

Yiyuan Bilgi Bankası'na gelince, en ünlüsü HowNet'tir. Bay Dong Zhendong ve Dong Qiang tarafından on yıldan fazla bir süredir manuel olarak işaretlenen Yiyuan Bilgi Bankası'dır. Yaklaşık 100.000 Çince / İngilizce kelime veya kelime öbeği, birden çok anlamla işaretlenmiştir. Soldaki resim, HowNet'teki bir kelimenin orijinal anlamını açıklama örneğidir.

HowNet, kelimeler üzerinde daha ayrıntılı anlamsal ek açıklamalar yapar, bu nedenle çeşitli doğal dil işleme görevlerinde yaygın olarak kullanılır. Örneğin, Sememes ile 2017 Geliştirilmiş Kelime Temsili Öğrenme makalesi, anlambilim tanıtarak kelime anlamındaki belirsizliği giderme sorununu çözebilir ve daha iyi kelime vektörlerini öğrenmek için kelimeler arasındaki ilişkiyi daha ayrıntılı olarak yakalayabilir. Bir diğer örnek ise, bu yılki bir makale, Sememe Uzmanlarının Seyrek Ürünü ile Dil Modelleme, dil modeline "uzmanlar" dediğimiz bilgi olarak Semem'i tanıtıyor ve bir kelime çıktıktan sonra bir sonrakini daha iyi tahmin edebiliyor. Kelimelerin nasıl göründüğü ve anlam düzeyinde ne tür ilişkiler vardır.

Aslında HowNet 1990'larda yayınlandı ve ilk birkaç yılda çok popülerdi ve ilgili birçok makale vardı.

Az önce, iki dilbilimcinin kelimelerin anlamını işaretlemek için on yıldan fazla zaman harcadıklarından bahsetmiştik. Her yıl yeni kelimeler görünmeye devam ediyor ve aynı zamanda orijinal anlam işareti sistemini sürekli olarak güncellemek, düzeltmek ve iyileştirmek gerekiyor. , Ve manuel yöntem çok zaman alıcı ve yoğun emek gerektirir, bu nedenle doğal olarak yeni kelimelerin anlamlarını otomatik olarak etiketlemek için makine öğrenimini kullanmayı düşünüyoruz , Bu, Yoshihara tahminlerini yapmak için ana motivasyonumuzdur.

Çince yeni kelimelerin anlamı üzerine öneriler

Yoshihara tahmini ile ilgili olarak, grubumuz bu görevi tanımlayan ilk makaleye sahipti ve iyi sonuçlara sahip iki model önerdi. Öncelikle bu makaleyi tanıtmama izin verin, ana fikri, etiketlenecek hedef kelimeye benzer etiketli kelimelerin etiketleme bilgilerine dayanarak anlamsal kökenini tahmin etmektir.Temel varsayım, benzer kelimelerin etiketlenmesinin de benzer olmasıdır. Bu fikre dayanarak, bu makale önerici sistemlere dayalı iki model önermektedir: İlki işbirliğine dayalı filtreleme (işbirliğine dayalı filtreleme) yöntemi SPWE'ye; ikincisi matris çarpanlara ayırma (matris çarpanlara ayırma) yöntemi SPSE'ye dayanmaktadır. . Eklenmesi gereken, bu iki yöntemin basitleştirilmiş olmasıdır: Birincisi, anlamın hiyerarşik yapısını göz ardı etmek, diğeri ise kelimelerin belirsizliğini görmezden gelmektir.

Bununla birlikte, az önce bahsedilen gibi, bu makalede ele alınmayan birçok konu var. Bu iki model yalnızca dış bilgileri dikkate alır - dış derlemeden elde edilen önceden eğitilmiş sözcük vektörleri. Ayrıca, külliyatta daha seyrek görünen kelimeleri tahmin etmede etkili değildirler ve bu yöntem, külliyatta yer almayan kelimeler için anlambilim öneremez.

Bu nedenle, ikinci çalışmayı gerçekleştirdik. Bu çalışmada, Çince kelimelerin çoğunun bileşik kelimeler olduğunu düşünüyoruz - bir kelimenin son anlamı, kelimeyi oluşturan kelimelerin anlamı ile yakından ilgilidir. Örneğin, " smith" kelimesinin bileşimi çok açık. Bu çalışma, kelimelerin dahili bilgilerini kullandığından, düşük frekanslı kelimeler için çok kullanışlıdır. Bu çalışmada önerdik Karakterle güçlendirilmiş Semem Tahmini (Karakterle Geliştirilmiş Sememe Tahmini) modeli hem sözcüğün dahili bilgilerini hem de külliyattan öğrenilen dış bilgileri (kelime vektörü) kullanır.

Kelimelerin iç bilgilerini kullanan modelde, Kullandığımız ilk yöntem Sözcükten Karaktere Filtreleme (SPWCF) ile Sememe Tahmin Anlam köken tahmini yapmak için sözcükten karaktere filtrelemeyi kullanır.Bir sözcüğün üç konumu olduğunu düşünür (Başlangıç, Orta, Bitiş) İlk olarak, bir sözcük belirli bir konumda göründüğünde karşılık gelen sözcüğün belirli bir kökene sahip olma olasılığını sayar. , Kelime pozisyonda göründüğünde kelimenin orijinal anlama sahip olduğu güveni olarak alın ve ardından tahmin edilecek kelimenin orijinal anlamının güvenini elde etmek için kelimenin her bir pozisyonundaki orijinal anlamının güvenini ekleyin. Bu nedenle, orijinal anlamın güven sıralamasına göre, orijinal anlamın tahmini gerçekleştirilmektedir.

İkinci yöntem, Karakter ve Sememe Gömme (SPCSE) ile Sememe Tahminidir. Bu yöntem, SPSE'ye benzer matris ayrıştırma fikrini benimser, ancak orijinal anlam vektörünü elde etmek için ayrıştırmaya katılmak için sözcük vektörünün temsilcisi olarak sözcük içindeki bir sözcüğün karakter vektörünü kullanır.

[İki Yoshihara tahmin yöntemi olan SPWCF ve SPCSE'nin özel açıklamaları için lütfen 00:23:18, adresindeki videoyu tekrar izleyin]

Aşağıda deneyden bahsedelim. Bu deneydeki ayarlarımız:

İlk olarak, Yiyuan taraması, HowNet'te 5 kereden az görünen Yiyuan'ı kaldırarak, 1400 adet daha yaygın Yiyuan bırak;

İkinci olarak, HowNet'te 60.000 yüksek frekanslı kelime seçildi;

Üçüncüsü, eğitim seti, geliştirme seti ve test seti sırasıyla 48000, 6000 ve 6000'dir;

Dördüncü olarak, kelime vektörlerini ve kelime vektörlerini öğrenmek için külliyat Sogou-T'dir.

Beşinci olarak, kelime vektörlerini öğrenmek için GloVe yöntemini kullanın ve kelime vektörlerini öğrenmek için Küme tabanlı Karakter Gömme başlıklı bir 2015 makalesini kullanın.

Altıncı olarak, Yoshihara tahmini ve değerlendirmesinin endeksi Ortalama Ortalama Kesinliktir (MAP)

Diğer ayarlar için kağıda bakabilirsiniz.

Deneysel sonuçlar aşağıdaki gibidir:

İşte iki görevimizin bir özeti:

Önce, Yoshihara tahmin görevini tanımladık ve basitleştirdik.

İlk makalede, orijinal tahmini yapmak için öneri sistemi-işbirlikçi filtreleme ve matris ayrıştırmada iki temel ve ana fikir kullandık.

İkinci makalede, ilk makalenin yalnızca dış bilgileri kullandığını, ancak sözcüğün iç bilgisini kullanmadığını düşündük, bu nedenle orijinalin anlamını tahmin etmek için sözcüğün iç bilgilerini kullandık.

Gelecekteki araştırma yönlerimiz Semanto'nun yapısını kullanmayı, Semanto'yu daha genel uygulamalara genişletmeyi ve kelimelerin dahili bilgilerinden tam olarak yararlanmayı içerir - çünkü ikinci çalışmada kullanılan yöntem nispeten basittir. Ek olarak, kodlarımızın tamamı Github'da açık kaynaklıdır (https://github.com/thunlp/sememe_prediction, https://github.com/thunlp/Character-enhanced-Sememe-Prediction), indirebilirsiniz.

Çapraz Dilde Kelime Önerileri

Şimdi de diller arası yiyuan tahmininde yaptığımız çalışmalardan bahsedelim. Bu çalışmanın motivasyonu şudur: Çoğu dilin aslında HowNet gibi Yiyuan bilgi tabanı yoktur. Yiyuan'ın etiketlenmesinin "uzman" bilgisi gerektirdiğinden bahsetmiştik, bu da çoğu zaman çok fazla zaman ve işçilik maliyeti gerektirir, bu nedenle otomatik olarak diller arası Yiyuan tahminini gerçekleştirmek için makine öğrenme yöntemlerini kullanmak istiyoruz. Bu çalışmada, yöntemimizin ana fikri, mevcut HowNet Yiyuan bilgi tabanını diğer dillere taşımaktır.

Diller arası anlambilimsel tahmin tamamen yeni bir görev olduğu için, bizim için bazı zorluklar var.Örneğin, HowNet'i diğer dillere doğrudan çevirmek mümkün değildir çünkü farklı dillerdeki kelimelerin anlambilimleri tamamen tutarlı değildir.

Bu çalışmada benimsediğimiz yöntem iki ana modüle ayrılmıştır:

İlk modül, iki dilli kelime vektörü öğrenme modülüdür. Amaç, kaynak dilin kelime vektörlerini ve hedef dilin aynı anlamsal alanda, kaynak dilin bilinen anlamlarla dile atıfta bulunduğu ve hedef dilin bilinmeyen anlamlara sahip dil olduğunu öğrenmektir. Modül üç alt modüle ayrılabilir: tek dilli kelime vektörü öğrenme, iki dilli kelime vektör hizalama ve anlamsal bilginin kaynak dil kelime vektörüne entegrasyonu.Tek dilli kelime vektör öğrenimi klasik Skip-gram yöntemini kullanır; iki dilli kelime vektör hizalaması kullanır Çekirdek sözlük, çapraz dil sinyali olarak kullanılır.Ayrıca, Paralel Olmayan Verilerden Minimal Denetimle İki Dilli Sözlük Tümevarımının bu makalesindeki eşleştirme mekanizmasından (Eşleştirme Mekanizması); anlam kaynak bilgisinin entegrasyonu için alt modüllerde, eş anlamlıların ( Yani, benzer kelimelerin orijinal anlamı) kelime vektörü yaklaşım yöntemi CLSP-WR ve matris ayrıştırma tabanlı yöntem CLSP-SE.

İkinci modül, hedef dilin orijinal tahmin modülüdür.

Deneysel veri seti aşağıdaki gibidir:

Ana diller arası anlambilim tahmini deneyinin sonuçları:

[Ana çapraz dil Yiyuan tahmin deneyinin sonuçlarının açıklaması için lütfen videoyu 00:54:15, adresindeki videoyu inceleyin]

Sonra ayrıca iki alt deney yaptık. Birincisi, iki dilli bir sözlük çeviri deneyi yapmak Modeldeki ilk modül, bir boşlukta iki dilli kelime vektörlerini öğrenmek olduğu için, bu tür çeviri deneylerini Çince-İngilizce ve İngilizce-Çince çevirilerinde yapmak doğaldır. İkinci alt deney, tek dilli kelimelerin benzerliğini hesaplama deneyidir. . İki deneyin sonuçlarından, modelimizin Çince veya İngilizce olarak iki dilli kelime vektörlerini doğrudan öğrenmek için temel yöntem BiLex'ten daha iyi olduğu görülebilir. Aynı zamanda, bu iki alt deneyin sonuçları, modelimizin neden daha iyi anlamlar öngördüğünü de açıklayabilir.

Deneyle ilgili olarak, iki özel durum vardır:

Son olarak, özetlemek gerekirse, üçüncü görevimiz yeni bir görev tanımlamaktır - diller arası kelimelerin orijinal anlamını önermek, iki dilli kelime vektörü öğrenmeye dayalı bir yöntem önermek ve deneyler yoluyla yöntemimizin etkinliğini kanıtlamak.

Gelecekteki çalışmalarda önce, mevcut çalışmamızda ihmal edilen bir yön olan kelimelerin belirsizliğini ele alacağız; ikincisi, orijinal anlamın yapısal bilgisini kullanmak; üçüncüsü diğerinde. Dil testi, bizim işimiz İngilizce test etmektir, çünkü İngilizce zaten dil notlarına sahip ve diğer diller manuel açıklamalar yapmamızı gerektiriyor. Çalışmamızın verileri ve kodu Github'a (https://github.com/thunlp/Character-enhanced-Sememe-Prediction) yerleştirilir, indirebilir ve kullanabilirsiniz.

Yukarıdakiler, bu sayıda davetliler tarafından paylaşılan tüm içeriklerdir. Daha fazla genel sınıf videosu için lütfen izlemek için Leifeng.com AI Araştırma Topluluğu'na (https://club.leiphone.com/) gidin. WeChat genel hesabını takip edin: AI Araştırma Enstitüsü (okweiwu), en son genel sınıf canlı yayın süresi önizlemesini edinebilirsiniz.

En eski araba sisteminin aslında böyle göründüğünü görmemiş olabilirsiniz?
önceki
Üyeler, 900.000 yeni üye topladılar, küçük çaplı "halkın odak noktasında" yeni tarz Marisu'nun olduğu yer.
Sonraki
Derinlik | Audi Çin "İkinci Evlilik" Rahatsızlığı
Lüksün güzelliğinin yenilikçi yorumu, Huawei Mate 20 RS Porsche Design yurt içinde piyasaya sürüldü
80'ler sonrası ve 90'lar sonrası toplu anılar? STAYCOOLNYC tarzı çocukluk serisinin başarabileceğini düşünüyorum!
400 km'nin üzerinde maksimum seyir menzili ile test sürüşü Chery Arrizo 5e
Bilgelik eğitimi, Qianjun "tek tahta köprüyü" kaptı
"Tilki'nin Yazı" "Salyangoz" un güzel sonuçlarını kırıyor, Mary Su cennete mi gidiyor?
Gigi Giginin erkek kardeşi ayağa kalktı ve 10 yıldır oynanan "Pearls" ın gerçek versiyonu nihayet mutlu sona ulaştı.
Yıllık amiral gemisi Huawei Mate 20 serisi, 3999 yuan'dan başlayan fiyatlarla Çin'de piyasaya sürüldü.
Kanye West işbirliği serisinden daha mı popüler? Tasarımcı Converse bu kez davet edildi mi?
Yeni nesil Lincoln Navigator, yerel lansmanını Guangzhou Otomobil Fuarı'nda yapacak
TVB doktorunun hayat kurtaran gücü: Ma Guoming ikinci oldu ve o birinci oldu!
Huawei Mate20 Pro tarafından önerilen 2018'deki en güçlü yerel amiral gemisi olabilir
To Top