NLP çalışmak istiyorum, ancak hangi kelime gömme ve cümle yerleştirmenin işe yaradığını bilmiyorum?

Lei Feng Net Not: Bu makale, Lei Feng'in altyazı grubu tarafından derlenen ve Thomas Wolf tarafından The Current Best of Universal Word Embeddings and Cümle Gömme başlıklı bir araştırma blogudur.

Tercüme | Fu Teng, Wang Xingyu Bitirdi | Fan Jiang

Küçük bir reklamın arasına serpiştirilmiş: NLP alanındaki C düzeyinde kurslar, Stanford CS224n AI MOOC Academy'de sınırsız ücretsiz görüntüleme ile sürekli güncelleniyor!

Kelimelerin ve cümlelerin gömme modeli, herhangi bir derin öğrenme tabanlı NLP sisteminin zaten temel bileşenidir.

Metin verilerinin işleme performansını büyük ölçüde iyileştirmek için kelimeleri ve cümleleri sabit uzunluklu yoğunluk vektörlerine kodlarlar.

Şu anki büyük eğilim şudur: nasıl inşa edilir Evrensel Gömülü Sistem . Genel gömülü sistem, büyük miktarda literatüre dayalı olarak eğitilmiş bir sistemdir. Bu eğitimli sistem, otomatik olarak iyileştirmek için çok sayıda aşağı akış görev modelinde (duyarlılık analizi, sınıflandırma, çeviri vb.) Bu görev modellerinin performansı, genel gömme sisteminin, görev modeliyle işbirliği yapmak için büyük veri setlerinde bazı temel kelime / cümle temsil özelliklerini öğrenmiş olmasıdır.

Bu bir transfer öğrenme biçimidir.

Şu anda, cümlelerin denetimsiz temsili öğrenimi norm olmuştur ve uzun bir süredir devam etmektedir, ancak son birkaç ayda, özellikle 2017'nin sonundan 2018'in başına kadar birçok ilginç devredilebilir denetim olmuştur. Öğrenme ve çok görevli öğrenme programları.

Genel kelime / cümle yerleştirme modellerinin mevcut eğilimi. Bu yazımızda, yukarıdaki görselde siyahla işaretlenmiş modeli tanıtacağız. İlgili özel belgeler bu makalenin sonunda listelenecektir.

Bu makale, en son genel kelime / cümle yerleştirme sistemine yalnızca genel bir giriş niteliğindedir. Ek olarak, modelin bazı ayrıntılarını derinlemesine tanıtmaktadır:

  • İyi performans / hızlı hızlı temel model: FastText, Bag of Words (BoW) gibi

  • En yeni modeller: ELMo, Skip-Thoughts, Quick-Thoughts, InferSent, MILA / MSRnin Genel Amaçlı Cümle Temsilleri ve Google'ın Evrensel Cümle Kodlayıcısı

Kelime yerleştirme modeli ile başlayalım.

Kelime yerleştirme modellerinin mevcut gelişimi

Son beş yılda, pek çok olası kelime gömme yöntemi önerildi. En yaygın kullanılanlar, her ikisi de denetimsiz yöntemler kullanan ve aynı zamanda kelime anlamı dağıtımı teorisinin dağıtım hipotezine dayalı olarak oluşturulmuş olan Word2vec ve GloVe'yi içerir (yani, belirli kelimeler aynı bağlamda görünüyorsa, aynı veya benzer anlamlara sahip olabilirler) ).

Aynı dönemdeki bazı çalışmalar geleneksel kelime anlamını ve sözdizimsel bilgiyi birleştiren denetimsiz yöntemler önermiş olsa da, 2017'den 2018'e kadar tamamen denetimsiz yöntemlerde hala memnuniyet verici gelişmeler var. Hızlı Metin (Word2vec modelinin bir uzantısı) ve ELMo (en son bağlam tabanlı kelime vektör modeli).

FastText, genel kelime yerleştirme modelleri için araştırma coşkusunu patlatan Tomas Mikolov ekibinin olağanüstü bir çalışmasıdır. (Tomas Mikolov, 2013'te önerilen word2vec mimarisinin de başlatıcısıydı.)

Orijinal word2vec vektörü ile karşılaştırıldığında, FastText esas olarak modeli karakter tabanlı ngramlar dahil olmak üzere geliştirir. Bu model, kelime gömme modelinin eğitim verilerinde görünmeyen kelimelerin (yani, sözlük dışındaki kelimelerin) temsil vektörünü hesaplamasına izin verir.

FastText vektörlerinin eğitim hızı hızlıdır ve Wikipedia ve Tarama veri kümelerine dayalı önceden eğitilmiş modeller sağlar ve 157 dile kadar destekler. Bunlar çok önemli kıyaslama modelleridir.

Derin Bağlam Kelime Temsil Modeli'nin (ELMo) kelime yerleştirmedeki son performans iyileştirmeleri de dikkat çekicidir. ELMo, Allen AI Araştırma Enstitüsü tarafından önerilmiştir ve açık kaynaklıdır ve NAACL 2018'e dahil edilmiştir. Haziran 2018'in başlarında konferans sırasında sergilenecektir.

ELMo, kelime düzeyinde bağlam hakkında çok şey biliyor.

ELMo modelinde, her kelimeye, ait oldukları tüm korpustaki cümlelerin bir fonksiyonunu temsil eden bir fonksiyon olan bir temsil atanır. Gömme, iki katmanlı çift yönlü dil modelinin (LM) dahili durumundan hesaplanır, bu nedenle dil modeli "ELMo" olarak adlandırılır: Dil Modellerinden Gömme.

ELMo'nun belirli özellikleri:

  • ELMo'nun girişi kelimelerden çok karakterlerdir. Bu, ELMo'nun birinci seviye kelime segmentasyon biriminin avantajını elde etmesini sağlayarak modelin sözlük dışındaki kelimeler için anlamlı temsilleri hesaplamasına izin verir (FastText'e benzer).

  • ELMo, birkaç aktif biLM katmanının paralel bir kombinasyonudur. Farklı katmanların dil modelleri, aynı sözcüğün farklı bilgilerini kodlar (örneğin, POS tanımlaması düşük seviyeli biLSTM tarafından iyi tahmin edilebilirken, yüksek seviyeli biLM modeli kelime anlamını iyice netleştirebilir). Tüm katmanları paralel olarak birleştirmek, büyük miktarda bilgiyi birleştirebilir ve aşağı akış görev modellerinin performansını iyileştirmek için kelime temsil vektörleri atayabilir.

Ardından, genel cümle yerleştirme modeline bakalım.

Yaygın Cümle Gömme Modelinin Yükselişi

Şu anda, cümle yerleştirme modelleri alanında birçok rekabet eden şema vardır. Kelime gömme tabanlı ortalama alma yöntemleri gibi basit temel modeller daha iyi sonuçlar üretmeye devam ediyor. 2017'nin sonlarında ve 2018'in başlarında bazı yeni denetimsiz ve denetimli yöntemler ve bazı çok görevli öğrenme planları ortaya çıktı ve ilginç performansa yol açtı Desteklemek.

Dört yeni yönteme hızlı bir şekilde bakalım: basit kelime vektörü ortalama referans modellerinden bazı yeni denetimsiz ve denetimli yöntemlere ve bazı çok görevli öğrenme şemalarına (yukarıda açıklandığı gibi).

Öncelikle bu alandaki fikir birliği hakkında konuşmama izin verin, bu en basit yöntemdir: vektörleri bir cümleye gömme kelimelerinin doğrudan ortalamasını almak (kısaca BoW yöntemi) yeterince iyi bir temel performans sağlayabilir ve çoğu aşağı akış görevi için uygundur.

Bu tür temel yöntemi hesaplamak için daha iyi bir algoritma vardır. Ayrıntılar için lütfen Arora ve diğerleri tarafından 2017'de ICLR'de yayınlanan makaleye bakın. Başlık şu şekildedir: Cümle Gömmeleri için Basit ama Yenilmesi Zor Bir Temel. Spesifik uygulama yöntemi, herhangi bir tür kelime yerleştirmeyi kullanmak ve ardından cümledeki kelime vektörleri üzerinde doğrusal ağırlıklı entegrasyon gerçekleştirmektir. Daha sonra, elde edilen vektör üzerinde normal bileşen çıkarma işlemi gerçekleştirilir (yani, çıkarılan vektörün, birinci ana bileşeninin düşük enlem yönünde izdüşümü). Bu basit yöntemin arkasındaki teorik motivasyon derin ve güçlüdür. Bu teori, metin oluşturmak için rastgele söylem vektörleri yürüyüşlerini kullanan üretken modeller ilkesine dayanmaktadır (burada teorik ayrıntıları tartışmayacağız).

Bu, Hugging Face (sosyal konuşma AI) sohbetinden oluşan bir paket kelime. Kelime torbası (BoW) gevşek bir şekilde sıralanmıştır, ancak birçok semantik ve sözdizimsel içerik bilgisini sihirli bir şekilde kaydeder. Bu ilginç bir sonuç ve Conneau ve diğerlerinin sonucudur.Makale ACL 2018'de yayınlandı.

Basit ortalamanın ötesine geçen ilk önemli öneri, eğitim hedeflerine ulaşmak için denetimsiz kullanmaktır. Bu aynı zamanda Jamie Kiros ve meslektaşları tarafından 2015 yılında önerilen Skip-düşünce vektörleri yöntemidir.

Denetimsiz öğrenmeye dayalı cümle yerleştirme şeması aslında bir yan üründür. Bu yan ürünün asıl amacı aslında modelin tutarlı bir cümleyi veya en azından tutarlı bir cümle özetini tahmin etmeyi öğrenebileceğini ummaktır. Bu yöntemler (teorik olarak), metin verilerinde cümleler veya özetler olduğu sürece herhangi bir metin verisini kullanabilir ve tutarlı ve yan yana bir şekilde düzenlenmiştir.

Düşünceleri atlama vektörleri modeli, denetimsiz öğrenmeye dayalı tipik bir cümle yerleştirme modelidir. Skip-gram modeline dayalı bir cümle yerleştirme modeli olan başka bir modele eşdeğer olabilir. Bu modelin prototipi aslında gram atlama kelimesi yerleştirmeye dayanmaktadır. Özelliği, belirli bir kelime bağlamında ortaya çıkabilecek kelimeleri tahmin etmek yerine, belirli bir cümle bağlamında görünebilecek cümleleri tahmin etmenin daha iyi olmasıdır. Bu model, RNN tabanlı bir kodlayıcı-kod çözücü içerir ve bu kodlayıcı-kod çözücü, belirli bir cümle verilmesi koşuluyla bağlamsal cümleleri yeniden oluşturmak için eğitilir.

Skip-Thought makalesinin çok ilginç bir sonucu var, kelime dağarcığı genişletme programı. Kiros ekibinin, özellikle model eğitim aşamasında görünmeyen kelimelerle başa çıkma yöntemi, yeni kelimelerin vektörlerini RNN kelime gömme alanı ile başka bir büyük kelime gömme modeli (word2vec gibi) arasındaki doğrusal dönüşümden öğrenmektir.

......

Okumaya devam etmek istiyorsanız, lütfen AI Araştırma Topluluğu topluluğumuza gidin: https://club.leiphone.com/page/TextTranslation/708

AI Araştırma Enstitüsü'nde daha heyecan verici içerikler mevcuttur.

Farklı alanlar arasında bilgisayar görüşü, konuşma semantiği, blok zinciri, otonom sürüş, veri madenciliği, akıllı kontrol, programlama dilleri ve diğer günlük güncellemeler bulunur.

Erişmek için cep telefonundaki QR kodunu tarayın

Lei Feng Ağı Lei Feng Ağı

China Unicom eSIM kartlarının ülke çapında yaygınlaştırılmasında başı çekiyor Fiziksel SIM kartlar terk edilirse ne gibi değişiklikler yapılabilir?
önceki
Dünyanın her yerindeki hayranlar birbirleriyle ilgileniyor! "Örümcek Adam: Evden Uzak" Fragmanı Rekor Kıran Yayınladı
Sonraki
Nike vs Adidas hangi kamp daha iyi? ! Sneaker Con Dallas Top 20 En Popüler
TV kutusundaki performans canavarı mı? Bu kutu bunu hak ediyor!
OPPO R11 Barcelona özelleştirilmiş versiyonu: Tmall şampiyonayı yarım saat içinde kazanır
Hammer Technology cep telefonu sektöründen hiç ayrılmadı ve TNT sistemi önemli bir ürün haline gelebilir!
Hayaller gerçeğe dönüşüyor, GodView reçine dizili optik dalga kılavuzlarıyla donatılmış MR gözlüklerini piyasaya sürdü ve derinlemesine özelleştirme başlatıldı
Cameronın yeni işi "Alita" perde arkasında ve savaş meleği "performans yakalama" ilk kez ortaya çıkıyor
Dışarı çıkın ve TicKasa Show'un kurumsal düzeyde CES2019'da görücüye çıkmasını isteyin
Maruz kalma istasyonu Araştırma | Şehir yönetimi, havaalanı yol kenarındaki yeşil sebzeleri yok ediyor! ? Gerçek şu ki...
Modelin yorumlanabilirliği kötü mü? Her türlü belirsizliği düşündünüz mü?
2019 Guangzhou Ses Sergisi: Yihe Technology PROBASSCO'nun stratejik ortağı yerinde imza atmaya devam ediyor!
"İlaç Kozmesötikleri" ve "Engelleme Emirleri" bir aydan daha uzun bir süredir mevcuttur
Bristol Los Angeles 18SS'nin yeni serisi yayınlandı.Spor ve aletlerin birleşimi, sıcak yaz aylarında gösteriş yapmanızı sağlayacak!
To Top