Transfer öğrenimi, yapay zekanın bağlamı daha iyi anlamasını sağlar: Yeni Salesforce belgesi

Li Lin derleyin ve organize edin

Qubit Raporu | Genel Hesap QbitAI

Sinir ağının her kelimenin anlamını anlaması kolaydır, ancak kelimeler arasındaki bağlam ve ilişki doğal dil işlemede (NLP) hala zor problemlerdir.

Salesforce'taki bir grup NLP araştırmacısı, görüntü tanıma ile uğraşan meslektaşlarının denemeye değer iyi bir yönteme sahip olduğunu buldu.

Görüntü tanıma alanında, önceden eğitilmiş CNN'yi ImageNet'e almak ve diğer görüntü tanıma modellerinde kullanmak yaygın bir uygulama haline geldi. Eğitilen model parametrelerini yeni modele taşımanın bu yöntemi, son iki yıldaki sıcak geçiş öğrenmesidir.

Bağlamı anlamak, transfer öğrenimi için çok uygun bir sorundur.

Çeviri ile Öğrenildi

Aklımıza gelen NLP görevlerinin çoğu "bağlamı anlama" ihtiyacına sahiptir.

Makine çeviri modelinin, İngilizce cümledeki bu kelimelerin diğer dillere doğru bir şekilde çevrilmesi için nasıl birleştirildiğini bilmesi gerekir; otomatik metin özetleme modelinin, hangi kelimelerin en önemli olduğunu bilmek için bağlamı anlaması gerekir; soru cevaplama modelinin soruyu bilmesi gerekir İçindeki kelimelerin belgedeki kelimelerle nasıl ilişkili olduğu.

Herkesin buna ihtiyacı olduğuna göre, "bağlamı anlayan" bir bileşeni eğitmek için bir görev seçebilir ve bunu diğer görevlerde kullanabilir misiniz?

Bir kodlayıcıyı önceden eğitmek için makine öğrenimini kullanarak ortaya çıkan bağlam vektörü (CoVe), diğer NLP modellerinin performansını artırabilir

Saleforce'un yeni kağıdı Çeviride Öğrenilenler: Bağlamlaştırılmış Kelime Vektörleri Sorun bu.

Bryan McCann gibi araştırmacılar, İngilizce-Almanca çeviri görevini ilk olarak yukarıdaki metindeki kelimeleri anlamak için bir sinir ağı modeli eğitmek için kullandılar ve adını aldılar. " Bağlam vektörleri (CoVe) "Çıktı.

Daha sonra, CoVe'yi semantik duyarlılık analizi, soru sınıflandırması, metin düzenlemesi, soru-cevap gibi çeşitli NLP görevlerine uyguladılar ve bu modellerin performansı iyileştirildi.

Kelime vektör

Günümüzde, çoğu NLP derin öğrenme modeli, kelime anlamlarını temsil etmek için kelime vektörlerine güveniyor. Modeli belirli bir görev için eğitmeden önce, kelime vektörü rastgele bir sayı olabilir veya word2vec, GloVe, FastText vb. Yöntemlerle başlatılabilir.

Word2vec ve GloVe tarafından oluşturulan kelime vektörleri, doğal dilde genellikle bu kelime ile birlikte bulunan kelimelerle ilgilidir. Word2vec modeli, giriş kelimelerine dayalı olarak çevreleyen ilgili kelimeleri tahmin eder ve GloVe ayrıca bu temelde iki kelimeyi sayar. Birlikte oluşma sıklığı.

Bir NLP görevinde word2vec ve GloVe eğitim kelime vektörlerini kullanmak rastgele başlatılan kelime vektörlerinden daha iyidir, ancak iyileştirme için yer vardır:

Modelin bu kelime vektörlerini nasıl kullanacağını bilmesi gerekiyor Yani, onları bağlama oturtmak için.

Bağlamı anlayın

Kelimeleri bağlam içinde anlamak için genellikle tekrarlayan sinir ağları (RNN) kullanılır. RNN, kelime vektör dizilerinin işlenmesi için çok uygundur.Uzun dizilerle daha iyi başa çıkabilmek için, bu makalenin yazarı özel bir RNN yapısı kullanır: Uzun Kısa Süreli Bellek Ağı (LSTM).

Bu LSTM, kelime vektörlerini girdi olarak alan ve gizli vektörleri çıkaran bir kodlayıcıdır. Araştırmacılar, çeşitli NLP görevlerinde ortak olan gizli vektörleri çıkarmak için bu kodlayıcıyı önceden eğitmeye çalışıyor.

Ön eğitim için hangi görev kullanılır? Makine çevirisini seçtiler.

Diğer NLP görevleriyle karşılaştırıldığında, makine çevirisi daha büyük bir veri kümesine sahiptir ve genel gizli vektörleri eğitmek için daha uygundur: metin sınıflandırması gibi görevlerden çok dilin anlamını anlamak için yazılım gerektirir.

Ön eğitim tamamlandıktan sonra, araştırmacılar yeni cümleler için gizli vektörlerin çıktısını almak için kullanılabilecek MT-LSTM adlı bir LSTM alırlar. Diğer NLP modellerine girdi olarak kullanılabilen bu gizli vektörlere CoVe diyorlar.

Göç etkisi

Salesforce araştırmacıları, CoVe kullanmanın metin sınıflandırması ve soru cevaplama modelleri üzerindeki etkilerini araştırdı.

Aşağıdaki veri setlerini kullandılar:

  • Duygu sınıflandırması

  • SST-2

    https://nlp.stanford.edu/sentiment/treebank.html

  • SST-5

    https://nlp.stanford.edu/sentiment/treebank.html

  • IMDb

  • soru kategorisi

  • TREC-6

  • TREC-50

  • Uygulama sınıflandırması

  • SNLI

    https://nlp.stanford.edu/projects/snli/

  • Soru-Cevap

  • Tayfa

    https://rajpurkar.github.io/SQuAD-explorer/

Her bir görev türünde, farklı yöntemleri karşılaştırdılar, yani aşağıdaki giriş dizisi türlerini kullanarak: rastgele başlatılan sözcük vektörleri, GloVe ile başlatılan sözcük vektörleri, GloVe + CoVe tarafından başlatılan sözcük vektörleri.

GloVe ve CoVe birlikte kullanıldığında, CoVe dizisini elde etmek için GloVe çıkış dizisini işlemek için önceden eğitilmiş MT-LSTM kullanmak ve ardından her vektörü GloVe dizisindeki karşılık gelen vektöre eklemek gerekir.

Sonuçlar GloVe ve CoVe'nin en iyisi olduğunu gösteriyor:

Bu görevlerde, makine öğrenimi eğitim seti ne kadar büyükse, CoVe kullanmanın etkisi o kadar iyidir:

sonuç olarak

Özetle, bu araştırma, yapay zekanın çeviriyi öğrenmesine izin vermenin dili daha iyi anlamasına ve sınıflandırma, soru-cevap ve diğer NLP görevlerinde daha iyi performans göstermesine yardımcı olabileceği anlamına gelir.

İlgili Bağlantılar

Blog yazısı:

https://einstein.ai/research/learned-in-translation-contextualized-word-vectors

kağıt:

Bryan McCann, James Bradbury, Caiming Xiong ve Richard Socher.2017.

Çeviride Öğrenilenler: Bağlamlaştırılmış Kelime Vektörleri

https://einstein.ai/static/images/layouts/research/cove/McCann2017LearnedIT.pdf

PyTorch kodu:

https://github.com/salesforce/cove

word2vec:

https://www.tensorflow.org/tutorials/word2vec

Eldiven:

https://nlp.stanford.edu/projects/glove/

FastText:

https://github.com/facebookresearch/fastText

Bitiş

Etkinlik Kaydı

9 Ağustos (Çarşamba) akşamı Qubit, Üçgen Canavar'ın baş bilim adamı Baoxun Wang'ı çekişmeli öğrenmeye dayalı üretken bir diyalog modelini paylaşmaya davet etti. Kaydolmaya hoş geldiniz

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Yıllık bir milyon maaşla, toplam 7,29 milyonluk bu en ucuz "konut takımı" seti playofflara çıkabilir!
önceki
Evergrande, başka bir silah bulmak için iki katilden vazgeçti mi? Cannavaronun eksiklikleri çözülmedi, gelecek yıl patron Xudan utanacak.
Sonraki
LOL: Homme'nin büyüsünün temel nedeni! JDG, ikinci BİZ olabilir!
Trumpchi'nin GA4 yeni yıldızı listelendi, sedan ailesinin büyük pastasını nasıl bölebiliriz?
Manzano'nun dersi yeterince derin değil mi? Guizhou'nun yeni koçu penaltıya göz kulak oluyor, Wen Xiaoting kendisi için bir çukur kazıyor
Rockets takviyeleri için geri sayım, CBA'nın dördünün de umudu var, biri ortalama 5 üçlük, biri 6 üçlük!
Tavuk yiyen koç PGI sahnesine gitti ve PlayerUnknown's Battlegrounds'un kurucusunu takımı tartışmak için asansörde engelledi.
Tesla burada, ilk Tesla doğrudan yönetilen deneyim merkezi Shancheng'de açılıyor
Lippi'nin milli futbol takımının antrenman hacmini artırmasından iki yıl önce Hiddink, Ulusal Olimpiyatlar için şeytan eğitimi veriyor.
ABD medyası sihirbazın 3 büyük hatası hakkında yorum yaptı: Bu 3 kişi tutulursa, Zhan Huang şampiyonluğu kazanmaktan çok uzak olmayacak!
Otonom Araç Raporu: Yabancı Yatırım Kuruluşları Gözünde Çin'in Otonom Araç Pazarı ve Fırsatları
RW'nin büyük hamlesi Çin ekibinin son umudunu tersine çeviriyor, komite bir flama gönderiyor: ulusal kahraman, gelgiti çevir
Jialing Nehri Köprüsü'nün "büyük sağlık hizmetleri", Chongqing'de yeni enerji araçları için bir boğa pazarına öncülük edecek. Ne yapıyorsun?
Yang Xu Japonya'ya köpek maması yayıyor! Derin karı öpücüğü + hayran hayranları: gerçekten çılgın sevgi gösterisi
To Top