Yazar | Wangwang Liu
Editör | Tang Li
Bildiri: Tek Dilli Gösterimlerin Çapraz Dilde Aktarılabilirliği Üzerine
Tek Dilli Temsilin Çapraz Dilde Aktarılabilirliği Üzerine Araştırma
Bağlantı: https: // ar xi v.org/abs/1910.1 185 6
Kod: Hayır
Özet
En gelişmiş denetimsiz çoklu dil modellerinin (çoklu dil BERT gibi) sıfır örneklem çapraz dil öğrenmede evrensel olduğu kanıtlanmıştır.Bu etki temel olarak paylaşılan alt kelime sözlüklerinin ve çoklu dil ortak eğitiminin kullanılmasından kaynaklanmaktadır. .
Bu makale esas olarak yukarıdaki bakış açılarını değerlendirmek için deneyler tasarlamaktadır.
Bu makale, tek dilli bir dil modelini kelime düzeyinde başka bir yeni dile aktaran bir yöntem tasarlar.Bu yöntem kelime sözlüklerine ve çok dilli ortak eğitim becerilerine dayanmaz, ancak yöntem diller arasıdır. Değerlendirmedeki performans, çok dilli bert (mbert) ile karşılaştırılabilir.
Metin ayrıca, profesyonel çevirmenler tarafından on dile çevrilmiş 240 paragraf ve 1.190 soru yanıtını içeren, daha kapsamlı bir diller arası karşılaştırma testi olan yeni bir değerlendirme veri seti (XQuAD) yayınladı.
Bu makaleye katkı
Tek dilli temsilleri denetimsiz bir şekilde yeni dillere dönüştürmek için bir yöntem önerilmiştir.
Sıfır örneklem transferinin paylaşılan alt kelime dağarcığı veya ortak çok dilli eğitim gerektirmediği kanıtlanmıştır.
Her dilin etkili kelime dağarcığının, çok dilli dil modellerini eğitmede önemli bir faktör olduğunu bulmak.
Tek dilli modelin, diller arası genellemenin anlamsal soyutlamasını öğrendiği kanıtlanmıştır.
Yeni bir diller arası soru cevaplama veri seti önerilmiştir.
arka fon
mbert diller arası görevlerde çok iyi performans gösterir. Genel olarak bilinen üç faktör vardır:
Paylaşılan bir kelime dağarcığı kullanın;
Farklı dillerde ortak eğitim;
Derin diller arası temsil.
Diller arası görevleri çözmek için iyi bir modele sahip olmak için yukarıdaki üç faktör gerekli mi? Metin tasarım yöntemi araştırılır.
Tez tasarımı yöntemi
L1 ve L2 olmak üzere iki dil olduğunu varsayalım. L1'de hem büyük miktarda etiketlenmemiş veri hem de aşağı akış görevleri için denetim verileri ve L2'de yalnızca büyük miktarda etiketlenmemiş veri var. Tüm süreç aşağıdaki dört adıma bölünebilir:
L1 etiketlenmemiş veri setinde, maskelenmiş dil modeli (MLM) ve sonraki cümle tahmini (NSP) görevi ile tek dilli bir bert eğitin.
Transformatör bölümünü dondurun (embe gg (ing katman ve softmax katmanı hariç), L2 etiketlenmemiş veri setinde sıfırdan yeni bir bert modeli eğitin, görev 1 ile aynıdır.
1. adımda eğitilen modele ince ayar yapmak için L1 aşağı akış görevlerinin denetimli verilerini kullanın ve ince ayar işlemi sırasında embe'yi dondurun gg ing katman.
2. adımda elde edilen embe'yi kullanın gg Ing katman, 3. adımda embe'nin yerini alır gg Katman oluşturduktan sonra, L2'deki aynı aşağı akış görevlerine uygulanabilecek yeni bir model edinin.
Deney
Karşılaştırma deneyinin temel amacı, farklı çok dilli modellerin dil anlama yeteneklerini sıfır vuruşlu çapraz dil altında karşılaştırmaktır.
Karşılaştırılan modeller:
Ortak çok dilli modeller (JOINT MULTI): 15 dilde ortaklaşa eğitilmiş çok dilli bir BERT modeli. Bu model mBERT'e benzer ve XLM gibi diğer varyantlara çok benzer.
Ortak çift yönlü iki dilli modeller (ORTAK ÇİFT): Yalnızca iki dilde (İngilizce ve başka bir dil) ortak eğitim gerçekleştirin, bu temelde ortak eğitimin etkisini iyileştirmek içindir.
Cross-lingualword embe gg Haritalama (CLWE): Farklı dillerin kelime gömme temsilleri, önce tek bir dil kelime dağarcığı olmayan bir alana hizalanır ve daha sonra bu alanda çok dilli derin modeller öğrenilir.
Tek dilli modellerin çapraz dil aktarımı (MONOTRANS): Bu makalenin yöntemi.
Deney 1:
Yukarıdaki model MultiNLI üzerinde eğitilir ve ardından XNLI veri kümesinde test edilir:
En iyi JOINTMULTI modeli, denetimsiz XLM modelinden (daha büyük ölçekli) yalnızca bir yayılma (ortalama) ile mBERT'den önemli ölçüde daha iyidir.
JOINTMULTI'nin test edilen farklı ortamlarında, daha geniş bir kelime dağarcığı kullanmanın önemli bir olumlu etkisi olduğunu gözlemledik.
Bu, daha fazla dilin modellenmesinin öğrenilen temsilin kalitesini etkilemeyeceğini göstermektedir (XNLI üzerinde değerlendirilmiştir).
ORTAK ÇİFT grubunda ortak eğitimde kelime paylaşımına gerek olmadığı görülmektedir.
CLWE kötü performans gösterdi. İngilizce'de rekabetçi olsa bile, diğer dillere iyi aktarılamaz.
Deney 2:
MLDoc: DocumentClassification metin sınıflandırma veri kümesi ve PAWS-X: ParaphraseIdentification veri kümesi.
Tablodan, daha basit modellerin daha iyi performans gösterme eğiliminde olduğu ve en iyi genel sonucun, CLWE görevinin yüzeysel doğasından geldiği gözlemlenebilir, çünkü model, girdi belgesinin türünü herhangi bir giriş olmadan tanımlamak için birkaç anahtar kelimeye güvenebilir. İleri düzey anlayış.
Dört yöntemle elde edilen sonuçlar benzerdir ve iyi sonuçlar elde etmek için ortak çok dilli ön eğitime ve paylaşılan kelime listelerine gerek olmadığını gösterir.
Deney 3
Önceki test veri setinde, MONOTRANS, JOINTMULTI ve JOINTPAIR'in yukarıdaki test setinde eşit şekilde performans gösterdiği bulundu.Bu davranış için olası bir hipotez, mevcut diller arası kıyaslamaların kusurlu olduğu ve sözcük düzeyinde mümkün olduğudur. sabit.
Bu modellerin diller arası genelleme yeteneklerini daha iyi anlamak için v1.17 geliştirme setinden 240 paragraf ve 1190 soru cevap çiftinden oluşan yeni bir değerlendirme veri seti XQuAD oluşturulmuş ve bunları 10 türe çevirmiştir. Diller: İspanyolca, Almanca, Yunanca, Rusça, Türkçe, Arapça, Vietnamca, Tayca, Çince ve Hintçe. Bağlamsal paragraflar ve sorular Gengo'nun profesyonel çevirmenleri tarafından çevrilmiştir.
MonoTRANS'ın ortak eğitim modeli ile karşılaştırılabilir olduğu tablodan görülebilir.
Kağıt sonucu
Mevcut son teknoloji ürünü çok dilli temsil öğrenme modeli, kelime düzeyinde yeni bir dile geçiş yapan tek dilli model ile karşılaştırılır. Bu modellerin standart sıfır örneklem çapraz dil transferi kıyaslamasındaki performansının benzer olduğu kanıtlanmıştır, bu da çok dilli modelde ne paylaşılan kelime haznesi ne de ortak ön eğitimin gerekli olmadığını göstermektedir.
Bir dizi keşif deneyinde, belirli bir dil için eğitilmiş tek dilli bir modelin, diğer dillere genelleştirilebilecek bazı anlamsal soyutlamaları öğrenebileceği daha da kanıtlanmıştır. Sonuçlar ve analiz önceki bazı teorilerle çelişiyor (çok dilli modeller ortak eğitim ve ortak kelime bilgisi gerektirir) ve çok dilli modellerin genelleme yetenekleri için yeni içgörüler sağlıyor. Çapraz dil modellerini değerlendirmek için daha kapsamlı bir kıyaslama sağlamak amacıyla, diller arası bir soru cevaplama veri seti (XQuAD) yayınlandı.