Tek dilli temsiller nasıl birden çok dile taşınır?

Yazar | Wangwang Liu

Editör | Tang Li

Bildiri: Tek Dilli Gösterimlerin Çapraz Dilde Aktarılabilirliği Üzerine

Tek Dilli Temsilin Çapraz Dilde Aktarılabilirliği Üzerine Araştırma

Bağlantı: https: // ar xi v.org/abs/1910.1 185 6

Kod: Hayır

Özet

En gelişmiş denetimsiz çoklu dil modellerinin (çoklu dil BERT gibi) sıfır örneklem çapraz dil öğrenmede evrensel olduğu kanıtlanmıştır.Bu etki temel olarak paylaşılan alt kelime sözlüklerinin ve çoklu dil ortak eğitiminin kullanılmasından kaynaklanmaktadır. .

Bu makale esas olarak yukarıdaki bakış açılarını değerlendirmek için deneyler tasarlamaktadır.

Bu makale, tek dilli bir dil modelini kelime düzeyinde başka bir yeni dile aktaran bir yöntem tasarlar.Bu yöntem kelime sözlüklerine ve çok dilli ortak eğitim becerilerine dayanmaz, ancak yöntem diller arasıdır. Değerlendirmedeki performans, çok dilli bert (mbert) ile karşılaştırılabilir.

Metin ayrıca, profesyonel çevirmenler tarafından on dile çevrilmiş 240 paragraf ve 1.190 soru yanıtını içeren, daha kapsamlı bir diller arası karşılaştırma testi olan yeni bir değerlendirme veri seti (XQuAD) yayınladı.

Bu makaleye katkı

  • Tek dilli temsilleri denetimsiz bir şekilde yeni dillere dönüştürmek için bir yöntem önerilmiştir.

  • Sıfır örneklem transferinin paylaşılan alt kelime dağarcığı veya ortak çok dilli eğitim gerektirmediği kanıtlanmıştır.

  • Her dilin etkili kelime dağarcığının, çok dilli dil modellerini eğitmede önemli bir faktör olduğunu bulmak.

  • Tek dilli modelin, diller arası genellemenin anlamsal soyutlamasını öğrendiği kanıtlanmıştır.

  • Yeni bir diller arası soru cevaplama veri seti önerilmiştir.

  • arka fon

    mbert diller arası görevlerde çok iyi performans gösterir. Genel olarak bilinen üç faktör vardır:

  • Paylaşılan bir kelime dağarcığı kullanın;

  • Farklı dillerde ortak eğitim;

  • Derin diller arası temsil.

  • Diller arası görevleri çözmek için iyi bir modele sahip olmak için yukarıdaki üç faktör gerekli mi? Metin tasarım yöntemi araştırılır.

    Tez tasarımı yöntemi

    L1 ve L2 olmak üzere iki dil olduğunu varsayalım. L1'de hem büyük miktarda etiketlenmemiş veri hem de aşağı akış görevleri için denetim verileri ve L2'de yalnızca büyük miktarda etiketlenmemiş veri var. Tüm süreç aşağıdaki dört adıma bölünebilir:

  • L1 etiketlenmemiş veri setinde, maskelenmiş dil modeli (MLM) ve sonraki cümle tahmini (NSP) görevi ile tek dilli bir bert eğitin.

  • Transformatör bölümünü dondurun (embe gg (ing katman ve softmax katmanı hariç), L2 etiketlenmemiş veri setinde sıfırdan yeni bir bert modeli eğitin, görev 1 ile aynıdır.

  • 1. adımda eğitilen modele ince ayar yapmak için L1 aşağı akış görevlerinin denetimli verilerini kullanın ve ince ayar işlemi sırasında embe'yi dondurun gg ing katman.

  • 2. adımda elde edilen embe'yi kullanın gg Ing katman, 3. adımda embe'nin yerini alır gg Katman oluşturduktan sonra, L2'deki aynı aşağı akış görevlerine uygulanabilecek yeni bir model edinin.

  • Deney

    Karşılaştırma deneyinin temel amacı, farklı çok dilli modellerin dil anlama yeteneklerini sıfır vuruşlu çapraz dil altında karşılaştırmaktır.

    Karşılaştırılan modeller:

  • Ortak çok dilli modeller (JOINT MULTI): 15 dilde ortaklaşa eğitilmiş çok dilli bir BERT modeli. Bu model mBERT'e benzer ve XLM gibi diğer varyantlara çok benzer.

  • Ortak çift yönlü iki dilli modeller (ORTAK ÇİFT): Yalnızca iki dilde (İngilizce ve başka bir dil) ortak eğitim gerçekleştirin, bu temelde ortak eğitimin etkisini iyileştirmek içindir.

  • Cross-lingualword embe gg Haritalama (CLWE): Farklı dillerin kelime gömme temsilleri, önce tek bir dil kelime dağarcığı olmayan bir alana hizalanır ve daha sonra bu alanda çok dilli derin modeller öğrenilir.

  • Tek dilli modellerin çapraz dil aktarımı (MONOTRANS): Bu makalenin yöntemi.

  • Deney 1:

    Yukarıdaki model MultiNLI üzerinde eğitilir ve ardından XNLI veri kümesinde test edilir:

    • En iyi JOINTMULTI modeli, denetimsiz XLM modelinden (daha büyük ölçekli) yalnızca bir yayılma (ortalama) ile mBERT'den önemli ölçüde daha iyidir.

    • JOINTMULTI'nin test edilen farklı ortamlarında, daha geniş bir kelime dağarcığı kullanmanın önemli bir olumlu etkisi olduğunu gözlemledik.

    • Bu, daha fazla dilin modellenmesinin öğrenilen temsilin kalitesini etkilemeyeceğini göstermektedir (XNLI üzerinde değerlendirilmiştir).

    • ORTAK ÇİFT grubunda ortak eğitimde kelime paylaşımına gerek olmadığı görülmektedir.

    • CLWE kötü performans gösterdi. İngilizce'de rekabetçi olsa bile, diğer dillere iyi aktarılamaz.

    Deney 2:

    MLDoc: DocumentClassification metin sınıflandırma veri kümesi ve PAWS-X: ParaphraseIdentification veri kümesi.

    Tablodan, daha basit modellerin daha iyi performans gösterme eğiliminde olduğu ve en iyi genel sonucun, CLWE görevinin yüzeysel doğasından geldiği gözlemlenebilir, çünkü model, girdi belgesinin türünü herhangi bir giriş olmadan tanımlamak için birkaç anahtar kelimeye güvenebilir. İleri düzey anlayış.

    Dört yöntemle elde edilen sonuçlar benzerdir ve iyi sonuçlar elde etmek için ortak çok dilli ön eğitime ve paylaşılan kelime listelerine gerek olmadığını gösterir.

    Deney 3

    Önceki test veri setinde, MONOTRANS, JOINTMULTI ve JOINTPAIR'in yukarıdaki test setinde eşit şekilde performans gösterdiği bulundu.Bu davranış için olası bir hipotez, mevcut diller arası kıyaslamaların kusurlu olduğu ve sözcük düzeyinde mümkün olduğudur. sabit.

    Bu modellerin diller arası genelleme yeteneklerini daha iyi anlamak için v1.17 geliştirme setinden 240 paragraf ve 1190 soru cevap çiftinden oluşan yeni bir değerlendirme veri seti XQuAD oluşturulmuş ve bunları 10 türe çevirmiştir. Diller: İspanyolca, Almanca, Yunanca, Rusça, Türkçe, Arapça, Vietnamca, Tayca, Çince ve Hintçe. Bağlamsal paragraflar ve sorular Gengo'nun profesyonel çevirmenleri tarafından çevrilmiştir.

    MonoTRANS'ın ortak eğitim modeli ile karşılaştırılabilir olduğu tablodan görülebilir.

    Kağıt sonucu

    Mevcut son teknoloji ürünü çok dilli temsil öğrenme modeli, kelime düzeyinde yeni bir dile geçiş yapan tek dilli model ile karşılaştırılır. Bu modellerin standart sıfır örneklem çapraz dil transferi kıyaslamasındaki performansının benzer olduğu kanıtlanmıştır, bu da çok dilli modelde ne paylaşılan kelime haznesi ne de ortak ön eğitimin gerekli olmadığını göstermektedir.

    Bir dizi keşif deneyinde, belirli bir dil için eğitilmiş tek dilli bir modelin, diğer dillere genelleştirilebilecek bazı anlamsal soyutlamaları öğrenebileceği daha da kanıtlanmıştır. Sonuçlar ve analiz önceki bazı teorilerle çelişiyor (çok dilli modeller ortak eğitim ve ortak kelime bilgisi gerektirir) ve çok dilli modellerin genelleme yetenekleri için yeni içgörüler sağlıyor. Çapraz dil modellerini değerlendirmek için daha kapsamlı bir kıyaslama sağlamak amacıyla, diller arası bir soru cevaplama veri seti (XQuAD) yayınlandı.

    2020'deki sahte strateji burada! İki "13 günlük" tatil yapabilirsiniz
    önceki
    Wall Street, hisse senedi alım satımının sırlarını özetledi: kayıpları azaltın ve karların akmasına izin verin! Ana finansal dinamikler size Çin borsasında parayı kimin kazandığını söylüyor?
    Sonraki
    Qilu Sabah Haberleri Shandong'da kurtarılan 11 madencinin hayati belirtileri stabil ve muayene ve tedavi görüyorlar
    3 yılda 900.000 kayıptan 5.8 milyon kara kadar, sadece ısrar ettim: 20'nin altında tam pozisyonla satın al ve 80'in üzerinde tam pozisyonla sat, neredeyse tüm kısa vadeli kazançları yakalıyor
    Yüzlerce Çinli öğrenci New York'u ziyaret eden "Hong Kong kaosunu" protesto etti: "Hong Kong barış istiyor!"
    Büyük ölçekli çok dilli genel sinir makinesi çeviri yönteminin analizi
    İlk "Ulusal Yapay Zeka Yarışması" - AI + 4K en iyi oyuncuların fikirlerine bir bakış
    Gerçek ve sahte "Mei Teyze" ekranının dışında, neyi daha çok önemsemeliyiz?
    Elektrikli arabadan pil çalmaktan tutuklanan adam
    191124 Cheng Cheng'i özçekim becerilerini yeniden kazandığı için tebrikler Yakışıklı oğul özçekimiyle geri döndü.
    Sichuan takımı Mengda üç sayı farkla yükseldi, sezonun ilk deplasman galibiyeti için Shandong'u kazandı
    191124 Life blog yazarı Zhu Zhengting iş için çevrimiçi oluyor. Sanat bebeklerinin aynı film listesine sahip olmayı hak ediyorsunuz
    191124 Cai Xukun, öğretmen Ikun'un selfie ödevini verdi! Çin Cumhuriyeti'nin sade retro elbisesi
    Süper Lig'de ayın en iyi teknik direktörünü kazandınız! Li Xiaopeng: Bu kendime bir teşvik
    To Top