ICLR 2020 Tam Puan Kağıt Yorumlama | Bir Ayna Üreten Makine Çeviri Modeli: MGNMT

Kağıt bağlantısı: https: //static.aminer .cn /misc/pdf/minrror.pdf

1. Özet

Geleneksel Sinir Makinesi Çevirisi (NMT), birçok dil için çok zor olan çok sayıda paralel külliyat gerektirir. Neyse ki, paralel olmayan orijinal külliyatın elde edilmesi çok kolaydır. Ancak yine de, paralel olmayan derlemi temel alan mevcut yöntemler eğitim ve kod çözmede paralel olmayan bütünlüğü tam olarak kullanmamıştır.

Bu amaçla, bu makale bir ayna üretken makine çeviri modeli önermektedir: MGNMT (yansıtma üretken NMT).

MGNMT, hem kaynak-hedef hem de hedef-kaynak çeviri modellerini ve ilgili dillerin dil modellerini entegre eden birleşik bir çerçevedir. MGNMT'deki çeviri modeli ve dil modeli örtük anlamsal alanı paylaşır, böylece her iki yöndeki çeviri paralel olmayan derlemeden daha etkili bir şekilde öğrenilebilir. Ek olarak, çeviri modeli ve dil modeli, çeviri kalitesini iyileştirmek için birleştirilebilir ve işbirliği içinde çözülebilir. Deneyler, bu makaledeki yöntemin gerçekten etkili olduğunu ve MGNMT'nin çeşitli senaryolarda ve dillerde (zengin kaynak ve düşük kaynak dilleri dahil) mevcut yöntemlerden her zaman daha iyi olduğunu göstermektedir.

2. Giriş

Nöral makine çevirisi günümüzde popülerdir, ancak büyük ölçüde çok sayıda paralel külliyata dayanmaktadır. Bununla birlikte, çoğu makine çevirisi senaryosunda, çok sayıda paralel külliyat elde etmek kolay değildir. Ek olarak, alanlar arasındaki paralel korpustaki büyük farklılıklar ve belirli bir alandaki (örneğin tıbbi alan) sınırlı paralel korpus nedeniyle, NMT'nin bunu diğer alanlara uygulaması genellikle zordur. Bu nedenle, paralel külliyat yetersiz olduğunda, tatmin edici çeviri performansı elde etmek için paralel olmayan iki dilli verilerin tam olarak kullanılması (genellikle edinme maliyeti çok düşüktür) gereklidir.

Mevcut NMT sistemi henüz hem eğitim hem de kod çözme aşamalarında paralel olmayan korpusu tam olarak kullanmamıştır. Eğitim aşaması için genellikle geri çeviri kullanılır. Geri çeviri yöntemi, makine çeviri modellerini iki yönde ayrı ayrı günceller, bu da yeterince verimli değildir. Kaynak dil verileri x ve hedef dil verileri y verildiğinde, geri çeviri yöntemi ilk olarak y'yi x'ya çevirmek için tgt2src çeviri modelini kullanır. Ardından src2tgt çeviri modelini yukarıda oluşturulan sözde çeviri çiftiyle (x, y) güncelleyin. Benzer şekilde, x verisi, öteleme modelini ters yönde güncellemek için kullanılabilir. İki yöndeki çeviri modellerinin birbirinden bağımsız olduğu ve bağımsız olarak güncellendiği unutulmamalıdır. Başka bir deyişle, bir tarafın modelinin her güncellemesinin diğer tarafa doğrudan bir faydası yoktur. Bu bağlamda, bazı bilim adamları, yinelemeli eğitimde dolaylı olarak birbirlerine fayda sağlayan ortak geri çeviri ve ikili öğrenmeyi önermişlerdir. Ancak, bu yöntemlerdeki çeviri modelleri hala bağımsızdır. İdeal olarak, iki yöndeki çeviri modelleri ilişkili olduğunda, paralel olmayan derlemeden elde edilen kazanımlar daha da geliştirilebilir. Şu anda, bir tarafın güncellemesinin her adımı diğer tarafın performansını artırabilir ve bunun tersi de geçerlidir. Bu, paralel olmayan külliyatın etkinliğine daha fazla oyun verecektir.

Kod çözme için, bazı bilim adamları çeviri modelinin x- > y doğrudan eklemek Hedef dil üzerinde bağımsız olarak eğitilmiş bir dış dil modeli. Hedef dil bilgisini tanıtmanın bu yöntemi, özellikle belirli alanlar için gerçekten daha iyi çeviri sonuçları sağlayabilir. Ancak, kod çözme sırasında bağımsız bir dil modelini doğrudan tanıtmak en iyisi gibi görünmüyor. Şöyle nedenleri vardır:

(1) Kullanılan dil modeli dışarıdan gelir ve çeviri modelinin öğrenilmesinden bağımsızdır. Bu basit eklemek Yollar iki modelin iyi çalışmasını engelleyebilir, hatta çatışmalara yol açabilir;

(2) Dil modeli sadece kod çözmede kullanılır, eğitim sürecinde kullanılmaz. Bu, performansı etkileyebilecek tutarsız eğitime ve kod çözmeye yol açar.

Bu makale, yukarıdaki sorunları çözmeye çalışmak ve ardından paralel olmayan korpusu daha verimli kullanmak için Mirror Generative NMT (MGNMT) 'yi önermektedir. MGNMT, çeviri modelini (iki yön) ve dil modelini (iki dil) birleşik bir çerçevede birleştirir. Üretken NMT'den (GNMT) esinlenen MGNMT, x ve y arasında paylaşılan örtük bir anlamsal değişken z sunar. Bu makale, koşullu ortak olasılığı p (x, y | z) ayrıştırmak için simetri veya ayna görüntüsü özelliklerini kullanır:

MGNMT'nin olasılık grafik modeli Şekil 1'de gösterilmektedir:

Şekil 1: MGNMT'nin olasılıklı grafik modeli

İki dilin iki yönlü çeviri modelini ve dil modelini, Şekil 2'de gösterildiği gibi, paylaşılan örtük anlam değişkenleri aracılığıyla hizalayın:

Şekil 2: MGNMT'nin ayna görüntüsü

Gizli değişkenler tanıtıldıktan sonra, modeller bağlanır ve belirli bir z altında koşullar bağımsızdır. Bu tür MGNMT'nin aşağıdaki 2 avantajı vardır:

(1) Eğitim sırasında, gizli değişkenlerin etkisinden dolayı, iki yöndeki çeviri modelleri artık bağımsız değil, birbiriyle ilişkilidir. Bu nedenle, bir yöndeki güncelleme, diğer yöndeki çeviri modeline doğrudan fayda sağlar. Bu paralel olmayan korpusun kullanım verimliliğini artırır;

(2) Kod çözerken, MGNMT doğal olarak kendi dahili hedef dil modelini kullanabilir. Bu dil modeli, çeviri modeli ile birlikte öğrenilir ve dil modeli ile çeviri modelinin kombinasyonu daha iyi sonuçlar elde edilmesine yardımcı olur.

Deneyler, MGNMT'nin paralel şirketlerde rekabetçi sonuçlar elde ettiğini ve hatta bazı senaryolarda ve dil çiftlerinde (kaynak bakımından zengin diller, kaynakları zayıf diller ve etki alanları arası çeviri dahil) birkaç sağlam karşılaştırma modelinden daha iyi performans gösterdiğini göstermektedir. Ek olarak, çeviri modeli ve dil modelinin ortak öğreniminin gerçekten de MGNMT'nin çeviri kalitesini iyileştirebileceği bulunmuştur. Bu makale ayrıca MGNMT'nin özgür bir mimari olduğunu ve Transformer ve RNN gibi herhangi bir nöral sekans modeline uygulanabileceğini kanıtlamaktadır.

Üç, yöntem

MGNMT'nin genel çerçevesi Şekil 3'te gösterilmektedir:

Şekil 3: MGNMT'nin çerçeve şeması

Bunlar arasında, (x, y) kaynak-hedef dil çiftini temsil eder, model parametrelerini temsil eder, D_xy $ paralel bütünlüğü temsil eder ve D_x ve D_y ilgili paralel olmayan tek dilli bütünlüğü temsil eder.

MGNMT, özellikle ortak olasılığın ayna görüntüsü doğasını kullanarak iki cümle çiftlerinin ortak modellemesini yürütür:

Gizli değişken z (bu makalede standart Gauss dağılımı kullanılmıştır) x ve y arasındaki anlamsal paylaşımı temsil eder. Gizli değişkenler, çeviri modeliyle dil modelini her iki yönde de köprüler. Paralel korpus ve paralel olmayan korpusun eğitimi ve deşifre edilmesi aşağıda tanıtılmıştır.

Paralel korpus eğitimi

Paralel bir korpus çifti (x, y) verildiğinde, log p (x, y) için yaklaşık bir maksimum olasılık tahmini elde etmek için stokastik gradyan varyasyonel Bayes (SGVB) kullanın. Yaklaşık posterior şu şekilde parametrelendirilebilir:

Kanıt Düşük BOund (ELBO) denklem (1) 'den türetilebilir:

Denklem (2) 'deki ilk terim, cümlenin Monte Carlo örneklemesi ile elde edilen log olabilirlik beklentisini temsil eder. İkinci terim, gizli değişkenin yaklaşık arka ve önceki dağılımı arasındaki KL sapmasıdır. Yeniden parametrelendirme teknikleri sayesinde, tüm parçalar gradyan tabanlı algoritmalar kullanılarak ortaklaşa eğitilir.

Paralel olmayan derlem üzerine eğitim

Bu makale paralel olmayan korpusu kullanmak için MGNMT'de yinelemeli bir eğitim yöntemi tasarlamaktadır. Eğitim sürecinde, her iki yöndeki çeviri, ilgili tek dilli veri setlerinden yararlanabilir ve birbirini tanıtabilir. Paralel olmayan korpus üzerinde eğitim yöntemi Algoritma 1'de gösterilmektedir:

Paralel olmayan iki cümle verildiğinde: kaynak dilde x ^ s cümlesi ve hedef dilde y ^ t cümlesi. Amaç, marjinal dağıtım olasılıklarının alt sınırlarını maksimize etmektir:

Küçüktür veya eşittir işaretinin sağ tarafındaki iki öğe, sırasıyla kaynak ve hedefin marjinal log olasılığının alt sınırlarını temsil eder.

Örnek olarak yukarıdaki ikinci maddeyi ele alalım. Y ^ t'nin çeviri sonucu olarak kaynak dilde x örneklemek için p (x | y ^ t) kullanın (yani geri çeviri). Bu şekilde sözde paralel bir cümle çifti (x, y ^ t) elde edilebilir. Bu terimin ifadesi doğrudan denklem (4) 'te verilmiştir:

Aynı şekilde başka bir ifade elde edilebilir:

Spesifik prova süreci için, ilgilenen çocuklar orijinal makalenin ekine bakabilirler.

Yukarıdaki iki formüle göre, iki yönde sözde paralel korpus elde edilebilir ve ikisi MGNMT'yi eğitmek için birleştirilebilir. Denklem (3), gradyan tabanlı bir yöntem kullanılarak güncellenebilir ve hesaplama, Denklem (6) 'da gösterilir:

Paralel olmayan korpus kullanan yukarıdaki eğitim sürecinin tamamı, bir dereceye kadar ortak geri çeviriye benzer. Bununla birlikte, birleşik geri çevirinin her yinelemesi, bir yönün çeviri modelini güncellemek için paralel olmayan derlemin yalnızca bir yönünü kullanır. Gizli değişken, paylaşılan yaklaşık posterior q'dan (z | x, y; ) geldiğinden, iki yönün performansını tek MGNMT dilinde geliştirmek için bir köprü görevi görebilir.

Kod çözme

MGNMT, kod çözme sırasında hem çeviri modelini hem de dil modelini modeller, böylece kod çözme sırasında daha pürüzsüz ve daha kaliteli çeviri sonuçları elde edebilir. X cümlesi (veya hedef cümle y) verildiğinde, y = argmax_ {y} p (y | x) = argmax_ {y} p (x, y) aracılığıyla karşılık gelen çeviri sonucunu bulun. Spesifik kod çözme işlemi Algoritma 2'de gösterilmektedir:

Srg2tgt çeviri modelini örnek olarak alın. Verilen x kaynak cümlesi için aşağıdaki işlemleri yapın:

(1) Standart Gaussian önceki dağıtımından ilklendirilmiş bir z gizli değişkeninin örneklenmesi ve ardından bir başlangıç çevirisinin elde edilmesi y ~ = arg max_y p (y | x, z);

(2) Arka yaklaşık dağılımdan q (z | x, y ~; ) gizli değişkenleri sürekli olarak örnekleyin ve ELBO'yu en üst düzeye çıkarmak için ışın aramasıyla yeniden kodu çözün. Böylece yinelemeli olarak y ~ üretin:

Her adımın kod çözme puanı x- tarafından belirlenir > Y çeviri modeli ve y dil modeli belirlenir, bu da çeviri sonucunun hedef dile daha çok benzemesine yardımcı olur. Yeniden yapılandırılmış yeniden düzenleme puanı, y ile belirlenir. > X ve x'in dil modeli belirlenir. Yeniden düzenleme, çeviriden sonra adayların yeniden düzenlenmesini ifade eder. Yeniden düzenlemede yeniden yapılandırma puanlarının kullanılması, çeviri etkisinin iyileştirilmesine gerçekten yardımcı olur.

Dört, deney

Deneysel veri seti: WMT16 En-Ro, IWSLT16 EN-DE, WMT14 EN-DE ve NIST EN-ZH.

MGNMT, paralel olmayan korpusu daha iyi kullanabilir

Tüm diller için kullanılan paralel olmayan külliyat aşağıdaki Tablo 1'de gösterilmektedir:

Tablo 1: Her bir çeviri görevi veri kümesinin istatistiksel sonuçları

Aşağıdaki iki tablo, her bir veri setindeki modelin deneysel sonuçlarıdır. MGNMT + paralel olmayan korpusun tüm deneylerde en iyi sonuçları elde ettiği görülebilir.

Tablo 2: Düşük kaynaklı ve alanlar arası çeviri görevlerinde BLEU puanları

Tablo 2'de, etki alanları arası veri setlerinde paralel olmayan bütünlüğü kullanan MGNMT'nin en iyi sonuçları elde ettiğini belirtmek gerekir.

Tablo 3: Kaynak açısından zengin dil veri kümesindeki BLEU puanları

Bu iki tabloyu birleştiren MG-NMT, özellikle paralel olmayan korpus ekledikten sonra, ister düşük kaynak ister kaynak açısından zengin olsun, iyi sonuçlar elde edebilir.

MGNMT'de dil modelinin tanıtımı daha iyi performansa sahiptir

Tablo 4, kod çözmede dil modellerini tanıtmanın etkisini göstermektedir. Tablodaki LM-FUSION şu anlama gelir: eklemek MG-NMT gibi birlikte eğitim yerine önceden eğitilmiş bir dil modeli. Gördüğünüz gibi, normal direkt eklemek LM'nin etkisi bu makaledeki yöntem kadar iyi değil.

Tablo 4: Kod çözmede dil modelini tanıtmanın deneysel sonuçları

Paralel olmayan korpusun etkisi

Hem Transformer hem de MGNMT, paralel olmayan daha fazla külliyattan yararlanabilir, ancak genel olarak, MGNMT ondan daha fazla fayda sağlar.

Şekil 4: BLEU, paralel olmayan korpus veri kümesinin boyutundan etkilenir

Bakalım sadece tek dilli paralel olmayan korpus kullanmanın da MGNMT'nin her iki yönünde çeviriye yardımcı olup olmayacağını görelim. Deneysel sonuçlardan, yalnızca tek dilli paralel olmayan korpus eklendiğinde, modelin BLEU değerinin gerçekten iyileştirildiğini görebiliriz. Bu, bu iki yöndeki çeviri modellerinin birbirini teşvik ettiğini gösterir.

Şekil 5: Tek dilli paralel olmayan korpusun BLEU üzerindeki etkisi

Beş, özet

Bu makale paralel olmayan korpusu daha verimli kullanmak için bir ayna üretici makine çeviri modeli MGNMT'yi önermektedir.

Bu model, çift yönlü çeviri modelini ve ilgili dil modellerini birlikte öğrenmek için paylaşılan iki dilli bir örtük anlam alanı kullanır. MGNMT'deki her iki çeviri yönü aynı anda paralel olmayan külliyattan yararlanabilir. Ek olarak, MGNMT kod çözme sırasında doğal olarak öğrenilen hedef dil modelini kullanır ve bu da çeviri kalitesini doğrudan artırabilir. Deneyler, bu makaledeki MGNMT'nin her dil çeviri çiftinde diğer yöntemlerden üstün olduğunu kanıtlamaktadır.

Gelecek yönü

Gelecekteki araştırma yönü, MGNMT'yi tamamen denetimsiz makine çevirisinde kullanmaktır.

AAAI 2020 Bildirileri:

AAAI 2020 Kağıt Yorumlama Toplantısı @ (PPT ile indir )

AAAI 2020 kağıt yorumlama serisi:

01. Tanıma ve çeviri etkileşimi yoluyla daha iyi bir sesli çeviri modeli oluşturun

02. "Hedef tespiti" ve "örnek segmentasyonu" arasındaki karşılıklı fayda sağlayan ilişkiyi keşfetmek için yeni bir bakış açısı

03. Bilineer havuzlamaya yeni bir perspektiften bakıldığında, artıklık ve ani problemlerin özü nereden geliyor?

04. Görüntü sekansları için hikayeler oluşturmak için sahne grafiklerini kullanın

05. 2100 Glory of the King oyunu,% 99,8'lik 1v1 kazanma oranı, Tencent'in AI teknolojisinin yorumu

06. Çok görevli öğrenme, daha iyi bir parametre paylaşım mekanizması nasıl tasarlanır?

07. Kelimeleri unuttunuz mu? Bu model size yardımcı olabilir | Çok kanallı ters sözlük modeli

08. DualVD: görsel diyalog için yeni bir çerçeve

09. BabelNet ile çok dilli Yiyuan bilgi tabanı oluşturun

10. Boşluğun doldurulması kolaydır: uçtan uca konuşma çevirisinde ön eğitim ve ince ayar için bağlantı yöntemi

11. Zaman iki boyutlu olabilir mi? İki boyutlu zaman haritasına dayalı video içeriği segmenti algılama

12. Daha az düzenli ilişki öğrenimi için sinir ağı kartopu mekanizması

13. Çözülme modeli aracılığıyla anlamsal ve gramatik beyin temsil mekanizmasının keşfedilmesi

14. Çok modlu kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetleme

15. Farklı çeviriler oluşturmak için çok başlı dikkat mekanizması kullanın

16. Bilgi grafiğini genişletmek için sıfır örnek öğrenme (video yorumlama)

AAAI 2020 | Shanghai Jiaotong Üniversitesi: Görüntü sorgusuna dayalı video alma, kod açık kaynak kodludur
önceki
"AI En İyi İşveren" oylamasına katılın ve iPad mini dahil 5 harika hediyeyi ücretsiz olarak kazanın
Sonraki
Today Paper | 3B hareket tahmini; kendi kendine öğrenen robot; sağlam anlamsal bölümleme; evrişimli sinir ağı; karışık Gauss süreci, vb.
Microsoft ve Pekin Üniversitesi ortaklaşa "mızrak ve kalkan" ın gerçekçi versiyonunu yorumlamak için yüzü değiştiren bir yapay zeka ve yüz sahteciliği dedektörü önerdi.
Today Paper | Tıbbi görüntülerde derin öğrenme; meta-pekiştirmeli öğrenme; derin sinir ağlarının kayıpsız sıkıştırılması vb.
Model budama, "kesik" nedir?
Kayıt | Tsinghua-Chinese Academy of Engineering Knowledge Intelligence Joint Research Center Annual Conference and AI 2000AI TIME10
Today's Paper | Streamline BERT; yüz değişimi; 3D nokta bulutu; DeepFakes ve 5G vb.
Videoyu anlamak ve yeniden üretmek zor mu? FAIR şampiyon algoritmasının açık kaynak kodu PySlowFast'ın ayrıntılı açıklaması
AAAI 2020 | Nanjing Üniversitesi: Farklı çeviriler oluşturmak için çok başlı dikkat mekanizmasını kullanma
ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?
Tushen genellikle diferansiyel denklemler, GNN'nin becerilerini sürekli derinlik alanında göstermesi nasıl sağlanır?
Bitkiler kitlesel yok olma döneminde nasıl hayatta kaldı?
AAAI 2020 | Multimodal kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetler
To Top