Büyük ölçekli çok dilli genel sinir makinesi çeviri yönteminin analizi

Yazar Chen Hexuan

Editör | Tang Li

Şu anda Nöral Makine Çevirisi (NMT), akademi ve endüstride en gelişmiş makine çevirisi yöntemi haline geldi. Kodlayıcı-kod çözücü mimarisine dayanan orijinal makine çeviri sistemi, tümü tek bir dil çifti için çevrildi. Son zamanlarda yapılan çalışmalar, bu yaklaşımı birden çok dil arasında çeviriyi desteklemek, yani yalnızca bir model eğiterek birden çok dil arasında çeviriyi desteklemek için genişletmeyi keşfetmeye başlamıştır.

En popüler Transformer modeli olmasına rağmen Çok Tek bir dil çiftinde makine çevirisi performansının iyileştirilmesini teşvik etti, ancak birden çok dil için makine çevirisi modelleri üzerine yapılan araştırmalar, birden çok dil arasında çeviri için model parametrelerinin miktarı ve çeviri hizmeti dağıtımının zorluğu gibi özel ihtiyaçlarından kaynaklanıyor. Çok dilli NMT hakkında çok sayıda araştırma yapılmış olmasına rağmen, gerçek dünya senaryolarında diller ve büyük ölçekli çok dilli modeller arasındaki ortaklıkları tanımada hala sorunlar ve zorluklar vardır.

Tek, Çok Dilli Makine Çevirisi

Çok dilli makine çevirisinin en rasyonel amacı, herhangi bir dil çiftini tek bir model aracılığıyla çevirebilmektir. Tüm dil çiftleri "kaynak dil" - "hedef dil" özel tek dil çifti olarak kabul edilirse, olasılık modeli yine de şu şekilde ifade edilebilir:

Dong ve diğerleri tarafından önerilen modeli örnek alarak, farklı modellerin farklı kayıp hesaplama yöntemleri olmasına rağmen, birçok model dahili olarak kayıpları hesaplarken hala belirli dil çifti hesaplamalarına güvenir:

Çok dilli makine çeviri modelinin araştırılmasının birçok nedeni vardır.

Şimdi N dil arasında çeviri yapmamız gerektiğini varsayalım. Geleneksel yöntem, karşılıklı çeviri için N (N-1) modelleri eğitmektir. Belirli bir aracı dili geçerseniz, yine de 2 (N-1) karşılıklı çeviri eğitmeniz gerekir. Model. Birbirleri arasında çevrilecek N dillerinin sayısı nispeten büyük olduğunda, buna göre çok miktarda insan gücü ve malzeme kaynağı tüketen büyük miktarda model eğitimi ve konuşlandırması gerekecektir. Bununla birlikte, makul tasarım ve eğitim yoluyla, bu diller arasında karşılıklı çeviriyi gerçekleştirmek için tek bir model elde edilir ve bu da maliyeti büyük ölçüde azaltacaktır.

Ortak eğitim ve yüksek kaynak dillerinden öğrenilen bilginin aktarımı nedeniyle, çok dilli model, düşük kaynaklı veya hatta sıfır kaynaklı dil çiftleri arasındaki çeviri performansını iyileştirir. Bununla birlikte, bu aynı zamanda orijinal yüksek kaynak dilinin eğitimine müdahale ederek performansı düşürür. Aynı zamanda, performans iyileştirmeleri elde etmek hala zorlu bir sorundur.

Kaynak ve hedef diller tarafından kapsanan dillerin sayısına bağlı olarak dil çiftleri arasındaki eşleştirme perspektifinden, çok dilli NMT modelinde çoktan bire, bire çok ve çoktan çoğa dahil olmak üzere üç strateji vardır. Çoktan bire model öğrenme, kaynak taraftaki herhangi bir dili hedef taraftaki belirli bir dile çevirir.Bu durumda, genellikle İngilizce gibi zengin külliyat içeren bir dil seçilir. Benzer, bire-çok model öğrenme kaynak tarafında bir olacaktır. Hedef tarafta iki dilden herhangi bir dile çeviri yapın. Çoktan bire model genellikle çok alanlı bir öğrenme problemi olarak görülür, kaynak dilde olduğu gibi son girdi dağılımı tutarsızdır, ancak bir hedef dile çevrilecektir. Birden çoğa modeli, dili ayrı bir görev olarak hedeflemek için her bir kaynak dil çiftine benzer şekilde çok görevli bir problem olarak görülebilir. Çoktan çoğa modeli, bu iki modelin bir koleksiyonudur.

Kaynak ve hedef dillerin sayısından bağımsız olarak, çok dilli makine çevirisi modellerinin iyileştirilmesi aynı zamanda "ilgili alanlar" ve "ilgili görevler" arasındaki bilgi aktarımına da dayanmaktadır.

Çok dilli NMT çok çalışılmış olsa da, bu tür araştırmalar için hala büyük sınırlamalar vardır ve doğrulanmış dil çiftlerinin sayısı da çok sınırlıdır. Tek bir model, büyük ölçekli bir dil çiftinin performansını başarabilse de, üzerinde çalışılmaya değer bir çok zorluk vardır: farklı dil çiftleri arasında aktarım öğrenimi; modelin kendisi parametreler ve öğrenme yetenekleriyle sınırlıdır. Düşük kaynak ve yüksek kaynak verileri dahil olmak üzere büyük ölçekli dil çiftlerinde çok dilli makine çevirisinin performansı ve sorunları (bu yüksek ve düşük karşılaştırması, genel veri hacminin karşılaştırması yoluyla) da kapsamlı bir şekilde incelenmiş ve tartışılmıştır.

2. Eğitim stratejisi

Tek dilli çeviri modeli için eğitim yöntemi ile karşılaştırıldığında, çok dilli eğitim yöntemi, farklı modeller ve veri dağılımı nedeniyle önemli ölçüde farklıdır. Çok dilli veriler, farklı dil çiftlerinin verilerinden oluştuğundan ve hatta farklı dil çiftlerinin sayısı farklı olduğundan, veri dengesizliği sorunu vardır. Bu, aynı stratejinin tek bir dil çifti için eğitim yöntemi olarak benimsenmesi durumunda elde edilen modelin performansını düşürmeyi mümkün kılar. Bu nedenle, iyi bir eğitim stratejisi oluşturmak, çok dilli makine çevirisi modelleri için daha önemli bir şeydir.

Model eğitimi aşaması için farklı model yapıları farklı stratejiler belirler. Dong ve arkadaşları, birden çoğa çok dilli makine çeviri modeli için tek bir kodlayıcı ve birden çok dilden bağımsız kod çözücü modeli yapıları tasarladı.Bu yapı altında, modelin parametrelerini güncellemek için bir döndürme yöntemi kullanılır.Güncelleme yineleme sürecinde 'De, bitişik n sayıda grubun verileri aynı dilde sabitlenir ve farklı diller aynı şekilde döndürülür.Bu strateji, tek bir dilin eğitiminde "toplu iş" içindeki verileri büyütür. N grup verinin boyutudur. Johnson ve diğerleri, tek dil için makine çeviri modeliyle aynı olan, yalnızca bir kodlayıcı ve bir kod çözücü yapısı kullanan ve yalnızca çevrilecek hedef dili belirtmek için kaynak cümleye bir önek ekleyen daha basit bir model yapısını benimsemiştir. Eğitim modelleri. Bu son derece basit model yapısı, model eğitimine de büyük baskı uygular.Veri dengesizliği nedeniyle, aşırı örnekleme veya yetersiz örnekleme benimsenir ve tek bir parti oluştururken bile farklı dillerin belirli bir oranı oluşturulur Çift miktarı.

Eğitim stratejileri ayrıca denetimsiz eğitim yöntemleri (Sen ve diğerleri), bilgi iyileştirme (Tan ve diğerleri) ve orijinal çok dilli makine çevirisine (Escolano ve diğerleri) yeni dil çiftleri eklemek için farklı eğitim stratejilerini içerir.

3. Büyük ölçekli çok dilli makine çevirisi

En fazla sayıda dili öğrenmek için tek bir model keşfetmek için. Aharoni ve arkadaşları bunun üzerine araştırma yaptılar ve çok sayıda deney gerçekleştirdiler.

Deney Ha et al., Johnson et al. Benimsedi ve kaynak cümlelerde çoktan çoğa çeviriye olanak sağladı. Çeviri modeli, tamamen Dikkat (Vaswani ve diğerleri) temelli bir Transformer modeli mimarisi kullanır. Tüm deneysel sonuçlarda, BLEU'nun (Papineni ve ark.) Değerlendirme yöntemi benimsenmiştir. Model eğitiminde, tek bir grup farklı dil çiftlerinin verilerini karıştırır. Deneyde dahili veri setleri kullanıldı. Veri seti 102 dil çifti içerir.Dil çiftleri karşılıklı olduğu için İngilizce ile "yansıtılabilir". Her dil çifti 1 milyona kadar örnek içerebilir. Böylelikle toplam 103 dil tercüme edilebilir ve aynı anda 204 tercüme yönü eğitilebilir.

Deney, farklı dil ailelerinden 10 dil seçti:

Semitik (Arapça (Ar), İbranice (He)); Romence (Galiçyaca (Gl), İtalyanca (It), Romence (Ro)); Cermen (Almanca (De), Hollandaca (Nl)); Slav (Belarusça (Be) , Slovakça (Sk)) ve Türkçe (Azerice (Az), Türkçe (Tr)).

Model yapısı

Deneyde kullanılan model, Şekil 1'de gösterildiği gibi Transformer yapısıdır.

Şekil 1 Trafo model yapısı

Daha fazla ayrıntı için lütfen Vaswani ve diğerlerinin çalışmasına bakın.

Deneysel sonuçlar

Tablo 1, 10 dilden İngilizceye çevirinin bire çok, çoka bir ve çoktan çoğa deneysel sonuçlarıdır.

Yukarıdaki tablo 10 dilden İngilizceye çeviri sonuçlarını göstermektedir ve aşağıdaki tablo İngilizceden 10 dile çeviri sonuçlarını göstermektedir.

Tablo 1 Yüksek kaynak verilerinde bire çok, çoka bir ve çoktan çoğa deneysel sonuçlar

analiz

Deneyde, 103 dil için İngilizce merkezli çok dilli bir makine çevirisi yapıldı.

Aynı veriler söz konusu olduğunda, çoklu dil modellerinin bire çok, çoka bir ve çoktan çoğa modelleri çoğunlukla tek dil çifti modellerinden daha yüksektir ve bu da modelin aynı anda daha fazla dil çifti eğitme yeteneğine sahip olduğunu gösterir. Bununla birlikte, bazı dil çiftleri hala yüksek derecede dalgalanma gösterir ve karşılık gelen tek dilli çift modelinden daha düşüktür. Bu aynı zamanda, bu ayar altında, İtalyanca-İngilizce gibi bazı dil çiftlerinin daha fazla müdahaleye maruz kaldığını göstermektedir.

Çok dilli model modunda, bire çok ve çoktan büyüğe modellerin performansı çoktan çoğa modellerin performansını aşar. Yine, bu avantaj, çoktan çoğa modeller gibi hedef uçta İngilizce'ye önyargılı olmak yerine, daha az görevle ilgilenen bire çok ve çoka çoğa modellerden kaynaklanıyor olabilir. Bunların arasında hala çoktan çoğa göre daha zayıf olan çoktan bire dil çiftleri vardır.Bu durumda, hedef taraftaki büyük miktarda İngilizce verisi nedeniyle, potansiyel olarak benzer diller arasındaki öğrenmenin aktarılması ve kod çözme tarafındaki aşırı uyum sorunlarından kaynaklanıyor olabilir.

Yukarıdaki sonuçlar, çok sayıda çok dilli NMT'nin gerçekten büyük ölçekli bir ortamda kullanılabileceğini ve güçlü bir iki dilli temelde performansı artırabileceğini göstermektedir.

sorun

Çok sayıda dil eklenmiş olmasına rağmen, çok dilli çeviri için tek bir modelin potansiyelini göstermektedir. Ancak yine de nispeten sınırlı bir durumda, gerçeklik, çok sayıda tek dil çiftinin Çok Modelin çeviri yeteneğini geliştirin, ancak bu tür büyük verileri aynı anda birden çok dilde kullanma performansı makul bir şekilde kanıtlanmamıştır.Aynı zamanda, deneyde kullanılan verilerin kalitesi nispeten yüksektir. Gerçekte, toplanan veriler çok fazla gürültü ve model kaybına neden olacaktır. Verim.

Dördüncü olarak, özet ve görünüm

Çok dilli NMT kavramı önerildiğinden beri, ilgili makaleler durmadan ortaya çıkmıştır. Son yıllarda, uygulamada kullanılan büyük ölçekli çok dilli makine çevirisi, daha karmaşık gerçek dünya uygulamalarında kullanım için güçlü destek sağlayan kapsamlı araştırmalar da almıştır (Aharoni ve diğerleri, Arivazhagan ve diğerleri).

Bu büyük ölçekli çok dilli makine çevirisinden beklenen mükemmel özellikler şunları içerir:

1. Tek bir modelde ele alınan dil sayısı bakımından en büyüğü. Modelde, çevrilebilen dil çifti ne kadar fazla olursa, o kadar iyi ve daha fazla kaynak kaydedilebilir;

2. Yüksek kaynak dillerinden düşük kaynak dillerine en büyük pozitif bilgi aktarımı. Bu şekilde, yalnızca yüksek kaynak dil çiftlerinin performansı elde edilemez, aynı zamanda düşük kaynak dil çiftlerinin performansı da verilerden tam olarak yararlanılarak iyileştirilebilir.

3. Yüksek kaynak dillerine minimum müdahale (olumsuz aktarım). Diğer faktörlerin yüksek kaynak dili ile eğitim üzerindeki olumsuz etkilerinden kaçının.

4. Sağlam çok dilli NMT modeli gerçekçi açık alan ayarlarında iyi performans gösterir. Gerçekçi dağıtım ve kullanım için elverişli.

Şu anda büyük ilerleme kaydedilmiş olsa da, çok dilli makine çevirisinin hala birçok sorunu ve zorluğu vardır.

Referanslar

Da xi angDong, Hua Wu, Wei He, Dianhai Yu ve Haifeng Wang.2015. Çoklu dil çevirisi için çok görevli öğrenme.

Melvin Johnson, Mike Schuster, Quoc V Le, ve diğerleri 2017. Google'ın çok dilli nöral makine çeviri sistemi: Sıfır vuruşlu çeviri sağlama.

SukantaSen, Kamal Kumar Gupta, Asif Ekbal, Pushpak Bhattacharyya. 2019. Paylaşımlı Kodlayıcı ve Dile Özgü Kod Çözücüleri kullanan Çok Dilli Denetimsiz NMT

XuTan, Yi Ren, Di He, Tao Qin, Zhou Zhao, Tie-Yan Liu.2019. Bilgi Damıtma ile Çok Dilli Sinir Makinesi Çevirisi

CarlosEscolano, Marta R. Costa-jussà, José A. R. Fonollosa. 2019. Artımlı Eğitim ile İki Dilli'den Çok Dilli Sinir Makinesi Çevirisine

Thanh-Le Ha, Jan Niehues ve Alexander Waibel. 2016. Evrensel kodlayıcı ve kod çözücü ile çok dilli nöral makine çevirisine doğru.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, AidanN Gomez, ukasz Kaiser ve Illia Polosukhin. 2017. İhtiyacınız olan tek şey dikkat.

Kishore Papineni, Salim Roukos, Kime gg Ward ve Wei-Jing Zhu.2002. Bleu: makine çevirisinin otomatik değerlendirilmesi için bir yöntem.

Naveen Arivazhagan, Ankur Bapna, Orhan Fırat, Dmitry Lepikhin, Melvin Johnson, Ma xi m Krikun, Mia Xu Chen, Yuan Cao, George Foster, Colin Cherry, WolfgangMacherey, Zhifeng Chen, Yonghui Wu. 2019. Çok Dilli Çok Dilli Sinir Makinesi Vahşi Doğada Çeviri: Bulgular ve Zorluklar

Roee Aharoni, Melvin Johnson, Orhan Fırat.2019. Çok Dilli Çok Dilli NeuralMachine Çeviri

Chen Hexuan, Northeastern Üniversitesi Doğal Dil İşleme Laboratuvarı'nda yüksek lisans öğrencisidir.Araştırma alanı makine çevirisi.

Xiaoniu Translation, çekirdek üyeler Profesör Yao Tianshun tarafından kurulan Northeastern Üniversitesi Doğal Dil İşleme Laboratuvarından gelmektedir. 198 0 yıl içinde, Profesör Zhu Jingbo ve Dr. Xiao Tong liderliğinde, makine çevirisi, dil analizi, metin madenciliği vb. Dahil olmak üzere uzun süredir hesaplamalı dilbilimle ilgili araştırma çalışmalarında bulundu. Takım araştırma ve geliştirme desteği 140 Niu Translator'ın çeviri sistemi yaygın olarak kullanıldı ve makine çevirisi teknolojisinin küresel işletmeleri güçlendirmesini sağlamak için Niu Translator Cloud (https://niutrans.vip) geliştirildi.

Yüzlerce Çinli öğrenci New York'u ziyaret eden "Hong Kong kaosunu" protesto etti: "Hong Kong barış istiyor!"
önceki
İlk "Ulusal Yapay Zeka Yarışması" - AI + 4K en iyi oyuncuların fikirlerine bir bakış
Sonraki
Gerçek ve sahte "Mei Teyze" ekranının dışında, neyi daha çok önemsemeliyiz?
Elektrikli arabadan pil çalmaktan tutuklanan adam
191124 Cheng Cheng'i özçekim becerilerini yeniden kazandığı için tebrikler Yakışıklı oğul özçekimiyle geri döndü.
Sichuan takımı Mengda üç sayı farkla yükseldi, sezonun ilk deplasman galibiyeti için Shandong'u kazandı
191124 Life blog yazarı Zhu Zhengting iş için çevrimiçi oluyor. Sanat bebeklerinin aynı film listesine sahip olmayı hak ediyorsunuz
191124 Cai Xukun, öğretmen Ikun'un selfie ödevini verdi! Çin Cumhuriyeti'nin sade retro elbisesi
Süper Lig'de ayın en iyi teknik direktörünü kazandınız! Li Xiaopeng: Bu kendime bir teşvik
Beijing Derby Version 2.0 bu gece geliyor, Lao Ma, Sun Yue, Shu Hao ve diğerleri Wukesong'da toplandı
191124 Soğuk donmuş tarihler çevrimiçi Li Yifeng, Xiamen'den Qingdao'ya sabah erken saatlerde uçuyor
Paris Moda Ev Tasarım Sergisine girin Sandriver dünyayla konuşmak için kaşmir el yapımı sanatını kullanıyor
Chongqing Swiss, Shandong Luneng'e meydan okumaya geldi, maç öncesi antrenman ölümcül oldu
Sanayi ve Bilgi Teknolojileri Bakanlığı tarafından yeniden tanınan Gujing Gongjiu, ulusal endüstriyel tasarım merkezi olarak ödüllendirildi.
To Top