AAAI 2020 | Nanjing Üniversitesi: Farklı çeviriler oluşturmak için çok başlı dikkat mekanizmasını kullanma

Yazar | Sun Zewei

Bu makale kamu " Nanjing Üniversitesi NLP "

Mevcut Sinirsel Makine Çevirisi (NMT) zaten güçlü çeviri performansına sahiptir.Birçok model arasında, Transformer modeli en iyi sonuçları elde etmiştir. Geleneksel modelden iki açıdan farklıdır: Öz-Dikkat ve Çok Kafalı Dikkat.

Bu makale ana İkincisi için, geleneksel tek başlı dikkat mekanizması daha fazla araştırılmıştır ve geniş sonuç, dikkatin kelime hizalamasını temsil ettiğidir. Ancak, çok başlı dikkat mekanizmasının neyi temsil ettiğine dair araştırmalar hala eksiktir. Bu makale, Transformer'in çok kafalı dikkatinin bir gözlemine dayanmaktadır: Kod çözücünün son katmanı (Kod Çözücü), kodlayıcıya (Kodlayıcı) çoklu kelime hizalamasını temsil eden çok başlı bir dikkat mekanizmasına sahiptir. Ve bu fenomeni çeşitlendirilmiş çeviriler oluşturmak için kullanın. Ayrıca, çeviri modellerinin performansını artırmak için geri çeviri teknolojisinin kullanımına yardımcı olmak için çeşitlendirilmiş çeviriler kullanılır. Soru cevap göreviyle ilgili son deney de performansın arttığını kanıtladı.

Olay analizi

Her şeyden önce, varsayımımızı doğrulamak için: kod çözücünün son katmanının kodlayıcıya çok başlıklı dikkat mekanizması, çok kelimeli hizalamayı temsil eder, yani kod çözücünün son katmanına karşılık gelen kaynak kelime Oluşturulması en muhtemel olan sonraki kelimeler için üç doğrulama deneyi yaptık:

1. Kod çözücünün her bir başlığının maksimum dikkat değerine karşılık gelen kaynak kelimeyi seçeriz ve hedef kelimeyi oluşturmak için temel çeviri modelini kullanırız. Bir sonraki adımda hedef taraf tarafından oluşturulan softmax olasılık tablosundaki bu oluşturulan hedef dil kelimelerine bakın Şekil 1'de gösterildiği gibi sıralama numarası çok keskin bir dağılıma sahiptir ve karşılık gelen kelimelerin çoğu üst sıralarda yer almaktadır.

Şekil 1: Dikkat başlığı tarafından seçilen kelimeler çok üst sıralarda yer alıyor

2. İle Yukarıda Benzer şekilde, bu kelimelerin negatif log-olabilirliğine (Negatif Log-Olabilirlik, NLL) baktık ve her durumda R olarak derecelendirilen kelimenin ortalama NLL'sini hesapladık (örneğin, 1 numaralı kelimenin ortalama NLL'si olan K = 1) NLL), karşılaştırma için, Tablo 1'de gösterildiği gibi, seçilen kelimenin NLL'si çok küçüktür.

Tablo 1: Her durumda R-th kelimesinin NLL'si, her bir kafanın NLL'si çok küçüktür

3. Ayrıca, farklı dikkatleri kontrol ederek gelecek nesli kontrol edebileceğimizi gördük. Ayrıntılar için aşağıdaki örneğe bakın. Kaynak cümle "Geçen eylül ayından bu yana ihracattaki düşüşün Hindistan ekonomisinin bozulmasına yol açtığını söyledi." Model tercüme etti "dedi ve bir sonraki çeviriyi bekliyor. Şekil 2'de gösterildiği gibi şu anda her bir kafanın dikkatini çektik. Daha sonra, sırasıyla "baştan", "iniş" ve "çıkış" kelimelerine karşılık gelen 4., 5. ve 6. kafaları seçiyoruz. Diğer kafaları her seferinde bir başın dikkat değeriyle kapatıyoruz ve karşılık gelen kafayı gözlemliyoruz. Kelimeleri Tablo 2'de gösterildiği gibi anında üretilir.

Şekil 2: Farklı başlıklar, farklı kaynak kelimelere karşılık gelir

Tablo 2: Yeni nesli kontrol etmek için farklı başlıklar (farklı kaynak kelimelere karşılık gelen) seçin

Yöntem uygulaması

Bu fenomeni kullanarak, çeviri çeşitliliğini artırmak için çok başlı dikkat mekanizmasını kullanan bir algoritma öneriyoruz.

Spesifik olarak, her nesil anında, belirli bir kafa rastgele örneklenir ve dikkat değeri diğer kafaları örtmek için kullanılır. Ancak, üretimin her adımında örnekleme yapılırsa çeşitliliği önemli ölçüde artırabilse de çeviri kalitesini de düşürecektir. Bu nedenle, hedeflenen bir algoritma öneriyoruz: Birden çok başlık farklı kaynak kelimelere karşılık geliyorsa, bu, şu anda birden fazla makul aday olduğu anlamına gelir ve bu zamanda örnekleme yapacağız.

Özellikle aşağıdaki adımlara ayrılmıştır:

1. Her anın dikkat değerinin att (i, t, h) olmasına izin verin, bu da hedef ucun t-inci anı, h-inci kafasını ve kaynak uçtaki i-inci kelimenin dikkatini oluşturduğu anlamına gelir, biz h-inci sözcüğün dikkatini çekeriz. En güçlü kaynak kelime adayı (t, h) = argmax (att (i, t, h), i).

2. Kaynak kelime olarak seçilen adayların sayısını ve T kaynağın uzunluğunu gösterelim. Açıkçası, toplam (n) = H, burada H toplam kafa sayısını temsil eder.

3. max (n) ise < = K, sonra örnekleme, K süper parametredir. Bu adım dikkat dağıtıcı olarak anlaşılabilir ve farklı adaylar olabilir.

Spesifik algoritma, Algoritma 1'de gösterilmiştir.

Algoritma 1: Örnekleme stratejisi

Deneysel sonuçlar

NIST Çince-İngilizce veri seti, WMT14 İngilizce-Almanca veri seti ve WMT16 Yingluo veri seti üzerinde deneyler yaptık. Değerlendirme indeksi ana İki açıdan, çeviri kalitesi ve çeviri çeşitliliği için, çeviri kalitesi hala geleneksel BLEU'yu kullanıyor, yani referans çeviri ile karşılaştırmada (Referans-BLEU, rfb), kalite ne kadar yüksekse, o kadar iyi ve çeviri çeşitliliği birden çok nesil sonuçlarını kullanıyor. BLEU (Pair-Wise BLEU, pwb), çeşitlilik ne kadar düşükse, o kadar iyidir.

Son olarak, kapsamlı bir gösterge de öneriyoruz: Kalite Başına Çeşitlilik Arttırma (DEQ), artan çeşitlilik BLEU'nun, referansa kıyasla azaltılmış çeviri kalitesi BLEU'ya oranını temsil eder, daha büyük Bu, aynı kalite maliyetiyle daha yüksek çeşitliliğin elde edilebileceğini göstermektedir.

Deneysel sonuçlar Tablo 3, 4 ve 5'te gösterilmektedir. Önceki çalışmayla karşılaştırıldığında, nispeten yüksek bir çeviri kalitesini korurken daha büyük bir çeşitlilik elde ettik.

Tablo 3: Çin-İngiliz deneyi

Tablo 4: İngiliz-Alman deneyi

Tablo 5: Ying Luo deneyi

Önceki çalışmanın sonuçlarını ve gürültü grubunun (gürültünün neden olduğu çeşitlilik olasılığını ortadan kaldırmak için) Şekil 3'te grafiğini çiziyoruz. Yatay eksen rfb ve dikey eksen pwb'dir. Sağ alt Açı en iyi noktadır, sonuçlar yöntemlerimizin hepsinin Sağ alt açı.

Şekil 3: Çift Bazlı BLEU ve Referans BLEU

Daha Sağ alt Açı ne kadar iyi olursa, yöntemlerimizin tümü Sağ alt açı.

Tablo 6 bir örnektir:

Tablo 6: Farklı çevirilere örnekler

Şekil 4'te gösterildiği gibi, farklı uzunlukların deneysel sonuçlarına da baktık. Teorik olarak, uzunluk arttıkça çevirilerin çeşitliliği artmalıdır çünkü aramak Alan daha büyüktür, ancak doğal kusurları nedeniyle uzunluk ne kadar uzunsa çeşitlilik o kadar kötüdür. Yöntemimiz uzunluk arttıkça çeşitliliği artırma etkisini sağlamıştır.

Şekil 4: Cümle uzunluğu arttıkça çeşitlilikteki değişiklikler

Bu çeşitlendirilmiş çevirileri, Tablo 7 ve 8'de gösterildiği gibi hem Çince hem de İngilizce ve İngilizce-Çince deneylerinde geliştirilmiş olan Geri Çeviri yapmak için kullanıyoruz.

Tablo 7: Çince-İngilizce ters çeviri deneyi

Tablo 8: İngilizce-Çince ters çeviri deneyi

Son olarak, Tablo 9'da gösterildiği gibi sonuçlarımızı da doğrulayan bir diyalog deneyi var. Değerlendirme göstergeleri makalede ayrıntılı olarak açıklanmıştır.

Tablo 9: Diyalog deneyi

sonuç olarak

Bu makalede, Transformer modelinin doğal bir yapısal özelliğini keşfettik ve onu bir çeşitlilik çeviri oluşturma algoritması önermek için kullandık.Önceki çalışmayla karşılaştırıldığında, aynı kalitede daha yüksek çeşitlilik elde ettik. Yöntemimizden yararlanan ters çeviri algoritması ve diyalog stratejisi de her zamankinden daha iyi sonuçlar elde etti.

NLP Araştırma Grubunun Tanıtımı

Nanjing Üniversitesi Doğal Dil İşleme Araştırma Grubu, 1980'lerden beri doğal dil işleme alanında araştırmalar yapmaktadır. Bu alanda 18 proje üstlendi ülke Bilim ve teknoloji araştırma projeleri, 863 proje, ülke Çin Doğa Bilimleri Vakfı, Jiangsu Eyaleti Doğa Bilimleri Vakfı ve bir dizi yabancı işbirliği projesinin araştırılması ve geliştirilmesi. Bunların arasında taahhüt ülke Yedinci Beş Yıllık Bilim ve Teknoloji Projesi "Japon-Çin Makine Çeviri Sistemi Araştırması" Yedinci Beş Yıllık Planı kazandı ülke Bilimsel ve teknolojik araştırma için büyük başarı ödülü, Eğitim Komisyonunun bilimsel ve teknolojik ilerlemesi için ikincilik ödülü ve Jiangsu Eyaletinin bilimsel ve teknolojik ilerlemesi için üçüncülük ödülü.

İnsan dilini analiz etmek ve anlamak, yapay zekanın önemli konularından biridir.Bu araştırma grubu, doğal dil işlemenin çeşitli yönlerinde çok sayıda derinlemesine çalışma yaptı. Son yıllarda konsantre Dikkat Metin analizi, makine çevirisi, sosyal medya analizi önerileri, bilgi soruları ve cevapları ve diğer birçok sıcak konu, Birleştirmek Problemleri modellemek ve çözmek için istatistiksel yöntemler ve derin öğrenme yöntemleri kullanılır ve zengin sonuçlar elde edilmiştir. Bu araştırma grubu, en iyi uluslararası doğal dil işlemede yer almaktadır. toplantı Art arda üç yıl ACL'de birden fazla makale yayınladı toplantı IJCAI ve AAAI hakkında birçok makale yayınlanmıştır ve ilgili sistemler, makine çevirisi, Çince kelime segmentasyonu, adlandırılmış varlık tanıma ve duygusal hesaplama gibi birçok uluslararası ve yerel değerlendirmede en iyiler arasındadır.

Laboratuvar, geleneksel metin ve İnternet kaynaklarının analizi ve işlenmesinde karşılaşılan çeşitli sorunları ve zorlukları araştırmaya ve çözmeye ve doğal dil işlemenin çeşitli uygulamalarını aktif olarak keşfetmeye kararlıdır. Bizimle ortak ilgi alanlarınız veya hedefleriniz varsa, bize katılmaya hoş geldiniz!

Videoyu anlamak ve yeniden üretmek zor mu? FAIR şampiyon algoritmasının açık kaynak kodu PySlowFast'ın ayrıntılı açıklaması
önceki
ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?
Sonraki
Tushen genellikle diferansiyel denklemler, GNN'nin becerilerini sürekli derinlik alanında göstermesi nasıl sağlanır?
Bitkiler kitlesel yok olma döneminde nasıl hayatta kaldı?
AAAI 2020 | Multimodal kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetler
En üst düzey konferans raporu teklif için nasıl gerekli bir koşul haline geldi?
En gelişmiş nesne dedektörü fillere göz yumuyor
"duman" mı? Bekle, bir düşün
2019'da uzayda hangi uzay çevre olayları oldu?Arama Alanı
Kum sabitleyen çalılardan kurtulmanın yolu
90'larda doğan on milyonlarca insan olan Ningbo evlendi ve sadece 4 sofra şarabı vardı! Tören bir saatten az sürdü ve nedimeler yoktu! Gelin dedi ki ...
Evdeki tuvalet bakıma muhtaç ve adam yarım ay boyunca alt kata dışkı atıyor.
Adam banyo yaparken trafik kazasında yakalandı ama iki kilometre uzakta öldü mü?
Büyük Veri Wuhan halkı, yaklaşan Bahar Festivali tatilinde başlangıçta nereye uçtu?
To Top