Yazar | Sun Zewei
Bu makale kamu " Nanjing Üniversitesi NLP "
Mevcut Sinirsel Makine Çevirisi (NMT) zaten güçlü çeviri performansına sahiptir.Birçok model arasında, Transformer modeli en iyi sonuçları elde etmiştir. Geleneksel modelden iki açıdan farklıdır: Öz-Dikkat ve Çok Kafalı Dikkat.
Bu makale ana İkincisi için, geleneksel tek başlı dikkat mekanizması daha fazla araştırılmıştır ve geniş sonuç, dikkatin kelime hizalamasını temsil ettiğidir. Ancak, çok başlı dikkat mekanizmasının neyi temsil ettiğine dair araştırmalar hala eksiktir. Bu makale, Transformer'in çok kafalı dikkatinin bir gözlemine dayanmaktadır: Kod çözücünün son katmanı (Kod Çözücü), kodlayıcıya (Kodlayıcı) çoklu kelime hizalamasını temsil eden çok başlı bir dikkat mekanizmasına sahiptir. Ve bu fenomeni çeşitlendirilmiş çeviriler oluşturmak için kullanın. Ayrıca, çeviri modellerinin performansını artırmak için geri çeviri teknolojisinin kullanımına yardımcı olmak için çeşitlendirilmiş çeviriler kullanılır. Soru cevap göreviyle ilgili son deney de performansın arttığını kanıtladı.
Olay analizi
Her şeyden önce, varsayımımızı doğrulamak için: kod çözücünün son katmanının kodlayıcıya çok başlıklı dikkat mekanizması, çok kelimeli hizalamayı temsil eder, yani kod çözücünün son katmanına karşılık gelen kaynak kelime Oluşturulması en muhtemel olan sonraki kelimeler için üç doğrulama deneyi yaptık:
1. Kod çözücünün her bir başlığının maksimum dikkat değerine karşılık gelen kaynak kelimeyi seçeriz ve hedef kelimeyi oluşturmak için temel çeviri modelini kullanırız. Bir sonraki adımda hedef taraf tarafından oluşturulan softmax olasılık tablosundaki bu oluşturulan hedef dil kelimelerine bakın Şekil 1'de gösterildiği gibi sıralama numarası çok keskin bir dağılıma sahiptir ve karşılık gelen kelimelerin çoğu üst sıralarda yer almaktadır.
Şekil 1: Dikkat başlığı tarafından seçilen kelimeler çok üst sıralarda yer alıyor
2. İle Yukarıda Benzer şekilde, bu kelimelerin negatif log-olabilirliğine (Negatif Log-Olabilirlik, NLL) baktık ve her durumda R olarak derecelendirilen kelimenin ortalama NLL'sini hesapladık (örneğin, 1 numaralı kelimenin ortalama NLL'si olan K = 1) NLL), karşılaştırma için, Tablo 1'de gösterildiği gibi, seçilen kelimenin NLL'si çok küçüktür.
Tablo 1: Her durumda R-th kelimesinin NLL'si, her bir kafanın NLL'si çok küçüktür
3. Ayrıca, farklı dikkatleri kontrol ederek gelecek nesli kontrol edebileceğimizi gördük. Ayrıntılar için aşağıdaki örneğe bakın. Kaynak cümle "Geçen eylül ayından bu yana ihracattaki düşüşün Hindistan ekonomisinin bozulmasına yol açtığını söyledi." Model tercüme etti "dedi ve bir sonraki çeviriyi bekliyor. Şekil 2'de gösterildiği gibi şu anda her bir kafanın dikkatini çektik. Daha sonra, sırasıyla "baştan", "iniş" ve "çıkış" kelimelerine karşılık gelen 4., 5. ve 6. kafaları seçiyoruz. Diğer kafaları her seferinde bir başın dikkat değeriyle kapatıyoruz ve karşılık gelen kafayı gözlemliyoruz. Kelimeleri Tablo 2'de gösterildiği gibi anında üretilir.
Şekil 2: Farklı başlıklar, farklı kaynak kelimelere karşılık gelir
Tablo 2: Yeni nesli kontrol etmek için farklı başlıklar (farklı kaynak kelimelere karşılık gelen) seçin
Yöntem uygulaması
Bu fenomeni kullanarak, çeviri çeşitliliğini artırmak için çok başlı dikkat mekanizmasını kullanan bir algoritma öneriyoruz.
Spesifik olarak, her nesil anında, belirli bir kafa rastgele örneklenir ve dikkat değeri diğer kafaları örtmek için kullanılır. Ancak, üretimin her adımında örnekleme yapılırsa çeşitliliği önemli ölçüde artırabilse de çeviri kalitesini de düşürecektir. Bu nedenle, hedeflenen bir algoritma öneriyoruz: Birden çok başlık farklı kaynak kelimelere karşılık geliyorsa, bu, şu anda birden fazla makul aday olduğu anlamına gelir ve bu zamanda örnekleme yapacağız.
Özellikle aşağıdaki adımlara ayrılmıştır:
1. Her anın dikkat değerinin att (i, t, h) olmasına izin verin, bu da hedef ucun t-inci anı, h-inci kafasını ve kaynak uçtaki i-inci kelimenin dikkatini oluşturduğu anlamına gelir, biz h-inci sözcüğün dikkatini çekeriz. En güçlü kaynak kelime adayı (t, h) = argmax (att (i, t, h), i).
2. Kaynak kelime olarak seçilen adayların sayısını ve T kaynağın uzunluğunu gösterelim. Açıkçası, toplam (n) = H, burada H toplam kafa sayısını temsil eder.
3. max (n) ise < = K, sonra örnekleme, K süper parametredir. Bu adım dikkat dağıtıcı olarak anlaşılabilir ve farklı adaylar olabilir.
Spesifik algoritma, Algoritma 1'de gösterilmiştir.
Algoritma 1: Örnekleme stratejisi
Deneysel sonuçlar
NIST Çince-İngilizce veri seti, WMT14 İngilizce-Almanca veri seti ve WMT16 Yingluo veri seti üzerinde deneyler yaptık. Değerlendirme indeksi ana İki açıdan, çeviri kalitesi ve çeviri çeşitliliği için, çeviri kalitesi hala geleneksel BLEU'yu kullanıyor, yani referans çeviri ile karşılaştırmada (Referans-BLEU, rfb), kalite ne kadar yüksekse, o kadar iyi ve çeviri çeşitliliği birden çok nesil sonuçlarını kullanıyor. BLEU (Pair-Wise BLEU, pwb), çeşitlilik ne kadar düşükse, o kadar iyidir.
Son olarak, kapsamlı bir gösterge de öneriyoruz: Kalite Başına Çeşitlilik Arttırma (DEQ), artan çeşitlilik BLEU'nun, referansa kıyasla azaltılmış çeviri kalitesi BLEU'ya oranını temsil eder, daha büyük Bu, aynı kalite maliyetiyle daha yüksek çeşitliliğin elde edilebileceğini göstermektedir.
Deneysel sonuçlar Tablo 3, 4 ve 5'te gösterilmektedir. Önceki çalışmayla karşılaştırıldığında, nispeten yüksek bir çeviri kalitesini korurken daha büyük bir çeşitlilik elde ettik.
Tablo 3: Çin-İngiliz deneyi
Tablo 4: İngiliz-Alman deneyi
Tablo 5: Ying Luo deneyi
Önceki çalışmanın sonuçlarını ve gürültü grubunun (gürültünün neden olduğu çeşitlilik olasılığını ortadan kaldırmak için) Şekil 3'te grafiğini çiziyoruz. Yatay eksen rfb ve dikey eksen pwb'dir. Sağ alt Açı en iyi noktadır, sonuçlar yöntemlerimizin hepsinin Sağ alt açı.
Şekil 3: Çift Bazlı BLEU ve Referans BLEU
Daha Sağ alt Açı ne kadar iyi olursa, yöntemlerimizin tümü Sağ alt açı.
Tablo 6 bir örnektir:
Tablo 6: Farklı çevirilere örnekler
Şekil 4'te gösterildiği gibi, farklı uzunlukların deneysel sonuçlarına da baktık. Teorik olarak, uzunluk arttıkça çevirilerin çeşitliliği artmalıdır çünkü aramak Alan daha büyüktür, ancak doğal kusurları nedeniyle uzunluk ne kadar uzunsa çeşitlilik o kadar kötüdür. Yöntemimiz uzunluk arttıkça çeşitliliği artırma etkisini sağlamıştır.
Şekil 4: Cümle uzunluğu arttıkça çeşitlilikteki değişiklikler
Bu çeşitlendirilmiş çevirileri, Tablo 7 ve 8'de gösterildiği gibi hem Çince hem de İngilizce ve İngilizce-Çince deneylerinde geliştirilmiş olan Geri Çeviri yapmak için kullanıyoruz.
Tablo 7: Çince-İngilizce ters çeviri deneyi
Tablo 8: İngilizce-Çince ters çeviri deneyi
Son olarak, Tablo 9'da gösterildiği gibi sonuçlarımızı da doğrulayan bir diyalog deneyi var. Değerlendirme göstergeleri makalede ayrıntılı olarak açıklanmıştır.
Tablo 9: Diyalog deneyi
sonuç olarak
Bu makalede, Transformer modelinin doğal bir yapısal özelliğini keşfettik ve onu bir çeşitlilik çeviri oluşturma algoritması önermek için kullandık.Önceki çalışmayla karşılaştırıldığında, aynı kalitede daha yüksek çeşitlilik elde ettik. Yöntemimizden yararlanan ters çeviri algoritması ve diyalog stratejisi de her zamankinden daha iyi sonuçlar elde etti.
NLP Araştırma Grubunun Tanıtımı
Nanjing Üniversitesi Doğal Dil İşleme Araştırma Grubu, 1980'lerden beri doğal dil işleme alanında araştırmalar yapmaktadır. Bu alanda 18 proje üstlendi ülke Bilim ve teknoloji araştırma projeleri, 863 proje, ülke Çin Doğa Bilimleri Vakfı, Jiangsu Eyaleti Doğa Bilimleri Vakfı ve bir dizi yabancı işbirliği projesinin araştırılması ve geliştirilmesi. Bunların arasında taahhüt ülke Yedinci Beş Yıllık Bilim ve Teknoloji Projesi "Japon-Çin Makine Çeviri Sistemi Araştırması" Yedinci Beş Yıllık Planı kazandı ülke Bilimsel ve teknolojik araştırma için büyük başarı ödülü, Eğitim Komisyonunun bilimsel ve teknolojik ilerlemesi için ikincilik ödülü ve Jiangsu Eyaletinin bilimsel ve teknolojik ilerlemesi için üçüncülük ödülü.
İnsan dilini analiz etmek ve anlamak, yapay zekanın önemli konularından biridir.Bu araştırma grubu, doğal dil işlemenin çeşitli yönlerinde çok sayıda derinlemesine çalışma yaptı. Son yıllarda konsantre Dikkat Metin analizi, makine çevirisi, sosyal medya analizi önerileri, bilgi soruları ve cevapları ve diğer birçok sıcak konu, Birleştirmek Problemleri modellemek ve çözmek için istatistiksel yöntemler ve derin öğrenme yöntemleri kullanılır ve zengin sonuçlar elde edilmiştir. Bu araştırma grubu, en iyi uluslararası doğal dil işlemede yer almaktadır. toplantı Art arda üç yıl ACL'de birden fazla makale yayınladı toplantı IJCAI ve AAAI hakkında birçok makale yayınlanmıştır ve ilgili sistemler, makine çevirisi, Çince kelime segmentasyonu, adlandırılmış varlık tanıma ve duygusal hesaplama gibi birçok uluslararası ve yerel değerlendirmede en iyiler arasındadır.
Laboratuvar, geleneksel metin ve İnternet kaynaklarının analizi ve işlenmesinde karşılaşılan çeşitli sorunları ve zorlukları araştırmaya ve çözmeye ve doğal dil işlemenin çeşitli uygulamalarını aktif olarak keşfetmeye kararlıdır. Bizimle ortak ilgi alanlarınız veya hedefleriniz varsa, bize katılmaya hoş geldiniz!