g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Baidu AAAI 2018 kabul edilen kağıt: Dikkat mekanizmasına dayalı çok kanallı makine çevirisi modeli

Leifeng.com Yapay Zeka Teknolojisi İnceleme Haberleri Son zamanlarda, Baidu makine çeviri ekibi en son araştırma sonucunu arxiv.org'da yayınladı "Sinirsel Makine Çevirisi için Çok Kanallı Kodlayıcı" Bu makale AAAI 2018 tarafından kabul edildi.

Makaleye bağlantı: https://arxiv.org/abs/1712.02109

Aşağıdaki içerik, makalenin içeriğine göre Leifeng.com AI Technology Review'in kısmi bir derlemesidir.

Özet: Makale, çok kanallı bir Dikkat tabanlı kodlayıcı (MCE, Çok Kanallı Kodlayıcı). MCE, RNN tabanlı kodlayıcıya gizli bir katman durumu ekler ve bu da iki önemli avantajı vardır: 1) Orijinal kodlama sürecinde kelime gömme işleminde sentez işleminin etkisini iyileştirin; 2) Daha karmaşık sentez sahneleri için, Nöral Turing Makinesi'nin (NTM) harici bellek kullanımı için özel bir optimizasyon tasarımı yapılır. Çince-İngilizce çeviri açısından, Açık kaynaklı DL4MT sistemi ile karşılaştırıldığında, 6.25 BLEU iyileştirmesi var ; WMT14 İngilizce-Fransızca çeviri veri setinde BLEU = 38.8, mevcut en son algoritmanın önünde.

Dikkat tabanlı sinirsel çeviri sistemi

Şu anda, birçok araştırmacı dikkat tabanlı sinirsel çeviri sistemleri (NMT, Neural Machine Translation) için birçok gelişmiş yöntem önermiştir; bunlardan en etkili olanı dikkat mimarisine dayalı kodek sistemidir. Şekil 1. Üç bölümden oluşan dikkat NMT modeline dayalı yapısal ilkeyi sağlar: kodlama, kod çözme katmanı ve dikkat mekanizmasını tanıtmak için orta kademenin yapısı.

Şekil 1. Dikkat temelli NMT modeli. Solda evrişime dayalı NMT ve sağda makalede önerilen çok kanallı NMT var.

NMT sistemi ilk olarak tüm bölünmüş sembolleri bir sıraya dönüştürür, yani: Kelime Gömme. Bu süreçte, her bir karakter ayrı ayrı işlenmeli ve son olarak, kelime gömme oluşturulduktan sonra orijinal sıra oluşturulmalıdır. Sözcük gömme katmanının yukarısındaki şekilde, NMT, eğitimden sonra tüm orijinal dizinin bir temsilini elde etmek için çift yönlü bir tekrarlayan sinir ağı (biRNN) kullanır. Kodlama katmanı ile kod çözme katmanı arasına, giriş dizisinin tüm zaman adımlarını birleştirmek ve kod çözme katmanının geçerli zaman adımına odaklanmak için bir dikkat mekanizması eklenir. Hedef sözcüğü oluşturma sürecinde, denetleyici üç öğeyi entegre edecektir: son oluşturulan sözcük, mevcut gizli katman durumu ve son hedef sözcüğü belirlemek için dikkat mekanizması tarafından hesaplanan bağlam bilgisi.

Çok geçişli kodlama

Dikkat modeline dayalı olarak NMT için RNN kodlama katmanı çok önemlidir, ancak geleneksel RNN'lerin çok katmanlı bilgi entegrasyonunu başarması zordur ve makine çevirisi bu ağ yapısını giderek daha fazla gerektirir. Bu nedenle, bu makale çok kanallı bir dikkat mekanizması kodlayıcı önermektedir, Ağı Şekil 1'de gösterilmiştir. . Bu yapı, RNN'nin daha karmaşık entegre öğrenmeyi tamamlamasına yardımcı olmak için harici bir depolama alanı ekler. Ek olarak, RNN'nin gizli katman durumu ve kelime gömme dizisi birlikte kodek katmanları arasındaki dikkat mekanizması için geçitli açıklamalar oluşturur. Başka bir perspektiften, kelime gömme sırasını dikkat mekanizması modeline entegre etmek, bozulma problemini hafifletebilecek bir kısa devre bağlantısı kurmak olarak da görülebilir (He. 2016 kanıta eşittir, bkz. Alıntı). Bu kısa devre bağlantısı, ağ işlevini geliştirirken herhangi bir ek parametre getirmez ve hesaplama açısından karmaşık yükseltmelere neden olmaz.

He, K .; Zhang, X .; Ren, S .; ve Sun, J. 2016. Görüntü tanıma için derin kalıntı öğrenme Bilgisayarla görme ve örüntü tanıma üzerine IEEE konferansının Bildirileri, 770778.

Şekil 2. Hafızanın şematik diyagramı okuma ve yazma çok kanallı dikkat mekanizması kodlayıcı.

Şekil 2., sinirsel çeviri sisteminin kodlama katmanında okuma ve yazma işleminin ayrıntılı kurallarını göstermektedir. Her zaman adımında, RNN'deki durum düğümü, bellekteki bağlam bilgisini sorgular ve bellek, dikkat temelli mekanizmaya göre depolanır. Bu tasarımda önceki durum düğümü, önceki durumu doğrudan GRU'ya geri beslemek yerine, geçitli tekrarlayan birimin (GRU) giriş durumu olarak bağlam bilgisini sorgulamak ve elde etmek için kullanılır. Bu işlem, kontrolörün mevcut durumu oluşturmadan önce daha fazla bağlam bilgisi elde etmesini sağlar, bu da GRU'nun karar vermesine potansiyel olarak yardımcı olabilir. Okuma belleği işlemi tasarlanırken, sistemde yazma işlemi de tasarlanmıştır. Baidu ekibinin araştırma çalışmasına göre bu tasarımın amacı, RNN ve NTM'nin farklı güncelleme stratejileri aracılığıyla farklı ilişkilendirme türlerini öğrenebileceğini ummaktır.

Çeviri etkisinin deneysel doğrulaması

1. Çince-İngilizce Çeviri

Tablo 1. Çince-İngilizce çeviri görevinin performansını gösterir. Bu veriler, sağlamlığını sağlamak için açık kaynak sistemi DL4MT altında test edilir. Öncelikle, makalede önerilen çok kanallı dikkat mekanizması tabanlı sinir ağı çeviri sistemi, DL4MT sistemiyle karşılaştırıldığında büyük ölçüde geliştirildi: DL4MT ile karşılaştırıldığında, makalede önerilen yöntem MAVİ göstergede 4,94 puan iyileştirme . Makalede yer alan RNN sisteminin dikkat mekanizmasına dayalı temel bir uygulama olduğu düşünüldüğünde, bu tasarım tüm parametrelerin tek tip başlatılması, gömülü vektöre sapma eklenmesi ve RNN'nin iletilmesi gibi en son teknoloji ile birleştirilebilir. Çıktı, geriye doğru RNN'nin girdisi olarak kullanılır ve daha büyük bir etki yaratmak için eğitim vb. İçin dinamik öğrenme oranı eklenir.

Tablo 1. NIST'in Çince-İngilizce çeviri görevlerinde farklı sistemlerin performansı. Mevcut güçlü açık kaynak sistemi DL4MT ile karşılaştırıldığında, bu makalede önerilen model büyük ölçüde geliştirildi. T2T ve ConvS2S, karşılaştırmalı deneyler olarak da hizmet veren, yeni yayınlanan diğer iki açık kaynaklı araç kutusudur. Hem T2T hem de ConvS2S'nin çok katmanlı derinlik modelleri olduğunu ve bu makaledeki yöntemin benzer sonuçlar elde edebileceğini belirtmek gerekir.

2. İngilizce-Fransızca çeviri

Tablo 2, İngilizce çevirinin performansını gösterir ve makalede önerilen NMT sistemini derin RNN modeli, derin CNN modeli ve dikkat tabanlı derin model gibi çeşitli sistemlerle karşılaştırır. Deneyin adaleti için Tablo 2, bu yöntemlerin bulunduğu literatürün sonuçlarını listelemektedir. İngilizceden Fransızcaya görevinde, metinde tasarlanan yöntem mevcut en son makine çevirisi sisteminde çok rekabetçidir, hatta Derin modellerle benzer sonuçlar elde edebilir . Ek olarak, diğer RNN modelleriyle karşılaştırıldığında, sistem sığ bir model olmasına rağmen oldukça rekabetçidir.

Tablo 2. Makale yöntemlerinin İngilizce çevirisi BLEU puanları. Alt sütunda, RNN metindeki temel modeldir ve MCE üç kodlama bileşenini birleştirir: gömülü sözcükler, RNN gizli katman durumu ve NTM harici bellek.

Bu yılki AAAI 2018, 2 Şubat - 7 Şubat tarihleri arasında ABD'de New Orleans'ta yapılacak.Leifeng.com AI Technology Review de olay yeri hakkında rapor verecek. Ayrıca AAAI tarafından kabul edilen bir bildiriniz varsa, iletişim bilgilerinizi arka planda bırakabilirsiniz, sizinle iletişime geçeceğiz ve daha fazla alışveriş yapacağız!

Şehir tanıtımı, Ambilight Yingshan Şehri | Jiulongpo'nun göz kamaştırıcı aydınlatması, sanki bir rüya dünyasındaymış gibi

Feng Xiaogang, "Find You" adlı kadın kahraman filmine nezaret etti, Yao Chen ve Ma Yili, büyük bir oyunculuk PK'sına girdiler.