Nöral makine çevirisinde dikkat çekmek için beş hareketli resim!

Xin Zhiyuan Rehberi Son yıllarda, nöral makine çevirisinin hızlı ilerlemesi, giderek daha fazla insan çevirmeni stresli ve titreyen hissettirdi Peki, bu kadar güçlü bir makine çeviri mimarisinin dahili çalışma mekanizması nedir? Bu makale, sizi yönlendirmek için bir dizi hareketli resim kullanır.

Son birkaç on yılda, istatistiksel makine çevirisi, nöral makine çevirisinin (NMT) doğuşuna kadar baskın makine çevirisi modeli olmuştur. Nöral makine çevirisi (NMT), son yıllarda ortaya çıkan bir makine çevirisi modelidir. Bu model, giriş metnini okuyabilen ve çeviri sonuçlarını çıkarabilen tek bir büyük sinir ağı oluşturmaya ve eğitmeye çalışır.

NMT ilk olarak Kalchbrenner ve Blunsom (2013) tarafından önerildi. Bugün daha iyi bilinen çerçeve, Sutskever ve diğerleri tarafından önerilen seq2seq çerçevesidir. Bu makale seq2seq çerçevesine ve seq2seq çerçevesine dayalı bir dikkat mekanizmasının nasıl oluşturulacağına odaklanacaktır.

Genel olarak dikkat katmanının konuşlandırılması 4 adıma bölünebilir (aslında 5 adım)

Adım 0: Durumu gizlemeye hazırlanın.

İlk olarak ilk şifre çözücü gizli durumunu (kırmızı) ve mevcut tüm gizli kodlayıcı durumlarını (yeşil) hazırlayın. Örneğimizde, 4 gizli kodlayıcı durumu ve mevcut kod çözücü gizli durumu vardır.

1. Adım: Her kodlayıcının gizli durumunun puanını alın

Puan (skaler), puanlama işlevi (karşılaştırma puanlama işlevi veya karşılaştırma modeli olarak da adlandırılır) tarafından elde edilir. Bu örnekte, puanlama işlevi, kod çözücü ile gizli kodlayıcı durumları arasındaki nokta üründür.

Adım 2: Tüm puanları softmax katmanından geçirin.

Skoru softmax fonksiyon katmanına koyarız, böylece softmax tarafından işlenen skorların (skaler) toplamı 1 olur. Bu puanlar dikkatin dağılımını temsil eder.

Adım 3: Her kodlayıcının gizli durumunu softmax puanıyla çarpın.

Her kodlayıcının gizli durumunu karşılık gelen softmax skoru (skaler) ile çarparak, hizalama vektörü veya açıklama vektörü elde edilir. Bu hizalama mekanizmasıdır.

Adım 4: Hizalama vektörünü özetleyin.

Hizalama vektörünün özeti bir bağlam vektörü oluşturabilir. Bağlam vektörü, önceki adımdaki hizalama vektörünün toplanma bilgilerini yansıtır.

Adım 5: Bağlam vektörünü kod çözücüye gönderin.

Spesifik aktarım yöntemi, çeviri sisteminin mimari tasarımına bağlıdır. Aşağıdaki örneklerde, farklı mimarilerin kod çözücünün bağlam vektörünü nasıl kullandığını göreceğiz.

Birkaç seq2seq modelinin çalışma mekanizmasına bir göz atalım. Anlama kolaylığı için daha sezgisel bir açıklama kullanıyoruz (her model için Almanca-İngilizce çeviri örnek olarak kullanılmıştır).

seq2seq

Çevirmen Almanca metni başından sonuna kadar okuyacak ve sonra kelime kelime İngilizce'ye çevirecektir.Cümle çok uzunsa, makalenin başında okuduğunu unutabilir.

Basit bir seq2seq modeli şöyledir: Dikkat katmanının adım adım hesaplanmasına gelince, aşağıda tartışılacak olan seq2seq + dikkat modelidir.Aşağıdaki bu modelin sezgisel bir ifadesidir.

seq2seq + dikkat

Çevirmen Anahtar kelimeleri baştan sona kaydederken Almanca metni bir kez okuyun ve ardından İngilizceye çevirmeye başlayın. Bir Almanca kelimeyi her tercüme ettiğinizde, hatırladığınız anahtar kelimeleri kullanmanız gerekir.

Bu mekanizma altında her kelimeye bir puan verilecek ve puana göre ona farklı dikkat gösterilecektir. Ardından, Softmax işlevi tarafından işlenen puanlara göre, kodlayıcının gizli durumlarının ağırlıklı toplamı, içerik vektörünü elde etmek için kodlayıcının gizli durumlarını bir araya getirmek için kullanılır. Dikkat katmanının gerçekleştirilmesi 4 aşamaya ayrılabilir.

Dikkat mekanizması tam olarak nasıl çalışır?

Cevap: geri yayılma, Beklenmedik bir şekilde. Geri yayılım, çıktı sonuçlarının gerçek duruma yakın olmasını sağlamak için her türlü çabayı gösterecektir. Bu, RNN'deki ağırlık ve puanlama işlevini (varsa) değiştirerek elde edilir. Bu ağırlıklar kodlayıcının gizli durumunu ve kod çözücünün gizli durumunu etkileyecek ve böylece dikkat puanını etkileyecektir.

Seq2seq + iki yönlü kodlayıcı ile dikkat

Bu mekanizma iki çevirmene eşdeğerdir. Çevirmen A, anahtar kelimeleri kaydederken Almanca metni okur. Çevirmen B (A'dan daha gelişmiş bir çeviri, arkadan öne doğru okuyabilir ve sonra çevirebilirsiniz) aynı Almanca metni kelime kelime okurken, anahtar kelimeleri yazıyor.

İki çevirmen şimdiye kadar okunan her kelimeyi düzenli olarak tartışacak. Okuma tamamlandıktan sonra, Çevirmen B tartışma sonuçlarına ve seçilen kapsamlı anahtar kelimelere göre Almanca cümleleri kelime kelime İngilizceye çevirmekten sorumlu olacaktır.

Çeviri A, ileri RNN'dir ve çeviri B, geriye doğru RNN'dir.

Seq2seq + iki katmanlı yığın kodlayıcıyla dikkat

Çevirmen A, anahtar kelimeleri kaydederken Almanca metni okur. Çevirmen B (A'dan daha gelişmiş bir çeviri, arkadan öne doğru okuyabilir ve sonra çevirebilirsiniz) aynı Almanca metni kelime kelime okurken, anahtar kelimeleri yazıyor. Birincil çevirmen A'nın okunan her kelimeyi çevirmen B'ye bildirmesi gerektiğini unutmayın. Okuduktan sonra, her iki çevirmen de seçtikleri kapsamlı anahtar kelimelere göre cümleleri kelime kelime İngilizce'ye çevirecektir.

Google'ın Nöral Makine Çevirisi: 8 yığılmış kodlayıcı ile seq2seq (+ iki yönlü + kalan bağlantı) + dikkat

A, B, ... H'den H'ye, alttan üste bir sıra halinde düzenlenmiş toplam 8 çeviriye eşdeğerdir. Her çevirmen aynı Almanca metni okur. Bir sözcük her okunduğunda, Çevirmen A bulguları Çevirmen B ile paylaşacak ve Çevirmen B bulguları iyileştirecek ve Çevirmen C ile paylaşacak ve bu şekilde işlemi H çevrilene kadar tekrar edecek. Ayrıca, Almanca metinleri okurken, Tercüman H, sahip oldukları bilgilere ve alınan bilgilere göre ilgili anahtar kelimeleri kaydedecektir.

Her çevirmen İngilizce metni okuduktan sonra, ilk sözcüğü çevirmeye başlaması için çevirmen A'yı sipariş edin. Önce çevirmen A hatırlamaya çalışır, sonra cevabını çevirmen B ile paylaşır, çevirmen B cevabı geliştirir ve çevirmen C ile paylaşır ve bu işlemi çeviri H'ye kadar tekrar eder. Ardından, çeviri H, kaydedilen anahtar sözcüklere göre ilk çeviriyi yazar. Çeviri tamamlanana kadar bu işlemi tekrarlayın.

Hanchuan Yinhu Uluslararası Topluluğunun mülkü, sahibinin üst katını izinsiz işgal etti ve yasadışı durdurma bildirimini görmezden geldi.
önceki
Yeni Anlaşma maliyetleri kontrol ediyor ve Çin halkının alışkanlıklarından dolayı iç ve dış ile eşleşmiyor mu?
Sonraki
Yoksullar da araba yapmaktan vazgeçmemeye söz verdi! Jia Yueting: LeEco, araba yapmak için en uygun şirkettir
Sertifikayı almak için hala üç gün var ama öldü! Nişanlının bu mektubu gözyaşı döktü!
Sun Yat-sen Üniversitesi'nin yeni atılımı: doğru 3B vücut poz tahmini elde etmek için kendi kendini denetleyen öğrenme
Hyundai ENCINO: Destekleyici bir karşı saldırı olabilir mi?
Bu 27 klasik antik şiir, başlangıçta herkesi şaşırttı!
Ali, DynaSky'nin hisse senedi fiyatından tasarruf edemez, uzmanlar teknoloji hisselerinin artık popüler olmadığını söylüyor
İkinci el bir Mercedes-Benz satın almak kolay değildir, başarısız bir araba satın alma deneyimini herkes için hatırlayın
Fang Bo çarptı ve nakavt edildi, Wang Chuqin Japon oyuncuyu az farkla mağlup etti, Zhou Kai ilerlemek için 7 tur boyunca çok mücadele etti
AI hakimiyeti çağı çok uzak değil! StarCraft'ın en iyi profesyonel oyuncusu 1:10 AlphaStar'ı yendi
En zenginlerin ikinci nesli olan Didi'nin başkanı Liu Qing, Financial Times tarafından "Yılın Küresel Kadını" seçildi.
Facebook açık kaynak NLP geçiş öğrenme araç seti, 93 dili destekler, en iyi performans
Lüks iç mekan akıllı siyah teknolojisi, Changanın yeni CS75'i yılın ilk yarısındaki en sıcak SUV olacak mı?
To Top