CMU: Derin öğrenme doğal dil işleme, sinirsel makine çevirisi ve seq2seq model özeti, dağıtım becerilerine sahip 6 tür

Xinzhiyuan Derlemesi

Tez Başlığı: Nöral Makine Çevirisi ve Sıradan diziye Modeller: Bir Eğitim (Nöral Makine Çevirisi ve Sıradan diziye Modeller: Bir Öğretici)

Giriş

Bu öğretici, genellikle "nöral makine çevirisi" veya "nöral seq2seq modeli" olarak adlandırılan bazı yeni ve çok güçlü teknikleri tanıtır. Bu teknikler, insan dili işlemede birçok karakter tarafından kullanılmıştır ve belirli dizi verisi türlerini modellemek isteyen herkes için güçlü araçlardır. Bu eğitim, okuyucunun zaten temel matematik ve programlama bilgisine sahip olduğunu, ancak sinir ağlarında veya doğal dil işlemede deneyim gerektirmediğini varsayar. Bu eğitim, bir dizi yöntemin arkasındaki ilkeleri açıklamaya çalışır ve ardından okuyucuların çok sayıda matematiksel açıklama yoluyla bu yöntemleri derinlemesine anlamasına yardımcı olur ve okuyucuların bu içerikleri pratikte anlamalarını test edebilmeleri için bazı pratik öneriler sunar.

arka fon

Bu bölümde yazar başlıktaki iki önemli kavramın anlamını, yani "makine çevirisi" ve "seq2seq modeli" açıklamıştır. "Makine çevirisi" kavramı burada tekrar edilmeyecektir Aşağıdakiler "sekans-sekans modeli" olarak anılan "sekans-sekans modeli" kavramını tanıtmaktadır.

"Seq2seq modeli", bir diziyi diğeriyle eşleyen bir model türünü ifade eder. Bu elbette makine çevirisini içerir, ancak Şekil 1'de gösterildiği gibi diğer görevleri yerine getirmek için daha geniş yöntemler de içerir. Aslında, bir bilgisayar programının girdisini bir girdi bit dizisi olarak ve ardından çıktıyı bir çıktı bit dizisi olarak kabul edersek, o zaman her bir programın belirli davranışları temsil eden bir "sıradan diziye" model olduğunu söyleyebiliriz ( Çoğu durumda bu, ifade etmenin en doğal veya sezgisel yolu değildir).

Şekil 1: seq2seq modelleme görevi örneği

Bu öğreticinin yapısı

İlk olarak, bu eğitimin 2. Bölümü, makine çevirisinde kullanılan istatistiksel tekniklerin genel matematiksel tanımını açıklar. Öğreticinin geri kalanı, seq2seq'in artan karmaşıklıkta çeşitli modellerini ve son olarak alandaki en ileri teknolojiyi temsil eden dikkat modelini tanıtır.

Bölüm 3-6, hedef dizinin olasılığını hesaplayan dil modellerine odaklanır. Bu modeller çeviri veya sıra dönüşümü gerçekleştiremez, ancak seq2seq modelinin ilk anlaşılması için faydalıdır. Bu bölümlerde açıklanan kavramlar şunları içerir: n-gram dil modeli, log-doğrusal dil modeli, sinir ağı ve tekrarlayan sinir ağı (RNN).

Son olarak, Bölüm 7 ve 8, kodlayıcı-kod çözücü modelleri ve dikkat modelleri dahil olmak üzere makine çevirisini veya diğer görevleri gerçekleştirebilen pratik seq2seq modellerini tanıtmaktadır. Kodlayıcı-kod çözücü modeli, hedef diziyi bir dijital vektöre kodlamak için RNN kullanır ve daha sonra başka bir ağ, dijital vektörü çıktı cümlesine çözer. Bölüm 7 ayrıca üretilen dizinin arama algoritmasını da tanıtır. Dikkat modeli, çeviri çıktısı oluştururken girdi cümlesinin farklı kısımlarına dikkat edilmesini sağlar. Bu, cümleleri ifade etmenin daha etkili ve sezgisel bir yoludur ve genellikle kodlayıcı-kod çözücü muadilinden daha etkilidir.

Tam liste makalenin sonuna eklenmiştir.

Daha fazla araştırma konusu

Bu eğitim, n-gram dil modelinden başlayarak ve son olarak dikkat modeli hakkında konuşarak, nöral makine çevirisi ve seq2seq modellerinin temellerini kapsar. Bunun çok aktif bir araştırma alanı olduğu ve bu eğitimde ele alınmayan bazı daha ileri araştırma konuları olduğu unutulmamalıdır.Temel bilgilere hakim olan ve daha fazlasını öğrenmek isteyen okuyucular, çalışmak için inisiyatif alabilir. Bu ileri araştırma konuları şunları içerir:

Büyük sözlükleri kullanma:

Sinirsel MT modelinin bir zorluğu, geniş kelime dağarcığı ile uğraşırken düşük performansıdır.Modelin sınırlı veriye sahip nadir kelimeleri doğru şekilde nasıl çevireceğini öğrenmesi zordur ve çok fazla hesaplama gerektirir. Bu sorunu çözmenin bir yolu, kelime haznesini karakterler veya alt kelimeler gibi daha küçük birimlere bölmektir.Ayrıca, düşük frekanslı fenomenlerle başa çıkmak için daha geniş bir çeviri sözlüğü ile birleştirilebilir.

Çeviri sonuçlarını optimize edin:

Bu eğiticide tanıtılan modele bir kaynak P (E | F) verilse de, hedef cümlenin olasılığını en üst düzeye çıkarmak için eğitilmiştir, ancak asıl önem verdiğimiz şey, oluşturulan cümlenin doğruluğu. Bu problemi çözmeye çalışan çok çalışma var.Kullanılan yöntem, modeli eğitirken üretilen sonuçların doğruluğunu doğrudan dikkate almaktır. Yöntem, mevcut modelin çeviri sonuçlarından örneklemeyi ve daha iyi çeviri sonuçları doğrultusunda parametreleri ayarlamayı, üretilen sonuçlardaki hataların sağlamlığını iyileştirmek için parametreleri kısmi yanlış varsayımlara ayarlamayı ve önlemeye çalışmayı içerir. İşlem sırasında bir hata oluştu.

Çok dilli öğrenme:

Şimdiye kadar, bir modelin F ve E olmak üzere iki dil arasında eğitildiğini varsaydık. Ancak dünyada pek çok dil vardır ve bazı çalışmalar tüm dillerden gelen verileri kullanarak bir model yetiştirmenin mümkün olduğunu kanıtlamıştır. Ayrıca diller arasında geçiş yapmak, önce modeli bir dil çifti üzerinde eğitmek ve ardından diğer dil çiftlerine mikro-çağrı yapmak da mümkündür.

diğer uygulamalar:

Benzer seq2seq modelleri, diyalog sistemleri, otomatik metin özetleme, konuşma tanıma, konuşma sentezi, görüntü altyazısı oluşturma, görüntü oluşturma ve daha fazlası dahil olmak üzere çeşitli görevler için kullanılmıştır. Bu eğitim, bu hızla genişleyen alandaki konuların yalnızca küçük bir bölümünü kapsar ve okuyuculara bu modelleri ilgili uygulamalara uygulamak için araçlar sağlamayı umar.

Ekli: Katalog

1. Giriş

1.1 Arka Plan

1.2 Bu öğreticinin yapısı

2 MT'nin istatistiksel temeli

3 n-gram dil modeli

3.1 Kelime kelime olasılık hesaplayın

Saymaya dayalı 3.2 n-gram dil modeli

3.3 Dil modeli değerlendirmesi

3.4 Bilinmeyen kelimelerle uğraşmak

3.5 Daha fazla okuma

3.6 Egzersiz

4 Log-doğrusal dil modeli

4.1 Model bileşimi

4.2 Öğrenme modeli parametreleri

4.3 Log-lineer modelin türetilmesi

4.4 Dil modellemenin diğer özellikleri

4.5 Daha fazla okuma

4.6 Egzersizler

5 Sinir ağı ve ileri beslemeli dil modeli

5.1 Birleşik özelliklerin potansiyeli ve sorunları

5.2 Sinir Ağı Özeti

5.3 Bir sinir ağını eğitmek

5.4 Bir uygulama örneği

5.5 Sinir Ağı Dil Modeli

5.6 Daha fazla okuma

5.7 Egzersiz

6 RNN dil modeli

6.1 Dilde uzun mesafeli anlamsal ilişkiler

6.2 Tekrarlayan Sinir Ağı

6.3 Kaybolan gradyan ve uzun ve kısa süreli hafıza

6.4 Diğer RNN varyantları

6.5 Çevrimiçi, Toplu ve Minibatch eğitim

6.6 Daha fazla okuma

6.7 Egzersizler

7 Nöral Kodlayıcı-Kod Çözücü modeli

7.1 Kodlayıcı kod çözücü modeli

7.2 Çıktı oluştur

7.2.1 Rastgele örnekleme

7.2.2 Açgözlü 1-en iyi arama

7.2.3 Işın arama

7.3 Dizileri kodlamanın diğer yolları

7.3.1 Ters ve çift yönlü kodlayıcı

7.3.2 Evrişimli Sinir Ağı

7.3.3 Ağaç yapısı ağı

7.4 Birden çok modeli bir araya getirin

7.5 Egzersiz

8 Dikkat sinir makinesi çevirisi

8.1 Encoder-Decoder başlığı temsil eder

8.2 Dikkat

8.3 Dikkat puanının hesaplanması

8.4 Dikkat puanı nasıl hesaplanır

8.5 Taklit kelime ve konum kelimesi ikamesi

8.6 Sezgisel dikkat önceliği

8.7 Daha fazla okuma

8.8 Egzersizler

9 Özet

Kağıt adresi: https://arxiv.org/pdf/1703.01619v1.pdf

Ronaldo, Real Madrid'i panik yapmadan terk ediyor! Yeni sezonda Real Madrid'e katılma tehlikesi gündeme geldi!
önceki
Tarifsiz, yeni efsane! Jiangsu Hikayesi
Sonraki
2h'de kolayca gelin, tüm sahil balıkçı köyleriyle bu küçük kasaba, fiyatı çok yüksek!
2017 Çin'in yapay zeka endüstri haritası: VC'ler tarafından en çok tercih edilen yapay zeka şirketlerinin envanteri
Paulinho Kralı Guangzhou Evergrande'ye geri dönüyor! Evergrande'nin arka arkaya 8 şampiyonasında hayat kurtaran bir saman olabilir mi?
Çin'in RMB cinsinden ithalat ve ihracatı beklentileri aştı ve dünya çapında 20 pazar ABD dolarına hayır dedi?
Yüksek hızda koşarken nelere dikkat etmeliyim? 10 yaşındaki bir sürücü bu tür arabalardan uzak durmasını söyledi
1 dakika, kuzeydeki ısınmanın ne olduğunu anlayalım mı? (Güneyliler için görülmesi gereken)
O kadar güzel ki, dağın ötesinde bir dağ var ve gökyüzünün ötesinde bir gökyüzü var! bu güzel
Otoyolda bir engelle karşılaştığınızda çarpmanız mı yoksa saklanmanız mı gerekir? Yanlış seçimin ciddi sonuçları olacak
GAN yazarı Goodfellow: Neden OpenAI'den ayrıldım ve Google Brain'e döndüm
Annem beni televizyonda görse ağlardı ...
Ronaldonun gerçek aşkının Modric olduğu ortaya çıktı! Modric: Ronaldo'nun Real Madrid'i terk edeceğine inanmıyorum!
Bu kadar çok tek boynuzlu at şirketini yaratan üstel düşünce nedir?
To Top