g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

"Kuru ürünler" nöral makine çevirisi tüm süreç analizi, tek seferlik ve sıfır adımda öğrenme öne çıkan konular haline gelir

Xinzhiyuan Derlemesi

Birisi bir zamanlar çeviri sorununun kriptografik bir problem olması gerektiğini düşünmenin doğal olup olmadığını merak etti. Makine çevirisinin babası olarak bilinen Warren Weaver bir keresinde şöyle demişti: "Bu gerçekten İngilizce yazılmış, ancak bazı garip sembollerle kodlanmış. Şimdi kodu çözmeye başlayacağım." Bilgisayarların çeviri problemlerini çözebileceği umulmaktadır. Teorik temellerden biri, 1943'te McCulloch ve Pitts tarafından kanıtlanan teoremdir. Teorem, bir tür rejenerasyon döngüsü ile oluşturulmuş bir makine programının, sınırlı öncüllerden herhangi bir yasal sonuç çıkarabileceğini belirtir.

Neural Machine Translation (NMT), son yıllarda saf sinir ağlarına (NN) dayalı bir makine çevirisi çerçevesidir. İlk olarak, en temel kodlayıcı-kod çözücü modelini açıklamak için literatüre vb. Bakın. Bahdanau ve diğerleri 2015 yılında dikkat mekanizmasını temel kodlayıcı-kod çözücü modeline entegre etti. O zamanlar birçok dilde son teknoloji ürünü elde edildi (en-fr, en-de, en-tr, en-zh) Makine çevirisi sonuçları. Aynı zamanda, makine çevirisinin yukarıda bahsedilen teknik çerçevesi, görüntü ve video açıklamalarının oluşturulmasına da başarıyla uygulanmıştır.

1. İstatistiksel Makine Çevirisi

Öncelikle temel bilgileri kısaca açıklayın: Makine, A dilinin metnini B diline çevirirse, o zaman A dili kaynak dil ve B dili hedef dil olarak adlandırılır. Genelliği kaybetmeden, bu makale cümle çevirisini örnek olarak almaktadır. Makine çevirisi 20 yıldan fazla bir süredir geliştirildi ve birçok teknik çerçeve var.Örneğin, hem kaynak dili hem de hedef dili anlayanların bazı kurallar vermesine izin verin Açıkçası bu iyi bir yöntem değil, çünkü bir dili özetlemek genel bir kural değil. Kolay. Daha sonra, bu kuralları açık veya kapalı olarak büyük miktarda külliyattan "çıkarmaya" çalışmak için istatistiksel yöntemler kullanılır. Bu istatistiksel yöntemler toplu olarak istatistiksel makine çevirisi olarak adlandırılır.

Basitçe ifade etmek gerekirse, istatistiksel makine çevirisi, aşağıdaki şekilde gösterildiği gibi, kaynak dili hedef dile eşlemek için bir işlev bulmaktır:

Makine çevirisinin önemli özelliklerinden biri, makine öğreniminin yaygın uygulamalarında bire bir veya çoktan bire değil (örneğin, sınıflandırma çoka birdir) değil, bire çoğa, yani kaynak dilde bir cümle hedef dilde doğru olabilir. Çok cümleli yazışmalar. Bu nedenle, modellemek için deterministik bir işlev yerine koşullu olasılık kullanıyoruz, burada x kaynak dil ve y hedef dildir. Bir istatistiksel makine çevirisi sistemindeki ilk önemli şey, mevcut iki dilli külliyatın elde edilmesidir, unutmayın

ile

N çift örnek olduğunu ve örnek setinin D olarak belirtildiğini gösterir. (Kendi başlarına yapmak isteyenler için, İstatistiksel Makine Çevirisi Atölyesi veya Uluslararası Sözlü Çeviri Çalıştayı ile ilgili verileri bulabilirsiniz).

Eğitim verilerini aldıktan sonra modelin kalitesi nasıl değerlendirilir? En sezgisel fikir, modeldeki her bir örneğin ortalama log-olabilirliğini ölçmektir. Bir örneğin log-olabilirliği, log-olasılıktır (şu şekilde gösterilir:

) Bir yöntem nerede

Model parametreleridir. Dolayısıyla değerlendirme işlevi aşağıdaki gibidir:

Log-likelihood küçükse, mevcut modelin doğru sonucu verme olasılığının küçük olduğu anlamına gelir. Bu nedenle, günlük olma olasılığını en üst düzeye çıkaran daha iyi bir tane bulmayı umuyoruz, bu tanıdık MLE'dir.

20 yıldan daha uzun bir süre önce, IBM Watson Araştırma Merkezi koşullu olasılığı modellemek için log-lineer model yöntemini benimsedi. Bu tür bir yöntem, tahmin etmek için doğrusal bir özellik kombinasyonu kullanır.

Aşağıdaki formülde gösterildiği gibi:

Bunların arasında C, düzenlileştirme sabitidir. Bu nedenle, bir grup makalenin katkıları, iyi özellik işlevleri bulmaya odaklanmıştır.

Çok güzel bir kitap yazdığını belirtmekte fayda var.

İstatistiksel makine çevirisi çerçevesinde, makine öğrenimi temel olarak bir dizi parametre bulmak için farklı özellikleri dengelemektir.

Veya yeniden sıralama modeli için bir aday. Şu anda derin öğrenme, özellik işlevinin bir parçası olarak veya aşağıdaki şekilde gösterildiği gibi n-en iyiler arasında yeniden sıralama için bir aday olarak kullanılmaktadır:

2. Nöral Makine Çevirisi (NMT)

Son yıllarda, NMT artık önceden tasarlanmış özellik işlevlerine güvenmiyor. Bununla birlikte, NMT'nin amacı, bütünce eğitilebilir bir model (M olarak ifade edilir) tasarlamaktır. Kaynak dildeki ifade ile başlar ve hedef dildeki ifade ile biter.

Kelimenin en küçük birim olarak kullanılması doğal dil için yeterince objektif olmasa da, genelliği kaybetmeden temel ilkelerin açıklanması için, her kelimeyi bir cümlede temsil etmek için sözlükteki indeksi kullanın. Varsaymak

Kaynak dil dizisi,

Hedef dil dizisi. Aşağıda esas olarak koşullu olasılığa yaklaşmak için bir NN'nin kurulması tartışılmaktadır.

NLP görevi için bir özellik vardır, giriş ve çıkış dizisi uzunlukları T veya T 'sabit değildir. Mevcut algoritmaların çoğu, bu sorunu çözmek için RNN kullanır. CNN gibi yaygın olarak kullanılan ileri besleme NN, dahili durumu koruyamaz, çünkü bir örnek ileri beslemeli NN'ye girdiğinde, ağın dahili durumu veya gizli katman birimlerinin etkinleştirilmesi baştan hesaplanır ve önceki örnek hesaplamasının durumundan etkilenmez. Bununla birlikte, RNN, kelime dizisi girişinin dahili durumunu korur. T adımında, RNN'nin önceki birikime dayandığını varsayalım.

Mevcut çıktı vektörünü ve dahili durumu hesaplayın

, Basitçe önceki tüm bilgileri yansıttığı düşünülebilir, formül aşağıdaki gibidir:

Çeşitli RNN türleri açıklanmıştır ve çerçeve aşağıdaki gibidir:

RNN'deki aktivasyon işlevi nerede

Genellikle, değişken duyarlı doğrusal olmayan fonksiyonlar afin dönüşüm amacıyla kullanılır.

Aslında bu formülü yeniliyoruz:

Yukarıdakiler üzerinde yapılabilecek çok şey var, önceki çalışmalardaki ünlüleri LSTM, GRU vb .:

Eve yaklaştıkça, makine çevirisindeki sıra olasılığı problemini modellemek için yukarıdaki RNN'yi kullanmak, problemi tekrar eden bir forma dönüştürmeyi gerektirir:

Yani t zamanındaki RNN modeli

Şu şekilde ifade edilebilir:

Çıktı, adım t-1'e kadar olan tarihsel olasılık dağılımına dayanır, yani RNN, her adımdaki geçmişe dayalı olarak bir sonraki kelimeyi tahmin eder.

3. Makine çevirisi için kodlayıcı-kod çözücü çerçevesi

Beynimizin "seni seviyorum" u "seni seviyorum" a nasıl çevirdiğini hayal et. Düşünmenin bir yolu, çeviri sürecinin iki süreci içerdiğidir: bir kodlayıcı ve bir kod çözücü Birincisi, bir kelime dizisini bir dizi nöral aktivasyona dönüştürür ve ikincisi, aktivasyonlardan hedef dilin dizisini alır. Kalchbrenner ve Blunsom, 2013 yılında Oxford'da bu çerçeveyi benimsemeye başladı ve ardından ünlü eserler arasında Sutskever ve diğerleri, 2014; Cho ve diğerleri, 2014; Bahdanau ve diğerleri, 2015 yer alıyor. Çerçevenin kendisi, kodlayıcı ve kod çözücü modellerine herhangi bir kısıtlama getirmez, ancak çoğu makale RNN tarafından temsil edilir. Aşağıdaki şekil NMT'nin genel bir blok diyagramıdır:

İlk olarak, kodlayıcı işlemi Şekil 4'e göre 3 adıma bölünebilir:

1. Bir kelimeyi tek sıcak vektör olarak temsil edin;

2. Tek sıcak vektörü sürekli uzay ifadesine dönüştürün (örneğin, word2vec);

3. RNN ağı bir dizi halinde özetlemektedir;

Bir cümlede, her kelime bir sıcak vektör veya 1-of-K kodlama vektörü olarak ifade edilir.Bu ifade, kelimelerin ilişki bilgilerini kaybetmesine neden olur ve en basit ifadedir. Kodlayıcı, E matrisi aracılığıyla her kelimeyi doğrusal olarak sürekli bir vektöre eşler.

, Bu vektördeki her eleman, çeviri modelinin hedefi maksimize edilerek güncellenir. Bir dizi kelimeyi sürekli vektör dizisine dönüştürme

, RNN'ye giriş yapın, RNN'nin dizileri özetleme yeteneğini kullanın (uzun süreli bellek)

, İç durumu yapmak

Tam bir cümleyi temsil edebilecek özet bilgiler.

Özet bilginin neye benzediğini ölçmek için Sutskever ve arkadaşları, çok boyutlu vektörü PCA aracılığıyla 2 boyutlu bir uzaya eşlemek için bir deney yaptılar, böylece özet vektörünün orijinal uzaydaki karşılıklı "mesafesi" aşağıdaki şekilde kabaca gözlemlenebilir. .

Şekilde benzer cümlelerin "mesafe" olarak daha yakın olduğunu görebiliriz. Yukarıdaki özet vektörü, cümlenin anlam ve sözdizimi bilgisini belli bir ölçüde tutar (bkz. Http://talks.cam.ac.uk/ talk / index / 58498).

Daha sonra, kod çözücü Şekil 4'e göre 3 adıma bölünebilir:

1. İç durum vektörünü hesaplayın

2. Bir sonraki kelimenin olasılığını hesaplayın;

3. Sonraki kelimeyi örnekleyin;

Kaynak dil cümlesinin özet vektörü

, Önceki anda tahmin edilen kelime

Ve önceki anın iç durumu

Aşağıdaki formüle göre hesaplayın:

Hesaplama tamamlandıktan sonra her bir aday kelimenin o andaki olasılık dağılımını hesaplayabiliriz.

(Toplam 1'dir, genellikle softmax ile ifade edilir). Buradaki fikir, çevrilen kelimeden sonra görünme olasılığı en yüksek olan sonraki kelimeyi değerlendirmektir. Aşağıdaki yöntemlerden biridir:

Hedef kelime vektörü

Ara durumun boyutuna benzer şekilde (paralele yakın olduğu varsayılırsa), yukarıdaki ilk terimin nokta çarpımının sonucu büyük olacaktır ve bunun tersi de geçerlidir (dikeye yakın olduğu varsayılırsa). Nokta çarpımının anlamını bilmek, bir vektörün başka bir vektöre izdüşümünün uzunluğudur, anlaşılması zor değildir. Bu nedenle, formül tarafından açıklanan mekanizma yüksek bir puan verirse, hedef kelime vektörünün kod çözücünün ara durumuyla iyi hizalanması gerekir. Puan alındıktan sonra, puan uygun bir olasılığa dönüştürülebilir:

Hedef kelimenin olasılık dağılımına sahip olduğunuzda, bir polinom dağılımı kullanarak örnekleyerek bir kelimeyi seçebilirsiniz.

İ-inci kelimenin seçildiğini varsayarak, yukarıdaki hesaplama adımına geri dönün ve siz seçene kadar yukarıdaki 3 adımı sırayla döngüleyin. < eos > Bu kelime.

4. Maksimum olasılık tahmini

Yukarıdaki işlemden sonra bir NMT modeli mevcuttur. Ama nasıl eğitilir? Çoğu makine öğrenimi modelinde olduğu gibi, birden fazla eğitim yöntemi vardır. Aşağıda, yalnızca kodlayıcı-kod çözücü çerçevesindeki en temel günlük olabilirlik yöntemini tanıtıyoruz.

İlk olarak, paralel eğitim külliyatını hazırlayın.Her cümledeki kelime, tek adımlı bir vektöre eşdeğer olan bir tamsayı indeks değeriyle değiştirilir.

Ardından, matrisin i'inci sütununu elde etmek için matrisi sola çarpın (örneğin, matris word2vec ile temsil edilebilir) (one-hot'taki i-inci öğe 1'dir). Yani verilen

Hesaplama

Günlük olasılığı:

Bu nedenle, tüm eğitim külliyatının günlük olabilirliği şu şekilde hesaplanır:

Geri kalanı, günlük olabilirlik işlevini maksimize etmek için SGD benzeri yöntem kümesini kullanmaktır.

Geri yayılım yöntemiyle etkin bir şekilde hesaplama yapabilmek için yapılması gereken, geriye doğru yayılma grafiğini son log-olasılıktan ilk katmanın girişine kadar çizmektir. Bu şekilde, grafikteki her bir işlemin kısmi türevi elde edilebilir (Amber platformu kullanılarak kolaylıkla uygulanabilir veya theano.tensor.grad örneğine başvurabilirsiniz). Kısmi türev ile, türevin yönüne göre parametreleri kademeli olarak güncelleyebiliriz. Pek çok kişi, beceriler ve teknolojiyi ve arkasındaki daha derin arka planı içeren belirli parametre güncelleme hızı ve etkisine "çukura adım atacak".

Pek çok mühendis, "hoş" olarak kabul edilen ilk öğrenme oranını, mini parti boyutunu, öğrenme hızının otomatik değişim planını, momentum faktörünü ve otomatik değişim planını vb. "Keyfi" olarak ayarlar. Bu konu, bu makalenin odak noktası değildir, bu nedenle açıklanmayacaktır.

Şu anda, makine çeviri modelinde Adadelta veya Adam kullanılarak elde edilen sonuçlar çok kötü olmayacaktır (bkz. Http://imgur.com/a/Hqolp. Yakınsamayı görselleştirmek için farklı öğrenme hızı algoritmaları kullanarak eyerdeki bir nokta misal)

Hepimizin bildiği gibi, derin öğrenme algoritmalarının çoğu GPU hesaplamayı kullanır ve NMT bir istisna değildir. Bir örneklemin ileri sürecindeki hesaplama miktarını kabaca hesaplayalım (elbette, bir örneklem için tüm kelimeler dahil edilmeyecektir):

1. Kaynak dil yerleştirme: T × | V |, burada T kaynak cümledeki kelimelerin sayısıdır, | V | kaynak dil sözlüğünün boyutudur;

2. Kaynak dil kelimesinin yerleştirilmesinden kodlayıcıya:

,onların arasında

Gömme boyutudur,

GRU'da 2 kapı ve 1 birimin gizli halinin boyutudur;

3. Gönderen

İçin

4. Bağlam vektöründen kod çözücüye:

5. Kimden

6. Kod çözücüden hedef kelimeye gömme: burada T ', hedef cümle kelimelerinin sayısıdır ve hedef dil kelime vektörünün boyutudur;

7. Hedef kelimenin yerleştirilmesinden çıktıya: hedef dil sözlüğünün boyutu nerede;

8. Softmax çıkışı:

Yukarıda açıklanan ileri işleme ek olarak, aynı büyüklükte geriye dönük hesaplamalar da vardır. Yukarıdaki | V | ve | V '| genellikle 100.000 ila milyon arasındadır. Binler düzeyinde çoğu hesaplama, yüksek boyutlu matrisler ile matrisler ve matrisler ve vektörler arasındaki hesaplamalardır. Bu nedenle, GPU kullanmak şu anki en uygun.

5. Basit kodlayıcı-kod çözücü çerçevesi sorunu

Temel kodlayıcı-kod çözücü çerçevesinde, kodlayıcı giriş dizisini sabit uzunluklu bir vektöre (yani bağlam vektörüne) dönüştürür ve kod çözücü, dönüştürme oluşturmak için buna sahiptir. Sezgisel olarak bağlam vektörü, kaynak cümlenin her bir kelimesinin bilgisini içermelidir.Cümle yapısı ne kadar karmaşık olursa olsun, kodlayıcı karmaşık bir doğrusal olmayan fonksiyon olmalıdır. Model küçük olduğunda cümle uzunluğu arttıkça çeviri kalitesinin önemli ölçüde düştüğü belirtilmektedir. Sutskever ve diğerleri 2014 makalesi, kodlayıcının ifade yeteneğinin daha büyük olması gerektiğini, bu da modelin daha uzun cümleleri işlemek için daha büyük olması gerektiği anlamına geldiğini öne sürdü.

6. Yumuşak Dikkat mekanizması

Basit çerçeve, giriş cümlesinin uzunluğunu (bilgi miktarı anlamında) ayırt etmez, ki bu açıkça mantıksızdır. Zip dosyalarının sonuçları bile dosyalarda bulunan bilgilerin karmaşıklığıyla ilgilidir.

Sonraki tartışmada basitlik adına, cümle uzunluğunun boyutunun cümlenin içerdiği bilgi miktarı ile orantılı olduğunu varsayıyoruz. Bu yüzden cümleyi sabit uzunlukta bir vektör olarak ifade etmemeyi, bunun "düzey" bilgisini yansıtmasına izin vermeyi düşündüm BiRNN bağımsız olarak cümleyi iki yönden "okudu".

İlk kelimeden j'inci kelimeye kadar özet bilgiyi temsil ettiğini varsayalım.Aynı şekilde cümlenin sonundan j'inci kelimeye kadar özet bilgiyi temsil eder. Dizinin doğası gereği, RNN son bilgileri hatırlamaya daha meyillidir, bu nedenle ikisi birlikte ifadeyi tüm cümle bağlamında daha iyi ifade edebilir, bu nedenle yukarıdaki ifadeye bağlama bağlı kelime ifadesi denir. Bu mekanizma kullanılarak cümleler değişken uzunlukta ifade edilebilir (sabit boyutların özetine göre).

Kaynak dil cümlesinin değişken uzunluktaki temsilini göz önünde bulundurduktan sonra, kod çözücünün ayrıca her hedef kelime için bir veya daha fazla bağlama bağlı kelime ifadesine veya açıklama vektörüne seçici olarak odaklanması gerekir. Ama her seferinde nasıl odaklanmalıyız? Bir kişinin i-1 kelimelerini çevirdiğini ve i-inci kelimeyi tercüme ettiğini düşünün, o kişi çeviri yaparken nasıl karar verir? Genellikle, bir kişi her kelimeye (veya içeriğe bağlı bilgisine) baktığında, şu anda nasıl tercüme edileceğine, yani bir sonraki hedef kelime ile ilgili olup olmadığına ve alaka düzeyine karar vermek için mevcut çeviri sonuçlarını kapsamlı bir şekilde değerlendirecektir. Ne kadar büyük. Aşağıdaki şekil, yukarıdaki süreci yansıtmanın yalnızca bir yoludur:

Dzmitry Bahdanau 2014, yukarıda bahsedilen dikkat modelini (AM olarak belirtilir) yapmak için kod çözücüye bir NN eklemeyi önerdi. Bu AM'nin girdisi, kod çözücünün önceki andaki gizli durumu ve bağlama bağlı kelimelerin ifadesidir. AM, bir NN katmanı ve bir skaler ile temsil edilebilir. Aşağıdaki şekil, puanı kaynak dil cümlesindeki her kelimeye uygular:

Her kaynak sözcüğün puanı elde edildiğinde, softmax ile normalleştirilebilir:

Normalizasyonun nedeni ile ilgili pek çok açıklama vardır.Bunlardan biri, dikkat mekanizmasını olasılık teorisi çerçevesine dahil etmektir Dikkatin ağırlığının, kod çözücünün tüm T kaynak dil kelimeleri arasından j'inci bağlama bağlı kelime ifadesini seçmesi olduğuna inanılmaktadır. Olasılık. Bu şekilde, bağlama bağlı sözcüklerle ifade edilen beklentiler bu dağılım altında hesaplanabilir:

Yukarıdaki beklenti vektörü, tüm kelimelere farklı vurgu yaparak tüm kaynak dil cümlesinin bilgisini özetlemektedir. Yardımcı vektör (bağlama bağlı vektör), dikkatin ağırlığına göre AM tarafından belirlenen korelasyon olarak kabul edilir. Ardından, yukarıda açıklanan kod çözücünün 3. adımındakini değiştirin.

7. Yumuşak Dikkat Mekanizmasının Genişletilmesi

Şu anda, dikkat mekanizması sadece NLP'de değil, aynı zamanda görüntü araştırmalarında da derin öğrenmede sıcak bir nokta haline geldi. Aşağıdaki şekil, modelin hizalamayı kasıtlı olarak denetlemeden belirli bir tür dikkat veya hizalamayı öğrendiği bir örneği göstermektedir:

Çizginin kalınlığı, AM modeli tarafından verilen dikkat ağırlığını temsil eder. Genellikle zayıf denetim durumu genellikle pekiştirmeli öğrenmeyi temsil etmek için kullanılır, burada dikkat mekanizması zayıf denetim etkisine eşdeğerdir, verilen çevrilmiş hedef cümle haricinde, ara karşılık gelen ve hizalı doğrudan denetim bilgisi yoktur.

Ek olarak, nöral turing makinesi ve bellek ağını dikkat mekanizmalı NMT ile karşılaştırın. Öncelikle, bağlama bağlı kelime ifadesinin bellekteki içerik olarak kabul edildiğini, NTM'de dikkat mekanizmasının okuma kafası olarak kabul edildiğini ve kod çözücünün NTM'nin denetleyicisi olarak kabul edildiğini varsayalım, bu şekilde NMT, NTM'ye çok benzer. 2015 yılında Sukhbaatar ve diğerleri tarafından açıklanan bellek ağına atıfta bulunarak, ilgili makalelerdeki belirli uygulamaların farklı uygulama ayrıntıları dışında, dikkat tabanlı NMT, NTM ve bellek ağı fikirleri aynıdır. Hepimiz bu tür bir yöntemin sonunda nasıl tezahür edeceğini merak ediyoruz, bekleyip görelim.

8. Makine çevirisi ve resim / videocaption

Biri hemen soracak, makine çevirisi ile resim yazısı arasında herhangi bir kuruşluk ilişki var mı? Geçerli NMT teknik rotasının, çeviri yaparken herhangi bir dilde herhangi bir özel bilgiyi kullanmasına gerek olmadığını hatırlayın, bu, herhangi iki dil arasındaki çevirinin NMT'de aynı olduğu anlamına gelir. Ayrılalım. Bu teknik çerçeve, veri uygun şekilde olabildiği sürece, girdi verilerinin sabit uzunluklu vektör ifadesini döndürme veya eşleme alanında bir dizi karşılık gelen vektör bulma ihtiyacı için muhtemelen iyi bir seçim olacaktır. Çerçeveye dökün. Bu, Montreal Üniversitesi ve Toronto Üniversitesi tarafından onaylandı. Makalede, kodlayıcı CNN ile değiştirilir ve aşağıdaki şekilde gösterildiği gibi, dikkat temelli kodlayıcı-kod çözücü çerçevesi altında resim yazısı görevi tamamlanır:

Ek olarak, benzer makaleler arasında Donahue vd., 2014; Fang vd., 2014; Karpathy ve Li, 2014; Kiros vd., 2014; Mao vd., 2014 ve benzeri yer alır.

Kod çözücünün videonun zaman etki alanı yapısını kullanmasına izin verin. Li ve diğerleri 2015 ve Venugopalan ve diğerleri 2015, aşağıdaki şekilde gösterildiği gibi video açıklamaları oluşturmak için benzer dikkat temelli yöntemler kullandılar:

Aynı şekilde, dikkat mekanizması + bir yapılandırılmış girdiden diğer bir yapılandırılmış çıktıya haritalama çerçevesi çeşitli görevlere başarıyla uygulanmıştır. Vinyals ve ark. 2015, seyahat eden satıcı problemini çözmek için ayrı optimizasyon problemine başvurdu. Kyunghyun ve diğerleri 2015 bu çerçeveyi daha fazla multimedya görevine uygulamaktadır.

9. Görünüm

Pek çok araştırmacı, makine çevirisi özel görevinin tüm süreci hakkında yorum yaptı ve burada bahsedilen görünüm özellikle herhangi bir göreve atıfta bulunmuyor.

Şu anda, cümle dizilerinin çoğu tek bir birim olarak kelime ile modellenmiştir, hiyerarşik birimler dikkate alınmalıdır. RNN'de geri yayılım algoritmasının zaman maliyeti, dizi uzunluğu ile orantılıdır. Paragraflar, belgeler vb. Gibi daha uzun dizileri işleyebilen daha iyi bir algoritma var mı? Sırayı işlerken, öğrenmenin çoğu büyük olasılıkla kısmi olacaktır ve ağırlıklar ayrım yapılmadan çevrimiçi olarak güncellenir. Bu geleneksel biçim değiştirilebilir mi?

NMT, mantıksal ilişkileri doğal dilde ele alır, diğer mekanizmalar aracılığıyla bağlantı kurma görevine genişletilebilir mi? Örneğin: gen dizisi, sosyal ağ ve ilişki tarafından sağlanan diğer grafik yapıları.

Google halihazırda tek seferlik ve sıfır atış yöntemlerini kullanmış olsa da, çok modlu öğrenme yapmak için diğer bilgi kaynaklarını nasıl sunacağımızı düşünmemiz gerekiyor.

Referanslar

Bahdanau, Dzmitry, Kyunghyun Cho ve Yoshua Bengio. "Hizalamayı ve çevirmeyi birlikte öğrenerek sinirsel makine çevirisi." ArXiv baskı öncesi arXiv: 1409.0473 (2014).
Bastien, Frédéric ve diğerleri Theano: yeni özellikler ve hız iyileştirmeleri. ArXiv baskı öncesi arXiv: 1211.5590 (2012).
Bergstra, James ve diğerleri, "Theano: bir CPU ve GPU matematik ifade derleyicisi." Bilimsel hesaplama konferansı için Python'un Bildirileri (SciPy) 30 Haziran 2010: 3.
Bridle, J. S. (1990). Stokastik Model Tanıma Algoritmalarının Ağlar Olarak Eğitimi, Parametrelerin Maksimum Karşılıklı Bilgi Tahminine Yol Açabilir Touretzky, D., editör, Sinirsel Bilgi İşleme Sistemlerinde Gelişmeler, cilt 2, (Denver, 1989).
Brown, Peter F ve diğerleri, "İstatistiksel makine çevirisinin matematiği: Parametre tahmini." Hesaplamalı dilbilim 19.2 (1993): 263-311.
Cho, Kyunghyun ve diğerleri "İstatistiksel makine çevirisi için RNN kodlayıcı-kod çözücü kullanarak ifade temsillerini öğrenme." ArXiv ön baskı arXiv: 1406.1078 (2014).
Cho, Kyunghyun, Aaron Courville ve Yoshua Bengio. "Dikkat Temelli Kodlayıcı-Kod Çözücü Ağlarını Kullanarak Multimedya İçeriğini Tanımlama." ArXiv ön baskı arXiv: 1507.01053 (2015).
Denil, Misha ve diğerleri "Görüntü izleme için derin mimarilerle nereye gidileceğini öğrenmek." Sinirsel hesaplama 24.8 (2012): 2151-2184.
Donahue, Jeff ve diğerleri "Görsel tanıma ve tanımlama için uzun vadeli tekrarlayan evrişimli ağlar." ArXiv baskı öncesi arXiv: 1411.4389 (2014).
Fang, Hao ve diğerleri, "Başlıklardan görsel kavramlara ve arkaya." ArXiv ön baskı arXiv: 1411.4952 (2014).
Forcada, Mikel L ve Ñeco, Ramón P. "Çeviri için yinelemeli hetero-çağrışımlı anılar." Biyolojik ve Yapay Hesaplama: Nörobilimden Teknolojiye (1997): 453-462.
Graves, Alex, Greg Wayne ve Ivo Danihelka. "Neural Turing Machines." ArXiv ön baskı arXiv: 1410.5401 (2014).
Graves, Alex, Greg Wayne ve Ivo Danihelka. "Neural Turing Machines." ArXiv ön baskı arXiv: 1410.5401 (2014).
Gregor, Karol ve diğerleri "ÇİZİM: Görüntü oluşturma için tekrarlayan bir sinir ağı." ArXiv ön baskı arXiv: 1502.04623 (2015).
Gülcehre, Çağlar ve diğerleri "Sinirsel Makine Çevirisinde Tek Dilli Corpora Kullanımı Üzerine." ArXiv ön baskı arXiv: 1503.03535 (2015).
Kalchbrenner, Nal ve Phil Blunsom. "Tekrarlayan Sürekli Çeviri Modelleri." EMNLP 2013: 1700-1709.
Karpathy, Andrej ve Li, Fei-Fei. "Görüntü açıklamaları oluşturmak için derin görsel-anlamsal hizalamalar." ArXiv ön baskı arXiv: 1412.2306 (2014).
Kingma, D. P. ve Ba, J. "Stokastik Optimizasyon için Bir Yöntem." ArXiv ön baskı arXiv: 1412.6980 (2014).
Kiros, Ryan, Ruslan Salakhutdinov ve Richard S Zemel. "Görsel-anlamsal yerleştirmelerin multimodal nöral dil modelleriyle birleştirilmesi." ArXiv preprint arXiv: 1411.2539 (2014).
Koehn, Philipp. İstatistiksel makine çevirisi. Cambridge University Press, 2009.
Mao, Junhua ve diğerleri "Çok Modlu Tekrarlayan Sinir Ağları (m-RNN) ile Derin Altyazı Oluşturma." ArXiv ön baskı arXiv: 1412.6632 (2014).
Mnih, Volodymyr, Nicolas Heess ve Alex Graves. "Görsel dikkatin tekrarlayan modelleri." Sinirsel Bilgi İşlem Sistemlerindeki Gelişmeler 2014: 2204-2212.
Pascanu, Razvan ve diğerleri, Derin tekrarlayan sinir ağları nasıl oluşturulur. ArXiv ön baskı arXiv: 1312.6026 (2013).
Schwenk, Holger. "Sürekli uzay dili modelleri." Bilgisayar Konuşması ve Dili 21.3 (2007): 492-518.
Sukhbaatar, Sainbayar ve diğerleri "Uçtan Uca Bellek Ağları."
Sutskever, Ilya, Oriol Vinyals ve Quoc V. Le. "Sinir ağları ile öğrenmeyi sıraya koyma." Sinirsel Bilgi İşleme Sistemlerinde Gelişmeler 2014: 3104-3112.
Venugopalan, Subhashini ve diğerleri, "Sıradan Sıraya - Videodan Metne." ArXiv ön baskı arXiv: 1505.00487 (2015).
Weston, Jason, Sumit Chopra ve Antoine Bordes. "Bellek ağları." ArXiv ön baskı arXiv: 1410.3916 (2014).
Xu, Kelvin ve diğerleri "Göster, Katıl ve Söyle: Görsel Dikkatle Nöral Görüntü Başlığı Üretimi." ArXiv ön baskı arXiv: 1502.03044 (2015).
Yao, Li ve diğerleri "Uzamsal-zamansal özellikler ve bir yumuşak dikkat mekanizması içeren video açıklama oluşturma." ArXiv ön baskı arXiv: 1502.08029 (2015).

(Bu makale WeChat AI'dan, yazar Bai Ming'in yetkilendirmesiyle yeniden basılmıştır, teşekkürler!)

27 Mart'ta Xinzhiyuan Açık Kaynak Ekolojik Yapay Zeka Teknolojisi Zirvesi ve Xinzhiyuan 2017 Girişimcilik Yarışması Ödül Töreni görkemli bir şekilde düzenlendi. "BAT" dahil olmak üzere Çin'in ana akım AI şirketleri ve 600'den fazla sektör eliti 2017 Çin'e ortak katkıda bulunmak için bir araya geldi Yapay zekanın gelişimi güçlü bir darbe aldı.

Bu "uyuşturucu lordu" tanınmış bir şarkıcıydı!

16 Kasım'da Guangzhou Otomobil Fuarı burada, size bu dört ağır sıklet modeli mi göstereceksiniz?