Köpek yavrusu bir köpektir! Gözetimsiz makine çevirisi yapmak için bir araç olarak vizyonu kullanan DeepMind'ın büyük hareketi, etkisi mükemmel

Yazar | Jiang Baoshang

Dili anlamayan iki kişi iletişim kurduğunda, jestler ve gözler doğal olarak iletişim eserlerine dönüşecektir. Bazen jestler ve gözler binlerce kelime konuşabilir.

Bu benzer avantaj makine çevirisinde kullanılabilir mi?

Son zamanlarda, DeepMind, Oxford Üniversitesi ve Carnegie Mellon'dan araştırmacılar, denetimsiz kelime eşlemesini görsel bir temel ile iyileştirmeyi öneren "Denetimsiz Kelime Çevirisinde Videoda Görsel Temel" başlıklı bir makale yayınladılar.

(Leifeng.com) Bu makale CVPR 2020'ye de dahil edilmiştir. Kağıt indirme adresi: https://arxiv.org/pdf/2003.05078.pdf

Makalenin temel fikri şudur: Dünyadaki insanlar binlerce farklı dil konuşabilir, ancak gerçekten "gözleri" ile görebilecekleri tek bir dünya vardır Bu görsel temel ile diller arasındaki boşluk kapatılabilir.

Genel fikir: Paylaşılan vizyonu elde etmek için eğitici videolar kullanın

Yazarın bildiride kullandığı yöntem de oldukça basittir.Model, videoyu "izleyerek", yani belirli bir paylaşılan gömme altında bir görsel-metin hibrit haritalama algoritması oluşturarak iki dil arasında ortak bir görsel temsil oluşturabilir.

(Leifeng.com) Birden çok dil aynı şeyi tanımlasa da

Basit bir örnek vermek gerekirse, çocuklar dil öğrendiklerinde çevreyi daha çok gözlemliyorlar ve çevrelerindeki insanlarla etkileşime giriyorlar.Bu süreçte açık bir rehberlik ve denetime ihtiyaçları yok. Birden çok dil öğrenirken, farklı durumlarda benzer durumları kullanabilirler: Pazartesi günü "köpek yemek yiyor" ifadesini duyduğu sahneyi ve Cuma günü "le chien mange" cümlesini duyduğu sahneyi gördü. Benzer.

Denetimsiz çeviri sistemini oluştururken, yazarlar referans için yukarıda belirtilen fikri kullandılar: sisteme farklı ülkelerden bir şeyler yapan insanların videolarını sağlayın ve kendi dillerinde ne yaptıklarını açıklayın. Benzer içeriğe sahip eğitici videolar kullanın. Örneğin, farklı dillerde olsalar da, bunların hepsi insanlara portakal suyunu nasıl sıkacaklarını öğreten eğitici videolardır.

YouTube'da çok sayıda eğitim videosu var ve içerik çok benzer, bu nedenle yazar eğitim videolarını eğitim verileri olarak kullanıyor. Otomatik dil tanıma teknolojisi kullanılarak birçok video ve ilgili altyazı elde edilebilmesine rağmen, toplanan verilerin birçok kusuru vardır: Birincisi, içeriği eğitici videoda kümelemek kolay değildir ve ikincisi, bazen eğitici videodaki "eğitmen" diyor Konuyla hiçbir ilgisi olmayan saçmalık.

Zorlayıcı olsa da, bu paylaşılan vizyon çevirinin doğruluğunu teşvik eder. Yukarıdaki şekilde gösterildiği gibi, makalede yazar tarafından önerilen İngilizce-Fransızca çeviri. Geri getirme çeviri yöntemlerine göre% 12.5 ve% 18.6 doğruluk oranlarından çok daha yüksek olan yaygın kelime ve görsel kelimeleri çevirirken video izleyerek% 28.0 ve% 45.3 doğruluk oranlarına ulaşılabileceği söyleniyor.

Model mimarisi: çok dilli denetimsiz öğrenme

(Lei Feng Ağı)

Yukarıdaki şekilde gösterildiği gibi, modelin tamamı, biri X dili, biri Y için ve biri video Z için olmak üzere 3 kodlayıcı içerir. Bu üç kodlayıcıdan oluşan model eğitildikten sonra, amacı video Z'de X dili ile Y dili arasında bir eşleştirme kurabilmektir.

X dil kodlayıcı 3 bölümden oluşur: 1. Bir kelime gömme katmanı, 2. Basit konumlara sahip, konum açısından tam bağlantılı ileri besleme katmanı, 3. Doğrusal bir katman. Sözcük gömme katmanının rolü, diziyi boyutlu bir vektöre dönüştürmektir; tam bağlı ileri besleme ağ katmanının rolü, geçerli sözcük üzerinde maksimum havuzlama gerçekleştirmek ve ardından sıra boyut vektörü oluşturmaktır; doğrusal katmanın rolü, birleşik bir gömme alanı ve bir ara temsil oluşturmaktır (Orta Temsil).

Y dilinin kodlayıcısı için yazar, diller arası paylaşılan model ağırlıklarını kullanır, yani ileri besleme katmanı ve son doğrusal katmanın ağırlıkları, X dili ve Y dili kodlayıcıları arasında paylaşılır. Paylaşılan katmana farklı diller girmek için yazar, Y dilindeki sözcük gömme katmanından sonra AdaptLayer adlı doğrusal bir katman ekler.

AdaptLayer'ın rolü, Y dilindeki sözcük gömme alanını değiştirmektir, böylece Y dilindeki sözcük gömme, X dilindeki sözcük gömülü ile mümkün olduğunca benzer olur.

Video kodlayıcıyla ilgili olarak, yazar standart I3D modelini ve ayrıca çıktıyı ortak gömme alanına eşleyen doğrusal bir katmanı kullanır. Editörün notu: I3D modeli, 2D evrişimli ağa dayalı gelişmiş bir sürüm olarak anlaşılabilir, tam adı Two-Stream Inflated 3D ConvNet'tir ve makalesi 2017 CVPR'ye dahil edilmiştir.

f, g ve h sırasıyla X, Y ve video Z dilinin gömme işlevlerine karşılık gelir ve L, kayıp işlevi olarak tanımlanır.

Tüm modelin optimizasyon hedefi yukarıdaki formülde gösterilmiştir Yazara göre yukarıdaki formül tanımlanarak eğitim stratejisi çok dilli durumlara genişletilebilir.

Yukarıdaki formül L (f, h) aşağıdaki gibi tanımlanır:

NCE şu şekilde tanımlanır:

Yukarıda bahsedilen ortak kayıp fonksiyonu eğitim modelini en aza indirerek, iki dil arasındaki haritalama ilişkisi kurulabilir, yani belirli bir xX için yY bulunabilir.

Deney: "I" modeli daha sağlam

Deneysel bölümde, SOTA'ya ulaşabilen mevcut metin tabanlı çeviri modeliyle karşılaştırıldığında, yazarlar modellerinin çeviride daha iyi olduğunu bulmuşlardır.

Deney sırasında, yazar video transkriptini simge haline getirdi ve her dilde en sık kullanılan 65.536 tek kelimeyi bir kelime hazinesinde topladı. Ön işlemeden sonra, yazar word2vec'i tek dilli kelime düğünlerini eğitmek için kullandı ve bu önceden eğitilmiş yerleştirmeleri MUVE (yazarın makalesinde önerilen algoritma), MUSE ve VecMap modellerinde kullandı.

Eğitim sırasında yazar, belirli bir veri kümesinden bir video klibi ve ilgili anlatımını çıkarır. Her eğitim grubu, herhangi bir dilden parçalar içerir ve NCE kaybındaki her bir öğenin negatif değeri, gruptaki aynı dildeki diğer öğelerdendir.

Ek olarak, video kodlayıcı için yazar, Kinetics-400 veri seti üzerinde önceden eğitilmiş I3D modeline ince ayar yaptı ve dil modeli yazarı, karşılık gelen HowToW-Text veri setinde kelime gömme katmanını önceden eğitti.

Yazar Adam optimizer'ı kullanıyor, ilk öğrenme oranı 10 ^ -3 olarak ayarlanmış, toplu iş boyutu 128 ve model 2 Cloud TPU'da 200.000 yineleme için eğitilmiş.

Yazar, kelime çevirisinin kalitesini iyileştirip iyileştiremeyeceğini araştırırken, modelini diğer iki temel çizgiyle karşılaştırır. İlk temel (Random Chance) video kullanmadan alınan çevirileri, ikincisi ise videoyu iki dil arasında paralel bir korpus oluşturmak için kullanan Video Retrieval'ı kullanır.

Yukarıdaki şekilde gösterildiği gibi İngilizce'den Fransızcaya çeviride, yazarın modeli bu iki ölçütte temelden önemli ölçüde daha iyi performans gösterir. Ek olarak, MUVE (4. satır), tek başına temel modele göre önemli bir gelişmedir (3. satır) (sözlükte ve basit kelime karşılaştırmalarında sırasıyla +% 19.8 ve +% 30.3 mutlak iyileşme)

Öyleyse, model metin tabanlı kelime çeviri yöntemlerini ne ölçüde iyileştirebilir? Yazar, tümü HowToW-Text üzerinde eğitilmiş kelime gömme yöntemini kullanan üç denetimsiz yöntem ve bir denetimli yöntem denedi.

Yukarıda olduğu gibi, İngilizce ve Fransızca, Korece ve Japonca arasındaki çeviri sonuçlarını karşılaştırdıktan sonra, yazarın MUVE yöntemi en iyisidir ve İngilizce ile Korece ve İngilizce-Japonca arasındaki çeviri metin tabanlı yönteme göre çok büyük bir gelişmeye sahiptir.

Ama bu aynı zamanda, tamamen metin tabanlı bir yaklaşımın İngilizce ve Fransızca gibi dillere "bakmak" için daha uygun olduğunu da gösteriyor.

Denetimsiz kelime çevirisi ne kadar sağlamdır? Yukarıdaki şekilde gösterildiği gibi yazar, İngilizce-Fransızca sözlük veri seti Recall @ 10'da MUVE, MUSE ve VecMap'in performansını gösterir ve benzerlikleri ve farklılıkları ölçmek için JS mesafesini (jensen-shannon, yukarıdaki tabloda ~ ile gösterilir) kullanır.

Sonuçlar, topluluk benzer olduğunda (Wiki-En ve Wiki-FR gibi), tüm yöntemlerin iyi performans gösterdiğini göstermektedir. Korpora benzer olmadığında, MUVE diğer yöntemlerden önemli ölçüde daha iyi ve daha sağlamdır.

Eğitim verilerinin miktarı farklı olduğunda model nasıl performans gösterir? Yukarıdaki şekil, orijinal veri grubunun% 100,% 10 ve% 1'i ile eğitim sonuçlarını göstermektedir.Geri Çağırma @ 10 ile ölçüldüğünde, yazarın yönteminin düşük kaynaklarda (yetersiz eğitim külliyatında) daha iyi performans gösterdiği açıktır.

Ayrıca yukarıdaki şekilde görüldüğü gibi kelime dağarcığı değiştiğinde sadece MUSE yönteminin performansı düşmez. Diğer metin tabanlı yöntemlerin tümü kelime boyutuna dayanır.

600 sayfadan fazla "Cennet Kitabı" resmi olarak yakında yayınlanacak! En efsanevi problem dahi bir matematikçi tarafından mı çözüldü?
önceki
ACL 2020 kabul sonuçları açıklandı ve başvuru sayısı 3.000'i aştı.Tarihteki en popüler NLP'yi kazandınız mı?
Sonraki
Tianjin Yüksek Halk Mahkemesi İflas Yöneticilerinin Hiyerarşik İdaresi için Önlemler
Xi Jinping'in savaş anı
Gao Xinxing: Yeni dijital altyapı altında 5G Araçların İnterneti, yenilikler otonom sürüş ve akıllı ulaşım sağlıyor
Karmaşık senaryolarda çok hedefli konumlandırma - derin öğrenme algoritmalarının gözden geçirilmesi
Görsel algı ve akıllı kokpitlerin bir araya gelmesi ile ADI, otonom sürüş fırsatını yakalayabilir mi?
LSTM neden bu kadar etkilidir? Bilmen gereken bu beş sır
Sert kulak misafiri önleme! Mac'e özel özellikler iPad'e geliyor: T2 çipine dayalı, sektörün en katı koruma mekanizması
En son Linux Mint 20 açıklaması: kod adı "Ulyana", 32 bit sistemleri terk ediyor
300 milyon ABD Doları değerindeki "Japonya'da İnternetin Babası" 14 milyon IPv4 adresi sattı
2019'un en sıcak dizisi hangisi? 2020'de hangi dizi popüler olacak? Bir makale sizi sisin içinden geçiriyor
Ocak ayındaki sinema pazarı biraz sert, bu filmler hala bilet almaya değer mi?
"Havadaki Gül" ilk çiçek açar! Yeni yılda kadın paraşütçülerin ilk paraşütle atlama eğitimini izleyin
To Top