Gözetimsiz makine çevirisi yapmak için bir araç olarak vizyonu kullanan DeepMind'ın büyük hareketi, etkisi mükemmel

Yazar | Jiang Baoshang

Dili anlamayan iki kişi iletişim kurduğunda, jestler ve gözler doğal olarak iletişim eserlerine dönüşecektir. Bazen jestler ve gözler binlerce kelime konuşabilir.

Bu benzer avantaj makine çevirisinde kullanılabilir mi?

Son zamanlarda, DeepMind, Oxford Üniversitesi ve Carnegie Mellon'dan araştırmacılar, denetimsiz kelime eşlemesini görsel bir temel ile iyileştirmeyi öneren "Denetimsiz Kelime Çevirisinde Videoda Görsel Temel" başlıklı bir makale yayınladılar.

Bu makale CVPR 2020'ye de dahil edilmiştir.

Kağıt indirme adresi: https://arxiv.org/pdf/2003.05078.pdf

Makalenin temel fikri şudur: Yeryüzündeki insanlar binlerce farklı dil konuşabilir, ancak gerçekten "gözleriyle" görebilecekleri tek bir dünya vardır Bu görsel temel ile diller arasındaki boşluk kapatılabilir.

1. Genel fikir: Paylaşılan vizyonu elde etmek için öğretme videolarını kullanın

Yazarın bildiride kullandığı yöntem de oldukça basittir.Model, videoyu "izleyerek", yani belirli bir paylaşılan gömme altında bir görsel-metin hibrit haritalama algoritması oluşturarak iki dil arasında ortak bir görsel temsil oluşturabilir.

Birçok dil aynı şeyi tanımlasa da

Basit bir örnek vermek gerekirse, çocuklar dil öğrendiklerinde çevreyi daha çok gözlemliyorlar ve çevrelerindeki insanlarla etkileşime giriyorlar.Bu süreçte açık bir rehberlik ve denetime ihtiyaçları yok. Birden çok dil öğrenirken, farklı durumlarda benzer durumları kullanabilirler: Pazartesi günü "köpek yemek yiyor" ifadesini duyduğu sahneyi ve Cuma günü "le chien mange" cümlesini duyduğu sahneyi gördü. Benzer.

Denetimsiz çeviri sistemini oluştururken, yazarlar referans için yukarıda belirtilen fikri kullandılar: sisteme farklı ülkelerden bir şeyler yapan insanların videolarını sağlayın ve kendi dillerinde ne yaptıklarını açıklayın. Benzer içeriğe sahip eğitici videolar kullanın. Örneğin, farklı dillerde olsalar da, bunların hepsi insanlara portakal suyunu nasıl sıkacaklarını öğreten eğitici videolardır.

YouTube'da çok sayıda eğitim videosu var ve içerik çok benzer, bu nedenle yazar eğitim videolarını eğitim verileri olarak kullanıyor.

Otomatik dil tanıma teknolojisi kullanılarak birçok video ve ilgili altyazı elde edilebilmesine rağmen, toplanan verilerin birçok kusuru vardır: Birincisi, içeriği eğitici videoda kümelemek kolay değildir ve ikincisi, bazen eğitici videodaki "eğitmen" diyor Konuyla hiçbir ilgisi olmayan saçmalık.

Zorlayıcı olsa da, bu paylaşılan vizyon çevirinin doğruluğunu teşvik eder. Yukarıdaki şekilde gösterildiği gibi, makalede yazar tarafından önerilen İngilizce-Fransızca çeviri. Geri getirme çeviri yöntemlerine göre% 12.5 ve% 18.6 doğruluk oranlarından çok daha yüksek olan yaygın kelime ve görsel kelimeleri çevirirken video izleyerek% 28.0 ve% 45.3 doğruluk oranlarına ulaşılabileceği söyleniyor.

2. Model mimarisi: çok dilli denetimsiz öğrenme

Yukarıdaki şekilde gösterildiği gibi, modelin tamamı, biri X dili, biri Y için ve biri video Z için olmak üzere 3 kodlayıcı içerir. Bu üç kodlayıcıdan oluşan model eğitildikten sonra, amacı video Z'de X dili ile Y dili arasında bir eşleştirme kurabilmektir.

X dil kodlayıcı 3 bölümden oluşur: 1. Bir kelime gömme katmanı, 2. Basit konumlara sahip, konum açısından tam bağlantılı ileri besleme katmanı, 3. Doğrusal bir katman. Sözcük gömme katmanının rolü, diziyi boyutlu bir vektöre dönüştürmektir; tam bağlı ileri besleme ağ katmanının rolü, geçerli sözcük üzerinde maksimum havuzlama gerçekleştirmek ve ardından sıra boyut vektörü oluşturmaktır; doğrusal katmanın rolü, birleşik bir gömme alanı ve bir ara temsil oluşturmaktır (Orta Temsil).

Y dilinin kodlayıcısı için yazar, diller arası paylaşılan model ağırlıklarını kullanır, yani ileri besleme katmanı ve son doğrusal katmanın ağırlıkları, X dili ve Y dili kodlayıcıları arasında paylaşılır. Paylaşılan katmana farklı diller girmek için yazar, Y dilindeki sözcük gömme katmanından sonra AdaptLayer adlı doğrusal bir katman ekler.

AdaptLayer'ın rolü, Y dilindeki kelime gömme alanını değiştirmektir, böylece Y dilindeki kelime gömme, X dilindeki kelime gömme ile mümkün olduğunca benzer olur.

Video kodlayıcıyla ilgili olarak, yazar standart I3D modelini ve ayrıca çıktıyı ortak gömme alanına eşleyen doğrusal bir katmanı kullanır.

Editörün notu: I3D modeli, 2D evrişimli ağa dayalı gelişmiş bir sürüm olarak anlaşılabilir, tam adı Two-Stream Inflated 3D ConvNet'tir ve makalesi 2017 CVPR'ye dahil edilmiştir.

f, g ve h sırasıyla X, Y ve video Z dilinin gömme işlevlerine karşılık gelir ve L, kayıp işlevi olarak tanımlanır.

Tüm modelin optimizasyon hedefi yukarıdaki formülde gösterilmiştir Yazara göre yukarıdaki formül tanımlanarak eğitim stratejisi çok dilli durumlara genişletilebilir.

Yukarıdaki formül L (f, h) aşağıdaki gibi tanımlanır:

NCE şu şekilde tanımlanır:

Yukarıda bahsedilen ortak kayıp fonksiyonu eğitim modelini en aza indirerek, iki dil arasındaki haritalama ilişkisi kurulabilir, yani belirli bir xX için yY bulunabilir.

3. Deney: "I" modeli daha sağlam

Deneysel bölümde, SOTA'ya ulaşabilen mevcut metin tabanlı çeviri modeliyle karşılaştırıldığında, yazarlar modellerinin çeviride daha iyi olduğunu bulmuşlardır.

Deney sırasında, yazar video transkriptini simge haline getirdi ve her dilde en sık kullanılan 65.536 tek kelimeyi bir kelime hazinesinde topladı. Ön işlemeden sonra, yazar word2vec'i tek dilli kelime düğünlerini eğitmek için kullandı ve bu önceden eğitilmiş yerleştirmeleri MUVE (yazarın makalesinde önerilen algoritma), MUSE ve VecMap modellerinde kullandı.

Eğitim sırasında yazar, belirli bir veri kümesinden bir video klibi ve ilgili anlatımını çıkarır. Her eğitim grubu, herhangi bir dilden parçalar içerir ve NCE kaybındaki her bir öğenin negatif değeri, gruptaki aynı dildeki diğer öğelerdendir.

Ek olarak, video kodlayıcı için yazar, Kinetics-400 veri seti üzerinde önceden eğitilmiş I3D modeline ince ayar yaptı ve dil modeli yazarı, karşılık gelen HowToW-Text veri setinde kelime gömme katmanını önceden eğitti.

Yazar Adam optimizer'ı kullanıyor, ilk öğrenme oranı 10 ^ -3 olarak ayarlanmış, toplu iş boyutu 128 ve model 2 Cloud TPU'da 200.000 yineleme için eğitilmiş.

Yazar, kelime çevirisinin kalitesini iyileştirip iyileştiremeyeceğini araştırırken, modelini diğer iki temel çizgiyle karşılaştırır. İlk temel (Random Chance) video kullanmadan alınan çevirileri, ikincisi ise videoyu iki dil arasında paralel bir korpus oluşturmak için kullanan Video Retrieval'ı kullanır.

Yukarıdaki şekilde gösterildiği gibi İngilizce'den Fransızcaya çeviride, yazarın modeli bu iki ölçütte temelden önemli ölçüde daha iyi performans gösterir. Ek olarak, MUVE (4. satır), tek başına temel modele göre önemli bir gelişmedir (3. satır) (sözlükte ve basit kelime karşılaştırmalarında sırasıyla +% 19.8 ve +% 30.3 mutlak iyileşme)

Öyleyse, model metin tabanlı kelime çeviri yöntemlerini ne ölçüde iyileştirebilir? Yazar, tümü HowToW-Text üzerinde eğitilmiş kelime gömme yöntemini kullanan üç denetimsiz yöntem ve bir denetimli yöntem denedi.

Yukarıda olduğu gibi, İngilizce ve Fransızca, Korece ve Japonca arasındaki çeviri sonuçlarını karşılaştırdıktan sonra, yazarın MUVE yöntemi en iyisidir ve İngilizce ile Korece ve İngilizce-Japonca arasındaki çeviri metin tabanlı yönteme göre çok büyük bir gelişmeye sahiptir.

Ama bu aynı zamanda, tamamen metin tabanlı bir yaklaşımın İngilizce ve Fransızca gibi dillere "bakmak" için daha uygun olduğunu da gösteriyor.

Denetimsiz kelime çevirisi ne kadar sağlamdır? Yukarıdaki şekilde gösterildiği gibi yazar, İngilizce-Fransızca sözlük veri seti Recall @ 10'da MUVE, MUSE ve VecMap'in performansını gösterir ve benzerlikleri ve farklılıkları ölçmek için JS mesafesini (jensen-shannon, yukarıdaki tabloda ~ ile gösterilir) kullanır.

Sonuçlar, topluluk benzer olduğunda (Wiki-En ve Wiki-FR gibi), tüm yöntemlerin iyi performans gösterdiğini göstermektedir. Korpora benzer olmadığında, MUVE diğer yöntemlerden önemli ölçüde daha iyi ve daha sağlamdır.

Eğitim verilerinin miktarı farklı olduğunda model nasıl performans gösterir? Yukarıdaki şekil, orijinal veri grubunun% 100,% 10 ve% 1'i ile eğitim sonuçlarını göstermektedir.Geri Çağırma @ 10 ile ölçüldüğünde, yazarın yönteminin düşük kaynaklarda (yetersiz eğitim külliyatında) daha iyi performans gösterdiği açıktır.

Ayrıca yukarıdaki şekilde görüldüğü gibi kelime dağarcığı değiştiğinde sadece MUSE yönteminin performansı düşmez. Diğer metin tabanlı yöntemlerin tümü kelime boyutuna dayanır.

Canlı CVPR Oral: Örnek Segmentasyon Yeni Fikirler
önceki
LSTM neden bu kadar etkilidir? Bilmen gereken bu beş sır
Sonraki
güncel! Tsinghua ve birkaç yetkili kuruluş, tüm ağdaki en yeni koroner pnömoni veri kaynağını yayınladı
CVPR 2020 Oral | İkili Şube Ağı BBN: Uzun Kuyruk Dağıtımı ile Gerçek Dünya Görevlerinin Üstesinden Gelmek
ICLR 2020 | Reformer, verimli bir Transformatör
Shan Shiguang: Yapay zeka metodolojisinin güncellenmesi gerekiyor Salgından sonra yapay zeka nasıl gelişecek?
Today Paper | DeepCap; metin sınıflandırması; frekans etki alanı grafik dikkat ağı; 3D insan poz tahmini vb.
Canlı | Yang Qiang, WeBank Yapay Zeka Başkanı: Neden federal öğrenmeye ihtiyacımız var?
Süpüren robotun "gözlerinin" evrimsel tarihi
Canlı | Microsoft Super Mahjong AI Suphx Ar-Ge ekibi teknik ayrıntıları derinlemesine açıklıyor
Today Paper | ScrabbleGAN; UnrealText; izleme modeli; G2L-Net, vb.
Today Paper | Güçlendirmeli Öğrenme; Yeniden Yapılandırılabilir GAN'lar; BachGAN; Zaman Serisi Sınıflandırması, vb.
Today Paper | COVID-19; Derin İlgi Ağı; COVIDX-NET; Sahne Metni Geçişi, vb.
NLP'nin en iyi konferansları birbiri ardına ertelendi, COLING bunu Mart ayında ertelemeyi tercih etti ve ayrıca çevrimdışı konferanslar düzenledi
To Top