Leifeng.com Yapay Zeka Teknolojisi Yorumu: Mevcut doğal dil işleme yöntemlerinin çoğu veriye dayalıdır ve çok dilli modellerin çoğu (özellikle nöral makine çeviri sistemleri) paralel külliyat eğitimi gerektirir. Paralel metinlerin çoğu yalnızca birkaç ana dile (İngilizce, Çince gibi) uygulanabilir ve belirli alanlarla sınırlıdır.
Facebook, geçen yıl Temmuz ayında bu sorunu çözmek için, Wikipedia'daki tüm dilleri (kaynak yetersiz diller ve lehçeler dahil) işleyen ve 1.620 türü kapsayan yaklaşık 100 milyon paralel yapı içeren ilk veri kümesi WikiMatrix'i yayınladı. Dil çiftleri.
Leifeng AI Technology Review'e göre Facebook, yeni yöntemlere ve veri kaynaklarına dayalı olarak şimdiye kadarki en büyük paralel korpus veri seti olan açık kaynaklı CCMatrix'i yakın zamanda geliştirdi ve açık kaynaklı. Bu veri seti, 576 dil çiftini kapsayan 4,5 milyar paralel yapı içerir (WikiMatrix'in yaklaşık 50 katı).
Kağıt: https://arxiv.org/abs/1911.04944
Veri seti açık kaynak adresi: https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix
Her şeyden önce, külliyatın kaynağından konuşmak. Halihazırda, bazı uluslararası konferanslardan (Avrupa Parlamentosu, Birleşmiş Milletler gibi) topluluklardan gelen birkaç kamuya açık çok dilli paralel kurum vardır, bunlar profesyonel insan çeviri külliyatıdır, dil kullanımı daha resmidir ve politik konularla sınırlıdır. Buna ek olarak, haber yorumu, Openub-Titles, TED külliyat vb. Gibi gönüllü çeviriyle oluşturulan birkaç külliyat da vardır. 2019'da Facebook'tan Schwenk ve diğerleri, WikiMatrix veri kümesini geliştirmek için madencilik için Wikipedia'daki külliyatı kullandılar.
Yukarıdakilerin tümü veri kaynakları açısından sınırlamalara sahiptir. Facebook, paralel korpusu büyütmek ve geniş bir konu yelpazesini kapsamak için, bu CCMatrix çalışmasında paralel külliyatın kaynağı olarak web'den rastgele taranan verileri kullanmayı seçti ve çeşitli diller elde etmek için her ay rastgele URL'ler gönderiyorlar. Web sayfası anlık görüntüsü (TB seviyesi).
On anlık görüntü külliyatındaki farklı dillerdeki tek cümlelerin sayısı (bir anlık görüntü yalnızca İngilizce içerir)
Ardından, yinelenen verilerin (şablon dosyaları, gezinme menüleri, çerezler vb.)% 70'e kadarını kaldırmak için ön işlemeyi kullanın ve belgedeki dili tanımak için fastText'i (176 dili tanıyabilen dil tanıyıcı) kullanın ve son olarak Wikipedia'da bir tane kullanın Eğitimli model, düşük kaliteli içeriği filtreler ve yalnızca düşük derecede kafa karışıklığı olan belgeleri saklar. Bu şekilde 32,7 milyar cümle içeren bir CCNet veri seti elde edilir.
Bu çalışmada kullanılan madencilik yönteminin altında yatan fikir, öncelikle çok dilli bir anlamsal gömme öğrenmektir, yani bir gömme uzayında anlamsal olarak benzer cümleler daha yakın olacak ve kullandıkları dile daha yakın olacaktır. Alakasız. Bu, uzaydaki mesafenin iki cümlenin karşılıklı olarak çevrilip çevrilmediğinin bir göstergesi olarak kullanılabileceği anlamına gelir.
Çok dilli cümle yerleştirmenin büyük ölçekli eğitimi için çerçeve
Bununla birlikte, kosinüs mesafesinin mutlak eşiği küresel olarak tutarlı olmadığından, Schwenk burada Margin kriterini kullanır:
32 milyardan fazla cümlede paralel külliyat çıkarmak hesaplama açısından pahalıdır. CCMatrix külliyatının mevcut sürümünde, yazarlar 38 dille sınırlıdır.
CCMatrix: İşte tek dilli metinlerin sayısı ve çıkarılan paralel cümlelerin sayısı (birim: milyon), marj eşiği 1.06 ve TED testindeki BLEU puanı. (Editörün notu: Bu, veri seti boyutunun 3,5 milyar paralel külliyat olduğu Kasım ayı için veridir, aşağıda aynıdır)
CCMatrix: Her dil çifti için paralel topluluk sayısı (birim: milyon) ve Marj eşiği 1.06'dır. Örneğin, Yunan / Çin çiftleri için corpora sayısı 4,7 milyondur.
Schwenk ve arkadaşları, bu veri setinin kalitesini değerlendirmek için, bu veri setini nöral makine çeviri sistemini test etmek için de kullandı ve birkaç genel test setiyle karşılaştırdı.
1. TED veri setinde test edinSchwenk ve arkadaşları ilk önce sinirsel çeviri sistemini (NMT) eğitmek için CCMatrix'i kullandı ve daha sonra TED veri setinde test etti. Sonuçlar aşağıdaki gibidir:
Burada sadece 27 dil seçilmiştir. Yukarıdaki tüm BLEU değerlerinin ortalaması 14,3, İngilizce çiftinin ortalama BLEU değeri 26,7 ve en yüksek BLEU değeri 42,9'dur.
Elbette TED üzerindeki SOTA bunlardan çok daha yüksek; ancak burada testte kullanılan NMT sisteminin Transformer çerçevesi gibi en son teknolojileri kullanmadığı unutulmamalıdır.
2. WMT'19'da değerlendirinYukarıdaki resim Newstest'18 (NT'18) ve Newtest'19 (NT'19) test setlerindeki BLEU puanlarını göstermektedir. CCMatrix kullanmanın çok rekabetçi BLEU puanları sağlayabileceği görülebilir.
3. WAT'19'da DeğerlendirinAsya Çeviri Seminerinin Rusça / Japonca çeviri görevinde CCMatrix kullanılarak gerçekleştirilen test yukarıdaki şekilde gösterilmektedir. Burada kullanılan model öncekiyle aynıdır, Transformer yoktur ve katman düşüşü yoktur. SOTA'dan biraz daha kötü olmasına rağmen, yine de aynı seviyede.
CCMatrix, NMT araştırma topluluğunun, daha önce yalnızca birkaç düzine dil çiftinden daha büyük iki dilli veri kümelerinden yararlanmasını sağlar. Bu, daha fazla dil kullanabilen daha etkili NMT modellerinin, özellikle de nispeten sınırlı kaynak kaynaklarına sahip modellerin oluşturulmasını hızlandırabilir.
Büyük ölçek ve çok sayıda kamuya açık metnin kullanılması nedeniyle, belki de CCMatrix NMT alanındaki sistemleri oluşturmak ve değerlendirmek için en yaygın kullanılan kaynaklardan biri haline gelecektir.
Elbette, Facebook tarafından CCMatrix oluşturma sürecinde önerilen veri seti oluşturma yöntemi tanıtıma daha değerdir ve daha fazla kişinin büyük ölçekli veri kümeleri oluşturmasına yardımcı olabilir.
Referans malzemeleri:
Facebook açık kaynak resmi duyurusu: https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix
Kağıt: https://arxiv.org/abs/1911.04944CCMatrix
Açık kaynak bağlantısı: https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix
Lei Feng.com raporları.