Facebook açık kaynak, 576 dil çiftini kapsayan 4,5 milyar külliyatla en büyük paralel korpus

Leifeng.com Yapay Zeka Teknolojisi Yorumu: Mevcut doğal dil işleme yöntemlerinin çoğu veriye dayalıdır ve çok dilli modellerin çoğu (özellikle nöral makine çeviri sistemleri) paralel külliyat eğitimi gerektirir. Paralel metinlerin çoğu yalnızca birkaç ana dile (İngilizce, Çince gibi) uygulanabilir ve belirli alanlarla sınırlıdır.

Facebook, geçen yıl Temmuz ayında bu sorunu çözmek için, Wikipedia'daki tüm dilleri (kaynak yetersiz diller ve lehçeler dahil) işleyen ve 1.620 türü kapsayan yaklaşık 100 milyon paralel yapı içeren ilk veri kümesi WikiMatrix'i yayınladı. Dil çiftleri.

Leifeng AI Technology Review'e göre Facebook, yeni yöntemlere ve veri kaynaklarına dayalı olarak şimdiye kadarki en büyük paralel korpus veri seti olan açık kaynaklı CCMatrix'i yakın zamanda geliştirdi ve açık kaynaklı. Bu veri seti, 576 dil çiftini kapsayan 4,5 milyar paralel yapı içerir (WikiMatrix'in yaklaşık 50 katı).

Kağıt: https://arxiv.org/abs/1911.04944

Veri seti açık kaynak adresi: https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

1. Derlem oluşturma

Her şeyden önce, külliyatın kaynağından konuşmak. Halihazırda, bazı uluslararası konferanslardan (Avrupa Parlamentosu, Birleşmiş Milletler gibi) topluluklardan gelen birkaç kamuya açık çok dilli paralel kurum vardır, bunlar profesyonel insan çeviri külliyatıdır, dil kullanımı daha resmidir ve politik konularla sınırlıdır. Buna ek olarak, haber yorumu, Openub-Titles, TED külliyat vb. Gibi gönüllü çeviriyle oluşturulan birkaç külliyat da vardır. 2019'da Facebook'tan Schwenk ve diğerleri, WikiMatrix veri kümesini geliştirmek için madencilik için Wikipedia'daki külliyatı kullandılar.

Yukarıdakilerin tümü veri kaynakları açısından sınırlamalara sahiptir. Facebook, paralel korpusu büyütmek ve geniş bir konu yelpazesini kapsamak için, bu CCMatrix çalışmasında paralel külliyatın kaynağı olarak web'den rastgele taranan verileri kullanmayı seçti ve çeşitli diller elde etmek için her ay rastgele URL'ler gönderiyorlar. Web sayfası anlık görüntüsü (TB seviyesi).

On anlık görüntü külliyatındaki farklı dillerdeki tek cümlelerin sayısı (bir anlık görüntü yalnızca İngilizce içerir)

Ardından, yinelenen verilerin (şablon dosyaları, gezinme menüleri, çerezler vb.)% 70'e kadarını kaldırmak için ön işlemeyi kullanın ve belgedeki dili tanımak için fastText'i (176 dili tanıyabilen dil tanıyıcı) kullanın ve son olarak Wikipedia'da bir tane kullanın Eğitimli model, düşük kaliteli içeriği filtreler ve yalnızca düşük derecede kafa karışıklığı olan belgeleri saklar. Bu şekilde 32,7 milyar cümle içeren bir CCNet veri seti elde edilir.

Bu çalışmada kullanılan madencilik yönteminin altında yatan fikir, öncelikle çok dilli bir anlamsal gömme öğrenmektir, yani bir gömme uzayında anlamsal olarak benzer cümleler daha yakın olacak ve kullandıkları dile daha yakın olacaktır. Alakasız. Bu, uzaydaki mesafenin iki cümlenin karşılıklı olarak çevrilip çevrilmediğinin bir göstergesi olarak kullanılabileceği anlamına gelir.

Çok dilli cümle yerleştirmenin büyük ölçekli eğitimi için çerçeve

Bununla birlikte, kosinüs mesafesinin mutlak eşiği küresel olarak tutarlı olmadığından, Schwenk burada Margin kriterini kullanır:

2. Derlem analizi

32 milyardan fazla cümlede paralel külliyat çıkarmak hesaplama açısından pahalıdır. CCMatrix külliyatının mevcut sürümünde, yazarlar 38 dille sınırlıdır.

CCMatrix: İşte tek dilli metinlerin sayısı ve çıkarılan paralel cümlelerin sayısı (birim: milyon), marj eşiği 1.06 ve TED testindeki BLEU puanı. (Editörün notu: Bu, veri seti boyutunun 3,5 milyar paralel külliyat olduğu Kasım ayı için veridir, aşağıda aynıdır)

CCMatrix: Her dil çifti için paralel topluluk sayısı (birim: milyon) ve Marj eşiği 1.06'dır. Örneğin, Yunan / Çin çiftleri için corpora sayısı 4,7 milyondur.

3. Niteliksel değerlendirme

Schwenk ve arkadaşları, bu veri setinin kalitesini değerlendirmek için, bu veri setini nöral makine çeviri sistemini test etmek için de kullandı ve birkaç genel test setiyle karşılaştırdı.

1. TED veri setinde test edin

Schwenk ve arkadaşları ilk önce sinirsel çeviri sistemini (NMT) eğitmek için CCMatrix'i kullandı ve daha sonra TED veri setinde test etti. Sonuçlar aşağıdaki gibidir:

Burada sadece 27 dil seçilmiştir. Yukarıdaki tüm BLEU değerlerinin ortalaması 14,3, İngilizce çiftinin ortalama BLEU değeri 26,7 ve en yüksek BLEU değeri 42,9'dur.

Elbette TED üzerindeki SOTA bunlardan çok daha yüksek; ancak burada testte kullanılan NMT sisteminin Transformer çerçevesi gibi en son teknolojileri kullanmadığı unutulmamalıdır.

2. WMT'19'da değerlendirin

Yukarıdaki resim Newstest'18 (NT'18) ve Newtest'19 (NT'19) test setlerindeki BLEU puanlarını göstermektedir. CCMatrix kullanmanın çok rekabetçi BLEU puanları sağlayabileceği görülebilir.

3. WAT'19'da Değerlendirin

Asya Çeviri Seminerinin Rusça / Japonca çeviri görevinde CCMatrix kullanılarak gerçekleştirilen test yukarıdaki şekilde gösterilmektedir. Burada kullanılan model öncekiyle aynıdır, Transformer yoktur ve katman düşüşü yoktur. SOTA'dan biraz daha kötü olmasına rağmen, yine de aynı seviyede.

4. Özet

CCMatrix, NMT araştırma topluluğunun, daha önce yalnızca birkaç düzine dil çiftinden daha büyük iki dilli veri kümelerinden yararlanmasını sağlar. Bu, daha fazla dil kullanabilen daha etkili NMT modellerinin, özellikle de nispeten sınırlı kaynak kaynaklarına sahip modellerin oluşturulmasını hızlandırabilir.

Büyük ölçek ve çok sayıda kamuya açık metnin kullanılması nedeniyle, belki de CCMatrix NMT alanındaki sistemleri oluşturmak ve değerlendirmek için en yaygın kullanılan kaynaklardan biri haline gelecektir.

Elbette, Facebook tarafından CCMatrix oluşturma sürecinde önerilen veri seti oluşturma yöntemi tanıtıma daha değerdir ve daha fazla kişinin büyük ölçekli veri kümeleri oluşturmasına yardımcı olabilir.

Referans malzemeleri:

Facebook açık kaynak resmi duyurusu: https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix

Kağıt: https://arxiv.org/abs/1911.04944CCMatrix

Açık kaynak bağlantısı: https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

Lei Feng.com raporları.

Guangdong Kurumsal Savaş Salgın Rekoru | Cap Biotech Chaozhou Karargahı Tamamen Ateşlendi
önceki
Leishenshan Hastanesi kabul gördü ve yavaş yavaş teslim edildi
Sonraki
Eşiğinde! Lakers maçtan önce James ve diğerlerinin ısınma fotoğraflarını resmen yayınladı.
"Salgın" ile mücadele etmek için birlikte çalışmak · Kurumsal sorumluluk | Jiaoling'deki üç hevesli şirket, Meizhou, 1,5 milyon değerinde tıbbi malzeme bağışladı
sevmek! Özel bir girişim olan Shaoguan Ruyuan, 792 kg dezenfektan bağışladı
Today Paper | Modal denge modeli; birleşik anlamsal analiz; son derece etkileyici SQL sorgusu; çok kişili poz tahmin modeli vb.
Salgınla tek yürekle mücadele etmek için Lig ve demiryolu görevlileri ilk satırda 65 bölgede birlikte "mücadele"
Ön saflardaki çalışanlara saygı göstermek için Lingnan No. 5 Oteli "Tangyuan Gönder" faaliyetini başlattı.
Wuhan Fangcai Hastanesi için beş soru: Peki ya tesisler? Çapraz enfekte olacak mı?
Lei Jia ve Wang Junkai burada! Gelecekte bu baharı düşündüğümde, bu melodiyi düşünebilirim
"Savaş Salgınının Ön Cephesi" kız, bir tabelayla çok güzel görünüyorsun
eve git! Qingxi Kasabasındaki 166 yoğun tıbbi gözlem personeli gözlemden serbest bırakıldı
Owen bugün Kobe'yi hatırlamak için sosyal medyayı güncelledi: Hoşçakal yok, sadece hoşçakal
Fener Festivali, seni havada kucaklamama izin ver Comic
To Top