ICML 2019 | Sıradan sıraya doğal dil oluşturma görevleri, BERT ve GPT'yi geride bırakıyor! Microsoft, evrensel bir eğitim öncesi model MASS öneriyor

Editörün notu: 2018'den başlayarak, ön eğitim şüphesiz NLP alanındaki en sıcak araştırma yönü haline geldi. BERT ve GPT gibi ön eğitim modellerinin yardımıyla, insanlar birden fazla doğal dil anlama görevinde büyük atılımlar yaptı. Bununla birlikte, sıradan sıraya doğal dil üretme görevinde, mevcut ana akım eğitim öncesi modeller önemli sonuçlar elde etmemiştir. Bu amaçla, Microsoft Research Asia'dan araştırmacılar, ICML 2019'da sıradan diziye doğal dil oluşturma görevlerinde BERT ve GPT'yi geride bırakan yeni bir genel eğitim öncesi yöntem MASS önerdi. Microsoft'un katıldığı WMT19 makine çevirisi yarışmasında MASS, Çince-İngilizce ve İngilizce-Litvanca dil çiftlerinin birincilik almasına yardımcı oldu.

BERT, doğal dili anlama görevlerinde (duygu sınıflandırması, doğal dil çıkarımı, adlandırılmış varlık tanıma, SQuAD okuduğunu anlama vb.) İyi sonuçlar elde etti ve giderek daha fazla ilgi gördü. Bununla birlikte, doğal dil işleme alanında, doğal dili anlama görevlerine ek olarak, makine çevirisi, metin özeti oluşturma, diyalog oluşturma, soru yanıtlama, metin stili dönüştürme gibi birçok sıralı doğal dil üretme görevi vardır. Bu tür bir görevde, mevcut ana yöntem, aşağıdaki şekilde gösterildiği gibi kodlayıcı-dikkat-kod çözücü çerçevesidir.

Kodlayıcı dikkat kod çözücü çerçevesi

Kodlayıcı (Kodlayıcı), kaynak dizisi metni X'i gizli bir vektör dizisine kodlar ve ardından kod çözücü (Kod Çözücü), kodlanmış gizli vektör dizisi bilgisini dikkat mekanizması (Dikkat) aracılığıyla çıkarır ve otomatik olarak hedef dizi metni Y'yi oluşturur.

BERT genellikle yalnızca doğal dili anlamak için bir kodlayıcı eğitirken, GPT'nin dil modeli genellikle bir kod çözücü eğitir. BERT veya GPT, diziden sıraya doğal dil üretme görevleri için kullanılıyorsa, genellikle yalnızca önceden eğitilmiş kodlayıcı ve kod çözücü ayrılır, bu nedenle kodlayıcı-dikkat kod çözücü yapısı ortaklaşa eğitilmez ve bellek mekanizması önceden eğitilmez. Eğitim ve kod çözücünün kodlayıcıya olan dikkat mekanizması bu tür görevlerde çok önemlidir, bu nedenle BERT ve GPT bu tür bir görevde yalnızca optimum altı efektler elde edebilir.

Yeni ön eğitim yöntemi-MASS

Microsoft Research Asia, özellikle diziden sıraya doğal dil üretme görevleri için yeni bir eğitim öncesi yöntem önerdi: Sıralamadan Sıraya Ön Eğitim (MASS: Sıralamadan Sıraya Ön Eğitim). MASS, cümlenin uzunluğu k olan sürekli bir parçayı rastgele maskeler ve ardından kodlayıcı-dikkat-kod çözücü model öngörüsü aracılığıyla parçayı oluşturur.

Eğitim öncesi MASS modeli çerçevesini sıralamak için maske sıralaması

Yukarıdaki şekilde gösterildiği gibi, kodlayıcı tarafındaki 3-6 kelime maskelenir ve daha sonra kod çözücü tarafı sadece bu ardışık kelimeleri tahmin ederken diğer kelimeleri maskelemektedir. Şekilde "_" maskelenmiş kelimeyi temsil eder.

MASS ön eğitimi aşağıdaki avantajlara sahiptir:

(1) Kod çözücü tarafındaki diğer kelimeler (kodlayıcı tarafında korumalı olmayan kelimeler), kod çözücüyü sürekli segmenti tahmin etmeye yardımcı olmak için kodlayıcı tarafından bilgi almaya teşvik etmek için bloke edilir. Kodlayıcı-dikkat-kod çözücü yapısının ortak eğitimini teşvik edin;

(2) Kod çözücüye daha yararlı bilgiler sağlamak için, kodlayıcı, korumasız kelimelerin anlamlarını çıkarmak zorunda kalır. Kodlayıcının kaynak dizisi metnini anlama yeteneğini geliştirin;

(3) Şifre çözücünün ardışık dizi bölümlerini tahmin etmesine izin verin. Kod çözücünün dil modelleme yeteneklerini geliştirin.

Birleşik ön eğitim çerçevesi

MASS, önemli bir hiper parametresine sahiptir k (maskelenmiş sürekli segmentin uzunluğu). K boyutunu ayarlayarak, MASS, BERT'de maskeli dil modeli eğitim yöntemini ve GPT'de standart dil modeli eğitim öncesi yöntemini içerebilir. MASS'ı evrensel bir eğitim öncesi çerçevesi yapın.

K = 1 olduğunda, MASS ayarına göre, kodlayıcı tarafı bir kelimeyi maskeler ve kod çözücü tarafı aşağıdaki şekilde gösterildiği gibi bir kelimeyi tahmin eder. Kod çözücü tarafında herhangi bir girdi bilgisi yoktur Şu anda, MASS ve BERT'deki maskeli dil modelinin ön eğitim yöntemi eşdeğerdir.

K = m (m, dizi uzunluğudur) olduğunda, MASS ayarına göre, kodlayıcı tüm kelimeleri maskeler ve kod çözücü tüm kelimeleri tahmin eder.Aşağıdaki şekilde gösterildiği gibi, kodlayıcı tarafındaki tüm kelimeler maskelenmiş olduğundan, kod çözücünün Dikkat mekanizması bilgi almamakla eşdeğerdir, bu durumda MASS, GPT'deki standart dil modeline eşdeğerdir.

MASS'ın farklı K altındaki olasılık formu aşağıdaki tabloda gösterilmektedir; burada m, dizinin uzunluğudur, u ve v, maskelenmiş dizinin başlangıç ve bitiş konumlarıdır, x ^ u: v, u'dan v'ye kadar olan dizi parçasını temsil eder, x ^ \ u: v, dizinin u konumundan v konumuna korumalı olduğu anlamına gelir. Ne zaman görülebilir K = 1 veya m olduğunda, MASS'ın olasılık formu BERT'deki maskelenmiş dil modeli ve GPT'deki standart dil modeli ile aynıdır.

Aşağıdaki şekilde gösterildiği gibi, deneyler yoluyla ön eğitim için MASS modelinde farklı segment uzunluklarını (k) maskelemenin etkisini analiz ettik.

K, cümle uzunluğunun yaklaşık yarısı (% 50 m) olduğunda, aşağı akış görevi en iyi performansı elde edebilir. Cümledeki kelimelerin yarısının korunması, kodlayıcı ve kod çözücünün ön eğitimini iyi dengeleyebilir. Kodlayıcıya yönelik aşırı önyargı (k = 1, yani BERT) veya kod çözücüye yönelik aşırı önyargı (k = m, yani LM / GPT) kullanılamaz Sıradan sıraya doğal dil oluşturma görevlerinde MASS'ın avantajlarını gösteren bu görevde optimum etki elde edilir.

Sıradan sıraya doğal dil oluşturma görev deneyi

Ön eğitim süreci

MASS, ön eğitim için yalnızca denetimsiz tek dilli verilere (WMT Haber Tarama Verileri, Wikipedia Verileri vb.) İhtiyaç duyar. MASS, diller arası diziden diziye oluşturmayı (makine çevirisi gibi) ve tek dilde diziden diziye üretmeyi (metin özeti oluşturma, diyalog oluşturma gibi) destekler. Ön eğitim MASS, diller arası görevleri (İngilizce-Fransızca makine çevirisi gibi) desteklediğinde, tek bir modelde hem İngilizce'den İngilizceye hem de Fransızcadan Fransızcaya ön eğitim gerçekleştiriyoruz. Farklı dilleri ayırt etmek için her dile ayrı ayrı karşılık gelen bir dil yerleştirme vektörü eklemek gerekir. Dört görev seçtik: denetimsiz makine çevirisi, düşük kaynaklı makine çevirisi, metin özeti oluşturma ve iletişim kutusu oluşturma ve MASS'ın etkisini doğrulamak için her görev için MASS ön eğitim modeline ince ayar yaptık.

Denetimsiz makine çevirisi

Denetimsiz çeviri görevinde, mevcut en güçlü Facebook XLM ile karşılaştırıyoruz (XLM, sırasıyla kodlayıcı ve kod çözücüyü önceden eğitmek için BERT'deki maskeli eğitim öncesi modeli ve standart dil modelini kullanır) Karşılaştırma sonuçları aşağıdaki tabloda gösterilmektedir.

MASS'ın ön eğitim yönteminin, WMT14 İngilizce-Fransızca ve WMT16 İngilizce-Almanca'nın dört çeviri yönünde XLM'den daha iyi performans gösterdiği görülmektedir. MASS'ın İngilizce-Fransızca denetimsiz çeviri üzerindeki etkisi, erken denetimli kodlayıcı-dikkat-kod çözücü modelini çok aştı ve aynı zamanda mevcut en iyi denetlenen modelle olan boşluğu büyük ölçüde daralttı.

Düşük kaynaklı makine çevirisi

Düşük kaynaklı makine çevirisi, sınırlı denetim verilerine sahip makine çevirisi anlamına gelir. Metodumuzun farklı düşük kaynak senaryolarında WMT14 İngilizce-Fransızca ve WMT16 İngilizce-Almanca (sırasıyla yalnızca 10K, 100K ve 1M denetim verileri) üzerindeki etkinliğini doğruluyoruz ve sonuçlar aşağıda gösterilmektedir.

Farklı veri ölçekleri altında, eğitim öncesi yöntemimizin performansı, eğitim öncesi temel modelden farklı derecelerde geliştirilir. Daha az denetlenen veri, iyileştirme etkisi o kadar önemli olur.

Metin özeti oluşturma

Metin özeti oluşturma (Gigaword Corpus) görevinde, MASS ile BERT + LM'yi karşılaştırdık (kodlayıcı, BERT ile önceden eğitilmiştir ve kod çözücü, standart dil modeli LM ile önceden eğitilmiştir) ve DAE (otomatik kod çözücü denoising). Aşağıdaki tablodan da görülebileceği gibi, MASS'ın etkisi BERT + LM ve DAE'den önemli ölçüde daha iyidir.

İletişim kutusu oluşturma

Diyalog oluşturma (Cornell Movie Dialog Corpus) görevinde, MASS'ı BERT + LM ile karşılaştırdık ve sonuçlar aşağıdaki tabloda gösterilmektedir. MASS'ın PPL'si BERT + LM'den daha düşüktür.

Sıradan diziye farklı doğal dil oluşturma görevlerinde, MASS çok iyi sonuçlar elde etti. Daha sonra, MASS'ın doğal dil anlama görevlerindeki performansını da test edeceğiz ve daha doğal dil görevlerinde gelişmeyi ummak için modele denetimli veri ön eğitimini destekleme işlevini ekleyeceğiz. Gelecekte, MASS'ın uygulama alanını ses, video ve diğer sekans-sekans oluşturma görevlerini de içerecek şekilde genişletmeyi umuyoruz.

Kağıt adresi

Ayrıntılar için lütfen kağıt adresine bakın: https://arxiv.org/pdf/1905.02450.pdf

Kağıdı görüntülemek üzere kodu taramak için uzun basın

Ayrıca makalenin kaynak kodunu da yakında açacağız, bu yüzden bizi izlemeye devam edin!

yazar hakkında

Tan Xu, Microsoft Research Asia Makine Öğrenimi Grubunda bir araştırmacıdır. Ana araştırma ilgi alanları makine öğrenimi algoritmaları ve bunların doğal dil ve konuşma alanlarındaki uygulamalarıdır.Araştırma sonuçları ICML, NIPS, ICLR, AAAI, EMNLP, NAACL ve diğer konferanslarda yayınlandı.

Orijinal metni okumak için tıklayın, CVPR en iyi toplantı değişim grubuna katılın ve meslektaşlarınızla fikir alışverişinde bulunun

Geoffery Hinton ile yüz yüze sohbet edin
önceki
Oz Büyücüsü [03] Her Tahta Kızı Fengling-Heilongjiang Güzel Sanatlar Yayınevi 2011 Zhao Mingjun Zhao Ji [Bölüm 2]
Sonraki
Endüstri | SenseTime, arka arkaya 11 yeni ürün yayınlayarak kendisini "AI inişinin" sınırına kadar zorladı
Lee Shau Kee'nin ölümü, Hong Kong'un "dört kötü adamı" geçmişte kaldı
Redmi K20 rakibi! İlk başlayan Honor 20 Pro: bu görünümü nasıl puanlıyorsunuz?
Oz Büyücüsü [03] Her Tahta Kızı Fengling-Heilongjiang Güzel Sanatlar Yayınevi 2011 Zhao Mingjun Zhao Ji [Bölüm 1]
Vizyon ve Dil alanındaki en son araştırma ve ilerlemelere genel bakış
Zhang Yingying davasının ilk gününde, sanık ölüm cezasıyla karşı karşıya ve jüri büyük bir belirsizlik içinde.
Harbin Longlv Şirketi "Altı Gün" Festivalinden Önce Özel Çocuklara Sevgi Gösterdi
Huang Wei liyakat için yarışıyor-Yeni Güzel Sanatlar Yayınevi 1955 Chen Luping boyanmış
Kayısı Peri-Çin Kültürü Basını 2009, Wang Xuecheng tarafından boyanmıştır.
Tarihsel araştırma ve yargı ile karşılaştırıldığında, dönüştürülebilir tahvil fonu hala satın alınabilir mi?
Qian Wang, gelgit-Zhejiang Halk Güzel Sanatlar Yayınevi'ni vuruyor 1980 Dai Ren tarafından boyandı
Liu Zuohu yalan söylemedi! OnePlus 7 Pro açıklandı: hak edilmiş ilk yerli makine kralı!
To Top