Academia | BERT ve GPT'nin ötesinde, Microsoft Research Asia yeni bir MASS modeli açıyor

"

Sıradan sıraya doğal dil oluşturma görevlerinde BERT'i yenin!

"

AI Technology Review Press : 2018'den beri, doğal dil işleme (NLP) alanındaki en sıcak araştırma konularından biri şüphesiz ön eğitimdir. BERT, GPT ve XLNet gibi genel dil modellerini kullanarak, bu alandaki araştırmacılar, doğal dil anlamada birçok büyük atılım yaptılar. Bununla birlikte, sıradan sıraya doğal dil üretme görevleri için, bu ana akım ön eğitim yöntemleri önemli gelişmeler getirmedi.Bu bağlamda, Microsoft Research Asia, bu görevde yeni bir genel eğitim öncesi yöntem olan MASS önerdi. BERT ve GPT'den daha iyi sonuçlar alabilir.

Önsöz

BERT ve XLNet, duygu sınıflandırması, doğal dil çıkarımı ve SQuAD okuduğunu anlama gibi doğal dili anlama görevlerinde büyük başarı elde etti. Bununla birlikte, doğal dili anlama görevlerine ek olarak, NLP alanında makine çevirisi, metin özeti oluşturma, diyalog oluşturma, soru yanıtlama, metin stili dönüştürme vb. Gibi birçok sıradan sıraya dil üretme görevi vardır. Bu görevler için kodlayıcı-dikkat-kod çözücü çerçevesini kullanmak ana akım yöntemdir.

Şekil 1 Kodlayıcı-dikkat-kod çözücü çerçevesi

Şekil 1'de gösterildiği gibi, kodlayıcı X kaynak dizisini girdi olarak alır ve bunu gizli bir temsil dizisine dönüştürür ve ardından kod çözücü, dikkat mekanizması aracılığıyla kodlayıcıdan gizli temsil dizisi bilgisini özetler ve otomatik olarak hedef dizi metnini Y oluşturur. .

BERT ve XLnet genellikle bir kodlayıcının doğal dil anlayışı için ön eğitimdir; GPT, bir kod çözücünün dil modellemesi için ön eğitimdir. Sıradan diziye dil oluşturma görevleri için BERT ve GPT kullanırken, genellikle kodlayıcı ve kod çözücüyü ayrı ayrı önceden eğitmemiz gerekir. Bu durumda, kodlayıcı-dikkat-kod çözücü çerçevesi ve dikkat mekanizması ortaklaşa eğitilmez. Bununla birlikte, dikkat mekanizması bu tür görevlerde son derece önemlidir ve bir kez eksik olduğunda, BERT ve GPT'nin en iyi performansı elde edememesine neden olur.

Yeni bir ön eğitim yöntemi

Sıradan sıraya doğal dil oluşturma görevleri için, Microsoft Asya Araştırma Enstitüsü'nün makine öğrenimi ekibi yeni bir eğitim öncesi yöntem önerdi, yani ön eğitimi sıralamak için maskelenmiş sıra (MASS: Sıralı Sıradan Sıraya Ön Eğitim). MASS, k uzunluğundaki bir cümle parçasını rastgele maskeler ve kodlayıcı-dikkat-kod çözücü çerçevesi aracılığıyla bu maskelenmiş parçayı tahmin eder.

Şekil 2 MASS çerçevesi

Şekil 2'de gösterildiği gibi, kodlayıcı ucundaki 3.-6ncı işaretler maskelenirken, kod çözücü ucunda sadece maskelenmiş işaretler tahmin edilirken diğer işaretler maskelenir.

MASS ön eğitimi aşağıdaki avantajlara sahiptir:

  • Kod çözücü tarafındaki diğer işaretler (kodlayıcı tarafında maskelenmemiş işaretler) maskelenir, bu da kod çözücüyü sürekli cümle parçalarını tahmin etmeye yardımcı olmak ve kodlayıcı-dikkat-kod çözücü yapısının ortak eğitimini teşvik etmek için daha fazla bilgi almaya iter;

  • Kod çözücüye daha yararlı bilgiler sağlamak için kodlayıcı, kodlayıcının kaynak dizi metnini anlama yeteneğini geliştirebilen maskelenmemiş işaretlerin anlamını çıkarmaya zorlanır;

  • Kod çözücü, kod çözücünün dil modelleme yeteneklerini geliştirebilen ardışık etiketleri (cümle parçaları) tahmin etmek için tasarlanmıştır.

Birleşik ön eğitim çerçevesi

MASS'ın önemli bir hiper parametresi k (maskelenmiş parçanın uzunluğu) vardır. K'nin değerini ayarlayarak, MASS, BERT'deki maskelenmiş dil modellemesini GPT'deki standart dil modellemesiyle birleştirebilir, böylece MASS'ı genel bir eğitim öncesi çerçeveye genişletir.

K = 1 olduğunda, MASS tasarımına göre, kodlayıcı tarafındaki bir işaret maskelenir ve kod çözücü tarafı, Şekil 3'te gösterildiği gibi maskelenmiş işareti tahmin eder. Kod çözücüde giriş bilgisi yoktur, bu nedenle MASS, BERT'deki maskeli dil modeline eşdeğerdir.

Şekil 3 k = 1 olduğunda, kodlayıcı tarafındaki bir işaret maskelenir ve kod çözücü tarafı maskelenmiş işareti tahmin eder

K = m (m, dizinin uzunluğudur) olduğunda, MASS'ta, kodlayıcı tarafındaki tüm işaretler maskelenir ve kod çözücü tarafı, Şekil 4'te gösterildiği gibi tüm işaretleri tahmin edecektir. Kod çözücü tarafı, kodlayıcı tarafından herhangi bir bilgi çıkaramaz ve MASS, GPT'deki standart dil modeline eşdeğerdir.

Şekil 4 k = m olduğunda, kodlayıcı tarafındaki tüm kelimeler maskelenir ve kod çözücü tarafı, GPT'deki standart dil modeline eşdeğer olan tüm etiketleri tahmin eder.

MASS'ın farklı k değerleri altındaki olasılık formülleri Tablo 1'de gösterilmektedir, burada m, dizinin uzunluğudur, u ve v, sırasıyla maskelenmiş segmentin başlangıç ve bitiş konumlarıdır.

U konumundan v konumuna kadar işaretlerin maskelenme sırasını temsil eder. K = 1 veya m olduğunda, MASS'ın olasılık formülünün BERT'deki maskeli dil modeline ve GPT'deki standart dil modeline eşdeğer olduğu görülmektedir.

Tablo 1 Farklı k değerleri altında MASS'ın olasılık formülü

Araştırmacılar, Şekil 5'te gösterildiği gibi, deneyler yoluyla farklı k değerleri altında MASS performansını analiz ettiler:

Şekil 5 Eğitimden ve ince ayarlamadan önce çeşitli maskeleme uzunlukları altında MASS performansı, a) İngilizce cümle ön eğitim modelinin PPL'si b) WMT13 Fransızca cümlelerin İngilizce-Fransızca çevirisi c) WMT13 denetimsiz İngilizce-Fransızca çevirisi BLEU değeri d) Metin özeti tarafından oluşturulan ROUGE değeri e) Diyalog tarafından oluşturulan PPL

K, cümle uzunluğunun yarısına eşit olduğunda, aşağı akış görevi en iyi performansına ulaşabilir. Cümledeki kelimelerin yarısını maskelemek, kodlayıcının ve kod çözücünün eğitim öncesi kısmını iyi dengeleyebilir. Ön eğitim, kodlayıcı tarafına (k = 1, yani BERT) doğru daha önyargılıysa veya kod çözücü tarafına (k = m, LM / GPT) doğru daha fazla önyargılıysa, optimum performans elde edilemez, bu da MASS'ın sıralı olduğunu gösterir. Dil üretme görevlerinin avantajları.

Sıradan sıraya dil üretme görev testi

  • Ön eğitim

MASS'ın eğitim öncesi eğitim için yalnızca denetimsiz tek dilli verileri gerektirdiğini belirtmek gerekir (WMT Haber Tarama Verileri, Wikipedia Verileri vb.). MASS, diller arası görevleri (makine çevirisi gibi) ve tek dilli görevleri (metin özeti oluşturma, diyalog oluşturma gibi) destekler. İngilizce-Fransızca çeviri gibi diller arası görevleri önceden eğitirken, araştırmacılar tek bir modelde hem İngilizce-İngilizce hem de Fransızca-Fransızca ön eğitimini gerçekleştirebilir ve dilleri ayırt etmek için ek dil yerleştirme vektörleri kullanabilir. Araştırmacılar, denetimsiz makine çevirisi, düşük kaynaklı makine çevirisi, metin özeti oluşturma ve diyalog oluşturma gibi dört alanda, etkinliğini doğrulamak için MASS'a ince ayar yaptı.

  • Denetimsiz makine çevirisi

Denetlenmeyen makine çevirisi görevleriyle ilgili olarak, araştırmacılar MASS'ı en gelişmiş yöntem Facebook XLM dahil olmak üzere önceki yöntemlerle karşılaştırdı. XLM, sırasıyla kodlayıcı ve kod çözücüyü önceden eğitmek için BERT tarafından oluşturulan maskeli eğitim öncesi dil modelini ve standart dil modelini kullanır.

Sonuçlar Tablo 2'de gösterilmektedir. MASS, WMT14 İngilizce-Fransızca, WMT16 İngilizce-Almanca ve İngilizce-Romence altı çeviri yönünde XLM'den daha iyi performans gösterdi ve en son en iyi sonuçları elde etti.

Tablo 2 MASS ile denetimsiz makine çevirisinde önceki yöntemler arasındaki karşılaştırma; İngilizce-Fransızca çeviri raporları en yeni2014'te ve diğerleri en yeni2016'da bulunabilir; XLM, kodlayıcı ve kod çözücüde farklı MLM ve CLM kombinasyonlarını kullanır, bu nedenle Rapor, her dil çiftinde XLM'nin en yüksek BLEU değerini gösterir

  • Düşük kaynaklı makine çevirisi

Düşük kaynaklı makine çevirisi, makine çevirisi için sınırlı iki dilli eğitim verilerinin kullanılması anlamına gelir. Araştırmacılar, WMT14 İngilizce-Fransızca, WMT16 İngilizce-Almanca ve İngilizce-Romence çevirileri (sırasıyla 10K, 100K ve 1M iki dilli veri) için düşük kaynak senaryolarını simüle etti.

Şekil 6 MASS ve düşük kaynaklı makine çevirisi yöntemleri arasındaki karşılaştırma

Şekil 6, MASS'ın farklı veri ölçeklerindeki performansının eğitim öncesi temel modelden farklı derecelerde geliştirildiğini ve denetim verilerinin miktarı daha az olduğu için iyileştirme etkisinin daha önemli olduğunu göstermektedir.

  • Metin özeti oluşturma

Araştırmacılar, MASS'ı BERT + LM (kodlayıcı BERT ile önceden eğitilmiştir ve kod çözücü standart dil modeli LM ile önceden eğitilmiştir) ve DAE (denoising autoencoder) ile karşılaştırdı. Tablo 3'ten MASS'ın BERT + LM ve DAE'den daha iyi performans gösterdiği görülmektedir.

Tablo 3 Metin özeti oluşturma görevinde MASS ve iki eğitim öncesi yöntem arasında karşılaştırma

  • İletişim kutusu oluşturma

Araştırmacılar MASS ve BERT + LM'yi karşılaştırdı. Tablo 4, MASS'ın BERT + LM'den daha düşük bir PPL elde ettiğini göstermektedir.

Tablo 4 MASS ve BERT + LM arasındaki karşılaştırma verileri

MASS, diziden sıraya dil oluşturma görevlerinde sürekli olarak önemli kazanımlar elde ediyor. Facebook araştırmacıları, gelecekte MASS'ın doğal dili anlama görevlerindeki performansını test etmeyi dört gözle beklediklerini ve gelecekteki çalışmalarda MASS'ın uygulama alanının da dahil edilecek şekilde genişletileceğini umduklarını söyledi. Üretim görevlerini sıralamak için ses, video ve diğer diziler.

İlgili Bağlantılar

  • Orijinal adres

https://www.microsoft.com/en-us/research/blog/introducing-mass-a-pre-training-method-that-outperforms-bert-and-gpt-in-sequence-to-sequence-language- nesil-görevler /

  • KÜTLE kağıdı

https://www.microsoft.com/en-us/research/publication/mass-masked-sequence-to-sequence-pre-training-for-language-generation/

  • GitHub açık kaynak adresi

https://github.com/microsoft/MASS

2019 Küresel Yapay Zeka ve Robotik Zirvesi

12-14 Temmuz 2019 , Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen ve Shenzhen Yapay Zeka ve Robotik Enstitüsü tarafından ortaklaşa düzenlenen Çin Bilgisayar Federasyonu (CCF) sponsorluğunda 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019 olarak kısaltılmıştır) Shenzhen'de resmen açılacak.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun , Kontrol edin: Google'ın daha güçlü NLP modeli XLNet açık kaynak: 20 görev BERT'i tamamen eziyor!

"Ailemdeki Çocuk" Dövüş Sanatları Xing Fei ile çıkıyor, eski kız arkadaşı Chen Xiaojun, Xiaotong'da kucaklaşmak için kamp yapıyordu.
önceki
190614 Stüdyo sıcak bar yüzme havuzu güzellik fotoğrafı, sıcak yaz havalı güzel kız en baştan çıkarıcı
Sonraki
Ben genç bir dijital meraklıyım ve bu benim 2019 "El Kesme Listem"
WF-1000XM3 hakkında Sony mühendisleri bize şunu söyledi
"TWICE" "Hisse" 190614 Jeongyeon da yola çıktı! Bu öğleden sonra Incheon Havaalanı'ndan Tayland'a hareket
ABD'nin Çin'deki vergi artışına karşı çıkmak için, oyun endüstrisindeki üç dev, on yıllardır güçlerini birleştirdi.
Derin takviye öğreniminin ödül mühendisliği kullanması gerekiyor mu? Berkeley AI Enstitüsü: Gerek yok
190614 Li Madou podyum incelemesi, her görünüm favori
190614 Li Yifeng Chengdu'dan Pekin'e uçar, uzun süredir kayıp olan kırmızı aktif okul otu uğrak yeridir.
Kadınların WeChat Anları, Changning'in depremden etkilenen bölgesindeki insanları lanetliyor: On gün tutuklu
CCF-GAIR Zirvesi sponsorluk programı resmen sona erdi! Açıklanan on sponsor listesi
Dünya ekonomisine hakim olmak ister misiniz? Beyin benzeri bilgi işlem alanında bu alana yol açmalı CCF-GAIR 2019
Skyworth, Çin'deki OLED TV'ler için bir "popülerlik fırtınası" başlatmak istiyor
190614 Kral Cennete Ming Lu Han'ın sahnede değişen cazibesi insanların kalp atışlarını hızlandıracak mı?
To Top