g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Resmi yorumlama, Google'ın "T5" modeli, geçiş öğreniminin sınırlamalarını aşma ve çoklu ölçütlü SOTA'ya nasıl ulaşılacağı

Geçtiğimiz birkaç yılda, göç öğrenimi NLP alanına verimli sonuçlar getirdi ve yeni bir gelişme dalgası başlattı. Transfer öğrenmenin bu kadar etkili olmasının nedeni, modeli büyük miktarda etiketlenmemiş metin verisi üzerinde önceden eğitmek için kendi kendini denetleyen görevleri (dil modellemesi veya eksik kelimeleri doldurma gibi) kullanmasıdır; daha sonra, daha küçük bir etiket kullanır Model, veri setinde ince ayarlanmıştır, böylece model, tek başına etiketli veriler üzerinde eğitimden çok daha iyi performans elde edebilir.

Göç öğrenimi, 2018'de ortaya çıkan GPT, ULMFiT, ELMo ve BERT sonuçlarında ilk kez ortaya çıktı ve ardından 2019'da ortaya çıktı ve XLNet, RoBERTa, ALBERT, Reformer ve MT dahil olmak üzere alanda birçok yeni yöntemin geliştirilmesini teşvik etti. DNN ve benzeri. NLP alanının hızla gelişmesiyle birlikte, hangi geliştirme sonuçlarının en anlamlı olduğunu ve bu sonuçların kombinasyonunun nasıl bir etkiye sahip olacağını değerlendirmek kolay bir iş değildir.

(Leifeng.com) Kağıt adresi: https://arxiv.org/abs/1910.10683

Google araştırmacıları, "Transfer öğreniminin sınırlamalarını keşfetmek için birleşik bir metinden metne Dönüştürücü kullanma" başlıklı makalede, hangi aktarımla öğrenim tekniklerinin en iyi çalıştığını belirlemek ve bu aktarım öğrenimini geniş ölçekte uygulamak için büyük ölçekli bir deneysel değerlendirme önerdi Yeni bir model oluşturmak için teknoloji, yazar bu yeni modeli bir metinden metne aktarım Transformatörü (Metinden Metne Transfer Transformatörü, T5) olarak adlandırıyor.

Aynı zamanda, yeni bir açık kaynak eğitim öncesi veri kümesi olan Colossal Clean Crawled Corpus (C4) tanıttılar. Yazar, C4 veri kümesinde T5 modelini önceden eğiterek modelin birçok NLP kıyaslamasında en iyi sonuçları elde etmesini sağlarken ince ayarlamadan sonra birden çok önemli aşağı akış görevine uygulanacak yeterli esnekliğe sahip .

1. Metin çerçevesine paylaşılan metin

Yazar, T5 modelini oluşturduktan sonra, tüm NLP görevlerini birleşik bir metinden metne formatına yeniden yapılandırdı.Giriş ve çıktı, her zaman yalnızca sınıf etiketleri veya girdi aralıkları çıktısı alabilen BERT stili modelden tamamen farklı olan metin dizeleridir. Metinden metne çerçevesi, makine çevirisi, belge özetleme, soru yanıtlama ve sınıflandırma görevleri (duyarlılık analizi gibi) dahil olmak üzere herhangi bir NLP görevinde aynı modeli, kayıp işlevini ve hiper parametreleri kullanmalarına olanak tanır. T5 modeli, sayının kendisi yerine bir sayının dizgi temsilini tahmin etmek için T5 modelini eğiterek regresyon görevlerine bile uygulanabilir.

(Lei Feng Ağı)

Metin çerçevesi diyagramına metin. Yazar, her görev için modelin girdisi olarak metni kullanmayı düşünür ve modeli bazı hedef metinler üretecek şekilde eğitir. Bu, çeviri (yeşil kutu), dil kabul edilebilirliği (kırmızı kutu), cümle benzerliği (sarı kutu) ve belge özeti (mavi kutu) dahil olmak üzere birden çok görevde aynı modeli, kayıp işlevini ve hiper parametreleri kullanmalarına olanak tanır. ). Ayrıca ampirik değerlendirmeye dahil edilen yöntemler için standart bir test yatağı sağlar.

2. Büyük eğitim öncesi veri kümesi (C4)

Transfer öğrenmenin önemli bir parçası, model ön eğitimi için kullanılan etiketlenmemiş veri kümesidir. Eğitim öncesi ölçeğini genişletmenin etkisini doğru bir şekilde değerlendirmek için, yalnızca yüksek kaliteli, çeşitli ve büyük ölçekli olmayan bir veri setine ihtiyacımız var.

Mevcut eğitim öncesi veri kümesi yukarıdaki üç gereksinimi karşılayamaz. Örneğin, Wikipedia'dan alınan metin yüksek kalitede ve formatı tek tip, ancak ölçek nispeten küçükken, Ortak Tarama web sitesinden taranan metin nispeten büyük. Geniş ve çeşitli, ancak kalitesi oldukça düşük.

Yazar, bu üç gereksinimi karşılamak için, Wikipedia'dan iki kat daha büyük olan Common Crawl'un temiz bir sürümü olan Colossal Clean Crawled Corpus veri kümesi (C4) geliştirdi. Temizleme süreçleri, yinelenen verilerin kaldırılmasını, eksik cümlelerin kaldırılmasını ve rahatsız edici veya gürültülü içeriğin kaldırılmasını içerir.

Bu filtreleme, modelin aşağı akış görevlerinde daha iyi performans göstermesini sağlar.Aynı zamanda, veri setinin ek ölçeği, modelin eğitim öncesi dönemde uymuyorsa boyutunu artırmasına da izin verir.

C4 veri seti adresi: https://www.tensorflow.org/datasets/catalog/c4

3. Transfer öğrenme yöntemleriyle ilgili sistematik araştırma

Yazar, son birkaç yılda NLP aktarım öğrenimi için tanıtılan çok sayıda fikir ve yöntemi değerlendirmek için T5 metinden metne çerçevesini ve yeni eğitim öncesi veri kümesi C4'ü kullanıyor.

Aşağıdaki deneyler de dahil olmak üzere ayrıntılı değerlendirme ayrıntıları makalede bulunabilir: model mimari deneyinde, kodlama-kod çözme modelinin genellikle "yalnızca kod çözme" dil modelinden daha iyi olduğunu buldular; eğitim öncesi hedef üzerindeki deneyde, doğruladılar Boşluğu doldurma hedefleri (yani, girdideki eksik kelimeleri geri yüklemek için modeli eğitmek) daha iyidir ve en önemli faktör hesaplama maliyetidir.

Etiketlenmemiş veri setleriyle yapılan deneylerde, modelin alan içi veri seti üzerinde eğitilmesinin faydalı olduğunu, daha küçük bir veri seti üzerinde modelin önceden eğitilmesinin uygunsuz bir şekilde aşırı uyuma yol açacağını gösterdiler; eğitim stratejisi deneyinde, Çok görevli öğrenmenin "ön eğitim ve ardından ince ayar" yöntemiyle karşılaştırılabilir olduğunu, ancak modelin her görev için ne sıklıkla eğitildiğine dair daha ayrıntılı bir seçim yapılmasını gerektirdiğini buldular.

Model ölçekli deneyde, sabit bilgi işlem gücünden en iyi şekilde nasıl yararlanılacağını belirlemek için farklı boyutlardaki modelleri, eğitim sürelerini ve entegre modellerin sayısını karşılaştırdılar.

Dördüncü olarak, geçiş yöntemi + veri ölçeği = en iyi performans

Yazar, NLP aktarımıyla öğrenmenin mevcut sınırlamalarını keşfetmek için, sistem araştırmasındaki en iyi yöntemlerin tümü ile birleştirilen ve Google Cloud TPU hızlandırıcı kullanarak optimize edilen son bir dizi deney gerçekleştirdi. En büyük model 11 milyar parametreye sahiptir ve GLUE, Superglue, Team ve CNN / Daily Mail kıyaslama testlerinde SOTA'ya ulaşabilir. Ayrıca SuperGLUE doğal dil anlama kıyaslama testinde insan seviyesine yakın bir puan aldı.

5. Diğer görevlere genişletildiğinde performans da tatmin edicidir

T5 çok esnektir ve çok kolay değiştirilebilir.Yazarın makalesindeki bazı görevlere ek olarak, diğer görevlerde de büyük başarılar elde edebilir. Örneğin, aşağıdaki iki yeni görevde model iyi performans gösterdi.

1. Kapalı veri sorusu ve cevabı

Metinden metne çerçevesi genellikle okuduğunu anlama problemlerinde kullanılabilir. Modeli bağlamsal bilgiler ve bir soru ile sağlayın ve bağlamsal bilgilerdeki sorunun cevabını bulması için eğitin. Örneğin, modele bir Wikipedia makalesinde Connie Kasırgası metnini verebilir ve "Connie Kasırgası ne zaman meydana geldi?" Diye sorabilirsiniz. Makalede tarihi bulmak için model.

Aslında yazar, Stanford Soru Cevaplama Veri Kümesinde (SQuAD) en gelişmiş sonuçları elde etmek için bu yöntemi kullandı. Yazarın Colab demo ve takip makalelerinde, T5'i herhangi bir dış bilgi olmadan daha zor ve kapalı bir ortamda önemsiz soruları yanıtlaması için eğitti. Başka bir deyişle, T, soruları yanıtlarken yalnızca denetimsiz ön eğitim sırasında eğitilen parametreleri ve bilgileri kullanabilir.

(Lei Feng Ağı)

Eğitim öncesi dönemde T5, C4 belgesinden eksik metin aralığını nasıl dolduracağını öğrenir. Modelin ince ayarı yapıldı ve herhangi bir bilgi veya bağlam girilmeden zaten kapalı bir soru ve cevaba uygulandı. T5 bu görevde çok iyidir. 11 milyar parametre modeli TriviaQA, WebQuestions ve Natural Questions'daki yanıtların% 50.1,% 37.4 ve% 34.5'ini doğru bir şekilde oluşturmuştur. Bu tür sorunlara objektif bir şekilde bakmak için T5 ekibi, pub trivia mücadelesinde eğitimli modelle yan yana savaştı, ancak ne yazık ki başarısız oldular. Aşağıdaki animasyonda gösterildiği gibi

2. Cloze İkinci görev cloze. GPT-2 gibi büyük ölçekli dil modelleri, metin üretiminde çok iyidir. Model eğitildikten sonra, girdiye bağlı olarak bir sonraki kelimeyi tahmin edebilir.Bu şekilde, modelin entegrasyonu, metin tabanlı oyun "AI Dungeon" gibi çok yenilikçi uygulamalar üretecektir.

T5 tarafından kullanılan eğitim öncesi hedef, boşlukları doldurma görevine çok benzer. Doldurma görevinde, model metindeki eksik kelimeleri tahmin eder, ancak bu hedef "devam görevinin" bir genellemesidir çünkü doldurma görevindeki boşluklar görünebilir Metnin sonunda. Hedefe ulaşmak için "Boşlukları Doldur" adlı yeni bir görev oluşturulmuş ve modelden boşlukları belirli sayıda sözcükle değiştirmesi istenmiştir. Örneğin, modele giriş yapın: Fıstık ezmesi ve 4-sandviç yemeyi seviyorum. Muhtemelen modeli boşlukları 4 kelime ile dolduracak şekilde eğitecektir. Model C4 ile ince ayarlandı ve etki iyi, özellikle modelin eksik metin tahmini çok iyi! Örneğin, aşağıdaki girdi: "Fıstık ezmesini ve -N-sandviçi severim", çıktı sonucu aşağıdaki gibidir:

Önceden eğitilmiş model:

https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints

Kod:

https://github.com/google-research/text-to-text-transfer-transformerColab Notebookhttps: //colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob /master/notebooks/t5-trivia.ipynbvia https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

Güney + Erken Tren Guangdong'da çalışmaya ve üretime devam etmek için en kapsamlı yönergeler burada

Jiaozuo, Henan: Parti Üyesi Direktörün Yoksulluğu Azaltma Kompleksi