g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

1.5 milyar parametre! Tarihteki en güçlü evrensel NLP modelinin doğuşu: 7 büyük veri kümesinin en iyi kaydı

Xin Zhiyuan Rehberi Tarihteki en güçlü "evrensel" NLP modeli geliyor: Bugün OpenAI, tutarlı metin paragrafları oluşturabilen, 7 büyük veri kümesinin kriterlerini yenileyebilen ve resmi blogda eğittikleri büyük ölçekli bir denetimsiz NLP modelini tanıttı. Eğitim durumunda, okuduğunu anlama, soru cevaplama ve makine çevirisi gibi çeşitli dil modelleme görevlerini tamamlayın.

OpenAI bugün resmi blogda yeni NLP modelini tanıttı, 7 büyük veri kümesinin SOTA'sını (mevcut en iyi sonuç) yeniledi ve etki alanı bilgisi ile ilgili herhangi bir veri eğitimi olmadan görevler genelinde en iyi sonucu doğrudan gerçekleştirebilir. Temel okuduğunu anlama, makine çevirisi, soru-cevap ve metin özetleme gibi farklı NLP görevleri.

Ön eğitim olmadan çeşitli farklı görevler tamamlanabilir ve iyi sonuçlar elde edilebilir, bu "felaketli unutmanın" üstesinden gelmeye eşdeğerdir. Bu, derin öğrenme araştırmacılarının hayalini kurduğu "evrensel" bir modeldir!

Google'ın BERT'si, NLP'nin yeni bir eğitim öncesi model çağına girdiğini temsil ediyorsa, OpenAI bu sonucu, Olağanüstü miktarda veriye ve bilgi işlem gücüne sahip olduğunuz sürece, daha önce hayal bile edilemeyen şeyleri başarabilirsiniz. .

Örneğin, bilgi işlem gücü OpenAI pekiştirmeli öğrenme araştırmasına katılan Smertiy'ye göre, yeni model 256 Google TPU v3 kullanıyor (belirli bir eğitim süresi açıklanmadı). Eğitim ücreti saatlik 2048 ABD dolarıdır .

Tarihteki en güçlü "evrensel" NLP modeli: 40 GB ağ verilerini dörtnala koşan 1,5 milyar parametre

OpenAI'nin bu NLP modeli Transformer'a dayanmaktadır ve 1.5 milyar parametre , Kullanım içerir 8 milyon web içeriğinden oluşan bir veri kümesi Eğitim, sadece tek bir amaç için:

Şu anda mevcut bilgilere dayanarak, bir sonraki kelimenin ne olacağını tahmin edin.

Yeni modelin adı, geçtiğimiz yıl OpenAI tarafından piyasaya sürülen denetimsiz NLP modeli GPT'nin doğrudan bir uzantısı olan GPT-2'dir.Yeni modelin kullandığı parametreler ve eğitim verileri 10'dan fazla büyüklük sırası artmıştır.

Model kapasitesi yeterince büyük olduğundan ve eğitim verileri yeterince büyük olduğundan GPT-2, 40GB ağ veri test seti Yukarıda, basitçe "bir sonraki kelimenin ne olacağını tahmin etmek", çeşitli farklı NLP görevlerini tamamlamak için yeterlidir ve güçlü bir genelleme yeteneği gösterir.

Şu anda, makine öğrenimi sistemlerini oluşturmanın ana akım yöntemi, denetimli öğrenme-toplama verileri, yani modeli bir dizi "ideal" girdi ve çıktı kombinasyonu besleyerek modelin "rutini" taklit etmesine ve yeni test veri setinde vermesine izin veriyor. Benzer sonuçlar. Bu yöntem, belirli alan görevlerinde iyi performans gösterir, ancak dezavantajı, soru cevap veri setinde iyi performans gösteren bir modelin okuduğunu anlamaya uygulanması gibi diğer görevlere değiştirildiğinde, modelin uyarlanamaması, yani genelleme becerisinin çok yüksek olmasıdır. fark.

Bu bağlamda, OpenAI araştırmacıları cesurca spekülasyon yapıyor: Mevcut makine öğrenimi sisteminin zayıf genelleme yeteneğinin nedeni tam olarak modelin belirli bir görev eğitimi için belirli bir veri seti alanıyla sınırlı olmasıdır. .

Aynı zamanda, çok görevli modellerle ilgili mevcut araştırmalar, yalnızca eğitim örneklerinin artışına güvenerek etkili görev genişletmeyi başarmanın zor olduğunu kanıtlıyor; NLP araştırmacıları, çok görevli öğrenme modelleri oluşturmak için öz dikkat modülü aktarım öğrenmeyi giderek daha fazla kullanıyor.

Bu nedenle, OpenAI araştırmacıları, daha genel bir veri setine dayalı olarak yukarıdaki iki fikri birleştirdi, göç öğrenimi için öz-dikkat modülünü kullandı ve ardından sıfır atış durumunda herhangi bir katılım veya model yapısını ayarlamadan birden fazla görevi gerçekleştirebilen bir model elde etti. GPT-2 olarak da bilinen farklı NLP görevlerinin bir modeli.

Güçlü yetenekleri ve olası kötüye kullanım tehlikesi nedeniyle OpenAI, GPT-2 modelini ve kodunu yayınlamadı. Yalnızca 117M parametresini içeren yalnızca bir örnek model ve kod yayınlandı , İlgilenen araştırmacıların öğrenmesi ve referans vermesi için: https://github.com/openai/gpt-2

Elbette, OpenAI bu sefer GPT-2'nin belirli model yapısı üzerinde ayrıntılı bilgi vermedi, akademik çevreden görüş almak için yarım yıl ayırdılar. OpenAI araştırmacıları yayınlanan "Dil Modelleri Denetimsiz Çok Görevli Öğrenicilerdir" başlıklı makalede model oluşturma fikirlerini ve yöntemlerini tanıttı.

Spesifik bilgi işlem gücüne gelince, kağıda değinilmiyor.Yukarıdaki Twitter'daki verilere göre, modelleri 256 Google Cloud TPU v3 kullanıyor, ancak eğitim süresi açıklanmadı. TPU v3, Google dışında yalnızca bağımsız bir sürüm olarak mevcuttur (OpenAI'nin özel bir lisansı olabilir), bu da 8 * 256 = 2048 ABD doları / saat ödemeleri gerektiği anlamına gelir.

Aşağıda, OpenAI'nin sonuçlarını gösterme zamanı verilmiştir - ayrıca makaleyi doğrudan makalenin sonuna çekebilir ve makaleyi görüntülemek için "Orijinal metni oku" seçeneğini tıklayabilirsiniz.

Ön eğitim gerekmez, 8 veri seti 7 mevcut en iyi kaydı yeniler

Dört dil modelini eğittik ve karşılaştırdık ve boyutları aşağıdaki tabloda gösterilmektedir:

4 model boyutlu mimari ve hiperparametreler

Bunlar arasında en küçük model orijinal GPT'ye eşdeğerdir ve ikinci en küçük model en büyük BERT modeline eşdeğerdir. En büyük modelimiz, GPT'den çok daha fazla parametresi olan GPT-2'dir.

GPT-2 Çeşitli alana özgü dil modelleme görevlerinde son teknoloji başarılar elde etti. Modelimiz bu görevlere özel herhangi bir veri üzerine eğitilmemiştir, sadece son test olarak değerlendirilir; buna denir "Sıfır vuruş "ayar.

Aynı veri kümesi üzerinde değerlendirildiğinde, GPT-2, alana özgü veri kümeleri (Wikipedia, haberler, kitaplar gibi) üzerinde eğitilmiş modellerden daha iyi performans gösterir.

Aşağıdaki tablo, en gelişmiş sıfır vuruş sonuçlarımızın tümünü göstermektedir.

(+) puan ne kadar yüksekse o kadar iyi anlamına gelir. (-) puan ne kadar düşükse o kadar iyi anlamına gelir.

GPT-2, bu veri setlerinde SOTA sonuçları elde etti

GPT-2, Winograd Şeması, LAMBADA ve diğer dil modelleme görevlerinde son teknoloji ürünü sonuçlar elde etti.

Her veri setinde, dört farklı parametre boyutlu modelin Zero-shot sonuçları.

Gördüğünüz gibi, WebText LM'ler etki alanları ve veri kümeleri arasında iyi bir şekilde iletilebilir. Sıfır atış ayarı altında, 8 veri setinden 7'sinin son teknoloji sonuçları daha da iyileştirildi .

Yalnızca 1 milyon ila 2 milyon eğitim jetonuna sahip Penn Treebank ve WikiText-2 gibi küçük veri kümelerinde büyük gelişmeler görebiliriz. LAMBADA ve Çocuk Kitapları Testi gibi uzun vadeli bağımlılıkları ölçmek için kullanılan veri setleri de büyük ölçüde iyileştirildi.

Modelimiz, Bir Milyar Kelime Kıyaslama üzerindeki önceki çalışmadan hala önemli ölçüde daha kötü. Bunun nedeni, hem en büyük veri kümesi olması hem de en yıkıcı ön işleme-1BW cümle düzeyinde dönüşümün bazılarının tüm uzak yapıyı ortadan kaldırması olabilir.

Diğer görevler: Soru-Cevap, okuduğunu anlama, özet özet ve çeviri

Soru cevaplama, okuduğunu anlama, özet özet ve çeviri gibi diğer dil görevlerinde, modelde herhangi bir ince ayar yapmadan mükemmel sonuçlar elde ettik.Sadece eğitim modelini doğru şekilde yönlendirmemiz gerekiyor (aşağıdaki örnek gösteriyor Spesifik uygulamalar ve sonuçlar), ancak bu görevler SOTA profesyonel sistemler seviyesine ulaşmamıştır.

1. Okuduğunu anlama: belirli bir paragrafla ilgili soruları yanıtlayın

veri seti: CoQA

Misal

2008 Yaz Olimpiyatları meşale yarışması, "tek dünya, tek rüya" temasıyla 24 Mart'tan 8 Ağustos 2008'e kadar 2008 Yaz Olimpiyatları öncesinde gerçekleştirildi. Bayrak yarışının planları 26 Nisan 2007'de Pekin'de duyuruldu. , Çin. Organizatörler tarafından "Uyum Yolculuğu" olarak da adlandırılan bayrak 129 gün sürdü ve meşaleyi 137.000 km (85.000 mil) taşıdı - gelenek 1936'dan önce başlatıldığından bu yana herhangi bir Olimpiyat meşalesi rölesinin en uzun mesafesi. Yaz Olimpiyatları. 24 Mart'ta Yunanistan'ın Olympia kentinde Olimpiyat Oyunlarının doğduğu yerde yakıldıktan sonra, meşale Atina'daki Panathinaiko Stadyumu'na ve ardından 31 Mart'ta Pekin'e geldi. Meşale Pekin'den bir rota izliyordu. altı kıtadan geçiyor. Meşale, İpek Yolu boyunca Çin ile dünyanın geri kalanı arasındaki eski bağlantıları simgeleyen şehirleri ziyaret etti. Bayrak ayrıca Nepal ve Tibet sınırındaki Everest Dağı'nın tepesine alevle tırmanışı da içeriyordu. Çin tarafından Çin, S: Tema neydi? A: "tek dünya, tek rüya". S: Yarışın uzunluğu neydi? A: 137,000 km S: öncekilerden daha büyük müydü? A: NoQ : Yarış nerede başladı? A: Olympia, Yunanistan S: Bu yerde kayda değer bir şey var mı? A: Olimpiyat Oyunlarının doğum yeri S: Sonra nereye gittiler? A: Atina S: Yarış kaç gündü? A: Panathinaiko Stadyumu S: Herhangi bir dağa tırmandılar mı? C: Hedef cevaplar: bilinmiyor veya evet Model cevabı: Everest

Verim:

Okuduğunu anlama görevlerinde GPT-2, DrQA + PGNet'ten daha kötüdür ve insan seviyesinin çok altındadır.

2. Sağduyu muhakemesi: belirsiz zamirleri çözme

veri seti: Winograd Şema Mücadelesi

Misal

Kupa çok büyük olduğu için kahverengi çantaya sığmıyor.Doğru cevap: it = kupaModel cevap: it = kupa Kupa kahverengi çantaya sığmıyor çünkü çok küçük.Doğru cevap: it = bavulModel cevabı: it = bavul

Verim

Sağduyu muhakeme görevlerinde, GPT-2 SOTA'dan daha iyidir

3. Soru cevabı

veri seti: Doğal Sorular

Misal

Türlerin kökeni kitabını kim yazdı? Doğru cevap: Charles Darwin Model cevap: Charles Darwin ABD'deki kara kütlesine göre en büyük eyalet nedir? Doğru cevap: AlaskaModel cevap: California

Verim:

Soru cevap görevlerinde GPT-2'nin performansı BERT'den çok daha düşüktür

4. Genel bağlamda dil modelleme: bir metnin son kelimesini tahmin edin

veri seti: LAMBADA

Misal

Hem güneş benekli gölgesi hem de altındaki serin çimen boğucu mutfağın ardından hoş bir soluk aldı ve ağacın sert, kırılgan kabuğuna karşı rahatlamaktan ve tereyağ, kızarmış ekmek ve taze meyveden oluşan kahvaltıma başlamaktan memnun oldum. Su bile vardı lezzetli, çok temiz ve soğuktu. Neredeyse eksikliğini telafi ediyordu ... Doğru cevap: kahveModel cevap: yemek

Verim

Genelleştirilmiş bağlamın dil modelleme görevinde, GPT-2 SOTA modelinden daha iyi performans gösterir

5. Bir özet yazın: haber makalesini özetleyin

veri seti: CNN ve Daily Mail veri kümeleri

Örnek yazı:

Prehistorik insan, 36.000 yıl önce günümüz Fransa'sında bir mağaranın kaba kireçtaşı duvarlarına inanılmaz bir dizi tarih öncesi canavarın resmini çizdi.Şimdi, en son teknolojinin yardımıyla, Chauvet-Pont-d'Arc Mağarası'ndaki bu sanat eserleri dünyanın en büyük kopya mağarasını yaratmak için yeniden üretildi. ... Referans özeti: Mağara, Fransa'daki en eski ve en iyi korunmuş mağara olan ünlü Caverne du Pont-d'Arc'ı taklit eder. Kopya, yünlü gergedan ve mamut gibi 425 tabloyu içeren 1.000 tablonun tamamını içerir. En küçük ayrıntılar 3D modelleme ve anamorfik kullanılarak kopyalandı Genellikle geniş ekran görüntüleri çekmek için kullanılan teknikler. Modern mağarada, orijinal mağarada korunmuş ayıların, kemiklerin ve ayrıntıların kopya pençe baskıları da bulunuyor. Makine tarafından yazılmış özet: Güney Fransa'daki Vallon-Pont-D'arc'daki orijinal site, bir Unesco Dünya Mirası alanıdır ve insan tarafından dekore edilmiş bilinen en eski ve en iyi korunmuş mağaradır. Kopya mağara, Vallon-Pont'daki orijinal siteden birkaç mil uzakta inşa edilmiştir. -Güney Fransa'da D'Arc Mağara, yünlü gergedanlar, mamutlar ve büyük kediler dahil olmak üzere 14 farklı hayvan türünün resimlerini içerir.

Verim

Özet görevlerde, GPT-2 özel sistemler kadar iyi performans göstermez

6. Makine Çevirisi: Fransızca cümleleri İngilizceye çevirin

veri seti: WMT-14 Fr-En

Misal

Fransızca cümle: Un homme a expliqué que l'opération gratuite qu'il avait subie pour soigner une hernie lui permettrait de travailler à nouveau Referans çevirisi: Bir adam, aldığı ücretsiz fıtık ameliyatının tekrar çalışmasına izin vereceğini söyledi. Bir adam bana, kendisine söz verilen operasyon armağanının seyahat etmesine izin vermeyeceğini söyledi.

Verim

Fransızca-İngilizce makine çevirisi görevlerinde, GPT-2 özel sistemler kadar iyi performans göstermez

Bu görevlerin genel dil modellemesinin bir alt kümesi olduğuna inanıyoruz, hesaplama gücü ve veri hacmi arttıkça performansın daha da artmasını bekleyebiliriz. Diğer araştırmacılar da benzer hipotezler yayınladılar. Ayrıca, kapsamlı deneyler gerektirmesine rağmen, ince ayarların aşağı akış görevlerinin performansını iyileştirmesini bekliyoruz.

Liu Dingshuo üzücü bir mağlubiyet nedeniyle askıya alındı, Zhou Yu ve Zhang Jike kalifiye olmak için şişmanlandı, Fukuhara Ai'nin kocası yarışa girdi.

Robotlar insanların yerini mi alıyor? Japon sigorta şirketi çalışanların% 30'unu yapay zeka ile işten atıyor