Xin Zhiyuan Rehberi Tarihteki en güçlü "evrensel" NLP modeli geliyor: Bugün OpenAI, tutarlı metin paragrafları oluşturabilen, 7 büyük veri kümesinin kriterlerini yenileyebilen ve resmi blogda eğittikleri büyük ölçekli bir denetimsiz NLP modelini tanıttı. Eğitim durumunda, okuduğunu anlama, soru cevaplama ve makine çevirisi gibi çeşitli dil modelleme görevlerini tamamlayın.
OpenAI bugün resmi blogda yeni NLP modelini tanıttı, 7 büyük veri kümesinin SOTA'sını (mevcut en iyi sonuç) yeniledi ve etki alanı bilgisi ile ilgili herhangi bir veri eğitimi olmadan görevler genelinde en iyi sonucu doğrudan gerçekleştirebilir. Temel okuduğunu anlama, makine çevirisi, soru-cevap ve metin özetleme gibi farklı NLP görevleri.
Ön eğitim olmadan çeşitli farklı görevler tamamlanabilir ve iyi sonuçlar elde edilebilir, bu "felaketli unutmanın" üstesinden gelmeye eşdeğerdir. Bu, derin öğrenme araştırmacılarının hayalini kurduğu "evrensel" bir modeldir!
Google'ın BERT'si, NLP'nin yeni bir eğitim öncesi model çağına girdiğini temsil ediyorsa, OpenAI bu sonucu, Olağanüstü miktarda veriye ve bilgi işlem gücüne sahip olduğunuz sürece, daha önce hayal bile edilemeyen şeyleri başarabilirsiniz. .
Örneğin, bilgi işlem gücü OpenAI pekiştirmeli öğrenme araştırmasına katılan Smertiy'ye göre, yeni model 256 Google TPU v3 kullanıyor (belirli bir eğitim süresi açıklanmadı). Eğitim ücreti saatlik 2048 ABD dolarıdır .
OpenAI'nin bu NLP modeli Transformer'a dayanmaktadır ve 1.5 milyar parametre , Kullanım içerir 8 milyon web içeriğinden oluşan bir veri kümesi Eğitim, sadece tek bir amaç için:
Şu anda mevcut bilgilere dayanarak, bir sonraki kelimenin ne olacağını tahmin edin.
Yeni modelin adı, geçtiğimiz yıl OpenAI tarafından piyasaya sürülen denetimsiz NLP modeli GPT'nin doğrudan bir uzantısı olan GPT-2'dir.Yeni modelin kullandığı parametreler ve eğitim verileri 10'dan fazla büyüklük sırası artmıştır.
Model kapasitesi yeterince büyük olduğundan ve eğitim verileri yeterince büyük olduğundan GPT-2, 40GB ağ veri test seti Yukarıda, basitçe "bir sonraki kelimenin ne olacağını tahmin etmek", çeşitli farklı NLP görevlerini tamamlamak için yeterlidir ve güçlü bir genelleme yeteneği gösterir.
Şu anda, makine öğrenimi sistemlerini oluşturmanın ana akım yöntemi, denetimli öğrenme-toplama verileri, yani modeli bir dizi "ideal" girdi ve çıktı kombinasyonu besleyerek modelin "rutini" taklit etmesine ve yeni test veri setinde vermesine izin veriyor. Benzer sonuçlar. Bu yöntem, belirli alan görevlerinde iyi performans gösterir, ancak dezavantajı, soru cevap veri setinde iyi performans gösteren bir modelin okuduğunu anlamaya uygulanması gibi diğer görevlere değiştirildiğinde, modelin uyarlanamaması, yani genelleme becerisinin çok yüksek olmasıdır. fark.
Bu bağlamda, OpenAI araştırmacıları cesurca spekülasyon yapıyor: Mevcut makine öğrenimi sisteminin zayıf genelleme yeteneğinin nedeni tam olarak modelin belirli bir görev eğitimi için belirli bir veri seti alanıyla sınırlı olmasıdır. .
Aynı zamanda, çok görevli modellerle ilgili mevcut araştırmalar, yalnızca eğitim örneklerinin artışına güvenerek etkili görev genişletmeyi başarmanın zor olduğunu kanıtlıyor; NLP araştırmacıları, çok görevli öğrenme modelleri oluşturmak için öz dikkat modülü aktarım öğrenmeyi giderek daha fazla kullanıyor.
Bu nedenle, OpenAI araştırmacıları, daha genel bir veri setine dayalı olarak yukarıdaki iki fikri birleştirdi, göç öğrenimi için öz-dikkat modülünü kullandı ve ardından sıfır atış durumunda herhangi bir katılım veya model yapısını ayarlamadan birden fazla görevi gerçekleştirebilen bir model elde etti. GPT-2 olarak da bilinen farklı NLP görevlerinin bir modeli.
Güçlü yetenekleri ve olası kötüye kullanım tehlikesi nedeniyle OpenAI, GPT-2 modelini ve kodunu yayınlamadı. Yalnızca 117M parametresini içeren yalnızca bir örnek model ve kod yayınlandı , İlgilenen araştırmacıların öğrenmesi ve referans vermesi için: https://github.com/openai/gpt-2
Elbette, OpenAI bu sefer GPT-2'nin belirli model yapısı üzerinde ayrıntılı bilgi vermedi, akademik çevreden görüş almak için yarım yıl ayırdılar. OpenAI araştırmacıları yayınlanan "Dil Modelleri Denetimsiz Çok Görevli Öğrenicilerdir" başlıklı makalede model oluşturma fikirlerini ve yöntemlerini tanıttı.
Spesifik bilgi işlem gücüne gelince, kağıda değinilmiyor.Yukarıdaki Twitter'daki verilere göre, modelleri 256 Google Cloud TPU v3 kullanıyor, ancak eğitim süresi açıklanmadı. TPU v3, Google dışında yalnızca bağımsız bir sürüm olarak mevcuttur (OpenAI'nin özel bir lisansı olabilir), bu da 8 * 256 = 2048 ABD doları / saat ödemeleri gerektiği anlamına gelir.
Aşağıda, OpenAI'nin sonuçlarını gösterme zamanı verilmiştir - ayrıca makaleyi doğrudan makalenin sonuna çekebilir ve makaleyi görüntülemek için "Orijinal metni oku" seçeneğini tıklayabilirsiniz.
Dört dil modelini eğittik ve karşılaştırdık ve boyutları aşağıdaki tabloda gösterilmektedir:
Bunlar arasında en küçük model orijinal GPT'ye eşdeğerdir ve ikinci en küçük model en büyük BERT modeline eşdeğerdir. En büyük modelimiz, GPT'den çok daha fazla parametresi olan GPT-2'dir.
GPT-2 Çeşitli alana özgü dil modelleme görevlerinde son teknoloji başarılar elde etti. Modelimiz bu görevlere özel herhangi bir veri üzerine eğitilmemiştir, sadece son test olarak değerlendirilir; buna denir "Sıfır vuruş "ayar.
Aynı veri kümesi üzerinde değerlendirildiğinde, GPT-2, alana özgü veri kümeleri (Wikipedia, haberler, kitaplar gibi) üzerinde eğitilmiş modellerden daha iyi performans gösterir.
Aşağıdaki tablo, en gelişmiş sıfır vuruş sonuçlarımızın tümünü göstermektedir.
(+) puan ne kadar yüksekse o kadar iyi anlamına gelir. (-) puan ne kadar düşükse o kadar iyi anlamına gelir.
GPT-2, Winograd Şeması, LAMBADA ve diğer dil modelleme görevlerinde son teknoloji ürünü sonuçlar elde etti.
Gördüğünüz gibi, WebText LM'ler etki alanları ve veri kümeleri arasında iyi bir şekilde iletilebilir. Sıfır atış ayarı altında, 8 veri setinden 7'sinin son teknoloji sonuçları daha da iyileştirildi .
Yalnızca 1 milyon ila 2 milyon eğitim jetonuna sahip Penn Treebank ve WikiText-2 gibi küçük veri kümelerinde büyük gelişmeler görebiliriz. LAMBADA ve Çocuk Kitapları Testi gibi uzun vadeli bağımlılıkları ölçmek için kullanılan veri setleri de büyük ölçüde iyileştirildi.
Modelimiz, Bir Milyar Kelime Kıyaslama üzerindeki önceki çalışmadan hala önemli ölçüde daha kötü. Bunun nedeni, hem en büyük veri kümesi olması hem de en yıkıcı ön işleme-1BW cümle düzeyinde dönüşümün bazılarının tüm uzak yapıyı ortadan kaldırması olabilir.
Soru cevaplama, okuduğunu anlama, özet özet ve çeviri gibi diğer dil görevlerinde, modelde herhangi bir ince ayar yapmadan mükemmel sonuçlar elde ettik.Sadece eğitim modelini doğru şekilde yönlendirmemiz gerekiyor (aşağıdaki örnek gösteriyor Spesifik uygulamalar ve sonuçlar), ancak bu görevler SOTA profesyonel sistemler seviyesine ulaşmamıştır.
1. Okuduğunu anlama: belirli bir paragrafla ilgili soruları yanıtlayın
veri seti: CoQA
Misal
2008 Yaz Olimpiyatları meşale yarışması, "tek dünya, tek rüya" temasıyla 24 Mart'tan 8 Ağustos 2008'e kadar 2008 Yaz Olimpiyatları öncesinde gerçekleştirildi. Bayrak yarışının planları 26 Nisan 2007'de Pekin'de duyuruldu. , Çin. Organizatörler tarafından "Uyum Yolculuğu" olarak da adlandırılan bayrak 129 gün sürdü ve meşaleyi 137.000 km (85.000 mil) taşıdı - gelenek 1936'dan önce başlatıldığından bu yana herhangi bir Olimpiyat meşalesi rölesinin en uzun mesafesi. Yaz Olimpiyatları. 24 Mart'ta Yunanistan'ın Olympia kentinde Olimpiyat Oyunlarının doğduğu yerde yakıldıktan sonra, meşale Atina'daki Panathinaiko Stadyumu'na ve ardından 31 Mart'ta Pekin'e geldi. Meşale Pekin'den bir rota izliyordu. altı kıtadan geçiyor. Meşale, İpek Yolu boyunca Çin ile dünyanın geri kalanı arasındaki eski bağlantıları simgeleyen şehirleri ziyaret etti. Bayrak ayrıca Nepal ve Tibet sınırındaki Everest Dağı'nın tepesine alevle tırmanışı da içeriyordu. Çin tarafından Çin, S: Tema neydi? A: "tek dünya, tek rüya". S: Yarışın uzunluğu neydi? A: 137,000 km S: öncekilerden daha büyük müydü? A: NoQ : Yarış nerede başladı? A: Olympia, Yunanistan S: Bu yerde kayda değer bir şey var mı? A: Olimpiyat Oyunlarının doğum yeri S: Sonra nereye gittiler? A: Atina S: Yarış kaç gündü? A: Panathinaiko Stadyumu S: Herhangi bir dağa tırmandılar mı? C: Hedef cevaplar: bilinmiyor veya evet Model cevabı: EverestVerim:
2. Sağduyu muhakemesi: belirsiz zamirleri çözme
veri seti: Winograd Şema Mücadelesi
Misal
Kupa çok büyük olduğu için kahverengi çantaya sığmıyor.Doğru cevap: it = kupaModel cevap: it = kupa Kupa kahverengi çantaya sığmıyor çünkü çok küçük.Doğru cevap: it = bavulModel cevabı: it = bavulVerim
3. Soru cevabı
veri seti: Doğal Sorular
Misal
Türlerin kökeni kitabını kim yazdı? Doğru cevap: Charles Darwin Model cevap: Charles Darwin ABD'deki kara kütlesine göre en büyük eyalet nedir? Doğru cevap: AlaskaModel cevap: CaliforniaVerim:
4. Genel bağlamda dil modelleme: bir metnin son kelimesini tahmin edin
veri seti: LAMBADA
Misal
Hem güneş benekli gölgesi hem de altındaki serin çimen boğucu mutfağın ardından hoş bir soluk aldı ve ağacın sert, kırılgan kabuğuna karşı rahatlamaktan ve tereyağ, kızarmış ekmek ve taze meyveden oluşan kahvaltıma başlamaktan memnun oldum. Su bile vardı lezzetli, çok temiz ve soğuktu. Neredeyse eksikliğini telafi ediyordu ... Doğru cevap: kahveModel cevap: yemekVerim
5. Bir özet yazın: haber makalesini özetleyin
veri seti: CNN ve Daily Mail veri kümeleri
Örnek yazı:
Prehistorik insan, 36.000 yıl önce günümüz Fransa'sında bir mağaranın kaba kireçtaşı duvarlarına inanılmaz bir dizi tarih öncesi canavarın resmini çizdi.Şimdi, en son teknolojinin yardımıyla, Chauvet-Pont-d'Arc Mağarası'ndaki bu sanat eserleri dünyanın en büyük kopya mağarasını yaratmak için yeniden üretildi. ... Referans özeti: Mağara, Fransa'daki en eski ve en iyi korunmuş mağara olan ünlü Caverne du Pont-d'Arc'ı taklit eder. Kopya, yünlü gergedan ve mamut gibi 425 tabloyu içeren 1.000 tablonun tamamını içerir. En küçük ayrıntılar 3D modelleme ve anamorfik kullanılarak kopyalandı Genellikle geniş ekran görüntüleri çekmek için kullanılan teknikler. Modern mağarada, orijinal mağarada korunmuş ayıların, kemiklerin ve ayrıntıların kopya pençe baskıları da bulunuyor. Makine tarafından yazılmış özet: Güney Fransa'daki Vallon-Pont-D'arc'daki orijinal site, bir Unesco Dünya Mirası alanıdır ve insan tarafından dekore edilmiş bilinen en eski ve en iyi korunmuş mağaradır. Kopya mağara, Vallon-Pont'daki orijinal siteden birkaç mil uzakta inşa edilmiştir. -Güney Fransa'da D'Arc Mağara, yünlü gergedanlar, mamutlar ve büyük kediler dahil olmak üzere 14 farklı hayvan türünün resimlerini içerir.Verim
6. Makine Çevirisi: Fransızca cümleleri İngilizceye çevirin
veri seti: WMT-14 Fr-En
Misal
Fransızca cümle: Un homme a expliqué que l'opération gratuite qu'il avait subie pour soigner une hernie lui permettrait de travailler à nouveau Referans çevirisi: Bir adam, aldığı ücretsiz fıtık ameliyatının tekrar çalışmasına izin vereceğini söyledi. Bir adam bana, kendisine söz verilen operasyon armağanının seyahat etmesine izin vermeyeceğini söyledi.Verim
Bu görevlerin genel dil modellemesinin bir alt kümesi olduğuna inanıyoruz, hesaplama gücü ve veri hacmi arttıkça performansın daha da artmasını bekleyebiliriz. Diğer araştırmacılar da benzer hipotezler yayınladılar. Ayrıca, kapsamlı deneyler gerektirmesine rağmen, ince ayarların aşağı akış görevlerinin performansını iyileştirmesini bekliyoruz.