g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

NLP'nin iki gücü hegemonya için mücadele ediyor: OpenAI ve GPT-2'nin "inatçı" saldırısı

Resim kaynağı @unsplash

Metin | Beyin Kutupsal Gövdesi

Doğal dil işleme (NLP) teknolojisi hayatımızın her alanında hayatımızı değiştiriyor.

Oturma odasındaki akıllı hoparlörler, sizinle günlük konuşmada hızlı ilerleme sağlar ve hatta hobi alışkanlıklarınıza uyum sağlamak için sizinle "şaka yapmaya" başlar.

E-ticaret müşteri hizmetleri her zaman mümkün olan en kısa sürede yanıt verebilir ve sorunuzu ele almış olabilir ve TA'nın yalnızca akıllı bir müşteri hizmeti olabileceğini fark etmediniz. Gerçek hayattaki "Turing Testi" her gün gerçekleşir.

Sık sık yabancı dil materyallerine başvuruyorsanız, web sayfalarının veya birkaç arama motorunun tek tıklamayla çevirisine uzun zamandır alışmış olabilirsiniz.Tercümelerin kalitesi o kadar iyidir ki, yabancı dil öğrenmek için zaman kaybı olduğunu hissedersiniz.

Boşta kalma süresinden sıkıldım.Bilgi akışlarını veya kısa videoları taradığınızda, daha sonra her zaman daha fazla zaman geçirirsiniz.Aslında, tarama alışkanlıklarınıza ve dikkat sürenize göre önerileri optimize eden doğal dil algoritması platformudur.

Nedeni açısından, son yıllarda NLP'nin geçişini ve yükseltmesini kısaca gözden geçirmeyi ve bu teknolojik torrent boyunca kaynağın izini sürmeyi umuyoruz. NLP'nin evrimini anlamak için bol su kaynaklarının teknolojik kaynağına ve çok sayıda su sistemine geri dönün.

NLP'nin iki gücü hegemonya için mücadele ediyor: OpenAI ve GPT-2'nin "inatçı" saldırısı

NLP'yi takip edenler, 2018'in NLP alanının gelişimi için büyük bir yıl olduğunu bilmelidir.

Haziran 2018'de OpenAI, "Üretken Ön Eğitimle Dil Anlayışını İyileştirme" başlıklı bir makale yayınladı ve "eğitim öncesi dil modeline" dayalı olarak GPT'yi önerdi.İlk olarak dil modeli olarak LSTM yerine Transformer ağını kullandı. NLP görevlerinin dokuzu SOTA performansına ulaştı. Ancak çeşitli nedenlerden dolayı, GPT daha fazla ilgi görmedi.

GPT'nin temel işleme yöntemi, büyük ölçekli bir topluluk üzerinde denetimsiz ön eğitim gerçekleştirmek ve daha sonra, tek tek görevler için model tasarımına güvenmeden çok daha küçük bir denetlenen veri kümesinde belirli görevler için ince ayar yapmaktır. Beceriler aynı anda birden çok görevde iyi performans sağlayabilir.

Ekim ayına kadar Google'ın BERT (Transformers'dan Bidirectional Encoder Representation) ortaya çıktı ve piyasaya çıktığında hayatın her kesiminden geniş ilgi gördü. BERT modeli 11 NLP görevinde SOTA performansı kazandı ve Google teknisyenlerinin "BERT'nin yeni bir NLP dönemi açtığını" ilan etmesini sağladı. Ve BERT aslında GPT ile aynı iki aşamalı modeli kullanıyor, ilki denetimsiz dil modeli ön eğitimidir; ikincisi, aşağı akış görevlerini çözmek için İnce Ayar modunun kullanılmasıdır. Aradaki fark, BERT'nin eğitim öncesi aşamada ELMO'ya benzer çift yönlü bir dil modeli kullanması ve eğitim öncesi için daha büyük bir veri ölçeği kullanmasıdır.

BERT, NLP aşağı akış görevlerini dönüştürüyor (Çince kelime bölümleme, konuşma parçası etiketleme, adlandırılmış varlık tanıma, anlamsal rol etiketleme vb. Gibi sıralı etiketleme dahil); ikinci kategori, metin sınıflandırması, duygusal hesaplama vb. Gibi sınıflandırma görevleridir; Entailment, QA gibi cümle ilişkisi yargıları , Anlamsal yeniden yazma, doğal dil çıkarımı vb .; makine çevirisi, metin özetleme, şiir yazma, cümleler kurma, resimlere bakma gibi üretken görevler) Yukarıda, güçlü evrensellik ve parlak görev performansı, popüler NLP'nin güveni haline geldi. .

OpenAI, yalnızca dört ay sonra GPT-2'yi piyasaya sürdü. Bu büyük ölçekli denetimsiz NLP modeli, tutarlı metin paragrafları oluşturabilir, 7 büyük veri kümesinin SOTA performansını yenileyebilir ve ön eğitim olmadan okuduğunu anlama, soru ve cevap, makine çevirisi ve diğer farklı dilleri tamamlayabilir. Modelleme görevleri.

Öncelikle, CPT-2 ve BERT, GPT gibi, temel yapı olarak Transformatörün Kendine Dikkatine devam ediyor.

OpenAI araştırmacılarının denetimsiz veri eğitimi konusundaki ısrarı, denetimli öğrenmenin dil modelinin yalnızca belirli görevlerde iyi performans göstermesine, ancak genelleme becerisinde zayıf olmasına neden olacağı fikrinden gelebilir; ve yalnızca eğitim örneklerinin artışına güvenmek çok Görev genişletmeyi etkili bir şekilde gerçekleştirmek zordur. Bu nedenle, sıfır atış durumunda birden çok farklı NLP görevi gerçekleştirebilen bir model oluşturmak için daha genel bir veri setine dayalı öz-ilgi modülü aktarımı öğrenmeyi kullanmayı seçtiler.

BERT'den farkı, CPT-2 model yapısının hala GPT1.0'ın "tek yönlü dil modelini" sürdürmesidir. GPT-2'nin tek bir amacı var gibi görünüyor: bir metinde önceki tüm kelimeler verildiğinde, sonraki kelimeyi tahmin et. Bu noktada inatla ısrar ederek OpenAI'nin çözümünü görebilirsiniz.

Transformer modeli parametrelerini, 1,5 milyar parametreye sahip bir Transformer modeli de dahil olmak üzere 48 katmana genişletmeyi seçti ve denetimsiz eğitim verileri olarak 8 milyon web sayfası (WebText) veri seti buldu. Basitçe söylemek gerekirse, GPT-2, GPT modelinin doğrudan bir uzantısıdır. Eğitim, 10 katın üzerindeki bir veri hacmi üzerinde gerçekleştirilir ve parametre hacmi de 10 kat daha büyüktür. Bu, GPT-2'nin daha doğrudan "şiddet içeren" bir yaklaşım benimsemesine, model parametrelerinin kapasitesini artırarak ve eğitim verilerinin sayısını artırarak BERT'yi aşmasına olanak tanır.

Metin oluşturucu olarak GPT-2, başlangıçta yalnızca birkaç kelime girdiğiniz sürece, program bir sonraki yazıyı kendi yargısına göre nasıl yazacağına karar verecektir. Kısacası, genel bir dil modeli olarak GPT-2, AI yazma asistanları, daha güçlü diyalog robotları, denetimsiz dil çevirisi ve daha iyi konuşma tanıma sistemleri oluşturmak için kullanılabilir.

OpenAI, insanların GPT-2'yi yanıltıcı haberler oluşturmak, aldatmak için çevrimiçi başkaları gibi davranmak, sosyal medyada otomatik olarak kötü niyetli veya sahte içerik üretmek ve otomatik olarak spam veya kimlik avı e-postaları üretmek için kötü amaçlarla kullanabileceğini öngörüyor. Bu nedenle OpenAI, GPT2'yi yayınladığında, "bu güçlü modelin kötüye kullanım riski altında olduğunu" ilan etti ve eğitim modelini tamamen açmamayı seçti.Bu hareket, makine öğrenimi doğal dil işleme topluluğundaki araştırmacılar arasında yoğun tartışmalara neden oldu.

İster dış dünya tarafından kendi ürünlerinin "aşırı kibri" olarak alay ediliyor olsun, ister OpenAI'nin PR amaçlı "kasıtlı abartısı" olsun, GPT-2'nin "kasıtlı olarak sahte haberler yaratması" sektördeki herkesi gerçekten şaşırttı. Kavun yiyen herkes güçlü yönlerinden bahsediyor ve GPT-2'nin güçlü nesil yeteneğini keşfetmek için sabırsızlanıyor.

Yaklaşık bir yıl sonra, GPT-2 ihtiyatlı açık kaynak ve geliştiricilerin "erken benimseyenler" katılımında göz kamaştırıcı bir güncelleme ve evrim geçiriyor.

GPT-2 aşamalı açık kaynak: geliştiriciler için dünyevi karnaval

Tartışmalar ve geliştiricilerin artan çağrılarının yanı sıra, OpenAI yine de ihtiyatlı değerlendirme dışında aşamalı olarak kaynak açmayı seçti. Ağustos ayından sonra, "küçük" 124 milyon parametre modelini (diskte 500 MB ile), "orta" 355 milyon parametre modelini (diskte 1.5 GB ile) ve 774 milyon parametre modelini (3 GB ile) aşamalı olarak piyasaya sürdü. Diskte). 6 Kasım'a kadar, GPT-2'nin 1.5 milyar parametre içeren son bölümünün en büyük sürümünün tam kodunu resmen yayınladı.

Tam sürüm yayınlanana kadar, OpenAI herhangi bir açık kod, belge veya başka bir kötüye kullanım kanıtı bulamadı. Yani endişelenilen "GPT-2 kötüye kullanımı" sonucu gerçekleşmedi, ancak OpenAI hala tam sürümün aynı anda yayınlandığına inanıyor Ayrıca kötü niyetli kişilere, algılama kaçınma yeteneklerini daha da geliştirme fırsatı verecektir.

Bu nedenle, GPT-2'nin farklı sürümlerinin art arda duyuruları ile OpenAI, GPT-2'nin etkisini doğrulamak için GPT-2 modelini yeniden üreten bir dizi ekiple iletişim kurarken, dil modelini kötüye kullanma ve algılama metnini iyileştirme riskini ortadan kaldırır. Oluşturulan dedektör. OpenAI aynı zamanda, dil modelleri tarafından üretilen dijital bilgilere insan duyarlılığı üzerine araştırmalar, GPT-2'nin kötü amaçlı kullanım olasılığı üzerine araştırmalar ve GPT-2 tarafından oluşturulan metinle ilgili istatistikler gibi bir dizi araştırma kurumuyla da işbirliği yapıyor. Dedektif araştırması.

OpenAI ne kadar ihtiyatlı olursa olsun, farklı kapasite parametresi modellerinin piyasaya sürülmesiyle birlikte, harici geliştiriciler çeşitli yönleri keşfetmek için sabırsızlanıyor.

Nisan 2019'da, Buzzfeed veri bilimcisi Max Woolf, komut dosyalarının ince ayarını yapmak ve oluşturmak için 117 milyon hiperparametre ile OpenAI GPT-2 metin oluşturma modelinin "daha küçük" bir sürümünü kapsüllemek için Python'u kullandı ve açık kaynaklı bir "GPT-2 lite sürümü". İnsanların bir metin paragrafı oluşturmalarına daha iyi yardımcı olmak için, bu da pek çok beklenmedik içerik sağlayabilir.

OpenAI'nin aşamalı açık kaynak sürecinde, Brown Üniversitesi'nden iki yüksek lisans öğrencisi 1,5 milyar GPT-2 parametresinin kopyalanmasında başı çekti ve OpenGPT-2 adını verdi. Bu süreçte, GPT-2 modelini sıfırdan eğitmek için kendi kodlarını kullandılar ve yalnızca yaklaşık 50.000 dolar harcadılar. Kullanılan veri seti aynı zamanda mümkün olduğunca OpenAI belgesinde açıklanan yöntemlere atıfta bulunmaktadır. Testten sonra, pek çok hevesli netizen, OpenGPT-2'nin çıktı metin etkisinin OpenAI'nin GPT-2774 milyon parametre sürümünden daha iyi olduğunu söyledi. Elbette bazı insanlar bunun GPT-2 modelinin ürettiği metinden daha iyi olmadığını düşünüyor.

Aynı zamanda Çin'de, Nanjing'deki "Zeyao Du" adlı bir geliştirici, şiir, haber, roman ve senaryo yazmak veya genel dil modellerini eğitmek için kullanılabilen, GitHub'da açık kaynaklı GPT-2 Çince'ye sahiptir. Gökyüzü karşıtı etkiye ulaşabilen GPT-2 modeli, 1,5 milyar parametre kullanır. Şu anda, eğitim öncesi sonuçları ve Colab Demo tanıtımını açık kaynaklı hale getirmiştir ve insanlar yalnızca üç tıklama ile özelleştirilmiş Çince hikayeler oluşturabilirler.

GPT-2 modelinde daha fazla deneme var. Singapurlu bir lise öğrencisi olan Rishabh Anand, orijinal GPT-2 deposu için bir paketleyici olan ve sadece 5 satır kodla metin oluşturabilen hafif bir GPT-2 "istemci" -gpt2 istemcisini açık kaynaklı hale getirdi.

Çin'den birçok araştırmacı, yüksek kaliteli Çin klasik şiiri üretmek için GPT modelini kullanıyor. Örneğin "Seven Lv · Safe Trip" gazetesinde bahsedilen tezde: "Gökyüzündeki bir kaz sonbahardan geçer ve Qingcheng'in eski arkadaşı aniden rüyada yolculuk eder. Qinglin'e gidecek at yoktur ve elinde sarı kartla tekneye geri dönecek at yoktur. Hayat Boyu Zhiye Shangshan Ben yaşlıyım ve Han Hanedanlığı'nda kalacağım. Geçmişi bir Dexiang takip edecek ve binlerce tepeyle sarhoş olacağım. " Değişiklikler ve endişelerle dolu basit bir veda. Şüphe etmek zor değil: Bu dil modelinin gerçekten duyguları var mı?

GPT-2 modeli, müzik oluşturmada da kullanılabilir. OpenAI, GPT-2 dil modeli Sparse Transformer'ın aynı genel denetimsiz teknolojisi olan MuseNet'i müzik eserleri üretmek için derin bir sinir ağı başlattı ve MuseNet'in bir sonraki notu belirli bir not kümesine göre tahmin etmesine olanak tanıdı. Model, 4 dakikalık müzik eserleri yapmak için 10 farklı enstrüman kullanabilir ve Bach, Mozart ve The Beatles gibi bestecilerden farklı müzik tarzlarını öğrenebilir. Ayrıca yepyeni bir müzik bestesi oluşturmak için farklı müzik tarzlarını ikna edici bir şekilde harmanlayabilir.

Yazarı en çok ilgilendiren şey, bir geliştirici tarafından GPT-2- "AI Dungeon" aracılığıyla yapılan bir AI metin macera oyunudur. Yapay zeka, birden fazla metin diyalog turu aracılığıyla, "Knight Slaying the Dragon" veya "Urban Detective" yolculuğunun beklenmedik bir yolculuğuna çıkmanıza yardımcı olabilir. Gelecekteki oyun endüstrisinde, AI tarafından oluşturulan hikaye senaryosu daha yaratıcı olabilir mi?

GPT-2'nin piyasaya sürülmesinden bu yana geçen yıl, yukarıdaki açık kaynak tarafından getirilen uygulamalar göz kamaştırıcı olarak adlandırılmaya yetiyor. Gürültünün ve refahın arkasında, açık kaynak riskleri konusunda temkinli olmanın yanı sıra, OpenAI başka hangi sorunlarla karşı karşıya?

NLP yerel zorbalar: OpenAI ve Microsoft'tan sonra GPT-2 ticarileştirme

Aslında, BERT ve GPT-2'nin evrim trendinden, insanların daha büyük kapasiteli modelleri ve denetimsiz sonsuz eğitimi, insan dili bilgisi doğrultusunda daha fazla ve daha iyi içerik oluşturmak için kullanabileceğini görebiliyoruz. Ancak bu aynı zamanda süper pahalı GPU hesaplama süresine, süper büyük ölçekli GPU makine öğrenimi kümelerine ve süper uzun model eğitim süreçlerine güvenmek anlamına gelir. Bu, bu "yanan para" modelinin NLP oyuncularının sonunda daha fazla baş şirket toplamasını ve az sayıda yerel oyuncu için bir mekan olmasını sağlayacağı anlamına gelir.

OpenAI'nin bu yıl GPT-3.0'ı tekrar piyasaya sürmesi durumunda, yüksek olasılıkla tek yönlü bir dil modelinin seçileceği, ancak BERT'yi güçlendirmek için daha büyük ölçekli bir eğitim verisinin ve genişletilmiş modelin benimseneceği öngörülebilir. NLP uygulama alanının sonuçları da yeniden yenilenecektir.

Bununla birlikte, başka bir açıdan, böyle bir "yanan para" dil eğitim modelinin geliştirilmesinin açık bir ticari uygulama beklentisi yoktur. OpenAI ayrıca, "teknik duyguların asıl amacını takip etme" veya "belini beş kova pirinç için bükme" gibi zor bir ticarileştirme seçimiyle yüzleşmek zorunda kaldı.

Cevap zaten açık olmalı. OpenAI, Temmuz 2019'da Microsoft'tan 1 milyar dolarlık yatırım aldı. Resmi açıklamaya göre OpenAI, Microsoft Azure bulut platformu için ortaklaşa yeni yapay zeka teknolojisi geliştirmek için Microsoft ile işbirliği yapacak ve büyük ölçekli yapay zeka yeteneklerini daha da genişletmek ve "genel yapay zeka (AGI) sunmak için Microsoft ile özel bir anlaşmaya varacak. taahhüt edilmiş".

İşin özü, OpenAI'nin yapay zeka araştırmalarındaki "parasını yakması" ve ticarileştirilmesinden kaynaklanan utanç, onu Microsoft'tan böyle bir "sponsorluğa" daha da muhtaç hale getirmesidir. Örnek olarak 1,5 milyar parametre içeren GPT-2 modelini ele alalım. Eğitmek için 256 TPU v3 kullanıyor ve saatte 2048 dolara mal oluyor. GPT-3.0'ın piyasaya sürülmesini hala dört gözle beklemek istiyorsak, maliyetin esas olarak bulut bilişim kaynaklarına harcanacağı öngörülebilir.

Microsoft, OpenAI için özel bulut bilişim sağlayıcısı olacak. OpenAI'nin yapay zeka teknolojisi de Azure bulutu aracılığıyla dışa aktarılır. Gelecekte, OpenAI bazı teknolojileri Microsoft'a lisanslayacak ve ardından Microsoft bu teknolojileri ticarileştirecek ve iş ortaklarına satacaktır.

Bu büyük maliyetin desteği OpenAI'ye daha fazla güven veriyor. Yukarıda özetlendiği gibi, GPT-2 Ağustos'tan sonra adım adım farklı büyüklüklerdeki parametre modellerini yayınlamaya devam edecek ve Kasım ayında tümü açık kaynaklı olacak. Açıkçası, GPT-2 gelecekte ticarileştirme yönünde Microsoft Azure'un kutsamasına daha fazla güvenebilir. Örneğin, gelecekte Office365 ile daha iyi işbirliği yapabilir, ofis yardımı için otomatik metin yazmaya katılabilir, dilbilgisi hatası onarımına katılabilir ve daha doğal ve özgün bir soru ve yanıt sistemi oluşturabilirsiniz.

Gençken hayallerin peşinden koşmayı severdim ve sadece ileriye uçmak istedim. AGInin ideallerinin iş pratiğinde de gerçeğe yansıtılması gerekir. 2020'de Google'ın Microsoft OpenAI ile karşı karşıya gelmesinin NLP'nin ticarileştirilmesine daha fazla dalga getireceği öngörülebilir.

Sizi salgına götürecek 5 belgesel: nasıl önlenir, yüzleşilir ve düşünülür

2019 e-spor kırmızı ve siyahın ortaya çıkışı: sıcak, yoğun trafik, yetersiz sanayileşme