Bugün (11 Şubat) Microsoft, tarihin en büyük dil modelini yayınladı. Turing-NLG .
17 milyar parametrenin miktarı, önceki en büyük dil modeli olan NVIDIA "Megatron" un iki katı ve OpenAI modeli GPT-2'nin 10 katıdır.
Microsoft bir araştırma blogunda "Daha büyük doğal dil modellerinin daha iyi sonuçlara yol açmasıyla birlikte, Microsoft Turing-NLG'yi tanıttı" diye yazdı. "Çeşitli dil modelleme kriterlerinde en ileri seviyeyi aştı ve soruları cevaplamak ve özet oluşturmak gibi birçok pratik görevde çok iyi performans gösterdi."
Aynı zamanda Microsoft Research, DeepSpeed derin öğrenme kitaplığını ve büyük modellerin dağıtılmış eğitimi için ZeRO optimizasyon teknolojisini tanıtan başka bir blog yazısı yayınladı ve bu atılımlar olmadan Turing-NLG'nin mümkün olmayacağını söyledi.
Kısaca Turing-NLG, T-NLG, soruları yanıtlama, belge özetlerini ayıklama vb. Gibi açık uçlu metin görevlerini tamamlamak için sözcükler üretebilen Transformer tabanlı bir üretken dil modelidir.
Microsoft, makinelerin her koşulda insanlar gibi doğrudan, doğru ve sorunsuz yanıt vermesini sağlamak için, T-NLG gibi üretken modellerin geliştirilmesinin NLP görevlerini çözmek için çok önemli olduğuna inanıyor.
Geçmişte, soruları yanıtlama ve özetleri çıkarma sistemleri esas olarak mevcut içeriği belgelerden çıkarmaya dayanıyordu. Alternatif bir cevap veya özet olarak kullanılabilmesine rağmen, genellikle doğal olmayan veya tutarsız görünür.
Microsoft, "T-NLG ile, kişisel dosyalar veya e-posta dizileri hakkındaki soruları doğal olarak özetleyebilir veya yanıtlayabiliriz," dedi.
Bunun arkasındaki mantık şudur: daha az eğitim örneği olsa bile, model ne kadar büyük ve eğitim öncesi veriler ne kadar çeşitli ve kapsamlı olursa, birden fazla aşağı akış görevine o kadar iyi genişletilebilir.
Bu nedenle Microsoft, büyük bir merkezi çoklu görev modeli eğitmenin ve yeteneklerini birçok görev arasında paylaşmanın, her görev için ayrı ayrı yeni bir model eğitmekten daha etkili olduğuna inanmaktadır.
Büyük modelleri eğitmek için genel bir fikir, 1,3 milyardan fazla parametresi olan herhangi bir modelin tek bir GPU (32 GB belleğe sahip bir GPU bile) üzerinde eğitilemeyeceğidir, bu nedenle modelin birden fazla GPU arasında paralel olarak eğitilmesi gerekir veya Modeli birden çok parçaya bölün.
Microsoft'a göre, T-NLG'yi eğitme yeteneği, üç açıdan yansıtılan donanım ve yazılımdaki atılımlardan yararlanır:
Deepspeed, çok büyük modelleri daha az GPU ile eğitmeyi daha verimli hale getirir ve 256 NVIDIA GPU kullanarak 512 toplu iş boyutunda eğitim alır. Megatron-LM kullanıyorsanız, 1024 NVIDIA GPU'ya ihtiyacınız vardır. Ek olarak, Deepspeed ayrıca PyTorch ile uyumludur.
Nihai T-NLG modelinde 78 Transformer katmanı vardır, gizli boyut 4256'dır ve 28 dikkat kafası vardır.
Modelin sonuçlarını Megatron-LM ile karşılaştırılabilir kılmak için, aynı hiperparametreleri ve ön eğitim için öğrenme programını kullandılar. Aynı zamanda, modeli eğitmek için Megatron-LM ile aynı tip verileri kullanırlar.
Model ön eğitimi tamamlandıktan sonra, WikiText-103 (daha düşük daha iyi) ve LAMBADA (daha yüksek daha iyi) veri kümelerini Nvidia Megatron-LM ve OpenAI'nin GPT-2 tam sürümü ile karşılaştırdılar ve her ikisine de ulaştılar. En son seviye.
Yalnızca veri setinde değil, Microsoft ayrıca T-NLG'nin belirli görevlerdeki performansını da duyurdu.
Birincisi soruyu cevaplamak. Cevaplamak için sadece tamamlanmış bir cümle kullanmakla kalmaz, aynı zamanda soruları bağlam olmadan da cevaplayabilir.Örneğin aşağıdaki soru daha fazla bilgi vermez. Bu durumlarda, T-NLG eğitim öncesi kazanılan bilgiye dayalı bir cevap üretebilir.
İkincisi, bir özet oluşturmaktır. Microsoft, T-NLG'yi farklı metin türlerini özetlemek için olabildiğince çok yapmak için, T-NLG modelini neredeyse tüm halka açık özet veri kümelerinde çok görevli bir şekilde geliştirdiklerini ve toplamda yaklaşık 4 milyon eğitim örneğini oluşturduklarını söyledi.
En yeni Transformer tabanlı dil modeli PEGASUS ve önceki en gelişmiş model ile karşılaştırılırlar ROUGE puanı aşağıdaki gibidir, bu temelde ötesinde.
Gerçek etki nedir?
Microsoft, bu modelin yeteneklerini göstermek için T-NLG modelini kullandı ve T-NLG'yi tanıtan blog yazısı için bir özet yazdı:
Turing Natural Language Generation (T-NLG), Microsoft tarafından geliştirilen ve birçok aşağı akış NLP görevinde son teknolojiyi geride bırakan 17 milyar parametreli bir dil modelidir. Serbest form oluşturma, soru yanıtlama ve özetleme yetenekleri dahil modelin bir demosunu sunuyoruz. , geri bildirim ve araştırma amaçlı akademisyenlere. < | endoftext | >
Özette belirtildiği gibi, Microsoft'un T-NLG'si şu anda halka açık değildir.
T-NLG'nin uygulama potansiyeli ile ilgili olarak Microsoft, kendisine ve müşterilerine yeni fırsatlar sunduğunu söyledi.
Belgeleri ve e-postaları özetleyerek kullanıcı zamanından tasarruf etmenin yanı sıra, yazarlara yazma yardımı sağlayarak ve okuyucuların belgelerle ilgili sorularını yanıtlayarak, daha güçlü sohbetler oluşturarak ve daha fazlasını yaparak Microsoft Office paketini kullanma deneyimini de geliştirebilirsiniz.
Microsoft, yeni olanaklardan heyecan duyduklarını ve dil modelinin kalitesini iyileştirmeye devam edeceklerini belirtti.
Makalede bahsedilen ZeRO ve DeepSpeed ile ilgili olarak, ilgileniyorsanız, Microsoft'un resmi blog gönderisini okuyabilirsiniz.DeepSpeed açık kaynaktır ve ZeRO'nun makalesi yayınlanmıştır: https://www.microsoft.com/en-us / araştırma / blog / sıfır-derin-hızlı-yeni-sistem-optimizasyonları-etkinleştir-eğitim-modelleri-100 milyardan-fazla-parametresi /
- Bitiş -
Qubit QbitAI · Toutiao İmzalı
Bize dikkat edin ve en son teknolojiden haberdar olun