Microsoft, tarihteki en büyük AI modelini yayınladı: Office paketinde kullanılacak 17 milyar parametre

Aufei Tapınağı'ndan Kuru Ming Qubit Raporu | Genel Hesap QbitAI

Bugün (11 Şubat) Microsoft, tarihin en büyük dil modelini yayınladı. Turing-NLG .

17 milyar parametrenin miktarı, önceki en büyük dil modeli olan NVIDIA "Megatron" un iki katı ve OpenAI modeli GPT-2'nin 10 katıdır.

Microsoft bir araştırma blogunda "Daha büyük doğal dil modellerinin daha iyi sonuçlara yol açmasıyla birlikte, Microsoft Turing-NLG'yi tanıttı" diye yazdı. "Çeşitli dil modelleme kriterlerinde en ileri seviyeyi aştı ve soruları cevaplamak ve özet oluşturmak gibi birçok pratik görevde çok iyi performans gösterdi."

Aynı zamanda Microsoft Research, DeepSpeed derin öğrenme kitaplığını ve büyük modellerin dağıtılmış eğitimi için ZeRO optimizasyon teknolojisini tanıtan başka bir blog yazısı yayınladı ve bu atılımlar olmadan Turing-NLG'nin mümkün olmayacağını söyledi.

Tarihteki en büyük dil modeli

Kısaca Turing-NLG, T-NLG, soruları yanıtlama, belge özetlerini ayıklama vb. Gibi açık uçlu metin görevlerini tamamlamak için sözcükler üretebilen Transformer tabanlı bir üretken dil modelidir.

Microsoft, makinelerin her koşulda insanlar gibi doğrudan, doğru ve sorunsuz yanıt vermesini sağlamak için, T-NLG gibi üretken modellerin geliştirilmesinin NLP görevlerini çözmek için çok önemli olduğuna inanıyor.

Geçmişte, soruları yanıtlama ve özetleri çıkarma sistemleri esas olarak mevcut içeriği belgelerden çıkarmaya dayanıyordu. Alternatif bir cevap veya özet olarak kullanılabilmesine rağmen, genellikle doğal olmayan veya tutarsız görünür.

Microsoft, "T-NLG ile, kişisel dosyalar veya e-posta dizileri hakkındaki soruları doğal olarak özetleyebilir veya yanıtlayabiliriz," dedi.

Bunun arkasındaki mantık şudur: daha az eğitim örneği olsa bile, model ne kadar büyük ve eğitim öncesi veriler ne kadar çeşitli ve kapsamlı olursa, birden fazla aşağı akış görevine o kadar iyi genişletilebilir.

Bu nedenle Microsoft, büyük bir merkezi çoklu görev modeli eğitmenin ve yeteneklerini birçok görev arasında paylaşmanın, her görev için ayrı ayrı yeni bir model eğitmekten daha etkili olduğuna inanmaktadır.

T-NLG nasıl eğitilir?

Büyük modelleri eğitmek için genel bir fikir, 1,3 milyardan fazla parametresi olan herhangi bir modelin tek bir GPU (32 GB belleğe sahip bir GPU bile) üzerinde eğitilemeyeceğidir, bu nedenle modelin birden fazla GPU arasında paralel olarak eğitilmesi gerekir veya Modeli birden çok parçaya bölün.

Microsoft'a göre, T-NLG'yi eğitme yeteneği, üç açıdan yansıtılan donanım ve yazılımdaki atılımlardan yararlanır:

  • İlk olarak, NVIDIA DGX-2 donanım ayarlarını kullanıyorlar ve GPU'lar arasında öncekinden daha hızlı iletişim sağlamak için InfiniBand bağlantılarını kullanıyorlar.
  • İkinci olarak, dört Nvidia V100 GPU kullanarak, Nvidia Megatron-LM çerçevesindeki tensör dilim segmentasyon modelini uygulayın.
  • Üçüncüsü, Deepspeed ve ZeRO kullanımı modelin paralelliğini azaltır (16'dan 4'e), her düğümün parti boyutunu 4 kat artırır ve eğitim süresini üç kat azaltır.

Deepspeed, çok büyük modelleri daha az GPU ile eğitmeyi daha verimli hale getirir ve 256 NVIDIA GPU kullanarak 512 toplu iş boyutunda eğitim alır. Megatron-LM kullanıyorsanız, 1024 NVIDIA GPU'ya ihtiyacınız vardır. Ek olarak, Deepspeed ayrıca PyTorch ile uyumludur.

Nihai T-NLG modelinde 78 Transformer katmanı vardır, gizli boyut 4256'dır ve 28 dikkat kafası vardır.

Modelin sonuçlarını Megatron-LM ile karşılaştırılabilir kılmak için, aynı hiperparametreleri ve ön eğitim için öğrenme programını kullandılar. Aynı zamanda, modeli eğitmek için Megatron-LM ile aynı tip verileri kullanırlar.

Efekt en ileri seviyeye ulaşır ve Office paketinde kullanılacaktır

Model ön eğitimi tamamlandıktan sonra, WikiText-103 (daha düşük daha iyi) ve LAMBADA (daha yüksek daha iyi) veri kümelerini Nvidia Megatron-LM ve OpenAI'nin GPT-2 tam sürümü ile karşılaştırdılar ve her ikisine de ulaştılar. En son seviye.

Yalnızca veri setinde değil, Microsoft ayrıca T-NLG'nin belirli görevlerdeki performansını da duyurdu.

Birincisi soruyu cevaplamak. Cevaplamak için sadece tamamlanmış bir cümle kullanmakla kalmaz, aynı zamanda soruları bağlam olmadan da cevaplayabilir.Örneğin aşağıdaki soru daha fazla bilgi vermez. Bu durumlarda, T-NLG eğitim öncesi kazanılan bilgiye dayalı bir cevap üretebilir.

İkincisi, bir özet oluşturmaktır. Microsoft, T-NLG'yi farklı metin türlerini özetlemek için olabildiğince çok yapmak için, T-NLG modelini neredeyse tüm halka açık özet veri kümelerinde çok görevli bir şekilde geliştirdiklerini ve toplamda yaklaşık 4 milyon eğitim örneğini oluşturduklarını söyledi.

En yeni Transformer tabanlı dil modeli PEGASUS ve önceki en gelişmiş model ile karşılaştırılırlar ROUGE puanı aşağıdaki gibidir, bu temelde ötesinde.

Gerçek etki nedir?

Microsoft, bu modelin yeteneklerini göstermek için T-NLG modelini kullandı ve T-NLG'yi tanıtan blog yazısı için bir özet yazdı:

Turing Natural Language Generation (T-NLG), Microsoft tarafından geliştirilen ve birçok aşağı akış NLP görevinde son teknolojiyi geride bırakan 17 milyar parametreli bir dil modelidir. Serbest form oluşturma, soru yanıtlama ve özetleme yetenekleri dahil modelin bir demosunu sunuyoruz. , geri bildirim ve araştırma amaçlı akademisyenlere. < | endoftext | >

Özette belirtildiği gibi, Microsoft'un T-NLG'si şu anda halka açık değildir.

T-NLG'nin uygulama potansiyeli ile ilgili olarak Microsoft, kendisine ve müşterilerine yeni fırsatlar sunduğunu söyledi.

Belgeleri ve e-postaları özetleyerek kullanıcı zamanından tasarruf etmenin yanı sıra, yazarlara yazma yardımı sağlayarak ve okuyucuların belgelerle ilgili sorularını yanıtlayarak, daha güçlü sohbetler oluşturarak ve daha fazlasını yaparak Microsoft Office paketini kullanma deneyimini de geliştirebilirsiniz.

Microsoft, yeni olanaklardan heyecan duyduklarını ve dil modelinin kalitesini iyileştirmeye devam edeceklerini belirtti.

Makalede bahsedilen ZeRO ve DeepSpeed ile ilgili olarak, ilgileniyorsanız, Microsoft'un resmi blog gönderisini okuyabilirsiniz.DeepSpeed açık kaynaktır ve ZeRO'nun makalesi yayınlanmıştır: https://www.microsoft.com/en-us / araştırma / blog / sıfır-derin-hızlı-yeni-sistem-optimizasyonları-etkinleştir-eğitim-modelleri-100 milyardan-fazla-parametresi /

- Bitiş -

Qubit QbitAI · Toutiao İmzalı

Bize dikkat edin ve en son teknolojiden haberdar olun

Orman yangını birkaç gün içinde şiddetli yağmur nedeniyle sönecek, ancak Avustralya'daki şiddetli yağmur sele ve trafik kaosuna neden oldu
önceki
130 kişi! Yeni bir Wuxi grubu, Hubei'deki acil tıbbi personeli destekliyor
Sonraki
Tsinghua Yao Class'ın ilk mezunu, lisans öğrencileriyle bir araya geldi ve AAAI 2020'nin en iyi öğrenci ödevini kazandı.
Saç kurutma makinesi, tek kullanımlık tıbbi maskelerin ömrünü yeniliyor: Fudan'ın son araştırması, ikincil kullanım için saç kurutma makinesini ısıtmak
Zhong Nanshan'ın ilk yeni koronavirüs makalesi: Hastaların yarısından fazlasının erken dönemde ateşi yok ve kuluçka süresi 24 güne kadar çıkıyor
MWC, Hubei personelinin konferansa katılmasını yasakladı, 4 yabancı üretici geri çekildi ve Çinli üreticiler hala katılmak için ısrar etti
3D derin öğrenmeyi daha hızlı ve daha esnek hale getirin, Facebook açık kaynak PyTorch3D
Virüsler aerosollerle yayılabilir mi? Havalandırma için pencereyi açabilir misin? İşte cevap geliyor
Okul ertelendi, ebeveynler sakin değil: evden çalışmak + bebek getirmek çok zor
İstatistik Bürosu: Ocak ayında TÜFE yıllık bazda% 5,4 arttı ve konut fiyatları% 0,5 arttı
Hubei sağlık ekibinin malzemeleri gözaltına mı alındı? Kes şunu, gerçek burada
CCTV muhabiri gerçek kayıtlar için Wuhan karantina bölgesinin derinliklerine gitti. Hemşire: Ağlamak istemiyorum. Gözlüklerimle hiçbir şey yapamıyorum.
Ulusal salgın düşüş eğiliminde! İşe döndükten sonra onaylanmış bir hasta bulunursa ne yapmalıyım? Ulusal Sağlık Komisyonu yanıtı
CCTV muhabiri gerçek kayıtlar için Wuhan karantina bölgesinin derinliklerine gitti. Hemşire: Ağlamak istemiyorum. Gözlüklerimle hiçbir şey yapamıyorum.
To Top