g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Microsoft, tarihteki en büyük AI modelini yayınladı: Office paketinde kullanılacak 17 milyar parametre

Aufei Tapınağı'ndan Kuru Ming Qubit Raporu | Genel Hesap QbitAI

Bugün (11 Şubat) Microsoft, tarihin en büyük dil modelini yayınladı. Turing-NLG .

17 milyar parametrenin miktarı, önceki en büyük dil modeli olan NVIDIA "Megatron" un iki katı ve OpenAI modeli GPT-2'nin 10 katıdır.

Microsoft bir araştırma blogunda "Daha büyük doğal dil modellerinin daha iyi sonuçlara yol açmasıyla birlikte, Microsoft Turing-NLG'yi tanıttı" diye yazdı. "Çeşitli dil modelleme kriterlerinde en ileri seviyeyi aştı ve soruları cevaplamak ve özet oluşturmak gibi birçok pratik görevde çok iyi performans gösterdi."

Aynı zamanda Microsoft Research, DeepSpeed derin öğrenme kitaplığını ve büyük modellerin dağıtılmış eğitimi için ZeRO optimizasyon teknolojisini tanıtan başka bir blog yazısı yayınladı ve bu atılımlar olmadan Turing-NLG'nin mümkün olmayacağını söyledi.

Tarihteki en büyük dil modeli

Kısaca Turing-NLG, T-NLG, soruları yanıtlama, belge özetlerini ayıklama vb. Gibi açık uçlu metin görevlerini tamamlamak için sözcükler üretebilen Transformer tabanlı bir üretken dil modelidir.

Microsoft, makinelerin her koşulda insanlar gibi doğrudan, doğru ve sorunsuz yanıt vermesini sağlamak için, T-NLG gibi üretken modellerin geliştirilmesinin NLP görevlerini çözmek için çok önemli olduğuna inanıyor.

Geçmişte, soruları yanıtlama ve özetleri çıkarma sistemleri esas olarak mevcut içeriği belgelerden çıkarmaya dayanıyordu. Alternatif bir cevap veya özet olarak kullanılabilmesine rağmen, genellikle doğal olmayan veya tutarsız görünür.

Microsoft, "T-NLG ile, kişisel dosyalar veya e-posta dizileri hakkındaki soruları doğal olarak özetleyebilir veya yanıtlayabiliriz," dedi.

Bunun arkasındaki mantık şudur: daha az eğitim örneği olsa bile, model ne kadar büyük ve eğitim öncesi veriler ne kadar çeşitli ve kapsamlı olursa, birden fazla aşağı akış görevine o kadar iyi genişletilebilir.

Bu nedenle Microsoft, büyük bir merkezi çoklu görev modeli eğitmenin ve yeteneklerini birçok görev arasında paylaşmanın, her görev için ayrı ayrı yeni bir model eğitmekten daha etkili olduğuna inanmaktadır.

T-NLG nasıl eğitilir?

Büyük modelleri eğitmek için genel bir fikir, 1,3 milyardan fazla parametresi olan herhangi bir modelin tek bir GPU (32 GB belleğe sahip bir GPU bile) üzerinde eğitilemeyeceğidir, bu nedenle modelin birden fazla GPU arasında paralel olarak eğitilmesi gerekir veya Modeli birden çok parçaya bölün.

Microsoft'a göre, T-NLG'yi eğitme yeteneği, üç açıdan yansıtılan donanım ve yazılımdaki atılımlardan yararlanır:

İlk olarak, NVIDIA DGX-2 donanım ayarlarını kullanıyorlar ve GPU'lar arasında öncekinden daha hızlı iletişim sağlamak için InfiniBand bağlantılarını kullanıyorlar.
İkinci olarak, dört Nvidia V100 GPU kullanarak, Nvidia Megatron-LM çerçevesindeki tensör dilim segmentasyon modelini uygulayın.
Üçüncüsü, Deepspeed ve ZeRO kullanımı modelin paralelliğini azaltır (16'dan 4'e), her düğümün parti boyutunu 4 kat artırır ve eğitim süresini üç kat azaltır.

Deepspeed, çok büyük modelleri daha az GPU ile eğitmeyi daha verimli hale getirir ve 256 NVIDIA GPU kullanarak 512 toplu iş boyutunda eğitim alır. Megatron-LM kullanıyorsanız, 1024 NVIDIA GPU'ya ihtiyacınız vardır. Ek olarak, Deepspeed ayrıca PyTorch ile uyumludur.

Nihai T-NLG modelinde 78 Transformer katmanı vardır, gizli boyut 4256'dır ve 28 dikkat kafası vardır.

Modelin sonuçlarını Megatron-LM ile karşılaştırılabilir kılmak için, aynı hiperparametreleri ve ön eğitim için öğrenme programını kullandılar. Aynı zamanda, modeli eğitmek için Megatron-LM ile aynı tip verileri kullanırlar.

Efekt en ileri seviyeye ulaşır ve Office paketinde kullanılacaktır

Model ön eğitimi tamamlandıktan sonra, WikiText-103 (daha düşük daha iyi) ve LAMBADA (daha yüksek daha iyi) veri kümelerini Nvidia Megatron-LM ve OpenAI'nin GPT-2 tam sürümü ile karşılaştırdılar ve her ikisine de ulaştılar. En son seviye.

Yalnızca veri setinde değil, Microsoft ayrıca T-NLG'nin belirli görevlerdeki performansını da duyurdu.

Birincisi soruyu cevaplamak. Cevaplamak için sadece tamamlanmış bir cümle kullanmakla kalmaz, aynı zamanda soruları bağlam olmadan da cevaplayabilir.Örneğin aşağıdaki soru daha fazla bilgi vermez. Bu durumlarda, T-NLG eğitim öncesi kazanılan bilgiye dayalı bir cevap üretebilir.

İkincisi, bir özet oluşturmaktır. Microsoft, T-NLG'yi farklı metin türlerini özetlemek için olabildiğince çok yapmak için, T-NLG modelini neredeyse tüm halka açık özet veri kümelerinde çok görevli bir şekilde geliştirdiklerini ve toplamda yaklaşık 4 milyon eğitim örneğini oluşturduklarını söyledi.

En yeni Transformer tabanlı dil modeli PEGASUS ve önceki en gelişmiş model ile karşılaştırılırlar ROUGE puanı aşağıdaki gibidir, bu temelde ötesinde.

Gerçek etki nedir?

Microsoft, bu modelin yeteneklerini göstermek için T-NLG modelini kullandı ve T-NLG'yi tanıtan blog yazısı için bir özet yazdı:

Turing Natural Language Generation (T-NLG), Microsoft tarafından geliştirilen ve birçok aşağı akış NLP görevinde son teknolojiyi geride bırakan 17 milyar parametreli bir dil modelidir. Serbest form oluşturma, soru yanıtlama ve özetleme yetenekleri dahil modelin bir demosunu sunuyoruz. , geri bildirim ve araştırma amaçlı akademisyenlere. < | endoftext | >

Özette belirtildiği gibi, Microsoft'un T-NLG'si şu anda halka açık değildir.

T-NLG'nin uygulama potansiyeli ile ilgili olarak Microsoft, kendisine ve müşterilerine yeni fırsatlar sunduğunu söyledi.

Belgeleri ve e-postaları özetleyerek kullanıcı zamanından tasarruf etmenin yanı sıra, yazarlara yazma yardımı sağlayarak ve okuyucuların belgelerle ilgili sorularını yanıtlayarak, daha güçlü sohbetler oluşturarak ve daha fazlasını yaparak Microsoft Office paketini kullanma deneyimini de geliştirebilirsiniz.

Microsoft, yeni olanaklardan heyecan duyduklarını ve dil modelinin kalitesini iyileştirmeye devam edeceklerini belirtti.

Makalede bahsedilen ZeRO ve DeepSpeed ile ilgili olarak, ilgileniyorsanız, Microsoft'un resmi blog gönderisini okuyabilirsiniz.DeepSpeed açık kaynaktır ve ZeRO'nun makalesi yayınlanmıştır: https://www.microsoft.com/en-us / araştırma / blog / sıfır-derin-hızlı-yeni-sistem-optimizasyonları-etkinleştir-eğitim-modelleri-100 milyardan-fazla-parametresi /

- Bitiş -

Qubit QbitAI · Toutiao İmzalı

Bize dikkat edin ve en son teknolojiden haberdar olun

Orman yangını birkaç gün içinde şiddetli yağmur nedeniyle sönecek, ancak Avustralya'daki şiddetli yağmur sele ve trafik kaosuna neden oldu

130 kişi! Yeni bir Wuxi grubu, Hubei'deki acil tıbbi personeli destekliyor

: Tsinghua Yao Class'ın ilk mezunu, lisans öğrencileriyle bir araya geldi ve AAAI 2020'nin en iyi öğrenci ödevini kazandı.

: Saç kurutma makinesi, tek kullanımlık tıbbi maskelerin ömrünü yeniliyor: Fudan'ın son araştırması, ikincil kullanım için saç kurutma makinesini ısıtmak

: Zhong Nanshan'ın ilk yeni koronavirüs makalesi: Hastaların yarısından fazlasının erken dönemde ateşi yok ve kuluçka süresi 24 güne kadar çıkıyor

: MWC, Hubei personelinin konferansa katılmasını yasakladı, 4 yabancı üretici geri çekildi ve Çinli üreticiler hala katılmak için ısrar etti

: 3D derin öğrenmeyi daha hızlı ve daha esnek hale getirin, Facebook açık kaynak PyTorch3D

: Virüsler aerosollerle yayılabilir mi? Havalandırma için pencereyi açabilir misin? İşte cevap geliyor

: Okul ertelendi, ebeveynler sakin değil: evden çalışmak + bebek getirmek çok zor

: İstatistik Bürosu: Ocak ayında TÜFE yıllık bazda% 5,4 arttı ve konut fiyatları% 0,5 arttı

: Hubei sağlık ekibinin malzemeleri gözaltına mı alındı? Kes şunu, gerçek burada

: CCTV muhabiri gerçek kayıtlar için Wuhan karantina bölgesinin derinliklerine gitti. Hemşire: Ağlamak istemiyorum. Gözlüklerimle hiçbir şey yapamıyorum.

: Ulusal salgın düşüş eğiliminde! İşe döndükten sonra onaylanmış bir hasta bulunursa ne yapmalıyım? Ulusal Sağlık Komisyonu yanıtı

: CCTV muhabiri gerçek kayıtlar için Wuhan karantina bölgesinin derinliklerine gitti. Hemşire: Ağlamak istemiyorum. Gözlüklerimle hiçbir şey yapamıyorum.

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Microsoft, tarihteki en büyük AI modelini yayınladı: Office paketinde kullanılacak 17 milyar parametre

Tarihteki en büyük dil modeli

T-NLG nasıl eğitilir?

Efekt en ileri seviyeye ulaşır ve Office paketinde kullanılacaktır

İlgili bilgi

6 dakikada 2 gol! 4-1! Real Madrid, Barcelona'dan 6 puan uzakta üst üste 5 galibiyet aldı, kaptan Messi'yi geçmek için bir mucize yarattı

onaylandı! 4 hat, Xuzhou kentsel demiryolu geçişinin ikinci aşama inşaat planı

Bell tek bir geçişi kaçırdı! Real Madrid, 7 dakika sonra sert vurdu: rakipler kolayca gol attı, taraftarlar çılgınca kutladı

Yatak iş istasyonudur ve ebeveynler meraklı izleyicilerdir! Fantezi Evde Ofis Ödülü, Netizen: Benim

8 puan almak için 5 tur! İspanyol yeni bir antrenördür, ancak Wu Lei'yi en iyi zamanda terk etti ancak küme düşme savaşını kazandı

1-0! İspanyollar Birinci Dünya Savaşı'nda 3 sürpriz yaşadı, tek pişmanlık: Çinli hayranlar hiçbir şey için 90 dakika beklediler

Wuhan'daki 43 yaşındaki kritik hasta iyileşmesini bildirdi, bu 3 nokta çok önemli! Netizen: Israrcı olun

4 maçta 4 gol! 20 milyon Euro'luk yeni standart kral La Liga sürekli olarak patlak verdi ve Wu Lei'nin verimliliği 18 maçta 2 golle patladı

İspanyol kaçtı! Hakem bir penaltı vuruşu yaptıktan sonra, VAR adaleti buldu, 26.000 taraftar çok mutlu oldu

Cephedeki anti-salgın polisi karısına "toprak aromalı aşk" dedi, netizenler ağladı: bu aşktır