47 dakikada BERT eğitimi yeni bir rekor kırdı! Nvidia 512 GPU eğitimi 8,3 milyar parametre GPT

[Xinzhiyuan Kılavuzu] 92 DGX-2H düğümlü NVIDIA DGX SuperPOD, sadece 47 dakikada BERT-Large'ı eğiterek yeni bir rekor kırdı. Rekor, her düğümde 1472 V100 SXM3-32GB 450W GPU ve 8 Mellanox Infiniband hesaplama adaptörü kullanılarak, iş hacmini artırmak için otomatik olarak PyTorch'u karışık hassasiyetle çalıştırarak ve bu makaledeki eğitim yöntemini kullanarak elde edildi. "Xinzhiyuan acilen baş yazar, editör, operasyon müdürü, hesap yöneticisi işe alıyor, HR WeChat'i (Dr-wly) ekliyor veya daha fazla bilgi edinmek için makalenin sonuna QR kodunu taratıyor."

NVIDIA DGX SuperPOD, BERT-Large ve GPT-28B'yi sadece 47 dakikada eğitti; bu, 8.3 Milyar parametreli şimdiye kadarki en büyük Transformer ağı.

Konuşmalı AI, insanların akıllı makineler ve uygulamalarla (robotlardan ve arabalardan ev asistanlarına ve mobil uygulamalara kadar) etkileşime girmesi için önemli bir temeldir. Uzun zamandır, bilgisayarların insan dilini ve tüm nüanslarını anlamasına ve uygun şekilde yanıt vermesine izin vermek, AI araştırmacıları için "Kutsal Kase" olmuştur. Hızlandırılmış bilgi işlemle desteklenen modern AI teknolojilerinin ortaya çıkmasından önce, gerçek doğal dil işleme (NLP) yeteneklerine sahip bir sistem kurmak imkansızdı.

BERT (Transformer'dan iki yönlü kodlayıcı gösterimi) ve 1 milyardan fazla parametreye sahip bir GPT-2 (Generative Pretrained Transformer 2) modeli gibi çok sayıda Transformer tabanlı dil modelinin ortaya çıkmasıyla, dil anlama görevleri hızla gelişti.

BERT yeni bir hassas dil modelleri dalgasını ateşledi

BERT, birçok NLP görevi için ince ayar yapılabilir ve çeviri, soru cevaplama, duygu analizi ve cümle sınıflandırması gibi dil anlama görevleri için çok uygundur. BERT ve Transformer tabanlı modeller (XLNet ve RoBERTa gibi), popüler kriterlerde (SQuAD (soru ve cevap değerlendirmesi için) ve GLUE (birden çok dilde genel dil anlayışı için) gibi insanlara ulaşabilir veya hatta aşabilir.

BERT'in temel avantajlarından biri, eğitim öncesi için etiketli verileri kullanmaya gerek olmamasıdır, bu nedenle herhangi bir düz metin öğrenme için kullanılabilir. Bu avantaj, en son doğruluğu daha da artıran devasa veri kümelerine kapı açar. Örneğin, BERT, 3.3 milyar kelimelik toplam bir veri kümesi oluşturmak için genellikle BooksCorpus (800 milyon kelime) ve İngilizce Wikipedia (2,5 milyar kelime) üzerinde önceden eğitilmiştir.

Model karmaşıklığı, NLP'nin doğruluğunu artıran, Transformer tabanlı ağların başka bir özelliğidir. BERT'nin iki farklı versiyonunun karşılaştırılması, model boyutu ile performans arasındaki ilişkiyi bulabilir: BERTBASE 110 milyon parametre oluştururken, BERT-Large 340 milyon parametreyi geçti ve GLUE puanı ortalama% 3 arttı. Bu modellerin dil doğruluğunu iyileştirmek için büyümeye devam etmesi bekleniyor.

NVIDIA Tensor Core GPU, BERT'yi bir saatten kısa sürede eğitiyor

92 DGX-2H düğümlü NVIDIA DGX SuperPOD, sadece 47 dakikada BERT-Large'ı eğiterek yeni bir rekor kırdı! Rekor, her düğümde 1472 V100 SXM3-32GB 450W GPU ve 8 Mellanox Infiniband hesaplama adaptörü kullanılarak, iş hacmini artırmak için otomatik karışık hassasiyetle PyTorch çalıştırılarak ve bu makaledeki eğitim yöntemi kullanılarak belirlenir. Yalnızca tek bir düğüme erişen araştırmacılar için, 16 V100 ile donatılmış DGX-2 sunucuları 3 günde BERT-Large'ı eğitebilir. Aşağıdaki tablo, çeşitli GPU sayıları için BERT-Large'ı eğitme süresini gösterir ve düğüm sayısı arttıkça etkili ölçeklendirmeyi gösterir:

Tek bir DGX-2H düğümü, 2 petaFLOP yapay zeka hesaplama gücüne sahiptir ve karmaşık modelleri işleyebilir. Büyük ölçekli BERT modelleri çok fazla bellek gerektirir ve her DGX-2H düğümü, toplam 46 TB için çalışan DGX SuperPOD kümesinin tamamı için 0,5 TB yüksek bant genişliğine sahip GPU belleği sağlar. NVIDIA ara bağlantı teknolojileri (NVLink, NVSwitch ve Mellanox Infiniband gibi), verimli ölçeklendirme elde etmek için yüksek bant genişliğine sahip iletişim sağlar. GPU'nun güçlü bilgi işlem gücü, çok sayıda DRAM'e yüksek bant genişliği erişimi ve hızlı ara bağlantı teknolojisinin birleşimi, NVIDIA veri merkezi platformunu BERT gibi karmaşık ağları büyük ölçüde hızlandırmak için en iyi seçenek haline getirir.

GPT-28B: Şimdiye kadarki en büyük Transformer tabanlı dil modeli

Transformer'a dayalı başka bir dil modeli türü, üretken dil modellemesi için kullanılır. Bu modeller, metni tahmin etmek ve üretmek için tasarlanmıştır (örneğin, sonraki cümleyi ilk paragrafı veren bir belgeye yazın). Son zamanlarda, 1,5 milyar parametreye sahip GPT-2 modeli, BERT tarafından kullanılan veri kümesinden daha büyük etiketlenmemiş bir veri kümesi bile daha büyük bir nesil boyutuna ölçeklendirmenin tutarlı ve anlamlı metin üreten en son modeli oluşturabileceğini gösterdi.

Patlayıcı model karmaşıklığı-ağ parametrelerinin sayısı

Bu devasa, bir milyardan fazla Transformer tabanlı ağı araştırmak için NVIDIA Research, Megatron Projesi'ni başlattı. Bu, en gelişmiş NLP için en büyük Transformer modelini oluşturma çabasıdır. 1,5 milyar parametreli GPT-2 modeli, daha büyük 8,3 milyar parametreli Transformer dili modeline genişletildi: GPT-28B. Yerel PyTorch, modeli 512 GPU'da 8 yollu model paralelliği ve 64 yollu veri paralelliği ile eğitmek için kullanıldı. GPT-28B, Transformer tabanlı şimdiye kadarki en büyük dil modelidir. Boyutu, BERT'nin 24 katı ve GPT-2'nin 5,6 katıdır.

Deney, NVIDIA'nın DGX SuperPOD'unda gerçekleştirildi.Bu modelin temel modeli 1,2 milyar parametreye sahiptir ve tek bir V100 GPU'ya kurulabilir. Bu temel modeli tek bir GPU üzerinde çalıştırmanın uçtan-uca eğitim hattı, GPU'nun teorik zirve FLOPS'unun% 30'u olan 39 TeraFLOPS'a ulaşabilir. NVIDIA ekibi, modeli 512 GPU'da 8,3 milyar parametreye ölçeklendirmek için 8 yollu model paralelliği kullandı. NVIDIA ekibi, tüm uygulamada 15,1 PetaFLOPS'a kadar sürdürülebilir bir performans elde etti. Karşılaştırma ile karşılaştırıldığında, ölçeklendirme verimliliği% 76'ya ulaştı.

Model paralelliği, doğası gereği ek yük getirir.Tek bir GPU üzerinde çalışabilen ve herhangi bir model paralelliği gerektirmeyen BERT ile karşılaştırıldığında, ölçeklendirme verimliliğini biraz etkiler. Aşağıdaki resim yakınlaştırma sonucunu göstermektedir, teknik ayrıntılar hakkında daha fazla bilgi ayrı bir blog gönderisinde bulunabilir.

Hesaplama performansı ve ölçeklendirme verimliliği

GPT-2 modeli, Reddit bağlantısından indirilen 37 GB WebText veri kümesinde eğitildi. Aşağıdaki şekil, WebText doğrulama kafa karışıklığı ile farklı model boyutlarının dönem sayısı arasındaki ilişkiyi göstermektedir. Ampirik olarak, daha büyük modellerin daha hızlı eğitildiğini ve daha iyi sonuçlara yol açtığını gördük (daha düşük doğrulama karışıklığı).

Model wikitext-103 veri kümesinde değerlendirilirken benzer davranış gözlemlendi. Daha küçük modelle karşılaştırıldığında, 8,3 milyar parametreye artış, doğrulukta önemli bir artışa yol açar ve Wikitext'in şaşkınlığı 17,41'dir. Bu, Transformer-xl tarafından Wikitext test veri setinde elde edilen önceki sonuçları aşıyor. Bununla birlikte, en büyük 8,3 milyar parametre modeli, yaklaşık altı eğitim döneminden sonra aşırı uyum göstermeye başladı. Bu, XLNet ve RoBERTa gibi son makalelerde kullanılanlara benzer şekilde daha büyük sorunlara ve veri setlerine geçilerek azaltılabilir. Model.

Web metni doğrulama karışıklığı ve çeşitli GPT-2 model boyutlarının geçmişi

NVIDIA platformunda diyaloğa dayalı yapay zekanın geleceği

BERT ve GPT-28B gibi transformatör tabanlı dil ağlarının çok büyük performans gereksinimleri vardır.Bu kombinasyon, yürütme hızını ve doğruluğunu artırmak için gerekli tüm hesaplamaları işlemek için güçlü bir hesaplama platformu gerektirir. Bu modellerin büyük miktarlarda etiketlenmemiş veri setlerini işleyebilmesi gerçeği, onları modern NLP için inovasyon merkezi ve dolayısıyla konuşmalı AI uygulamalarını kullanan akıllı asistanların seçimi haline getiriyor.

Tensor Core mimarisine sahip NVIDIA platformu, Transformer tabanlı modeller de dahil olmak üzere modern yapay zekanın tüm çeşitliliğini hızlandırmak için programlanabilirlik sağlar. Ek olarak, DGX SuperPOD'un veri merkezi ölçek tasarımı ve optimizasyonu, yazılım kitaplıkları ile birleştirilir ve önde gelen AI çerçeveleri için doğrudan destek sağlayarak geliştiricilere en zor NLP görevlerini üstlenmeleri için uçtan uca sorunsuz bir platform sağlar.

NVIDIA Hızlandırma Yazılım Merkezi NGC, birden fazla çerçevede GPU'lar üzerinde BERT ve Transformer'in eğitimini hızlandırmak için ücretsiz sürekli optimizasyon sağlar.

NVIDIA TensorRT, BERT ve büyük Transformer tabanlı modellerde gerçek zamanlı çıkarım yapmak için optimizasyonlar içerir. Daha fazla bilgi edinmek için "Konuşma Yapay Zeka için Gerçek Zamanlı BERT Çıkarımı" blogumuza göz atın. NVIDIA'nın BERT GitHub deposu, bugün bu blogda atıfta bulunulan tek düğümlü eğitim performansını çoğaltmak için koda sahip ve yakın gelecekte, havuz, büyük ölçekli eğitim performans verilerini çoğaltmak için gereken komut dosyalarıyla güncellenecek.

"SARS" Jack Ma karantinaya alındı, Liu Qiangdong 8 milyon kaybetti: Kriz altında, her yerde altın
önceki
Başarılı olmak ne kadar zor! SARS'ta doğan Taobao artık bir dünya mucizesi
Sonraki
Biyoloğun model hesaplaması: Yeni koroner pnömoni veya 150.000 enfekte vaka No. 0 Kasım başında ortaya çıktı
Temsilciler satın alarak başladı, Taobao kadın giyiminin devi oldu ve Harvard Business School tarafından öğretim vakasına dahil edildi.
Kanadalı P4 Laboratuvarı'nın kurucusu toplantıya katıldı ve aniden öldü.Sars, AIDS ve Ebola ile mücadelede bir kahramandı.
60 yaşında bir iş kur, 80 yaşında halka aç ve 84 yaşında 30 milyar piyasa değerine sahip ol! Bir efsane yaratmak için ekmeği nasıl kullanıyor?
On yıllık e-ticaret kaosunun ardından, Vipshop Taobao ve Jingdong gibi devlerin kuşatmasından nasıl çıkacak?
Wuhan Üniversitesi Zhongnan Hastanesinden Doktorlardan "The Lancet" üzerine "Salgının Ön Cephesinden Yedi Ders"
"Geç kalırsan 500 keseceksin, bu yüzden burada çalışmayı bırakamazsın"! Sohu'nun canlanması katılımla mı başladı?
Michigan Üniversitesi'nden Zhang Yang'ın ekibi "yapay yeni taç virüsü" komplo teorisini parçaladı! Virüs barındırıcısı yarasa
"Yeni nesil", 20 dakika boyunca deli gibi batan mopedini ne kadar paylaşabilir?
İşe tek başına mı yoksa ortaklık içinde mi başlamak daha iyi?
Milyonlarca üye, 28,5 milyar marka değeri! "Evlilikten" sonra Meituan, Dianping içiniz rahat mı?
Lei Jun tarafından "aldatıldı" ve "e-ticaretin bir aldatmaca olduğunu" eleştirdi.
To Top