Şu anda Google, doğrudan MLM kaybıyla önceden eğitilmiş 24 küçük BERT modeli yayınladı

[Xinzhiyuan Kılavuzu] Google, eğitim için WordPiece maskeleme kullanan, daha az katman içeren 24 küçük BERT modelini piyasaya sürdü ve MLM distilasyonunun daha rafine edilmiş eğitim öncesi stratejisinde, kaynakları kısıtlı olanlar için uygun büyük avantajlar sağladı Senaryolar ve daha kompakt modellerin yapımını teşvik eder. "Xinzhiyuan acilen baş yazar, editör, operasyon müdürü, hesap yöneticisi işe alıyor ve daha fazlasını öğrenmek için HR WeChat'i (Dr-wly) ekliyor."

Google, White Day'den önce NLP araştırmacılarının çoğuna hediye olarak kısa süre önce indirilmek üzere 24 modern BERT modelini piyasaya sürdü.

BERT büyük modelde kazanır, ancak büyük modelde de kaybeder!

BERT doğar doğmaz "11 rekor kırma" aurasını taşıdı ve şiddetli bir şekilde kırmak için ezici parametreler kullandı. BERT'in başarısının, Modeldeki başarılar . Ama bir yandan büyük, bir yandan BERT'i yaptı, diğer yandan daha yaygın olarak kullanılamamasının önünde bir engel haline geldi ve bu da üç yönüyle yansıtılıyor.

Engel 1: Kaynaklar

Büyük boyut, büyük depolama kaynaklarını kullanmayı gerekli kılar ve büyük miktarda depolama kaynağını korurken, aynı zamanda çok fazla enerji tüketir.

Engel 2: Çok zaman alıyor

BERT yazarı Jacob bir keresinde "BERT-Large modeli 24 katmana ve 2014 gizli birimlere sahiptir. 3.3 milyar kelimelik bir veri setinde 40 Epoch'u eğitmesi gerekir ve 8 P100s için 1 yıl sürebilir."

Engel 3: Yüksek maliyet

Biri, üç ana modelin eğitim maliyetinin muhtemelen şu şekilde olduğunu hesapladı:

  • BERT: 12.000 Dolar
  • GPT-2: 43.000 ABD Doları
  • XLNet: 61.000 $

Yukarıdaki sorunları çözmek için insanlar BERT'in modern bir versiyonunu sunmaya devam ediyor.

Boyut önemlidir . Aslında, yukarıdaki üç sorunun kaynağı Boyutta yatıyor, bu nedenle herkes BERT'in basitleştirilmiş sürümünü incelemeye başladı. Sınırlı kaynaklar durumunda, küçük boyutlu bir modelin bariz avantajları vardır.

DistillBERT : Hugging Face ekibi, bilgi damıtma teknolojisi ile BERT temelinde eğitilmiş minyatür bir BERT kullanıyor. Model boyutu% 40 (66M) azaltılır, çıkarım hızı% 60 artar, ancak performans Sadece yaklaşık% 3 oranında azaldı .

ALBERT : Model mimarisini değiştirerek hacim büyük ölçüde azaltılır. En küçük ALBERT sadece 12M'dir, en büyük ALBERT-XXLarge 233M'dir ve BERT-Base 110M'dir. Bununla birlikte, hacim düşmesine rağmen, muhakeme hızı önemli ölçüde iyileştirilmemiştir.

TinyBERT : Modeli sıkıştırmak için bilgi damıtma yöntemini kullanın. Bu model Huazhong Bilim ve Teknoloji Üniversitesi ve Huawei tarafından ortaklaşa üretilmiştir.

Google kişisel olarak daha küçük bir BERT modeli başlattı

Daha dün, Google BERT'in GitHub deposunu güncelledi ve İngilizce kelime dağarcığıyla sınırlı ve büyük / küçük harfe duyarlı olmayan 24 küçük BERT modeli yayınladı.

24 model, WordPiece maskeleme kullanılarak eğitilir, doğrudan MLM kaybı yoluyla ön eğitim verilir ve standart eğitim veya nihai görev ayrıntılandırması yoluyla sonraki görevler için ince ayar yapılabilir; bu, MLM damıtmanın daha rafine eğitim öncesi stratejisinde büyük avantajlara sahiptir.

Teorik rehberlik, "İyi Okuyan Öğrenciler Daha İyi Öğreniyor: Kompakt Modellerin Ön Eğitiminin Önemi Üzerine" başlıklı makaleden alınmıştır. Kağıt adresi: https://arxiv.org/abs/1908.08962

Küçük BERT modelinin yalnızca orijinal BERT ince ayar yöntemine göre ince ayarlanması gerekir, ancak daha büyük ve daha doğru bir öğretmen tarafından yapılan bilgi damıtması durumunda en etkilidir.

Bu sürümdeki BERT-Base modelinin yalnızca eksiksizlik amaçlı olduğu ve orijinal modelle aynı koşullar altında yeniden eğitildiği unutulmamalıdır.

TUTKAL puanı:

24 küçük BERT indirme adresi : Https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip

Muhteşem bir Kol efsanesi
önceki
Google AutoML'nin yeni çalışması AutoML-Zero: sıfırdan makine öğrenimi algoritmaları oluşturun
Sonraki
Tarihteki en büyük ICLR 2020 çevrimdışı olarak iptal edildi ve salgın Afrika'nın ilk AI zirvesini evini kaybetmesine neden oldu
Magic Leap kendini satmak için 2.6 milyar dolar mı yakıyor? Facebook alıcı olmak istemediğini söylüyor
Programcı, Dachang'ın milyonlarca yıllık maaşlı AI algoritma mühendislerinden ne kadar uzakta?
Tarihin en kapsamlı "Bilgi Grafiği" 2020 inceleme makalesi, 18 yazar, 130 sayfa pdf
17 yaşındaki bir lise öğrencisi bağımsız olarak dünyanın en sıcak salgın izleme web sitesini geliştirdi! İdolü Jobs
Yapay zeka beyinlerini kuantum hesaplamaya koyun! Google'ın kuantum bilgi işlem kitaplığı TensorFlow Quantum açık kaynak
bAbI listeyi yine mi mahvetti? DeepMind'ın yeni modeli MEMO, insan beyni muhakemesini taklit eden Transformer'ı tanıttı
Apple Başkanı Cook, küresel çalışanları eve işe gitmeye çağırdı; Stanford ve diğer prestijli okullar dersleri askıya aldı
1-2 kaybeden Wu Lei? İspanyol koçun hareketi tartışmalara neden oldu, taraftarlar memnun değil
Simeone gibi tutkulu! Bu futbol menajeri gerçek oyunu geri yükler, herkes ritim ustası olabilir
5-0! 60.000 kişi Messi'nin dört yıllık çılgın sevincine tanık oldu! 887 gün mucize gerçekleşti, Real Madrid 1 puan endişelendirdi
Harika 1-0! Savaştan önce İspanya'ya bir hediye daha verildi, Tanrı Wu Lei'yi La Liga'da kalması için kutsadı mı?
To Top