g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Şu anda Google, doğrudan MLM kaybıyla önceden eğitilmiş 24 küçük BERT modeli yayınladı

[Xinzhiyuan Kılavuzu] Google, eğitim için WordPiece maskeleme kullanan, daha az katman içeren 24 küçük BERT modelini piyasaya sürdü ve MLM distilasyonunun daha rafine edilmiş eğitim öncesi stratejisinde, kaynakları kısıtlı olanlar için uygun büyük avantajlar sağladı Senaryolar ve daha kompakt modellerin yapımını teşvik eder. "Xinzhiyuan acilen baş yazar, editör, operasyon müdürü, hesap yöneticisi işe alıyor ve daha fazlasını öğrenmek için HR WeChat'i (Dr-wly) ekliyor."

Google, White Day'den önce NLP araştırmacılarının çoğuna hediye olarak kısa süre önce indirilmek üzere 24 modern BERT modelini piyasaya sürdü.

BERT büyük modelde kazanır, ancak büyük modelde de kaybeder!

BERT doğar doğmaz "11 rekor kırma" aurasını taşıdı ve şiddetli bir şekilde kırmak için ezici parametreler kullandı. BERT'in başarısının, Modeldeki başarılar . Ama bir yandan büyük, bir yandan BERT'i yaptı, diğer yandan daha yaygın olarak kullanılamamasının önünde bir engel haline geldi ve bu da üç yönüyle yansıtılıyor.

Engel 1: Kaynaklar

Büyük boyut, büyük depolama kaynaklarını kullanmayı gerekli kılar ve büyük miktarda depolama kaynağını korurken, aynı zamanda çok fazla enerji tüketir.

Engel 2: Çok zaman alıyor

BERT yazarı Jacob bir keresinde "BERT-Large modeli 24 katmana ve 2014 gizli birimlere sahiptir. 3.3 milyar kelimelik bir veri setinde 40 Epoch'u eğitmesi gerekir ve 8 P100s için 1 yıl sürebilir."

Engel 3: Yüksek maliyet

Biri, üç ana modelin eğitim maliyetinin muhtemelen şu şekilde olduğunu hesapladı:

BERT: 12.000 Dolar
GPT-2: 43.000 ABD Doları
XLNet: 61.000 $

Yukarıdaki sorunları çözmek için insanlar BERT'in modern bir versiyonunu sunmaya devam ediyor.

Boyut önemlidir . Aslında, yukarıdaki üç sorunun kaynağı Boyutta yatıyor, bu nedenle herkes BERT'in basitleştirilmiş sürümünü incelemeye başladı. Sınırlı kaynaklar durumunda, küçük boyutlu bir modelin bariz avantajları vardır.

DistillBERT : Hugging Face ekibi, bilgi damıtma teknolojisi ile BERT temelinde eğitilmiş minyatür bir BERT kullanıyor. Model boyutu% 40 (66M) azaltılır, çıkarım hızı% 60 artar, ancak performans Sadece yaklaşık% 3 oranında azaldı .

ALBERT : Model mimarisini değiştirerek hacim büyük ölçüde azaltılır. En küçük ALBERT sadece 12M'dir, en büyük ALBERT-XXLarge 233M'dir ve BERT-Base 110M'dir. Bununla birlikte, hacim düşmesine rağmen, muhakeme hızı önemli ölçüde iyileştirilmemiştir.

TinyBERT : Modeli sıkıştırmak için bilgi damıtma yöntemini kullanın. Bu model Huazhong Bilim ve Teknoloji Üniversitesi ve Huawei tarafından ortaklaşa üretilmiştir.

Google kişisel olarak daha küçük bir BERT modeli başlattı

Daha dün, Google BERT'in GitHub deposunu güncelledi ve İngilizce kelime dağarcığıyla sınırlı ve büyük / küçük harfe duyarlı olmayan 24 küçük BERT modeli yayınladı.

24 model, WordPiece maskeleme kullanılarak eğitilir, doğrudan MLM kaybı yoluyla ön eğitim verilir ve standart eğitim veya nihai görev ayrıntılandırması yoluyla sonraki görevler için ince ayar yapılabilir; bu, MLM damıtmanın daha rafine eğitim öncesi stratejisinde büyük avantajlara sahiptir.

Teorik rehberlik, "İyi Okuyan Öğrenciler Daha İyi Öğreniyor: Kompakt Modellerin Ön Eğitiminin Önemi Üzerine" başlıklı makaleden alınmıştır. Kağıt adresi: https://arxiv.org/abs/1908.08962

Küçük BERT modelinin yalnızca orijinal BERT ince ayar yöntemine göre ince ayarlanması gerekir, ancak daha büyük ve daha doğru bir öğretmen tarafından yapılan bilgi damıtması durumunda en etkilidir.

Bu sürümdeki BERT-Base modelinin yalnızca eksiksizlik amaçlı olduğu ve orijinal modelle aynı koşullar altında yeniden eğitildiği unutulmamalıdır.

TUTKAL puanı:

24 küçük BERT indirme adresi : Https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip

Muhteşem bir Kol efsanesi

Google AutoML'nin yeni çalışması AutoML-Zero: sıfırdan makine öğrenimi algoritmaları oluşturun

: Tarihteki en büyük ICLR 2020 çevrimdışı olarak iptal edildi ve salgın Afrika'nın ilk AI zirvesini evini kaybetmesine neden oldu

: Magic Leap kendini satmak için 2.6 milyar dolar mı yakıyor? Facebook alıcı olmak istemediğini söylüyor

: Programcı, Dachang'ın milyonlarca yıllık maaşlı AI algoritma mühendislerinden ne kadar uzakta?

: Tarihin en kapsamlı "Bilgi Grafiği" 2020 inceleme makalesi, 18 yazar, 130 sayfa pdf

: 17 yaşındaki bir lise öğrencisi bağımsız olarak dünyanın en sıcak salgın izleme web sitesini geliştirdi! İdolü Jobs

: Yapay zeka beyinlerini kuantum hesaplamaya koyun! Google'ın kuantum bilgi işlem kitaplığı TensorFlow Quantum açık kaynak

: bAbI listeyi yine mi mahvetti? DeepMind'ın yeni modeli MEMO, insan beyni muhakemesini taklit eden Transformer'ı tanıttı

: Apple Başkanı Cook, küresel çalışanları eve işe gitmeye çağırdı; Stanford ve diğer prestijli okullar dersleri askıya aldı

: 1-2 kaybeden Wu Lei? İspanyol koçun hareketi tartışmalara neden oldu, taraftarlar memnun değil

: Simeone gibi tutkulu! Bu futbol menajeri gerçek oyunu geri yükler, herkes ritim ustası olabilir

: 5-0! 60.000 kişi Messi'nin dört yıllık çılgın sevincine tanık oldu! 887 gün mucize gerçekleşti, Real Madrid 1 puan endişelendirdi

: Harika 1-0! Savaştan önce İspanya'ya bir hediye daha verildi, Tanrı Wu Lei'yi La Liga'da kalması için kutsadı mı?

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Şu anda Google, doğrudan MLM kaybıyla önceden eğitilmiş 24 küçük BERT modeli yayınladı

BERT büyük modelde kazanır, ancak büyük modelde de kaybeder!

Yukarıdaki sorunları çözmek için insanlar BERT'in modern bir versiyonunu sunmaya devam ediyor.

Google kişisel olarak daha küçük bir BERT modeli başlattı

İlgili bilgi

iPhone 11, Xiaomi 10, OPPO X2 kamera karşılaştırmasını bulun, kim daha iyi?

İtalya "kapalı şehirde": açık hava kafeleri insanlarla dolu, cezaevlerinde isyanlar

Bir iş arkadaşının emrini merak ederek, bir ev temizliği ararken ... Sun Li ile röportaj: Bu Fang Xijin ilk bakışta gurur verici bir karakter değil

Virüsle savaşması için AI tanrısını çağırın! Kaggle, CORD-19 veri seti metin madenciliği yarışmasını başlattı

GitHub, Microsoft'un açık kaynak endüstrisindeki acımasız rekabetin 12 milyon geliştiriciyi etkilediği npm'yi satın aldığını duyurdu

Apple, WWDC'nin çevrimiçi olarak canlı yayınlanacağını duyurdu ve Apple Pay, Alipay'i ilk kez destekliyor

Trump, yeni taca 50 milyar dolarlık bir yanıt başlattı ve 1.700 Google çalışanı virüs testine katıldı

100 milyonun üzerindeki model parametreleriyle çalışamaz mı? MIT kardeş, az miktarda veriyle yüksek kaliteli metin okuma işlemini tamamlar!

Trump'ın test raporu olumsuz ve dünya çapında yaklaşık bir milyon insan yeni koronavirüs için test edildi!

Heavy | Berkeley "Derin Denetimsiz Öğrenme" 2020 bahar yeni dersi burada!