[Xinzhiyuan Kılavuzu] Google, eğitim için WordPiece maskeleme kullanan, daha az katman içeren 24 küçük BERT modelini piyasaya sürdü ve MLM distilasyonunun daha rafine edilmiş eğitim öncesi stratejisinde, kaynakları kısıtlı olanlar için uygun büyük avantajlar sağladı Senaryolar ve daha kompakt modellerin yapımını teşvik eder. "Xinzhiyuan acilen baş yazar, editör, operasyon müdürü, hesap yöneticisi işe alıyor ve daha fazlasını öğrenmek için HR WeChat'i (Dr-wly) ekliyor."
Google, White Day'den önce NLP araştırmacılarının çoğuna hediye olarak kısa süre önce indirilmek üzere 24 modern BERT modelini piyasaya sürdü.
BERT doğar doğmaz "11 rekor kırma" aurasını taşıdı ve şiddetli bir şekilde kırmak için ezici parametreler kullandı. BERT'in başarısının, Modeldeki başarılar . Ama bir yandan büyük, bir yandan BERT'i yaptı, diğer yandan daha yaygın olarak kullanılamamasının önünde bir engel haline geldi ve bu da üç yönüyle yansıtılıyor.
Engel 1: Kaynaklar
Büyük boyut, büyük depolama kaynaklarını kullanmayı gerekli kılar ve büyük miktarda depolama kaynağını korurken, aynı zamanda çok fazla enerji tüketir.
Engel 2: Çok zaman alıyor
BERT yazarı Jacob bir keresinde "BERT-Large modeli 24 katmana ve 2014 gizli birimlere sahiptir. 3.3 milyar kelimelik bir veri setinde 40 Epoch'u eğitmesi gerekir ve 8 P100s için 1 yıl sürebilir."
Engel 3: Yüksek maliyet
Biri, üç ana modelin eğitim maliyetinin muhtemelen şu şekilde olduğunu hesapladı:
Boyut önemlidir . Aslında, yukarıdaki üç sorunun kaynağı Boyutta yatıyor, bu nedenle herkes BERT'in basitleştirilmiş sürümünü incelemeye başladı. Sınırlı kaynaklar durumunda, küçük boyutlu bir modelin bariz avantajları vardır.
DistillBERT : Hugging Face ekibi, bilgi damıtma teknolojisi ile BERT temelinde eğitilmiş minyatür bir BERT kullanıyor. Model boyutu% 40 (66M) azaltılır, çıkarım hızı% 60 artar, ancak performans Sadece yaklaşık% 3 oranında azaldı .
ALBERT : Model mimarisini değiştirerek hacim büyük ölçüde azaltılır. En küçük ALBERT sadece 12M'dir, en büyük ALBERT-XXLarge 233M'dir ve BERT-Base 110M'dir. Bununla birlikte, hacim düşmesine rağmen, muhakeme hızı önemli ölçüde iyileştirilmemiştir.
TinyBERT : Modeli sıkıştırmak için bilgi damıtma yöntemini kullanın. Bu model Huazhong Bilim ve Teknoloji Üniversitesi ve Huawei tarafından ortaklaşa üretilmiştir.
Daha dün, Google BERT'in GitHub deposunu güncelledi ve İngilizce kelime dağarcığıyla sınırlı ve büyük / küçük harfe duyarlı olmayan 24 küçük BERT modeli yayınladı.
24 model, WordPiece maskeleme kullanılarak eğitilir, doğrudan MLM kaybı yoluyla ön eğitim verilir ve standart eğitim veya nihai görev ayrıntılandırması yoluyla sonraki görevler için ince ayar yapılabilir; bu, MLM damıtmanın daha rafine eğitim öncesi stratejisinde büyük avantajlara sahiptir.
Teorik rehberlik, "İyi Okuyan Öğrenciler Daha İyi Öğreniyor: Kompakt Modellerin Ön Eğitiminin Önemi Üzerine" başlıklı makaleden alınmıştır. Kağıt adresi: https://arxiv.org/abs/1908.08962
Küçük BERT modelinin yalnızca orijinal BERT ince ayar yöntemine göre ince ayarlanması gerekir, ancak daha büyük ve daha doğru bir öğretmen tarafından yapılan bilgi damıtması durumunda en etkilidir.
Bu sürümdeki BERT-Base modelinin yalnızca eksiksizlik amaçlı olduğu ve orijinal modelle aynı koşullar altında yeniden eğitildiği unutulmamalıdır.
TUTKAL puanı:
24 küçük BERT indirme adresi : Https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip