g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ELECTRA Çin ön eğitim modeli, yalnızca 1/10 parametreli açık kaynak kodludur ve performans hala BERT ile karşılaştırılabilir.

Metin | Jia Wei

Editör | Jiang Baoshang

Geçen yılın Kasım ayında, NLP tanrısı Manning ve Google'ın ELECTRA'sı piyasaya sürüldükten sonra, hızla NLP çevresinde popüler hale geldi. ELECTRA-küçük model parametresi, BERT tabanlı modelin yalnızca 1 / 10'u kadardır, ancak performans yine de BERT ve RoBERTa modelleriyle karşılaştırılabilir Kıyaslanabilir.

Kısa bir süre önce, Google nihayet açık kaynaklı ELECTRA'yı açtı ve yüksek bilgi işlem gücünden yoksun üniversiteler ve kuruluşlar için büyük bir nimet olan bir ön eğitim modeli yayınladı.

Bununla birlikte, piyasaya sürdüğü önceden eğitilmiş model sadece İngilizce içindir, ancak BERT gibi çok dilli bir versiyon değildir. Diğer dillerdeki (Çince gibi) araştırmacılar için çok üzücü.

Bu soruna yanıt olarak, bugün Harbin Teknoloji Enstitüsü IFLYTEK Ortak Laboratuvarı (HFL), ELECTRA açık kaynak koduna dayalı ELECTRA ön eğitim modelinin Çin versiyonunu yayınladı.

1. ELEKTRA

ELECTRA ön eğitim modelinin yazarları, Stanford SAIL Lab'ın Manning grubu ve Google Brain araştırma ekibidir. İlk olarak 2019 Beijing Zhiyuan Konferansı'nda ortaya çıktı. Yeni bir metin ön eğitim modeli olarak, ELECTRA'nın yeni tasarım fikirleri, daha az hesaplamalı kaynak tüketimi ve daha az parametre, çok sayıda takipçiyi hızla çekmiştir. Özellikle geçen yıl Kasım ayında ICLR 2020 makaleleri kabul edilip yayınlandıktan sonra NLP çemberinde oldukça heyecan yarattı.

Kağıt bağlantısı:

https://openreview.net/forum?id=r1xMH1BtvB

Gazetedeki bu resim her şeyi açıklayabilir:

Açıklama: Sağdaki görüntü, soldaki görüntünün büyütülmüş sonucudur.

Yukarıdaki şekilde gösterildiği gibi, ELECTRA modeli, daha az eğitim adımı öncülüğünde diğer eğitim öncesi modellerden daha iyi sonuçlar elde edebilir. Benzer şekilde, model boyutu, veriler ve hesaplama aynı olduğunda ELECTRA'nın performansı, BERT ve XLNet gibi MLM tabanlı yöntemlerden önemli ölçüde daha iyidir.

Bu nedenle, mevcut üretken dil gösterimi öğrenme yöntemleriyle karşılaştırıldığında, ELECTRA daha yüksek hesaplama verimliliğine ve daha az parametreye sahiptir (ELECTRA-küçük parametrelerinin miktarı BERT tabanının yalnızca 1 / 10'udur).

ELECTRA, iki bölümden oluşan yeni eğitim öncesi çerçevesine dayanarak böylesine mükemmel sonuçlar elde edebilir: Jeneratör ve Ayırıcı.

Jeneratör: Konumdaki orijinal kelimeyi tahmin eden küçük bir MLM. Girdi metninin bir kısmını değiştirmek için üretici kullanılacaktır.
Ayırıcı: Giriş cümlesindeki her kelimenin değiştirilip değiştirilmediğini belirleyin, yani BERT'nin orijinal Maskeli Dil Modelini (MLM) değiştirmek için Değiştirilmiş Belirteç Algılama (RTD) ön eğitim görevini kullanın. Sonraki Cümle Tahmin (NSP) görevinin burada kullanılmadığına dikkat edilmelidir.

Ön eğitim aşaması bittikten sonra, aşağı akış görevlerinin ince ayarını yapmak için temel model olarak yalnızca Discriminator kullanılır.

Diğer bir deyişle yazarlar, CV alanında GAN'ı doğal dil işlemeye uygulamışlardır.

Eğitim hedefleri GAN'a benzer olsa da, yine de bazı temel farklılıklar olduğunu belirtmekte fayda var. Birincisi, eğer jeneratör doğru jetonu üretirse, jeton "sahte" yerine "gerçek" olarak kabul edilir; böylece model, aşağı akış görevlerinin sonuçlarını orta düzeyde iyileştirebilir. Daha da önemlisi, jeneratör, rakip eğitim yoluyla ayrımcıyı kandırmak yerine maksimum olasılık kullanılarak eğitilir.

2. Çin ELECTRA ön eğitim modeli

Mevcut açık kaynak ELECTRA ön eğitim modeli, yalnızca İngilizce ön eğitim modelidir. Ancak dünyada birçok başka dil (Çin gibi) akademisyeni var, bunlara karşılık gelen dil eğitim öncesi modeline ihtiyaçları var.

Ancak, BERT ve RoBERTa gibi önceden eğitilmiş modellerin çok dilli sürümlerine ek olarak, Google'ın resmi olarak XLNet ve T5 gibi yalnızca İngilizce karşılık gelen çok dilli sürümleri yoktur. Bunun nedeni, yalnızca İngilizce'deki ön eğitimle karşılaştırıldığında, çok dilli ön eğitimin ilgili külliyatın toplanmasını ve külliyatın oranını farklı dillerde dağıtma ihtiyacını gerektirmesidir ki bu daha zahmetlidir. Bu nedenle, ELECTRA'nın önceden eğitilmiş modelleri Çince veya çok dilli sürümlerde yayınlamama olasılığı yüksektir.

Öte yandan, bir Çin topluluğu olarak biz Çinliler, Çin ön eğitiminin nasıl yapılacağına dair daha çok şey biliyoruz. İlgili ön eğitimi Google'dan yapmak bizim için daha iyi olabilir.

Harbin Teknoloji Enstitüsü IFLYTEK Ortak Laboratuvarı'nın kıdemli bir araştırmacısı ve araştırma direktörü olan Cui Yiming liderliğindeki ekip, daha önce bir dizi benzer açık kaynak çalışması, yani açık kaynak ön eğitim koduna ve ayrıca ön eğitim modelinin Çince versiyonunu eğitmek için Çin veri setlerine dayanıyordu. Örneğin, BERT modelinin Çince versiyonu, XLNet'in Çince versiyonu vb. GitHub'da açık kaynaklı olduktan sonra iyi tepkiler aldı.Birçok Çin değerlendirme görevinde, birçok takım iyileştirmek için açık kaynak eğitim öncesi modellerini kullandı.

Açık kaynak adresi: https://github.com/ymcui/Chinese-BERT-wwm

Açık kaynak adresi: https://github.com/ymcui/Chinese-XLNet

Google açık kaynaklı ELECTRA'dan sonra, Cui Yiming ve diğerleri bir kez daha ELECTRA'nın Çince sürümünü başlattı.

Eğitim veri seti, BERT serisi modelini eğitmek için kullanılan verilerle, özellikle büyük ölçekli Çin wiki'lerinden ve genel metinden (Çince web sayfası tarama ve temizleme) hala tutarlıdır ve toplam belirteç 5,4B'ye ulaşır. Kelime hazinesi, Google'ın 21128 jeton içeren orijinal BERT WordPiece sözlüğünü kullanmaya devam ediyor.

Bu açık kaynakta, Cui Yiming ve diğerleri yalnızca ELECTRA-base ve ELECTRA-small olmak üzere iki model yayınladı. Cui Yiming'e göre, büyük versiyonun daha fazla parametresi var ve süper parametreleri ayarlamak zor, bu nedenle modelin yayınlanması buna göre ertelenecek.

Piyasaya sürülen iki versiyonun her biri yaklaşık 7 gün eğitildi.Küçük versiyonun parametreleri temel versiyonun sadece 1 / 10'u olduğu için, eğitim sırasında Cui Yiming ve diğerleri partisini 1024'e (tabanın 4 katı) ayarladı. Spesifik ayrıntılar ve hiperparametreler aşağıdaki gibidir (bahsedilmeyen parametreler varsayılan olarak tutulur):

ELECTRA tabanı: 12 katman, gizli katman 768, 12 dikkat kafası, öğrenme oranı 2e-4, batch256, maksimum uzunluk 512, eğitim 1M adım
ELECTRA-küçük: 12 katman, 256 gizli katman, 4 dikkat kafası, öğrenme hızı 5e-4, grup 1024, maksimum uzunluk 512, eğitim 1M adım

ELECTRA-küçük sadece 46 M'dir.

Etki açısından, Cui Yiming ve diğerleri bunu daha önce yaptıkları Çin versiyonu ön eğitim modelleriyle karşılaştırdı.

Karşılaştırma modelleri şunları içerir: ELECTRA-small / base, BERT-base, BERT-wwm, BERT-wwm-ext, RoBERTa-wwm-ext, RBT3.

Altı karşılaştırma görevi vardır:

CMRC 2018 (Cui ve diğerleri, 2019): Metin parçası çıkarmaya dayalı okuduğunu anlama (Basitleştirilmiş Çince)
DRCD (Shao ve diğerleri, 2018): Metin Parçası Çıkarmaya Dayalı Okuduğunu Anlama (Geleneksel Çince)
XNLI (Conneau ve diğerleri, 2018): Doğal dil çıkarımı (üç kategori)
ChnSentiCorp: Duygu analizi (iki kategori)
LCQMC (Liu ve diğerleri, 2018): cümle çifti eşleştirme (iki sınıflandırma)
BQ Corpus (Chen vd., 2018): cümle çifti eşleştirme (iki sınıflandırma)

Aşağı akış görev ince ayarında, ELECTRA-küçük / temel modelin öğrenme hızı, orijinal kağıdın varsayılan 3e-4 ve 1e-4'üne ayarlanır. Buradaki ince ayarın herhangi bir görev için parametrelere ince ayar yapmadığını belirtmek gerekir. Sonuçların güvenilirliğini sağlamak için, aynı model için farklı rastgele tohumlar kullanarak 10 kez eğitim verdiler ve model performansının maksimum ve ortalama değerini (parantez içindeki ortalama değer) rapor ettiler.

Etki aşağıdaki gibidir:

Basitleştirilmiş Çince okuduğunu anlama: CMRC 2018 (değerlendirme indeksi: EM / F1)

Geleneksel Çince okuduğunu anlama: DRCD (değerlendirme indeksi: EM / F1)

Doğal dil çıkarımı: XNLI (değerlendirme indeksi: Doğruluk)

Duygu analizi: ChnSentiCorp (değerlendirme indeksi: Doğruluk)

Cümle çifti sınıflandırması: LCQMC (değerlendirme indeksi: Doğruluk)

Cümle çifti sınıflandırması: BQ Corpus (değerlendirme indeksi: Doğruluk)

Yukarıdaki sonuçlardan, ELECTRA-küçük model için, etkisinin çoğu görevde 3-katmanlı RoBERTa etkisini (RBT3) önemli ölçüde aştığı ve hatta BERT-temel etkisine yakın olduğu, yalnızca BERT tabanlı modelin parametre olduğu görülebilir. 1/10. ELECTRA tabanlı model için, çoğu görevde BERT-base ve hatta RoBERTa-wwm-ext'in etkisini aşar.

Özel kullanımı için Github projesine bakabilirsiniz:

https://github.com/ymcui/Chinese-ELECTRA

FSNet: Derin evrişimli sinir ağlarını sıkıştırmak için evrişim çekirdek özetini kullanın

Google ve DeepMind, Dreamer'ı serbest bırakmak için güçlerini birleştiriyor: performans "öncekiler" PlaNet'i çok aşıyor