İlk ciddi "BERT çalışması" araştırması, 40+ tez karşılaştırması, BERT çalışma prensibinin yorumlanması

Yazar | Zhang Jingjun

Düzenle | Kongun Sonu

Şu anda, ister endüstride ister akademide olsun, Transformer tabanlı modeller doğal dil işleme (NLP) görevlerinde yaygın olarak kullanılmaktadır, ancak birçok kişi hala bu modellerin dahili çalışma mekanizması hakkında çok az şey biliyor.

Makaleye bağlantı: https://arxiv.org/abs/2002.12327

Bu arka plana dayanarak, Anna Rogers ve diğerleri, şu anda başlıca NLP görevleri listesine hakim olan BERT modelini tartıştılar ve ön eğitim ve ince dönüş aşamaları dahil olmak üzere BERT modelinin çalışma mekanizmasını analiz ettiler. Ve BERT modelinin eğitim performansını iyileştirmek için bazı yeni yöntemler önerilmiştir.Ayrıca, NLP görevlerinde BERT'nin gelecekteki araştırma yönü de araştırılmıştır.

AI Technology Review, bu makalenin içeriğine kısa bir giriş yaptı ve öneriler sundu.

1. Giriş

Transformers 2017'de önerildiğinden bu yana tüm NLP alanını hızla süpürdü.Transformer tabanlı birçok model arasında en ünlüsü BERT olduğuna şüphe yok. Bu makale, BERT'nin akademideki mevcut araştırma sonuçlarını özetleyen ve sonraki araştırmaları dört gözle bekleyen bir inceleme makalesidir.

2. BERT mimarisi

BERT, birden fazla "kafaya" dayanan bir Transformatör kodlayıcıdır. Tam bağlantılı katmanı, her bir kafanın anahtar, değer ve sorgu hesaplamaları için kullanıldığı bir öz-dikkat mekanizması kullanır.

BERT'nin normal iş akışı iki aşamaya ayrılmıştır: ön eğitim ve ince ayar. Ön eğitim, yarı denetimli iki görev kullanır: MLM modeli ve NSP modeli. MLM modeli için ana işlevi, rastgele maskelenen giriş belirtecini tahmin etmektir. NSP modeli için, ana işlevi tahmin etmektir İki giriş cümlesinin birbirine bitişik olup olmadığı ve cümle bağlamında olup olmadığı. Ön eğitim aşamasıyla karşılaştırıldığında, ince ayar ince ayar esas olarak aşağı yöndeki uygulamalar içindir. İnce ayarlamada, Şekil 1'de gösterildiği gibi nihai kodlayıcı katmanının üstüne eklemek için genellikle bir veya daha fazla tam bağlı katman gerekir:

Şu anda, endüstrideki ana akım BERT, temel bir versiyona ve büyük bir versiyona bölünmüştür.Fark, özellikle model ağ katmanlarının sayısına, gizli boyutun boyutuna ve farklı dikkat kafalarının sayısına yansımaktadır. Şekil 2, Hewitt ve diğerleri NLP görevleri için BERT kullandığında ayrıştırma ağacını göstermektedir.

3. BERT yerleştirme

BERT düğünlerinin tanıtımı için yazar, tartışmak üzere bu alandaki ilgili araştırma sonuçlarından alıntı yaptı. Bunlar arasında, Mikolov ve Pennington ve diğerleri, BERT düğünleri ile geleneksel statik düğünler arasındaki fark hakkında yeni bilgiler ortaya koydular.BERT'in düğün işleminin bağlama bağlı olduğuna, yani her girdinin belirtecinin belirli bir bağlama bağlı olduğuna inanıyorlar. Vector; ve Wiedemann ve diğerleri BERT'in yerleştirilmelerinin bağlam gömme ve kelime kümeleme ile gerçekleştiğini düşünürken, Mickus ve diğerleri aynı dikkat sözcükleri arasına gömülmenin cümledeki konumlarına güvenerek gerçekleştiğini düşünmektedir.

4. BERT hangi bilgileri öğrendi?

Yazar, bu bölümde esas olarak, özellikle şunları içeren BERT'deki mevcut bilgileri detaylandırmaktadır: Sözdizimsel bilgi, Anlamsal bilgi ve Dünya bilgisi. Sözdizimsel bilgi için, akademik topluluk, BERT'in yanlış biçimlendirilmiş girdi bilgilerine duyarlı olmadığına inanmaktadır, çünkü bunun başlıca nedeni, tahminlerinin kelimelerin sırasını değiştirmekten, cümleleri kısaltmaktan ve konu ile nesneyi silmekten etkilenmemesidir.

Bununla birlikte, Anlamsal bilgi üzerine nispeten az sayıda araştırma akademik makalesi vardır, ancak Tenney ve diğerleri gibi araştırma eksikliği yoktur.BERT kodlaması ve anlamsal bilgi arasındaki ilişkiyi incelediler. Dünya bilgisi üzerine araştırma ağırlıklı olarak Petroni ve diğerleri. 2019'da vanilya BERT'in çalışma prensibi ve ilişkisel görevlerde Dünya bilgisi üzerine bir makale yayınladılar.

5. Dil bilgisinin yerelleştirilmesi

Yazar, bu bölümde esas olarak iki açıdan ayrıntılandırıyor: Öz-ilgi kafaları ve BERT katmanları.

1) Öz dikkat kafaları

Şu anda, birçok bilim insanı, Transformer modelini anlamak için araştırma dikkatinin çok yararlı olduğuna inanmaktadır, bu nedenle, akademik alanda dikkat yöneticilerinin çok sayıda araştırma yapılmıştır. 2019'da Kovaleva ve arkadaşlarının Öz-dikkat kafaları çalışması, Öz-dikkat kafalarının herhangi bir sıradan dil bilgisini doğrudan kodlamadığını gösterdi, çünkü bunların yarısından azı "heterojen" modda. Aynı yıl, Clark ve arkadaşları dikkat mekanizmasının rolü ve içinde ilgili araştırmalar yapmış, nokta ve virgül yerine kullanıldığını varsaymış ve modele güvenmeyi öğrenmesini sağlamıştır. Ayrıca işlevin "işlemsiz" olduğunu varsayarlar. Yaygın anlayış, mod mevcut duruma uygulanmadığı zaman, başlık bilgisinin tamamen göz ardı edilebileceğidir.

2) BERT katmanları

Yazar, BERT'nin ağ yapısı ile ilgili olarak, BERT katmanlarının ilk katmanından, orta katmanından ve son katmanından yola çıkmaktadır. İlk katman için, jeton, segment ve konumsal yerleştirmelerin üç kombinasyonundan girdi alabilir, böylece yazar, alt katmanlarının doğrusal kelime sırası bilgilerine sahip olduğuna inanır. Liu ve diğerleri, BERT'nin orta katmanı için, bu katmanın esas olarak sözdizimsel bilgiyi işlemek için kullanıldığına inanmaktadır.Deneyler, görevler arası transferin en iyi orta dönüşüm katmanında performans gösterdiğini göstermektedir. BERT ağının son katmanı için, esas olarak, ince ayar aşamasında iyi uygulanan belirli senaryolardaki görevleri işlemek için kullanılır.

6. BERT Eğitimi

Ön eğitim ve ince ayar BERT'deki iki önemli görevdir. Eğitim öncesi aşamada, birçok bilim insanı BERT'in sonraki cümle tahmini (NSP) için performansını iyileştirmek için bazı yöntemler ve NSP görevlerini silme, dinamik maskeleme, cümle maskeleme, varlık maskeleme, Koşullu MLM vb. Gibi maskeleme dili modeli önermiştir. Örnek olarak NSP görevinin silinmesini ele alalım.Yazar, Liu, Joshi, Clinchant ve diğerlerinin araştırma sonuçlarını listeler. Araştırma, NSP görevinin silinmesinin sadece BERT görevinin performansına zarar vermeyeceğini, aksine BERT'in performansını bile artıracağını gösteriyor. NSP'yi, diller arası modelde önceki ve sonraki cümleyi tahmin etmekle değiştirmek daha açıktır.

İnce ayar aşaması için, akademik topluluk ayrıca BERT'nin ince ayar performansını iyileştirmek için, Yang ve diğerleri tarafından 2019'da önerilen daha fazla ağ katmanının eklenmesi ve Phang ve diğerleri tarafından ön eğitimi iyileştirmek için önerilen iki aşamalı yöntem dahil olmak üzere bir dizi deney gerçekleştirdi. Ve ince ayarlı ara denetim eğitimi.

7. BERT ne kadar büyük olmalı?

BERT karmaşık NLP görevlerini çözdüğünde, genellikle modelin doğruluğunu artırmak için herkes modelin karmaşıklığını artırır.Ancak, Voita ve arkadaşları deneyler aracılığıyla bu yaklaşımın modelin çok karmaşık olması nedeniyle bazı NLP görevlerine neden olma eğiliminde olduğunu göstermiştir. Model performans düşüşü.

Yazar, BERT modelinin karmaşıklığını aşağı akış görevlerine artırmanın neden olduğu hasarı açıklayan, Michel ve diğerleri tarafından 2019'da yayınlanan bir makale verdi.Uygulama, bazı gereksiz kafaları devre dışı bırakmanın yalnızca performans düşüşüne neden olmadığını, aynı zamanda makine çevirisi görevlerini de beraberinde getirdi. GLUE görevi için aynı şekilde performans iyileştirmesi de aynı deneysel sonuçlara sahiptir. Bunun neden olduğuna gelince, Clark ve arkadaşları dikkatin eğitim süreci sırasında dikkatin bırakma kısmı sırasında dikkat ağırlığının sıfırlanmasından kaynaklanabileceğine inanmaktadır.

Bu arka plana dayanarak, akademide BERT sıkıştırması üzerine birçok araştırma doğdu ve ardından yazar sıkıştırılmış BERT modelinin performansını listeledi ve Tablo 1'de gösterildiği gibi karşılaştırdı.

Tablo 1: BERT sıkıştırma çalışmalarının karşılaştırması

Tablodaki hız artışı BERTbase içindir.Her modeldeki alt simge sayıları katman sayısını temsil eder. Sıkıştırılmış BERT'yi bulabilirsiniz. Avantajlar yalnızca çalışma hızındaki artışa değil, aynı zamanda performansa da yansır. Tipik temsili modeller TinyBERT, Albert vb.

8. Çok Dilli BERT

Bu bölümün yazarı esas olarak, çok dilli BERT'nin Wikipedia'da bulunan 104 dilin kullanımına atıfta bulunduğu Çok Dilli BERT modelini tanıtmaktadır, süper örnekleme için alt örneklemeden veya üstel yumuşatmadan sonra, son eğitimli model Şekil'de gösterilmiştir. 7 ortalama mBERT havuzunun dil bulut haritasını verir. Çok dilli BERT modeli için Wu, Dredze ve diğerleri, sıfır atış aktarım görevinde son derece iyi performans gösterdiğine inanıyorlar.Bunun nedeni, modelin çok sayıda yüksek kaliteli diller arası kelime öğrenerek açık sınıf yapı diline yardımcı olması ve böylece büyük ölçüde gelişmesidir. Modelin kalitesi. Tabii ki, çok dilli BERT modelinin de iyileştirilmesi gereken pek çok alanı var.Yazar, sektördeki temel iyileştirme yöntemlerini şu şekilde sıralamaktadır:

1. Altta yatan ağı dondurarak çok dilli veri setlerinin ince ayarını iyileştirin;

2. İnce ayar görevlerinde kelime hizalamasını iyileştirin;

3. Eğitim öncesi sırasında engellenen hedef kelimeleri veya cümle çiftlerini iyileştirmek için çeviri dili modelini kullanın;

Şekil 7: Tematik havuzlanmış mBERT temsillerinin dil merkezleri

9. Tartışma

Yukarıdaki analiz ve giriş sayesinde, diğer NLP modellerine kıyasla BERT modelinin şaşırtıcı miktarda sözdizimi, anlambilim ve dünya bilgisine sahip olduğunu bulacağız. Bununla birlikte, bu inanılmaz miktarda sözdizimi, anlambilim ve dünya bilgisi için, akademik topluluk, BERT görevindeki tespit sınıflandırıcılarının onlardan nasıl öğrendiklerini ve bunları aşağı akış görevlerine nasıl uyguladıklarını açıklamadı.

Ek olarak, araştırma karmaşıklığı ve test hipotezleri ile ilgili sorunlar makul bir şekilde açıklanmamıştır.Bunlar, orijinal modeli daha fazla keşfetmemizi gerektirir. Bu bağlamda yazar, BERT ile ilgili gelecekteki üç araştırma talimatı verir: akıl yürütme yeteneği gerektiren kriterler, akıl yürütmeyi "öğretmek" için yeni yöntemler geliştirme ve etkili öğrenme muhakemesi.

10. Sonuç

Bir yıldan biraz daha uzun bir süre içinde, BERT, NLP alanındaki birçok analiz modeli için ilk tercih haline geldi ve birçok kişi de BERT'e dayalı çeşitli sürümleri geliştirdi.Bu makale esas olarak BERT'nin mevcut araştırma sonuçlarını ve çalışma prensiplerini açıklamak için kullanılmaktadır. Okurların, BERT'i anlamak için bu belgeyi tamamen okuyabileceklerini ve gelecekteki BERT araştırmalarına ilişkin kendi görüş ve fikirlerini ortaya koyabileceklerini umuyorum.

Dürt, daha fazla malzeme!

CVPR 2020 Konusu

Bengio ekibinin başyapıtı: GNN karşılaştırma karşılaştırması ortaya çıktı, grafik sinir ağının "ImageNet" i burada
önceki
ICLR 2020 | Grafik sinir ağına dayalı geleneksel, endüktif matris tamamlamanın ötesinde
Sonraki
Canlı CVPR Oral: Örnek Segmentasyon Yeni Fikirler
Gözetimsiz makine çevirisi yapmak için bir araç olarak vizyonu kullanan DeepMind'ın büyük hareketi, etkisi mükemmel
LSTM neden bu kadar etkilidir? Bilmen gereken bu beş sır
güncel! Tsinghua ve birkaç yetkili kuruluş, tüm ağdaki en yeni koroner pnömoni veri kaynağını yayınladı
CVPR 2020 Oral | İkili Şube Ağı BBN: Uzun Kuyruk Dağıtımı ile Gerçek Dünya Görevlerinin Üstesinden Gelmek
ICLR 2020 | Reformer, verimli bir Transformatör
Shan Shiguang: Yapay zeka metodolojisinin güncellenmesi gerekiyor Salgından sonra yapay zeka nasıl gelişecek?
Today Paper | DeepCap; metin sınıflandırması; frekans etki alanı grafik dikkat ağı; 3D insan poz tahmini vb.
Canlı | Yang Qiang, WeBank Yapay Zeka Başkanı: Neden federal öğrenmeye ihtiyacımız var?
Süpüren robotun "gözlerinin" evrimsel tarihi
Canlı | Microsoft Super Mahjong AI Suphx Ar-Ge ekibi teknik ayrıntıları derinlemesine açıklıyor
Today Paper | ScrabbleGAN; UnrealText; izleme modeli; G2L-Net, vb.
To Top