Okuduğunu anlama puanları insanları geride bırakıyor: Google, önceden eğitilmiş en güçlü dil anlama modeli BERT'yi başlattı

Son zamanlarda Google, 11 farklı doğal dil işleme görevini tarayan ve SQuAD v1.1'in okuduğunu anlama görevinde insanları yüzde iki puan aşan yeni bir önceden eğitilmiş dil modeli BERT önerdi.

Bu modelin yenilikleri nelerdir? Neden bu kadar olağanüstü bir etki var? Tüm bunların dil modeliyle başlaması gerekiyor.

Dil Modeli (Dil Modeli), büyük ölçekli veriler üzerinde belirli görevlerin tamamlanmasıyla oluşturulur ve doğal dil işleme alanında bir kilometre taşı durumuna sahiptir. Önceki çalışmada, eğitim sürecinde belirlenen görev genellikle belirli bir metindeki bir sonraki sözcüğü tahmin etmektir. Bu, en basit dil işleme görevi olarak kabul edilebilir, ancak bu amaç için eğitim yoluyla model, kelimelerin anlamı gibi dil özelliklerini kavrayabilir.

Dil modelinin kurulması bir tür denetimsiz öğrenmedir, bu nedenle gerçek dünyadaki büyük ölçekli etiketlenmemiş derlem verileri kullanılabilir. Konsepti çok basit olmasına rağmen, kelime vektörü ve diziden sıraya öğrenme gibi doğal dil işleme alanındaki birçok önemli gelişmeyle yakından ilgilidir.

Şu anda, doğal dil işleme alanında dil modellerinin önemli uygulama yönü, belirli görevleri aktarım öğrenimi ile birleştirmektir. Yani, dil modeli önce büyük ölçekli bir külliyatta önceden eğitilir ve ardından belirli görevler temelinde ileri işlemler gerçekleştirilir. Birleştirmenin iki ana yolu vardır: Birincisi, özellik tabanlıdır; bu, özellik vektörleri elde etmek için önceden eğitilmiş dil modellerini kullanmak ve bunları belirli görevler için kullanmaktır. İkincisi, önceden eğitilmiş dil modeline göre biraz değiştirilen, belirli görevlere göre yeni yapılar ve parametreler tanıtan ve yeniden eğitim veren ince ayardır. Önceden eğitilmiş dil modelleriyle kombinasyon sayesinde, birçok orijinal model görevde daha da geliştirilir. Bunu anlamak aslında çok kolaydır - okuduğunu anlamayı örnek olarak alın.İnsanlar okuduğunu anlama problemi yaptığında, sadece bu makaleden ve benzer okuduğunu anlama görevlerinden (eğitim setleri) öğrenmiyorlar, aynı zamanda burada kullanıyorlar. Daha önce birikmiş çeşitli bilgiler. Büyük ölçekli külliyatta önceden eğitilmiş dil modelleri bu bilgi birikimini sağlamaktadır.

BERT aynı zamanda bir dil modelidir ve temel yapısı çok katmanlı bir çift yönlü Transformatörden oluşur. Transformer, Google tarafından 2017 yılında yayınlanan ünlü "Tek ihtiyacınız olan dikkat" makalesinde önerilen mimaridir ve makine çevirisi görevlerinde çok iyi sonuçlar elde etmiştir. Transformer, geçmişte bu görevde yaygın olarak kullanılan CNN ve RNN gibi sinir ağı yapılarını terk eder, metindeki bağlamsal içeriği birbirine bağlamak için öz-dikkat mekanizmasını kullanır ve dizideki kelime sembollerini paralel olarak işler. Bu yapı, eğitim hızını önemli ölçüde artırır ve etkisi daha iyidir. Şu anda bu yapı yaygın olarak kullanılmaktadır.

Şekil | Önceden eğitilmiş dil modelleri arasındaki farklar BERT'nin Transformer'ı iki yönlü bir öz-dikkat mekanizması kullanır ve OpenAI GPT, soldan sağa bir Transformatör kullanır. ELMo, çıktı sonuçlarını birbirine bağlamak için farklı yönlerde iki LSTM kullanır. (Kaynak: arXiv)

BERT'de, her bir jetonun giriş vektörü üç bölümden oluşur: aşağıdaki şekilde gösterildiği gibi jeton düğünleri, segment yerleştirmeleri ve konum yerleştirmeleri.

Şekil | BERT girişinin temsili (kaynak: arXiv)

Bunlar arasında, jeton yerleştirmeleri (yukarıdaki şekildeki sarı kısım) jetonun anlamını temsil eder; segment yerleştirmeleri jetonun bir kısmını temsil eder (yukarıdaki şekildeki yeşil kısım. Her kelime A veya B'ye aittir); konum gömmeler dizideki jetonun konumunu temsil eder (Yukarıdaki resimdeki gri kısım). İşaret dizisinin başlangıcı, sınıflandırma görevinde önemli bir rol oynar. Dizideki farklı cümleleri işaretlemek için bir cümlenin sonunda görünür.

Bu tür özel girdiler, BERT'in eğitim hedefleri ile ilgilidir ve önceki dil modellerinden farklı olan eğitim hedefleri de güçlü performansının kaynağıdır. BERT iki eğitim hedefi belirler: MLM (Maskeli Dil Modeli) ve bir sonraki cümleyi tahmin etme.

Task1-Maskeli Dil Modeli

Daha önce önerilen dil modeli, kelimeleri tahmin ederken çoğunlukla tek yönlüdür, yani bir sonraki kelime, sırayla solda (sağda) görünen kelimeler tarafından tahmin edilir. Kelimelerin tek tek bu şekilde tahmin edilmesi her iki yönde de yapılamaz, aksi takdirde model "cevabı görebilir". Ama biliyoruz ki dil anlayışı sadece tek yönlü olmamalı, bir kelimenin anlamı ondan önceki ve sonraki kelimelerle yakından ilgilidir. BERT, iki yönlü anlamanın amacına ulaşmak için cümledeki bazı kelimeleri rastgele mozaikler, onların yerine koyar ve eğitim sürecinde bu gizli kelimeleri tahmin eder. Bu yazıda, araştırmacılar rastgele kelimelerin% 15'ini maskelediler.

Ancak, bu yaklaşım bazı problemleri beraberinde getirecektir çünkü bu maskelenmiş kelimeler veri setinden silinmeye eşdeğerdir ve bir daha asla görünmeyecektir. Bu sorunu çözmek için araştırmacılar, rastgele seçilen bu kelimeler üzerinde üç farklı tedavi uyguladılar:

Vakaların% 80'iyle değiştirin: Köpeğim kıllı > benim köpeğim

Vakaların% 10'unda rastgele başka kelimelerle değiştirin: Köpeğim kıllı > köpeğim elma

Vakaların% 10'unda değişmeden tutun: Köpeğim kıllı > köpeğim kıllı Bu aynı zamanda model tarafından tahmin edilen sonuçların doğru sonuçlara yönelmesini sağlayabilir.

Görev2 Sonraki Cümle Tahmin

Soru cevaplama ve doğal dilde akıl yürütme görevlerinin her ikisi de, doğrudan dil modelleriyle modellenemeyen cümleler arasındaki ilişkiyi anlamayı gerektirir. Bu amaçla, araştırmacılar ikili bir görev başlattı: bir sonraki cümleyi tahmin et.

Şekil | Sonraki Cümle Tahmini (Kaynak: arXiv)

Her giriş dizisi farklı A ve B cümlelerini içerir. Verilerin% 50'sinde B, A'nın bir sonraki cümlesidir ve verilerin diğer% 50'sinde, B cümlesi A'nın bir sonraki cümlesi değildir, metinden rastgele seçilir. Eğitim süreci boyunca model etiketleri tahmin eder ve böylelikle cümleler arasındaki ilişkiyi modeller. Eğitimden sonra model yargısının doğruluğu% 97 -% 98'e ulaşır.

BERT, BooksCorpus ve İngilizce Wikipedia'dan oluşan büyük ölçekli bir külliyat üzerinde önceden eğitilmiştir. Ön eğitimden sonra, model, 11 doğal dil işleme görevinde önceki en iyi sonuçları geride bırakarak ince ayar yoluyla belirli görevlerle birleştirilir.

Şekil | GLUE değerlendirme sunucusu tarafından değerlendirilen GLUE test sonuçları (Kaynak: arXiv)

GLUE (Genel Dil Anlama Değerlendirmesi), bir dizi doğal dil işleme görevinin bir koleksiyonudur. İçerdiği veri setlerinin çoğu yıllardır mevcuttur, ancak GLUE bunları eğitim seti, test seti ve doğrulama setine ayırır ve tutarsız değerlendirme mekanizması ve test setinin gereğinden fazla uyması sorununu hafifletmek için bir değerlendirme hizmeti kurmuştur. GLUE, test setine verilen cevapları yayınlamaz ve kullanıcıların değerlendirme için kendi tahmin sonuçlarını göndermesi gerekir. Aşağıdaki şekilde gösterildiği gibi, BERT her GLUE görevinde en iyi sonuçları elde etmiştir. Şekil yalnızca tek bir görev için BERT eğitiminin sonuçlarını göstermektedir. Model çok görevli ortak eğitime tabi tutulursa, etki daha da geliştirilecektir.

Şekil | SQuAD v1.1'de BERT'nin deneysel sonuçları (Kaynak: arXiv)

SQuAD v1.1, Stanford'un genel okuduğunu anlama soru ve cevap veri setidir. Bu veri setindeki görev, bir metin parçası ve bir soru verildiğinde, sorunun cevabı olarak bir metin parçasının çıkarılması gerektiğidir. Bu görevde, BERT sadece daha önce sunulan modellerin en iyi sonuçlarını geçmekle kalmadı, aynı zamanda F1 değeri insan performansından yüzde iki puan daha yüksek.

Ayrıca BERT, adlandırılmış varlık tanıma gibi görevlerde daha iyi sonuçlar elde etti. BERT'in çeşitli görevlerde uygulanması yalnızca ince ayar ile sınırlı değildir, aynı zamanda özellik tabanlı yöntemlerle de birleştirilebilir. Google, modelin eğitim kodunu ve ön eğitim modelini Ekim ayı sonunda yayınlayacak.

BERT, birden fazla görevde güçlü gücünü göstermiş olsa da, gelecekte daha fazla keşif için daha fazla çalışmaya ihtiyaç vardır. Dilin hangi özelliklerini kavrar? Başka ne eksik? Bu konularla ilgili araştırmalar, bu dil modelini geliştirmemize ve dili daha derinlemesine anlamamıza yardımcı olacaktır.

Kaili Yıkım Bürosu'nun eski müdür yardımcısı, 18 yıl önce kapının yıkılması olayına karıştı.
önceki
O gerçekten "doğrudan ölüme ateş ediyordu"! İspanya'nın Dünya Kupası'ndaki tek 0 kurtarıcı kalecisi
Sonraki
"Yetenekli Kadınlar" Kıpkırmızısı Altındaki İlçe Yargıç Vekili Yolsuzluk Yolu
Jiangsu Sanayi ve Ticaret İdaresi rastgele 439 grup gözlük, 62 parti vasıfsız muayene etti
3 yılda, 200 milyon kişi bağımsız müzisyenleri destekliyor ve orijinal müzik platformu "Yuan Music" onlardan ayağa kalkıp para kazanmalarını istiyor
Yapışkan pirinç toplarını pişirirken soğuk su mu yoksa sıcak su mu kullanılmalıdır? Bu adıma bağlı
Huanjing emlak piyasasındaki satış fiyatı artışı azalmadı ve 10.000'in üzerindeki gerçek fiyat 20.000'in üzerinde oldu
Ren Suxi: Karakter kusurlarını ortadan kaldırın ve izleyicilere gösterin
Aile tacizcisini kurtarın
2018: Güle güle kibirli! Bir daha asla görmemek en iyisi
Adaletsizlik Qian Renfeng: 10 yıldan fazla bir süredir hapishanede, sonunda kendisine 1 milyon bıraktı
İki 21 yıllık Nie Shubin
"Bir dava ve iki katili" ilk ifşa eden polis memuru Zheng Chengyue: adalet biraz gecikti
Yılbaşı mallarının tarihi değişiyor: maltlı süt özütü, beyaz tavşan, konserve portakallardan 20'den fazla ülkeden ithal edilen mallara
To Top