g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

2018 En İyi 10 Etki Yapay Zeka Araştırma Raporu

Lei Feng.com'un AI Technology Review Press: Topbots, 2018'deki en önemli 10 AI araştırma makalesini gözlerinde özetledi ve herkesin geçen yıl makine öğrenimi alanındaki önemli gelişmeleri takdir etmesini sağladı. Bu listeye tıklayan kişi açıkça son derece şanslı ve harika anı tekrar etme şansı yakaladı.

Bu alanın son derece hızlı gelişme hızı ve son derece fazla sayıda makale düşünüldüğünde, bu listeye dahil edilmemiş okumaya değer bazı çığır açan makaleler olması gerektiğini söylemeliyim. Ancak bu liste iyi bir başlangıçtır.

1. Evrensel Dil Modeli Metin Sınıflandırması için İnce Ayar

"Metin Sınıflandırması için Evrensel Dil Modelinin İnce Ayarı"

Kağıt adresi

https://arxiv.org/abs/1801.06146

Öz

İki yazar Jeremy Howard ve Sebastian Ruder, önceden eğitilmiş bir modelin çeşitli NLP görevlerini çözmek için kullanılabileceği fikrini öne sürdüler. Bu yöntemle, araştırmacıların modelleri kendi görevleri için sıfırdan eğitmeleri gerekmez, yalnızca mevcut modellerde ince ayar yapmaları gerekir. Onların yöntemi, ULMFiT ince ayarlı evrensel dil modeli, o sırada en iyi sonuçları aldı ve diğer modellerin hata oranı% 18'den% 24'e düşürüldü. Daha da takdire şayan olan şey, ULMFiT'nin 10K etiketli veriyle sıfırdan eğitilmiş modelle aynı sonuçları elde etmek için yalnızca 100 etiketli örnek kullanmasıdır.

Kağıdın ana noktaları

Etiketli verilerin eksikliğiyle başa çıkmak ve NLP sınıflandırma görevlerini daha kolay ve daha fazla zaman kazandıran hale getirmek için, NLP problemlerinde transfer öğrenmeyi kullanmayı önerdiler. Bu şekilde, araştırmacıların artık yeni bir modeli sıfırdan eğitmeleri gerekmiyor, yalnızca benzer bir görev için temel olarak eğitilmiş bir model bulmaları ve ardından bu modeli yeni belirli problemler için ince ayarlamaları gerekiyor.

Ancak, bu yaklaşımın istenen etkiye sahip olabilmesi için, bu ince ayar sürecinde dikkat edilmesi gereken birkaç ayrıntı vardır:

Ağdaki farklı katmanların farklı içerik için ince ayarlanması gerekir, çünkü yakaladıkları bilgi türleri de farklıdır;
Model parametrelerini yeni belirli görevlere uyarlarken, öğrenmenin önce doğrusal olarak artmasına ve ardından doğrusal olarak azalmasına izin verin, öğrenmenin verimliliği daha yüksek olacaktır;
Tüm katmanların aynı anda ince ayarlanması, felaket getiren unutma sorunları getirecektir. Bu nedenle, ilk önce yalnızca son katmanın parametrelerini güncellemek ve ardından kademeli olarak önceki katmanların ince ayara katılmasına izin vermek daha iyidir.

Alandaki akademisyenlerin değerlendirilmesi

Kolayca elde edilebilen önceden eğitilmiş ImageNet modeli, tüm bilgisayar görüşü dünyasında büyük değişiklikler getirdi. ULMFiT ayrıca NLP görevlerinde eşit derecede önemli bir rol oynayabilir;
Bu yöntem, herhangi bir dildeki herhangi bir NLP görevi için kullanılabilir. Dünyanın her yerinden araştırmacılar Almanca, Lehçe, Haiti Dili, Endonezce, Çince, Malayca vb. Birçok dili denemiş ve aynı zamanda önemli ilerleme kaydetmiştir.

Gelecekteki olası araştırma

Dil modeli eğitim öncesi ve ince ayarını iyileştirmeye devam edin;
Bu yöntemi diğer yeni görevler ve modeller için kullanın (sıra etiketleme, doğal dil oluşturma, genelleme veya soru yanıtlama gibi).

Lei Feng Network AI Teknolojisi İncelemesi Ayrıntılı Makale

ImageNet tarafından getirilen ön eğitim modellerinin rüzgarı NLP alanına esmek üzere

2. Örtülü Gradyanlar Yanlış Bir Güvenlik Anlayışı Veriyor: Savunmaları Çarpıcı Örneklere Göre Atlatmak

"Bulanık gradyan savunma yalnızca bir güvenlik yanılsaması getirir: rakip örneklerin savunmasını atlamak"

Kağıt adresi

https://arxiv.org/abs/1802.00420

Öz

Araştırmacılar, rakip örneklerin savunması için, gradyan bulanıklaştırma yönteminin şu anda esas olarak kullanıldığını, ancak bu yöntemin gerçek güvenlik sağlamadığını, çünkü kolayca atlatılabileceğini keşfettiler. Bu makale, gradyan bulanıklığı kullanan üç savunma yöntemini inceler ve gradyan bulanıklığı savunmasını atlayabilen teknikleri gösterir. Bulguları, şu anda gradyan bulanık savunma kullanan kuruluşların kendi yöntemlerini nasıl güçlendireceklerini düşünmelerine yardımcı olabilir.

Kağıdın ana noktaları

Şu anda gradyan bulanıklaştırmanın üç yaygın yöntemi vardır:

Parçalanmış gradyanlar, kasıtlı olarak (farklılaştırılamayan hesaplamalar yoluyla) veya istemeden (sayısal istikrarsızlık yoluyla) savunma yöntemleri yanlış gradyanlar sağlar veya gradyan sağlamaz;
Rastgele savunma yoluyla rastgele gradyan sağlayın;
Çok derin sinir ağı değerlendirmesi yoluyla kaybolan gradyan / patlayıcı gradyan getirir.

Gradyan tabanlı yöntemlerle ilgili bazı sorunlar var. Aşağıdaki işaretleri görebiliriz:

Tek adımlı saldırılar, yinelemeli saldırılardan daha iyidir;
Kara kutu saldırıları beyaz kutu saldırılarından daha etkilidir;
Sınırsız saldırılar% 100 başarı oranına ulaşamaz;
Rastgele örnekleme aynı zamanda rakip örnekleri de bulabilir;
Görüntü bozulmasına karşı toleransın arttırılması saldırı başarı oranını artırmaz.

Makalenin temel sonucu, deneylerin bugün kullanılan savunma teknolojilerinin çoğunun hala kırılgan olduğunu göstermesidir. ICLR 2018 kabul edilen makalede yer alan 9 savunma tekniğinden 7'si gradyan bulanıklığı kullanmaktadır ve makalenin yazarları tarafından önerilen yeni saldırı yöntemi 7 savunmanın 6'sını tamamen atlayıp sonuncusunu kısmen atlayabilir.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale ICML 2018'in En İyi Bildiri Ödülü'nü kazandı;
Bu makale, mevcut teknolojimizin avantajlarını ve dezavantajlarını açıkça göstermektedir.

Gelecekteki olası araştırma

Yeni savunma teknolojilerini titiz ve kapsamlı bir değerlendirme yöntemi ile inşa etmeyi düşünmemiz gerekiyor.Amaç, sadece mevcut saldırı yöntemlerine karşı savunma yapabilmek değil, ileride geliştirilebilecek yeni savunma yöntemlerine karşı da savunma yapabilmek.

3. Kapsamlı Bağlamsal Kelime Temsilleri

"Bağlama bağlı derin kelime temsili"

Kağıt adresi

https://arxiv.org/abs/1802.05365

Öz

Allen Yapay Zeka Enstitüsü'nden yazarlar, yeni bir tür derin bağlama bağlı kelime gösterimi sundular: Dil Modellerinden Gömme (ELMo). ELMo ile geliştirilmiş modelde, her kelimenin vektörleştirilmesi, içinde bulunduğu metnin tamamına dayanmaktadır. ELMo'nun mevcut NLP sistemine eklenmesi aşağıdaki etkileri ortaya çıkarabilir: 1. Hata oranı nispeten% 6 ila% 20 oranında azalır; 2. Modeli eğitmek için gereken dönem sayısı önemli ölçüde azalır; 3. Eğitim modeli kıyaslama modeli performansına ulaştığında Gerekli eğitim verisi miktarı önemli ölçüde azaltılır

Kağıdın ana noktaları

Büyük bir metin külliyatı üzerinde derin bir çift yönlü dil modelini (biLM) önceden eğitin ve modelin dahili durumunun ağırlıklı toplamından gelen sözcük yerleştirmeleri oluşturmak için kullanın;
Gömme, tüm biLM katmanlarının temsilini içerir, çünkü ağdaki farklı katmanlar farklı bilgi türlerini temsil eder;
ELMo'nun karakterizasyonu, karakter temelli olacak şekilde tasarlanmıştır, böylece ağ, eğitimde görülmeyen sözcük dağarcığının ötesindeki sözcüklerin anlamını daha iyi anlamak için sözcük yazım bilgisini de kullanabilir.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale NAACL Üstün Bildiri Ödülü'nü kazandı;
Bu yazıda önerilen yöntem, son yıllarda NLP alanında en büyük atılımlardan biri olarak kabul edilmektedir.

Gelecekteki olası araştırma

Bu yöntem, kademeli ELMo ve bağlamdan bağımsız kelime gömme yoluyla belirli görevlere entegre edilebilir;
Ayrıca ELMo'yu basamaklandırmayı ve çıktıyı modellemeyi deneyebilirsiniz.

4. Sıra Modellemesi için Genel Evrişimli ve Tekrarlayan Ağların Ampirik Bir Değerlendirmesi

"Genel Evrişimli Ağ ve Tekrarlayan Ağ Terminolojisi Modellemesi Üzerine Ampirik Değerlendirme Araştırması"

Kağıt adresi

https://arxiv.org/abs/1803.01271

Öz

Sahada ortak bir varsayım vardır: Sıralı modelleme problemleri için, başlangıç noktası olarak tekrarlayan bir ağ mimarisi seçmek varsayılan yaklaşımdır. Bu makalenin yazarları bu varsayımı sorguladılar. Elde ettikleri sonuçlar, genel zaman serisi evrişimli ağın (TCN), birçok farklı dizi modelleme görevinde LSTM ve GRU gibi tipik tekrarlayan sinir ağını sürekli olarak aşabileceğini göstermektedir.

Kağıdın ana noktaları

Yakın zamanda keşfedilen en iyi uygulamaların (delik evrişim ve artık bağlantı gibi) yardımıyla, tasarlanan geçici evrişimli ağlar (Geçici evrişimli ağlar) birçok karmaşık dizi modelleme görevinde genel tekrarlayan ağ mimarisinden daha fazlasını gerçekleştirebilir. hangi gerçekleştirildi;
TCN'nin bellek kapasitesi, tekrarlayan ağlardan önemli ölçüde daha uzundur ve uzun bir geçmiş gerektiren dizi modelleme görevleri için daha uygundur.

Alandaki akademisyenlerin değerlendirilmesi

Tesla AI Direktörü Andrej Karpathy, "RNN'yi kullanmadan önce CNN'i denediğinizden emin olun. CNN sizi şaşırtacak kadar iyi performans gösterecektir."

Gelecekteki olası araştırma

TCN'nin farklı dizi modelleme görevlerinde performansını daha da iyileştirmek için mimari keşif ve algoritma keşfinde daha fazla işbirliğine ihtiyacımız var.

5. Adil Makine Öğreniminin Gecikmeli Etkisi

"Adil makine öğreniminin etkisi gecikti"

Kağıt adresi

https://arxiv.org/abs/1803.04383

Öz

Bu makalenin amacı, farklı insanların belirli fırsatları (krediler, burslar, işler vb.) Elde edip edemeyeceğini belirlemek için puanlar oluşturmak için bir makine öğrenimi algoritması kullanıldığında, demografik bir bakış açısıyla farklı etnik grupların Adil davranın. UC Berkeley Yapay Zeka Laboratuvarı'ndaki (BAIR) araştırmacılar, ortak adalet koşullarının kullanılmasının, bazı sonuçların gecikmiş ortaya çıkması nedeniyle aslında dezavantajlı gruplara zarar verebileceğini gösterdi. Bu araştırma sayesinde, adil bir makine öğrenimi sistemi tasarlarken herkesi bunun uzun vadeli sonuçlarını düşünmeye teşvik etmeyi umuyorlar.

Kağıdın ana noktaları

Yazarlar, adalet koşulları dayatıldıktan sonra geciken sonuçları değerlendirmiş ve sonuçlar bu koşulların korumak isteyen gruplar için uzun vadede zararlı olabileceğini göstermiştir (örneğin, borçluların kredi notu uzun vadede düşecektir. Çünkü krediyi geri ödeyemeyecek ve kendisine kredi başlangıçta sınırsız koşullarda verilmeyecek);
Adillik koşulları, dezavantajlı gruplara aktif olarak zarar verebileceğinden, sonuçları açıkça maksimize eden bir karar kuralı kullanmak veya bir sonuç modeli kullanmak gibi bazı ek çözümler düşünülebilir.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale ICML 2018'in En İyi Bildiri Ödülü'nü kazandı;
Bu çalışma bir yanlış anlamayı açıklığa kavuşturdu: İyi bir başlangıç noktası farklı şekilde ele alınsa bile, kötü bir etkisi olabilir.

Gelecekteki olası araştırma

Sonuç değerlendirmesinin dikkate alınması için, grup ortalamasındaki değişiklik dışındaki diğer faktörler (varyans, bireysel düzey sonuçları gibi) dikkate alınabilir;
Modelleme ve ölçüm hatalarına yönelik olarak optimizasyon yönteminin sağlamlığı incelenmiştir.

6. Dünya Modelleri

"Dünya Modeli"

Kağıt adresi

https://arxiv.org/abs/1803.10122

Öz

David Ha ve Jurgen Schmidhuber, denetimsiz bir şekilde hızlı bir şekilde eğitilebilen ve çevrenin mekansal ve zamansal temsilini öğrenen bir dünya modeli geliştirdi. Bu ajan, yarış haritasında başarılı bir şekilde gezinebilir ve VizDoom ortamındaki canavarlar tarafından ateşlenen ateş toplarından kaçınabilir. Bu görevlerin önceki yöntemlerle çözülmesi zordur.

Kağıdın ana noktaları

Makalede önerilen çözüm üç ayrı bölümden oluşmaktadır:

Görsel bilgileri yakalamaktan sorumlu bir varyasyonel otomatik kodlayıcı (VAE). Girdi görüntüsünü RGB formatında Gauss dağılımına uyan 32 boyutlu bir gizli vektöre sıkıştıracaktır. Bu şekilde, aracının sadece çevrenin küçük bir temsilini işlemesi gerekir, böylece öğrenme verimliliğini büyük ölçüde artırır.
İleri beslemeli düşünmeden sorumlu olan tekrarlayan bir sinir ağı (RNN). Bu, önceki görüntü karesi ve önceki eylem verildiğinde görsel bölümün sonraki karesinin nasıl görünebileceğini tahmin etmeye çalışan bir bellek bileşenidir.
Eylemlerin seçilmesinden sorumlu bir kontrolör. Bu, VAE'nin çıkışını ve RNN'nin gizli durumunu kademelendiren ve ardından iyi bir eylem seçen çok basit bir sinir ağıdır.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale, yapay zeka araştırmacıları arasında geniş çapta tartışılmıştır ve pekiştirmeli öğrenme için sinir ağlarını kullanma ve ajanların "fantezi" dünyasında eğitim almalarına izin veren güzel tasarlanmış bir çalışmadır.

Gelecekteki olası araştırma

Temsilcinin daha karmaşık bir dünyayı keşfetmesi için, küçük RNN daha büyük kapasiteli bir modelle değiştirilebilir veya harici bir depolama modülü entegre edilebilir.
Tezde kullanılan planlama yöntemi zaman adımdır.Daha genel bir yöntem denemeyi düşünebilir, hiyerarşik bir planlama yöntemi de kullanabilirsiniz.

Lei Feng Network AI Teknolojisi İncelemesi Ayrıntılı Makale

Bir ajanın hayali, Google Brain'de yine bir PR makalesi mi var?

7. Görev Bilimi: Görev Aktarımı Öğrenimini Çözme

"Görev Bilimi: Görev Aktarımı Öğreniminin Ayrıştırılması"

Kağıt adresi

https://arxiv.org/abs/1804.08328

Öz

Modern bilgisayar biliminin erken gelişiminden bu yana, birçok araştırmacı, farklı görsel görevlerin belirli bir yapıya sahip olduğunu öne sürdü. Şimdi, Amir Zamir ve ekibi nihayet bu yapıyı bulmaya çalıştı. Modelleme için tamamen hesaplamalı bir yöntem kullandılar ve farklı görsel görevler (önemsiz olmayan görsel görevler bile) arasında birçok yararlı bağlantı buldular. Ayrıca, bu karşılıklı bağımlılıkların transfer öğrenimi için kullanılabileceğini ve aynı model performansını elde etmek için etiketli verilerin sadece 1 / 3'ünün kullanılabileceğini gösterdiler.

Kağıdın ana noktaları

Farklı görsel görevler arasındaki ilişkiyi anlayan bir model daha az denetim gerektirir, daha az hesaplama gerektirir ve davranışını tahmin etmek daha kolaydır.
İnsanlar, farklı görsel görevler arasındaki ilişkiyi keşfetmek için böylesine tamamen hesaplamalı bir yöntemi kullanmayı tercih ediyor, çünkü bu, önceki insan varsayımlarını ortaya koymaktan kaçınabilir. İnsanın a priori varsayımları sezgiden veya analitik bilgiden gelir; bu varsayımlar yanlış olabilir ve sinir ağları tamamen farklı bir yasa altında işleyebilir.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale CVPR 2018 En İyi Bildiri Ödülü'nü kazandı;
Makalenin sonuçları önemlidir, çünkü gerçek dünyadaki görevlerin çoğu büyük ölçekli etiketli veri kümeleri elde edemez.

Gelecekteki olası araştırma

Mevcut tezde incelenen ortak görsel görevler tamamen insanlar tarafından tanımlanmıştır.Bir sonraki adım, yeni bir model denemek olabilir, yani önce bazı gizli alt görevleri keşfetmek için hesaplama yöntemlerini kullanmak ve insan tanımlı görsel görevler bunları gözlemlemektir. Daha sonra alınan örnekler;
Modelin öğrendiklerini, robot kontrolüne aktarma gibi tamamen görüş alanında olmayan görevlere aktarmanın mümkün olup olmadığını keşfedin.

Lei Feng Network AI Teknolojisi İncelemesi Ayrıntılı Makale

CVPR18 Best Paper Speech: Araştırma görevleri arasındaki bağlantı, transfer öğrenimi için doğru duruştur

8. Bilmediklerinizi Bilmeniz: SQuAD için Cevaplanamaz Sorular

"Neyi bilmediğinizi bilin: SQuAD'de cevaplanamayan sorular"

Kağıt adresi

https://arxiv.org/abs/1806.03822

Öz

Stanford Üniversitesi'ndeki bir araştırma ekibi, ünlü Stanford soru-cevap veri seti SQuAD'i genişleterek 50.000'den fazla cevaplanamaz soru ekledi. Bu soruların cevapları verilen metin pasajlarında bulunamaz ve cevap verilemez ancak bu sorular cevaplanabilecek sorulara çok benziyor. Ayrıca, verilen metin paragrafları eşleşiyor gibi görünen ancak gerçekte yanlış olan cevaplar içerecek ve bu da veri setinin zorluğunu daha da artıracaktır. Yükseltilmiş SQuAD 2.0, mevcut üst model için büyük bir zorluk haline geldi: orijinal SQuAD'de% 86 doğruluk elde edebilen güçlü bir sinir ağı modeli, şimdi SQuAD 2.0'da yalnızca% 66 doğruluk elde edebiliyor oranı.

Kağıdın ana noktaları

Mevcut doğal dil anlama sistemi hala gerçek dil anlayışından uzaktır.Temel nedenlerden biri, mevcut soru ve cevap veri setlerinin sadece verilen metin paragrafının doğru cevabı içermesi gereken durum için tasarlanmış olmasıdır.
Soru ve cevap veri kümesini gerçekten zorlaştırmak için, "cevaplanamayan sorular" şu iki koşulu karşılamalıdır:

Bunlar ile verilen metin paragrafları arasında bazı bağlantılar vardır;
Verilen metin paragrafı eşleşiyor gibi görünen cevapları içeriyor.İçerdiği bilgiler, sorunun elde etmek istediği bilgilerle aynı, ancak doğru değil.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale ACL 2018 En İyi Kısa Bildiri Ödülünü kazandı;
Bu yeni veri seti, doğal dil anlama alanındaki araştırma problemlerinin karmaşıklığını artıracak ve bu alandaki model eğitim sonuçlarının iyileştirilmesini doğrudan destekleyecektir.

Gelecekteki olası araştırma

Gelecekte, yeni tip modeller geliştirmeye devam edebiliriz, onların doğal dili daha iyi anlayabilmeleri için "bilmediklerini bilmeleri" gerekir.

9. Yüksek Doğrulukta Doğal Görüntü Sentezi için Büyük Ölçekli GAN Eğitimi

"Yüksek kaliteli doğal görüntü üretimi için büyük ölçekli GAN eğitimi"

Kağıt adresi

https://arxiv.org/abs/1809.11096

Öz

DeepMind'deki bir araştırma ekibi, mevcut derin öğrenme teknolojisinin ImageNet ve JFT-300M gibi mevcut görüntü veri setlerinden yüksek çözünürlüklü, çeşitli görüntüler oluşturmak için yeterli olduğuna inanıyor. Spesifik olarak, üretken düşmanlık ağlarının (GAN'lar) çok büyük ölçekte eğitildikleri takdirde çok gerçekçi görünen görüntüler oluşturabileceğini gösterdiler. Bu "çok büyük ölçek" ne kadar büyük? Önceki deneylerle karşılaştırıldığında, modellerinin parametre sayısı 2 ila 4 kat ve eğitim için kullanılan parti boyutu da 8 katına ulaştı. BigGAN olarak adlandırdıkları bu tür büyük ölçekli GAN'lar, kategoriye göre görüntü üretimi için en son model olarak adlandırıldı.

Kağıdın ana noktaları

Daha büyük bir parti boyutu ve parametre sayısı seçildikten sonra, GAN'ların performansı önemli ölçüde iyileştirilebilir;
Üreticiye ortogonal regülasyonun eklenmesi, modeli araştırmacıların örnek doğruluğu ile örnek değişkenliği arasındaki dengeyi kontrol etmesine olanak tanıyan belirli bir tekniğe ("kesme yöntemi") daha duyarlı hale getirebilir.

Alandaki akademisyenlerin değerlendirilmesi

Bu makale ICLR 2019'a gönderilmiştir;
TF Hub'da piyasaya sürülmesinden bu yana, BigGAN'ın jeneratörü, dünyanın her yerindeki AI araştırmacıları tarafından (araştırma ve eğlence) aranıyor ve kediler ve köpekler, saatler, mayolar, Mona Lisa, kıyılar vb. Üretmek için kullanıyor. Resim.

Gelecekteki olası araştırma

GAN'ın kararlılık problemini daha da hafifletmek için modeli daha büyük bir veri kümesiyle eğitmeye çalışın;
GAN'lar tarafından üretilen garip örneklerin sayısını azaltmanın mümkün olup olmadığını keşfedin.

10. BERT: Dil Anlamak için Derin Çift Yönlü Transformatörlerin Ön Eğitimi

"BERT: Dilin anlaşılması için derin bir iki yönlü Transformer modelinin ön eğitimi"

Kağıt adresi

https://arxiv.org/abs/1810.04805

Öz

Google AI ekibi, doğal dil işleme için yeni ve son teknoloji bir model gösterdi: BERT (Transformers'dan İki Yönlü Kodlayıcı Temsilleri, Transformer modelleri için çift yönlü kodlayıcı gösterimi). Tasarımı, modelin metin içeriğini aynı anda soldan ve sağdan işlemesine olanak tanır. Kavramsal olarak basit olmasına rağmen, BERT inanılmaz gerçek performans getiriyor. Soru cevaplama, adlandırılmış varlık tanıma ve genel dil anlayışıyla ilgili diğer görevler dahil olmak üzere 11 farklı doğal dil işleme görevinde en iyi sonuçları yeniliyor .

Kağıdın ana noktaları

Derin bir çift yönlü model eğitin ve eğitim sürecinde belirli bir oranda girdi karakterini rastgele maskeleyin. Bu yaklaşım, modelin farklı eğitim döngülerinde maskelenmiş karakterleri dolaylı olarak görebilmesini önler.
Aynı zamanda, bir cümle ilişkisi modeli önceden eğitilmiştir. Bu modelin, B cümlesinin A cümlesini takip edip etmediğini tahmin etmek için ikili bir sınıflandırma görevi yapması gerekir. Bu tasarım, BERT'in farklı cümleler arasındaki ilişkiyi daha iyi anlamasını sağlar.
Çok büyük bir modeli eğitmek için çok fazla veri (3.3 milyar kelimelik bir külliyat) kullanın (24 Transformer modülü, 1024 gizli katman, 340 milyon parametre).

Alandaki akademisyenlerin değerlendirilmesi

BERT modeli, NLP alanında yeni bir çağın gelişini işaret ediyor;
Basitçe söylemek gerekirse, birçok doğal dil işleme görevinde iyi sonuçlar elde etmek için aynı anda yalnızca iki denetimsiz öğrenme görevini ("boşlukları doldurun" ve "B'nin A'nın arkasında olup olmadığını tahmin edin") yapmanız gerekir;
Önceden eğitilmiş dil modellerinin kullanımı da yeni standart uygulama haline geldi.

Gelecekteki olası araştırma