Sinir ağı iyi bir kılıç değil, derin NLP modelinin genelleme problemiyle yüzleşmemiz gerekiyor

Leifeng.com AI Teknolojisi Yorumu: Bir önceki makalede "Top Meeting Information Series: ACL 2018, Understanding Data Characterization and Method Evaluation in a More Challenging Environment", ACL Konferansında sunulan NLP alanındaki en son araştırmaları tanıttık. Rüzgar yönü ve dikkate değer yeni gelişmeler. Bu yeni gelişmelerden derin öğrenme NLP çözümlerinin performansından emin görünüyoruz, ancak NLP modellerinin genelleme yeteneklerini gerçekten tartıştığımızda durum iyimser değil.

The Gradient blog ile ilgili yeni bir makale, NLP alanındaki derin öğrenme modellerinin genelleştirilmesini dikkatlice tartıştı ve öğrenme, dil ve derin öğrenme yöntemleri hakkında birçok derinlemesine düşünmeyi gösterdi. Soğuk su dökmek zorundayım Uçtan uca derin öğrenme yöntemi, önceki yöntemlere kıyasla test görevlerinin ve test veri setlerinin performansını büyük ölçüde iyileştirmiş olsa da, "NLP problemlerini çözmekten" hala çok uzaktayız. Leifeng.com AI Technology Review'in tam metni aşağıdaki gibi derlenmiştir.

"Genelleme", NLP alanında derinlemesine tartışılan ve çalışılan bir konudur.

Son zamanlarda, makinelerin bazı doğal dil işleme görevlerinde insanlarla karşılaştırılabilir performans elde edebileceğine ve hatta insanları geçebileceğine dair haber medyası raporlarını sık sık görüyoruz. Örneğin, bir belgeyi okuyun ve belgeyle ilgili soruları yanıtlayın (Ali, Microsoft, iFLYTEK, Harbin Institute of Technology, vb. Sırayla SQuAD'ı genişletin) ve belirli bir metnin anlamsal olarak başka bir metni ima edip etmediğini belirleyin (http: // www.aclweb.org/anthology/N18-1132) ve makine çevirisi. "Makineler tüm bu görevleri yerine getirebiliyorsa, elbette gerçek bir dil anlama ve akıl yürütme yeteneklerine sahipler." Bu ifade mantıklı geliyor.

Ancak öyle değil. Son zamanlarda yapılan birçok araştırma, aslında, en gelişmiş doğal dil işleme sisteminin hem "kırılgan" (zayıf sağlamlık) hem de "sahte" (dilin gerçek yasalarını öğrenmemek) olduğunu göstermektedir.

En gelişmiş doğal dil modeli `` kırılgandır ''

Metin değiştirildiğinde, anlamı korunsa bile, doğal dil işleme modeli başarısız olur, örneğin:

  • Jia, Liang ve diğerleri BiDAF okuduğunu anlama modelini kırdı (https://arxiv.org/abs/1611.01603).

Jia ve Liang ve diğerlerinin makalelerinde verilen örnekler.

  • Belinkov ve Bisk ve diğerleri (https://arxiv.org/abs/1711.02173) karakter tabanlı sinir ağı çeviri modelini bozdu.

Belinkov ve Bisk ve diğerlerinin makalelerinde verilen örnekler. BLEU, aday metin çevirisi sonuçlarını bir veya daha fazla referans çevirisiyle karşılaştıran yaygın olarak kullanılan bir değerlendirme algoritmasıdır.

İyyer ve arkadaşları, ağaç yapılı iki yönlü LSTM ( duyarlılık sınıflandırma modelini kırdılar.

Yazıda İyyer ve çalışma arkadaşları tarafından verilen örnekler.

En gelişmiş doğal dil işleme modeli `` yanlıştır ''

Bu modeller, dil yasalarını gerçekten öğrenmek yerine, genellikle insan etkilerini ve önyargılarını hatırlar, örneğin:

  • Gururangan ve işbirlikçileri ( ön koşul metnini önceden gözlemlemeye gerek kalmadan karşılaştırma karşılaştırma veri setindeki doğal dil çıkarım örneklerinin% 50'den fazlasını doğru bir şekilde sınıflandırabilen bir karşılaştırma temeli önerdi. (Öncül).

Makalede Gururangan ve diğerleri tarafından verilen örnekler. Bu örnekler, bildirinin poster sunumundan alınmıştır.

  • Moosavi ve Strube ( derin öğrenme modelinin ( her zaman ortak referans çözümleme görevleri için inşa edildiğini göstermektedir. Eğitim verilerinde görünen belirli bir ülkeyle ilişkilendirmek için "ülke" içeren özel isimleri veya yaygın isimleri kullanın. Bu nedenle, model eğitim verilerinde bahsedilmeyen ülkelerle ilgili metinler üzerinde kötü performans göstermiştir. Aynı zamanda, Levy ve çalışma arkadaşları, iki kelime arasındaki sözcüksel akıl yürütme ilişkisini tanımlamak için kullanılan bir modeli araştırdılar (örneğin, bir hypernym, güçlü bir genelliğe sahip bir kelimeye, güçlü bir özgüllüğü olan bir kelimenin hipernymi denir). Bu modellerin kelimeler arasındaki ilişkinin özelliklerini öğrenmediğini, ancak Sadece bir çift kelimede bir kelime öğrendim Bağımsız niteliği: Bir kelimenin "tipik bir hipernym" olup olmadığı (örneğin, "hayvan" kelimesi).

Sol: Moosavi ve Strube kağıtlarından örnekler. Sağda: Levy ve çalışma arkadaşlarının yazdığı bir makaleden bir örnek

  • Agrawal ve arkadaşları, evrişimli sinir ağı (CNN) + uzun kısa süreli bellek ağı (LSTM) görsel soru yanıtlama modelinin genellikle sorunun yarısını "dinledikten" sonra tahmin edilen yanıta yakınlaştığını belirtti. Yani, model büyük ölçüde eğitim verilerindeki sığ korelasyonlar tarafından yönlendirilir ve kompozisyondan yoksundur (görünür kavramlar hakkında görünmez kompozisyon sorularını cevaplama yeteneği).

Makalede Agrawal ve diğerleri tarafından verilen örnekler.

En gelişmiş doğal dil işleme modelini geliştirmek için bir atölye çalışması

Bu nedenle, kıyaslama veri setindeki iyi performansına rağmen, modern doğal dil işleme Dil anlama ve akıl yürütmede insan seviyesinden uzaktır . Bu düşünceler Yonatan Bisk, Ömer Levy ve Mark Yatskar'ı bir NAACL atölyesi düzenlemeye sevk etti. derin Lisans öğrenimi ve doğal dil işleme atölyesi için yeni genelleme yöntemi (Https://newgeneralization.github.io/) makine öğrenimi alanının karşı karşıya olduğu temel zorluk olan genellemeyi tartışmak için. Çalıştay iki konuyu tartıştı:

  • Daha önce yeni, görünmeyen girdi üzerinde çalışan sistemimizin performansını tam olarak nasıl değerlendirebiliriz? Ya da başka bir deyişle, sistemimizin genelleme yeteneklerini tam olarak nasıl değerlendirebiliriz?

  • Modellerimizi daha genel hale getirmek için nasıl değiştirmeliyiz?

  • Bu sorunların her ikisi de zordur ve bir günlük atölye çalışması elbette bunları çözmek için yeterli değildir. Bununla birlikte, doğal dil işleme alanındaki en zeki araştırmacılar bu atölyede birçok yöntem ve fikir belirlediler ve ilginizi hak ediyorlar. Özellikle, bu tartışmaları özetlediğimizde, üç tema etrafında düzenlenirler: Daha fazlasını kullanın Endüktif önyargı (Ancak beceri gerektirir), doğal dil işleme modelleri vermeye adanmış İnsan sağduyu ,uğraşmak Daha önce hiç görülmemiş dağıtım ve görevler .

    Yön 1: Daha fazla endüktif önyargı kullanın (ancak beceri gerektirir)

    Şu anda, insanlar endüktif yanlılığı azaltmayı veya artırmayı tartışıyorlar (yani, haritalama işlevini girdiden çıktıya öğrenmek için kullanılan bazı varsayımlar).

    Örneğin, daha geçen yıl, Yann LeCun ve Christopher Manning göz alıcı bir tartışma yaptı (Leifeng.com AI teknolojisi inceleme makalesine bakın: Batman vs Superman in AI: LeCun ve Manning, sinir ağlarının yapısal tasarımını nasıl görüyor), Derin öğrenme çerçevesine ne tür içsel ön bilginin dahil edilmesi gerektiğini tartışın. Manning, üst düzey muhakeme ve öğrenme için daha az veri kullanan görevler için yapılandırılmış önyargının gerekli olduğuna inanıyor. Bunun yerine LeCun, bu yapıyı sinir ağlarını sınırlayabilecek belirli varsayımlar yapmaya zorlayan "gerekli kötülük" olarak tanımlar.

    LeCun'un görüşü için ikna edici argümanlardan biri (tümevarımsal önyargıları azaltın), dilbilimsel önyargıları kullanan modern modellerin sonuçta birçok karşılaştırmalı karşılaştırmada en iyi performansı elde edememesidir (hatta bir paragraf , "Ekipten bir dilbilimciyi kovduğumda, dil modelimin doğruluğu artıyor." ). Yine de, NLP topluluğu Manning'in görüşlerini geniş çapta desteklemektedir. Dil yapısının sinir ağı mimarisine girişi, ACL 2017'nin önemli bir eğilimidir. Bununla birlikte, ortaya konulan bu yapı pratikte istenen etkiyi sağlamadığı için, şu sonuca varabiliriz: Tümevarımsal önyargı getirmenin yeni yöntemlerini keşfetmek iyi bir çalışma şekli olmalıdır veya Manning'in sözleriyle:

    Daha fazla endüktif önyargı kullanmalıyız. Endüktif önyargıları nasıl ekleyeceğimizi bilmiyoruz, bu yüzden bu önyargıları veri artırma ve sözde eğitim verileri oluşturarak kodlayacağız. Bu çok garip bir yaklaşım gibi görünüyor.

    Aslında Yejin Choi, Natural Language Generation (NLG) konusu altında bu soruna kendi çözümünü zaten önermişti. Bir sonraki kelimenin olasılığını en üst düzeye çıkaran genel bir dil modeli (ışın aramalı kapılı bir RNN) verdi, https://guillaumegenthial.github.io/sequence -to-sequence.html) oluşturulan yorum örneği.

    Doğal dil girdisi:

    Sonuç olarak, bu oteli merkezi bölgede yaşamak isteyenlere şiddetle tavsiye ederim.

    Ve doğal olmayan, külfetli, çelişkili ve sıkıcı çıktı:

    Sonuç olarak, merkezi bölgede yaşamak isteyen ve merkezi bölgede yaşamak isteyenlere bu oteli tavsiye ederim. Merkezi bir bölgede yaşamak istiyorsanız burası size göre değil. Ancak bu bölgenin tam merkezinde yaşamak istiyorsanız gitmeniz gereken yer burası.

    Ona göre, mevcut dil modellerinin ürettiği dillerin bu kadar doğal olmamasının nedeni şunlar:

  • Pasif öğrenci . Girdiyi okuyup çıktı üretebilseler de, insan öğrenenler gibi çalışmazlar, anlam, stil, tekrar ve ima gibi uygun dil kriterlerine dayalı olarak kendi sonuçlarını yansıtmazlar. başka bir deyişle, Yazma "pratiği yapmıyorlar" .

  • Yüzeysel öğrenen . Gerçekler, varlıklar, olaylar veya faaliyetler arasındaki üst düzey ilişkileri yakalayamazlar ve bu unsurlar, insanların dili anlamaları için anahtar ipuçları olabilir. Başka bir deyişle, Bu modeller insan dünyamızı anlamıyor .

  • Dil modellerini belirli kayıp işlevlerini kullanarak veriye dayalı bir şekilde öğrenmeye teşvik edersek Anlam, stil, tekrar ve ima Dilsel özellikleri bekleyin, ardından dil modeli yazmayı "pratik yapabilir". Bu yaklaşım, doğal dil anlama (NLU) araç çıktısının açık kullanımına dayanan yöntemlerden daha üstündür. Bunun nedeni, geleneksel NLU'nun yalnızca doğal dille ilgilenmesi ve bu nedenle doğal olmayabilecek makine dilini anlayamamasıdır. Örneğin, yukarıdaki örnekte tekrarlayan, çelişkili ve sıkıcı metin. NLU makine dilini anlamadığından, oluşturulan modelin neden bu kadar doğal olmadığını anlamak ve buna göre ilgili eylemleri gerçekleştirmek için doğal dil oluşturma (NLG) modeline rehberlik etmek için oluşturulan metne NLU araçlarını uygulamak anlamsızdır. Sonuç olarak, yapılandırılmış önyargıları ortaya çıkaran yeni sinir ağı mimarileri geliştirmemeliyiz, ancak bu önyargıları öğrenmek için veriye dayalı yöntemleri geliştirmeliyiz.

    Doğal dil üretimi (NLG), öğrencileri optimize etmek için daha iyi yollar bulmamız gereken tek NLP görevi değildir. Makine çevirisinde, optimizasyon yöntemimizle ilgili ciddi bir sorun, çapraz entropi veya cümle düzeyinde BLEU beklentileri gibi kayıp işlevleri aracılığıyla makine çeviri modellerini eğitiyor olmamızdır. Bu modelin önyargılı olduğu kanıtlanmıştır. Ve insan anlayışıyla alakasızlık. Aslında, modellerimizi eğitmek için bu kadar basit göstergeler kullandığımız sürece, bunlar insanın metin anlayışıyla eşleşmeyebilir. Amaç çok karmaşık olduğu için, pekiştirmeli öğrenmenin kullanılması NLP için mükemmel bir seçenek gibi görünmektedir, çünkü modelin simülasyon ortamında deneme yanılma yoluyla insan anlayışına benzer bir sinyali (yani, pekiştirmeli öğrenmenin ödülü) öğrenmesine olanak tanır.

    Wang ve iş arkadaşları ( "resimlere bak ve konuş" (bir resmin veya videonun içeriğini tanımla) için bir eğitim yöntemi önerdiler. İlk olarak, testte kullandığımız "METEOR", "BLEU" ve "CIDEr" gibi ayırt edilemeyen göstergeler üzerinde görüntü altyazı koyma sistemini doğrudan eğitmek için pekiştirmeli öğrenmeyi kullanmanın mevcut eğitim yöntemini inceledi. Wang ve iş arkadaşları, METEOR puanını karar vermeyi geliştirmek için bir ödül olarak kullanırsak, METEOR puanının önemli ölçüde artacağını, ancak diğer puanların önemli ölçüde azalacağını belirtti. Ortalama METEOR puanı 40,2 olan bir örnek verdiler:

    Birçoğuna sahip olmak için harika zaman geçirdik. Onlar arasında olacaklardı. İçinde olacaklardı. Ve olacaktı. Ve olacaktı. (Metin doğal değildi , Gerekli dil bileşenlerinin eksikliği, tutarsız)

    Aksine, oluşturulan öyküleri değerlendirmek için diğer ölçütleri (BLEU veya CIDEr) kullanırken bunun tersi olur: Birçok anlamlı, tutarlı öykü çok düşük puan alır (neredeyse sıfır). Bu şekilde makine bu göstergelere göre düzgün çalışmıyor gibi görünüyor.

    Bu nedenle yazar, insan açıklamalı hikayelerden ve örnek tahminlerden insan anlayışına benzer ödüller almayı amaçlayan yeni bir eğitim yöntemi önermektedir. Bununla birlikte, derin pekiştirmeli öğrenme hala "kırılgan" , Ve denetimli derin öğrenmeden daha yüksek bir örnekleme karmaşıklığına sahiptir. Gerçek bir çözüm, insanların öğrenme sürecine katılmasına olanak tanıyan "insan-makine döngüsü" makine öğrenimi algoritması (aktif öğrenme) olabilir.

    Yön 2: İnsan sağduyusunu tanıtın

    "Sağduyu" evrensel olarak insanlar tarafından anlaşılsa da, makinelere öğretmek zordur. Öyleyse konuşmalar, e-postaları yanıtlama veya bir belgeyi özetleme gibi görevler neden bu kadar zor?

    Bu görevler, girdi ve çıktı arasındaki "bire bir eşleştirme" den yoksundur ve soyutlama, idrak, akıl yürütme ve insan dünyası hakkında en kapsamlı bilgi gerektirir. Başka bir deyişle, örüntü eşleştirme (şu anda çoğu doğal dil işleme modelinin benimsediği yöntem) insan anlayışına benzer bir şeyden kaynaklanamayacağı sürece "sağduyu" Ve terfi edin, o zaman bu sorunları çözemeyiz.

    Choi bunu basit ve etkili bir örnekle açıklıyor: Bir haber başlığı "çizburger bıçağı" diyor (çizburger bıçağı)

    [Resim kaynağı: https://newgeneralization.github.io Sahibi: Yejin Choi]

    Niteliksel değişiklik ilişkisinde "bıçaklamanın" bağımlı isim "çizburger" tarafından değiştirildiğini bilmek, "çizburger bıçağı" nın gerçekte ne anlama geldiğini anlamak için yeterli değildir. Yukarıdaki resim, Choi'nin konuşmasından.

    Bu başlık için bir makine şu soruları sorabilir:

    Biri çizburger ile birini bıçakladı mı?

    Biri çizburger mi bıçakladı?

    Bir çizburger birini bıçakladı mı?

    Bir çizburger başka bir çizburger mi bıçakladı?

    Makinelerin sosyal ve fiziksel sağduyuları varsa, asla sormayacağınız saçma soruları ortadan kaldırabilirler. Sosyal sağduyu ( ) Makineye ilk seçeneğin makul göründüğü hatırlatılabilir, çünkü insanlara zarar vermek iyi değildir ve bu nedenle haber değeri taşır. Ve bir çizburgeri incitmek haber değeri taşımaz. Fizik sağduyu ( ) Bu, üçüncü ve dördüncü seçeneklerin imkansız olduğu anlamına gelir, çünkü çizburger hiçbir şeye zarar vermek için kullanılamaz.

    Sağduyu bilgisinin tanıtılmasına ek olarak, Choi aynı zamanda "anlamsal açıklama yoluyla anlamayı" da teşvik eder. Buradaki odak noktası, "söylenenleri" "simülasyon yoluyla anlamak" olarak değiştirmektir. Bu, metnin ima ettiği nedensel etkiyi simüle eder, yalnızca "metnin ne söylediğine" değil, aynı zamanda "metnin ne söylemediğine, ne ima ettiğine" de odaklanır. Bosselut ve meslektaşları (https://arxiv.org/abs/1711.05313) metindeki varlıklar tarafından yapılan eylemlerin ima ettiği nedensel etkiler için tahminlerin neden önemli olduğunu gösteren bir örnek gösterdi:

    "Muffin karışımına yaban mersini ekleyin ve bir buçuk saat pişirin" gibi bir açıklama yaparsak, bir ajan bazı temel gerçekleri tahmin edebilmelidir, örneğin: yaban mersini şimdi fırında, "sıcaklıkları" yükselecek yüksek.

    Mihaylov ve Frank ( simülasyon yoluyla anlamamız gerektiğini de anladılar. Diğer daha karmaşık okuduğunu anlama modellerinden farklı olarak, onların karanfil tarzı okuduğunu anlama modeli, "cevabı gerekçelendirmek için kullanılan bilgilerin çoğunun bir hikayede verildiği" durumla başa çıkabilir, ancak aynı zamanda bazı ek sağduyu gerektirir. Tahmin edilen cevap: At bir tür hayvandır, binmek için hayvan kullanılır ve binmek hayvanla ilgilidir.

    Sağduyu gerektiren, okuduğunu anlama vakası. Bu örnek Mihaylov ve Frank'in bir makalesinden alınmıştır.

    Maalesef itiraf etmeliyiz, Modern NLP "sadece ağız ama beyin yok" gibi çalışır Bu statükoyu değiştirmek için, onlara sağduyu bilgisi sağlamalı ve onlara doğrudan söylenmeyen ancak ima edilen şeyi tahmin etmeyi öğretmeliyiz.

    "Tekrarlayan Sinir Ağı (RNN) beyinsiz bir ağız mı?" Slayt, Choi'nin konuşmasından alınmıştır.

    Yön 3: Daha önce hiç görülmemiş dağılımları ve görevleri değerlendirin

    Sorunları çözmek için denetimli öğrenmeyi kullanmanın standart yöntemi aşağıdaki adımları içerir:

    • Verilerin nasıl etiketleneceğini belirleyin

    • Verileri manuel olarak etiketleyin

    • Etiketli veriler eğitim seti, test seti ve doğrulama setine bölünmüştür. Genel olarak, mümkünse eğitim seti, geliştirme seti (doğrulama seti) ve test setinin aynı olasılık dağılımına sahip olduğundan emin olmanızı tavsiye ederiz.

    • Girişin nasıl karakterize edileceğini belirleyin

    • Girişten çıkışa haritalama işlevini öğrenin

    • Test setinde önerilen öğrenme yöntemini değerlendirmek için uygun bir yöntem kullanın

    Aşağıdaki bulmacaları çözmek için bu yönteme göre, her bir birimi tanıyan bir modeli eğitmek için verileri etiketlemeniz ve ayrıca birden çok gösterimi ve yorumu (resimler, metin, düzen, yazım, telaffuz) dikkate almanız ve bunları yerleştirmeniz gerekir. Birlikte düşünün. Model "en iyi" küresel açıklamayı belirler ve bu bulmacanın insan yorumuyla eşleşir.

    Etiketlenmesi zor olan bir girdi örneği. Resim Dan Roth'un izniyle.

    Dan Roth'un görüşüne göre:

    • Bu standart yöntem ölçeklenebilir değildir . İhtiyacımız olan tüm görevler için tüm modelleri eğitmek için hiçbir zaman yeterli etiketli veriye sahip olmayacağız. Yukarıdaki bulmacaları anlamak için, en az beş farklı görevi çözmek için etiketli eğitim verilerine veya uçtan uca bir modeli eğitmek için büyük miktarda veriye ihtiyacımız var. ImageNet gibi mevcut kaynakları "birim tanıma" kurulumunu tamamlamak için kullanmak mümkün olsa da, ImageNet bu bağlamda "dünya" kelimesinin "dünya" dan daha iyi olduğunun farkına varmak için yeterli değildir. Birisi etiketlemek için büyük bir çaba sarf etse bile, bu verilerin yine de sürekli güncellenmesi gerekiyor, çünkü yeni pop kültürünün her gün dikkate alınması gerekiyor.

    Roth bize şunu hatırlatıyor: Belirli görevlerden bağımsız olarak büyük miktarda veri mevcuttur Ve yeterince var İpucu Bir dizi görev için denetleyici sinyalleri çıkaran bilgiler. Bu" Tesadüfi denetim Bu fikrin kökeni. Kendi sözleriyle (

    "Eşlik eden" sinyaller, çözülecek görevden bağımsız olan veri ve ortamda var olan bir dizi if sinyaline karşılık gelir. Bu sinyaller hedef görevle ilişkilidir ve yeterli denetim sinyalleri sağlamak ve makine öğrenimini kolaylaştırmak için uygun algoritma desteğiyle kullanılabilir. Örneğin, adlandırılmış varlık (NE) çevirisi görevini düşünün. Varlıklar arasındaki telaffuz benzerliğine dayalı olarak, adlandırılmış varlıkları kaynak dilden hedef dile yeniden yazma işlemi (örneğin, Obama'nın adının İbranice nasıl yazılacağını belirleme) ). Çözülmesi gereken harf çevirisi görevlerinden bağımsız hazır zamanlama sinyallerimiz var. Bu tür zamanlama sinyali, karşı karşıya olduğumuz görevle ilgilidir ve diğer sinyaller ve bazı çıkarım sonuçları, herhangi bir yorucu açıklama çalışması olmaksızın görev için denetim bilgisi sağlamak için kullanılabilir.

    Percy Liang, eğitim verilerinin ve test verilerinin dağılımı benzer ise, "Temsil kabiliyetine sahip herhangi bir model, yeterli veri verildiği sürece bu görevi tamamlayabilir." Ancak, ekstrapolasyon görevleri için (eğitim verileri ve test verileri Verilerin dağılımı farklı olduğunda), gerçekten daha "doğru" bir model tasarlamalıyız.

    Eğitim ve test sırasında aynı görevi tahmin etme uygulamasına Etki alanı uyarlaması . Son yıllarda bu konu büyük ilgi gördü.

    Ancak, eğitim ve test sırasında farklı görevlerin "eşlik eden denetimi" veya tahmin edilmesi yaygın bir uygulama değildir. Li ve çalışma arkadaşları ( metinsel niteliklerin aktarımı için bir model eğitti. Yalnızca belirli bir cümle için atıf etiketlerine sahip ve paralel bir külliyat gerektirmiyor Aynı içeriğe ancak farklı özelliklere sahip cümleleri eşleştirin. Başka bir deyişle, belirli bir cümlenin niteliğini tahmin etmek için bir model eğittiler ve sadece bir sınıflandırıcı olarak eğitilmesi gerekiyor. Benzer şekilde, Selsam ve arkadaşları (https://arxiv.org/abs/1802.03685) SAT (memnuniyet) problemlerini çözmeyi öğrenen bir model eğitti ve sadece bir tahmin olarak kullanılması gerekiyor Sağlanabilirlik Sınıflandırıcı eğitilmiştir. Bu iki modelin güçlü olduğunu belirtmek gerekir. Endüktif önyargı . İlki, atıfların genellikle yerel ayrımcı ifadelerde daha açık olduğunu varsayar. İkincisi, anket yayma algoritmasının (Anket yayılımı) endüktif yanlılığını yakalar.

    Percy araştırma topluluğuna bir meydan okuma oluşturdu ve şunları istedi:

    Kağıt başına Ve kullanılan veri setinin değerlendirilmesi, Yeni bir dağıtımda veya yeni bir görevde Değerlendirin çünkü amacımız Veri kümelerini değil görevleri çözün .

    Makine öğrenimi teknolojisini kullandığımızda, makine öğrenimi gibi düşünmemiz gerekir , En azından değerlendirme anında. Bunun nedeni, makine öğreniminin bir kasırga gibi olmasıdır. Her şeyi emer ve sağduyu, mantıksal akıl yürütme, dil fenomeni veya fiziksel sezgiyi umursamaz.

    Liangın raporundan alınan slaytlar

    Çalıştaya katılan araştırmacılar, stres testi için bir veri seti oluşturmak isteyip istemediğimizi bilmek istediler.Modelimizin gerçek genelleme yeteneğini gözlemlemek için test, normal çalışma yeteneğini aştı ve kritik bir noktaya ulaştı (durum çok sert).

    Bir modelin ancak daha basit sorunları çözdükten sonra daha zor vakaları çözebileceğine inanmak için nedenlerimiz var. Liang, daha basit sorunların çözülüp çözülmediğini bilmek için, bunları vakanın zorluğuna göre sınıflandırabileceğimizi öneriyor. Devi Parikh, görevin ve veri setinin yalnızca küçük bir kısmının, basit problemleri çözmenin daha zor problemlerin mümkün olup olmadığını belirleyebileceği varsayımını karşılayabileceğini vurguladı. Görsel soru cevaplama sistemleri gibi bu küçük kısımda yer almayan görevler, bu çerçeve için uygun değildir. Daha zor olabilecek diğer "görüntü = sorun" çiftlerini işlemek için model tarafından hangi "görüntü-sorun" çiftlerinin ele alınabileceği henüz net değildir. bu nedenle Modelin cevap veremeyeceği durumları "daha zor" vakalar olarak tanımlarsak durum daha da kötüleşebilir.

    Çalıştaya katılan araştırmacılar, stres testinin bu alandaki ilerlemeyi yavaşlatabileceğinden endişe ediyor. Ne tür bir baskı bize gerçek genelleme yeteneğini daha iyi anlamamızı sağlayabilir? Araştırmacıları daha güçlü genelleme yeteneklerine sahip sistemler oluşturmaya teşvik edebilir mi? Ancak bu, daha az çıktı nedeniyle kendilerini baskı altında hisseden fonlarda ve araştırmacılarda kesintilere yol açmayacak mı? Atölye bu soruya bir cevap vermedi.

    sonuç olarak

    "NAACL Derin Öğrenme ve Doğal Dil İşleme Atölye Çalışmasının Yeni Genelleme Yöntemi", insanların modern doğal dil işleme teknolojisinin dili anlama ve akıl yürütme yeteneğini ciddi şekilde yeniden düşünmeleri için bir fırsattır. Bu önemli tartışma ACL konferansında devam etti.Denis Newman-Griffis, ACL katılımcılarının eğitim verilerinin dağılımını yansıtmayan daha geniş genelleme ve test senaryolarını yeniden düşünmemiz gerektiğini defalarca önerdiklerini bildirdi. Sebastian Ruder, bu NAACL atölye çalışmasının konusuna RepLNLP'de de değinildiğini söyledi (doğal dil işlemenin temsil öğrenimi üzerine en popüler ACL atölyesi).

    Yukarıdaki gerçekler, genelleme yeteneklerini geliştirmek için modellerimizi nasıl değiştireceğimizden tamamen habersiz olmadığımızı gösteriyor. Bununla birlikte, yeni ve daha iyi çözümler için hala çok yer var.

    yapmalıyız Daha fazla endüktif önyargı kullanın , Ancak bunları sinir ağı mimarisine entegre etmenin en uygun yolunu bulmalıyız, böylece beklediğimiz gelişmeyi ağ mimarisine getirebilirler.

    Biraz geçmeliyiz İnsanlar benzer sağduyuyu anlar Olgular, varlıklar, olaylar ve etkinlikler arasındaki üst düzey ilişkileri yakalayabilmeleri için en gelişmiş desen eşleştirme modellerini geliştirme konseptleri. Ancak sağduyuyu ortaya çıkarmak genellikle son derece zordur, bu nedenle sağduyu çıkarmak için yeni ve yaratıcı yöntemlere ihtiyacımız var.

    Son olarak, başa çıkmalıyız Daha önce hiç görülmemiş dağıtım ve görevler . Aksi takdirde, "yeterli veriye sahip herhangi bir temsil modeli bu görevi gerçekleştirebilir." Açıkçası, böyle bir modeli eğitmek daha zordur ve hemen iyi sonuçlar alınmayacaktır. Araştırmacılar olarak, bu modeli geliştirme cesaretine sahip olmalıyız; hakemler olarak, bunu yapmaya çalışan çalışmayı eleştirmemeliyiz.

    Bu tartışmaların tamamı NLP alanındaki konular olsa da, aynı zamanda tüm AI araştırma alanında daha büyük bir eğilimi yansıtıyor: derin öğrenmenin eksikliklerinden ve avantajlarından öğrenme üzerine yansıtma. Yuille ve Liu, "Derin Sinir Ağları Bilgisayar Görüsüne Ne Yapar?" Başlıklı bir fikir makalesi yazdı. Gary Marcus, tüm AI alanı için derin öğrenme dışındaki yöntemleri dikkate almamız gerektiğini vaaz ediyor. Bu çok sağlıklı bir işaret. AI araştırmacıları, derin öğrenmenin sınırlamalarının daha fazla farkına varıyor ve bu sınırlamaları iyileştirmek için çok çalışıyorlar.

    Lei Feng.com AI Technology Review tarafından derlenen gradient.pub aracılığıyla

    Kanyonun sürücüsü Sun Bin burada.
    önceki
    Sıkışan resmi tekrar görmek, "küçük siyah bir nokta" bile QQ'yu öldürebilir mi? Yeniden FreeBuf
    Sonraki
    King of Glory kontrolü, kazancı ve çıkışı bir arada, eski sürücü Sun Bin başlamak üzere
    Yeni Mercedes-Benz E-Serisi Cabrio'nun daha zarif mizaç, statik deneyimi
    Japonya'nın Audrey Hepburn filmi "Tonight in the Romantic Theatre" ı ve Ayase Haruka'nın özel kutsamasını yapmak 9 yıl sürdü.
    Spyker C8 Preliator dönüştürülebilir versiyonu Audi V8 ile donanmış
    2017 "Mobile Oscar" Yılın en güçlü yapay zeka cep telefonu, gelecek burada
    En güçlü anti-öldürme yeteneğine sahip ormancı Zhao Yun bunu hak ediyor
    Kutudan çıkarma videosunu izlemedin mi? ! OFF-WHITE x NIKE Air Max 90'ın ayak üstü fotoğrafları yeniden yakmanı sağlayacak!
    Zotye Z560, Hangzhou'daki montaj hattını resmen açtı veya Mart ayında rezervasyonları kabul etti
    Zafer Kralı Zhao Yun uygun fiyatlı bir ormancıdır ve her hareketinde ve kaçışta beceriklidir!
    2017 "Mobile Oscar" Yılın En İyi Giriş Telefonu · Uygun Fiyatlı Güç
    Muhteşem dönüş mü yoksa modası hiç geçmiyor mu? İnsanları durdurmak isteyen kamuflaj unsurları
    Yeterince, iPhone XS Max'in güçlü performansı sizi asla yarı yolda bırakmayacak
    To Top