NAACL 2019 Dilin daha doğal olması için nasıl üretilir? Stanford, Perplexity'nin ötesinde yeni bir değerlendirme yöntemi öneriyor

NAACL 2019 | Dilin daha doğal olması için nasıl üretilir, Stanford Perplexity'nin ötesinde yeni bir değerlendirme yöntemi öneriyor 2019-04-21

Dil nesli yeterince "yaşamıyor" mu? Percy Liang gibi Stanford Üniversitesi'nden araştırmacılar, doğal dil değerlendirmesi için yeni standartlar önerdiler.

Şaşkınlık, üretilen dilin "doğal" olup olmadığını değerlendirmek için en yaygın kriterdir.Değeri ne kadar küçükse, modelin ürettiği cümle insan diline o kadar yakın olur. Ancak, bu istatistiksel temelli yöntem, neslin kalitesini iyi değerlendiremez, bu nedenle bu makale, insan ve istatistiksel değerlendirmeyi birleştiren doğal dil üretimi için yeni bir çerçeve sağlayan yeni bir değerlendirme yöntemi HUSE önerir.

Oluşturulan dil nasıl ölçülür

Metin oluşturmak, birçok NLP görevinin özüdür, ancak üretilen dilin "doğallığının" doğru bir şekilde nasıl değerlendirileceği çok zordur. İyi değerlendirme göstergeleri yalnızca üretilen sonuçların kalitesini yakalamakla kalmamalı, aynı zamanda oluşturulan sonuçların çeşitliliğini de hesaba katmalıdır; bu, özellikle yaratıcılık gerektiren diyalog veya hikaye oluşturma gibi açık görevler için kritiktir.

İnsan değerlendirmesi genellikle çeşitliliği ihmal etmeden kaliteyi yakalayan altın kural olarak kabul edilir. Bununla birlikte, istatistiksel değerlendirme (yani, referans test setindeki şaşkınlık) da çeşitliliği yakalayabilir çünkü modelin yeni cümlelere makul bir olasılık atamasını sağlar, ancak şaşkınlık yeterli bir kalite değerlendirmesi sağlayamaz.

Şu anda, dil modellerinde ve diğer alanlarda en yaygın kullanılan ölçme yöntemi şaşkınlıktır ve bir cümlenin olasılığını tahmin etmek için dil modelini tanımlar. Şaşkınlık çok sezgisel bir anlayışa sahiptir, yani onu ortalama dal katsayısı olarak düşünebiliriz. Yani, dil modeli bir sonraki kelimeyi, yani bir sonraki kelime için modelin "kafa karışıklığı seviyesini" tahmin ettiğinde ortalama seçenek sayısı.

İstatistiksel değerlendirmeyi insan değerlendirmesiyle birleştiren mevcut yöntemler noktadan noktaya olup, yanıltıcı performans değerlendirmelerine yol açabilir. Yaygın yöntem, çeşitliliği olasılık modelinin karmaşıklığı yoluyla değerlendirmek ve kaliteyi ışın arama çıktısının insan değerlendirmesi yoluyla ölçmektir. Bu bir yanılsama yaratacaktır: Bir model yüksek kalite ve çeşitliliktedir, ancak gerçek şu ki bu model ya sadece çeşitliliğe sahiptir ya da sadece yüksek kaliteli sonuçlar verebilir.

Stanford'un çözümü

Bu makalede, Stanford araştırmacıları muhalif fikri benimsiyorlar, cümlenin referans dağılımından mı yoksa model dağılımından mı geldiğini değerlendirmek için ayırıcıyı kullanıyorlar ve ideal değerlendirme indeksi olarak optimal ayırt edicinin hata oranının 2 katını kullanıyorlar. Modelin ürettiği cümlelerin kalitesi düşükse, optimal ayırıcı model tarafından üretilen cümleleri doğru bir şekilde sınıflandırabilir. Referans dağılımı, modelin üretemediği cümleler içeriyorsa (düşük çeşitlilik), optimal ayırıcı, cümleleri referans dağılımından da doğru bir şekilde sınıflandırabilir.

Bununla birlikte, optimal ayırıcı mevcut değildir. "İnsan" ayrımcıları, çeşitliliği verimli bir şekilde yakalayamaz ve eğitimli ayrımcılar (GAN veya insan yargısına göre eğitilmiş olanlar gibi) titiz değerlendirme için kullanılamaz.

Araştırmanın temel sonucu, optimum sınıflandırıcının iki değere bağlı olmasıdır: cümlenin model tarafından üretilme olasılığı; cümlenin referans dağılımı olma olasılığı. İlki doğrudan modelden hesaplanabilir ve ikincisi, Şekil 1'de gösterilen iki boyutlu alanı elde etmek için insanlar tarafından değerlendirilen puanlarla yaklaşık olarak tahmin edilebilir.

Şekil 1: HUSE (İstatistiksel Değerlendirmeyle Birleşik İnsan), metnin referans verilerinden mi yoksa model üretiminden mi geldiğini ayırt etmek için insan yargı puanlarına ve model tahmin olasılığına dayanan sınıflandırma hatasının iki katıdır. HUSE, kalite ve çeşitlilik sorunları olan numuneleri belirleyebilir.

CodaLab ve kağıt üretimi

Araştırma, CodaLab platformundaki tüm kodları, verileri ve deneysel sonuçları sağlar. CodaLab'ın ayrıca Percy Liang ve Stanford gibi araştırmacılar tarafından inşa edilen açık bir platform olduğunu ve tekrarlanabilir araştırmalar için yönetim deneyleri ve veriler gibi yöntemler sağlamayı umduğunu belirtmek gerekir.

Codalab adresi: https://worksheets.codalab.org/worksheets/0x88644b5ee189402eb19d39d721d1005c

GitHub adresi: https://github.com/hughbzhang/HUSE

Bildiri: Doğal Dil Üretimi için İnsan ve İstatistiksel Değerlendirmeyi Birleştirme

Makaleye bağlantı: https://arxiv.org/pdf/1904.02792.pdf

Doğal bir dil üretme sisteminin yüksek kaliteli ve çeşitli çıktılar üretip üretmediğini nasıl ölçebiliriz? İnsan değerlendirmesi kaliteyi yakalayabilir, ancak çeşitliliği ölçemez çünkü bu yöntem üretilen sonucun eğitim setinden basitçe kopyalanıp kopyalanmadığını söyleyemez. Ancak aynı zamanda, istatistiksel temelli ölçüm yöntemleri (yani şaşkınlık) çeşitliliği iyi bir şekilde yakalayabilir, ancak kaliteyi kesin olarak ölçemez çünkü ara sıra üretilen düşük kaliteli örnekler yeterince cezalandırılamaz.

Bu yazıda, neslin kalitesini ve çeşitliliğini eşzamanlı olarak değerlendirmek için birleşik bir çerçeve öneriyoruz: Temel olarak bir cümlenin makine tarafından üretilmiş bir dil mi yoksa bir insan dili mi olduğunu tahmin ederek optimal hata oranını tahmin ediyor. Hata oranının insani ve istatistiksel değerlendirmeler birleştirilerek verimli bir şekilde tahmin edilebileceğini söyledik ve kullandığımız değerlendirme metriğine HUSE diyoruz.

Özet oluşturma ve sohbet diyalogu oluşturmada, (1) HUSE'nin saf insan değerlendirmesi ile bulunamayan çeşitlilik kusurlarını tespit edebildiğini ve (2) tavlama ve diğer teknolojilerin kaliteyi artırırken, yani çeşitliliği azaltmak için HUSE değerini düşürdüğünü kanıtladık. Fiyat için.

Çekirdek yöntem HUSE

Doğal dil üretimi, önceki bir x cümlesi, yani p_model (y | x) verildiğinde sonraki y'yi üretme olasılığı olarak kabul edilebilir. Şimdi ideal değerlendirmemiz, p_model ile gerçek referans dağılımı p_ref arasındaki mesafeyi yargılamaktır.Aralarındaki mesafe küçükse, üretim etkisinin çok iyi olduğunu söyleyebiliriz.

Spesifik olarak, y makine tarafından üretilebilir (p_model'den örneklenir) veya insan doğal dili (p_ref'den örneklenir), GAN'a benzer kavram şu şekilde tanımlanabilir:

X ve y verildiğinde z'yi yargılamaya çalışan herhangi bir ayırt edicimiz varsa, o zaman L * 'yi ayırıcının olası en düşük hata oranının iki katı olarak tanımlayabiliriz:

Bunlar arasında L *, p_model ve p_pref arasındaki benzerliği ölçer ve toplam varyasyonel diverjeninin doğrusal bir fonksiyonudur. Bu nedenle, p_model ve p_pref birbirini dışlarsa, L * 0'dır ve eşitlerse, L * 1'dir.

(X, y) 'yi d boyutlu bir gerçek sayıya (x, y) eşleyen herhangi bir özellik eşlemesi için evaluation değerlendirme puanını L () şu şekilde tanımlayabiliriz:

Bunların arasında, L () 'ye bağlı olan tüm fonksiyonlarda optimize edilecektir, bu nedenle ne kadar fazla bilgi içeriyorsa, L () o kadar düşük olacaktır. Bu, iki iç ilişkiyi temsil eder: ilk olarak herhangi bir özellik eşlemesi L, L * 'nin (iyimser) üst sınırına yol açar, yani, L () model farkının derecesini tespit edebilir, ancak iyilik derecesini belirleyemez; ikincisi, 'ye yenisini ekler Özellikler yalnızca üst sınırı yükseltir.

(X, y) 'ye dayalı optimal ayırıcı yalnızca iki özelliğe ihtiyaç duyduğundan, özellik haritasını aşağıdaki gibi tanımlayabiliriz:

Ek olarak, eğer düzenlileştirme için cümle uzunluğu len (y) kullanırsak, daha düşük veya daha sıkı bir puan oluşturacaktır. Yani genel olarak HUSE özelliği şu şekilde tanımlanabilir:

Bunlar arasında, HJ (x, y), 20 kitle kaynaklı çalışanların ortalama tepkisidir.Şekil 2, Reddit corpus'un doğal dil modellemesini ve HJ (x, y) 'yi göstermektedir.

Şekil 2: Reddit külliyatında, y cümlesindeki "tipik" insan yargısı (HJ) için, külliyatta görünme sıklığı (r = 0.92) ile oldukça ilişkilidir. Dolayısıyla HJ, p_ref günlüğü için iyi bir proxy işlevidir.

Deney

Araştırmacılar, üç farklı türde tek cümleli doğal dil üretme görevini değerlendirmek için HUSE kullanıyor: 1) Koşulsuz ve yüksek entropili dil modellemesi; 2) Koşullu ve yüksek entropili hikaye oluşturma, sohbet diyalog sistemi; 3) Koşullu ve düşük entropi Metin özeti. Deneyler, HUSE'nin, düşük entropili görevler için yararlı model teşhisi sağlarken, yüksek entropi görevlerinin çeşitliliğinin doğrudan ve yorumlanabilir bir değerlendirmesini sağladığını göstermektedir.

Tablo 1: Metin özetleme, hikaye oluşturma, sohbet diyalog sistemi ve dil modelleme gibi dört görev üzerinde optimal modelin performansı.Değerlendirme göstergeleri genel uyum iyiliği (HUSE), örnek kalitesi (HUSE-Q) ve çeşitliliktir. (HUSE-D). HUSE ve HUSE-Q aralığı 0,0 (referans metninden tamamen ayırt edilebilir) ila 1,0 (referans metinden tamamen ayırt edilemez) ve sınıflandırma hatası HUSE / 2'dir. HUSE-Q ne zaman > HUSE'de HUSE-D aralığı, küçük örnek boyutu nedeniyle 1.0'ı aşabilir.

Şekil 3: HUSE-D ve HUSE-Q arasındaki değiş tokuş. Noktalar modelleri, renkler ise görevleri temsil eder. Sinir modeli (daire) tavlama kullanılarak oluşturulur (nokta etiketi Sıcaklığı temsil eder). Sağ üst köşeye en yakın model daha iyidir ve gri çapraz çizgi HUSE'yi gösterir. Görevin gölgeli alanı, göreve kesin olarak hakim olan modeli temsil eder. Tavlama, çeşitlilik ve kalite arasında bir değiş tokuştur, ancak temel modelin (HUSE) performansını kolayca artıramaz.

Şekil 4: Algoritma 1'deki iki boyutlu sınıflandırma probleminin bir örneği, farklı Softmax Sıcaklıkları ile özet bir görevdir. Her nokta referans cümlesi _huse (x_i, y_i) veya model tarafından üretilen cümle _huse (x_i, y'_i) temsil eder. Renk, cümlenin kaynağını (z), gölgelendirme ise en yakın komşu sınıflandırıcının sınıflandırma güvenirliğini gösterir.

Şekil 5: HUSE'nin tahmini, daha küçük test seti boyutları için de geçerlidir, ancak genellikle her bir numuneyi değerlendirmek için yaklaşık 20 kitle kaynaklı çalışan gerektirir.

Hongqiao Havaalanı'ndaki yürüyen bantın camı çekiçle kırılamadı ama hayranlar tarafından parçalandı mı? Asansör uzmanı: Yıldızları kovalayan cehalet başkalarına zarar verir!
önceki
Bu şekilde kırmızı şarap içmek hayatı bir şiir haline getirebilir
Sonraki
Makine öğrenimi "bir doktora görünmek zor" u nasıl çözer? Jeff Dean ve diğerleri, tıp alanında makine öğreniminin uygulanmasını detaylandırdı
Bunlar son zamanlarda en büyük söylentiler! Birçok insan ilk atışı yapar ...
CVPR 2019 Baidu insansız aracı, dünyanın ilk derin öğrenme tabanlı lazer nokta bulutu kendi kendine konumlandırma teknolojisini gerçekleştirdi
"Bu uçakları almayı asla düşünmedim"! Boeing çalışanları 787 fabrika üretim açıklarını ortaya çıkardı
2018'de yayınlanan en eksiksiz demiryolu verileri, ilgilendiğiniz her şey burada!
Xinzhou, Wuhan'daki Zhangdu Gölü sulak alanının havadan fotoğrafı
Megvii ve Zhiyuan, dünyanın en büyük nesne algılama veri seti Objects365'i yayınladı ve CVPR DIW2019 meydan okumasını gerçekleştirdi
Wikipedia, zaten büyük bir ansiklopedisiniz, orijinal metnin kaynağını belirlemek için makine öğrenimi kullanmayı öğrenmelisiniz.
İyi para kazanın RMB'nin değerlenmesinden sonra 1 Mayıs'ta bu yerlere seyahat etmek daha uygun maliyetli
CVPR 2019 PointConv: Evrişim işlemlerini nokta bulutlarında verimli bir şekilde uygulayın
Arkadaş çevrenizde derin ve çağrışımlı, arkadaşlarınıza iletilmeye değer olumlu cümleler
[AET orijinal] 3D algılama, AI, endüstri 4.0, IoT 2019 yarı iletken endüstrisi etkin nokta teknolojisi görünümü
To Top