Derin öğrenme mizah öğrenebilir mi? TED videoları biraz zor olabilir

Yazar | Jiang Weiwei

Editör | Tang Li

Bildiri Başlığı: UR-FUNNY: Mizahı Anlamak İçin Çok Modlu Bir Dil Veri Kümesi

Yazar: Md Kamrul Hasan, Wasifur Rahman, Amir Zadeh, Jianyuan Zhong, Md Iftekhar Tanveer, Louis-Philippe Morency, Mohammed (Ehsan) Hoque

İndirme bağlantısı: https: // ar xi v.org/abs/1904.06618

Yayınlanma zamanı: 14 Nisan 2019

EMNLP2019 kağıdı

Mizah, dil, ses tonlaması, jest, vücut duruşu gibi çok modlu davranışlarda üretilen karmaşık ve yaratıcı bir iletişim davranışıdır. Mizah tespiti zaten doğal bir dil işlemedir Dikkat Sorunlardan biri, geçmişte İngilizce olarak da bazı esprili materyaller vardı. Araştırmacılar, bu konudaki araştırmaları zenginleştirmek için, Rus mizah külliyatında olduğu gibi gittikçe daha fazla veri seti topladı ve önerdi.

Bu makalenin en büyük katkısı, ifadesiz mizah kullanan çok modlu dilleri anlamanın kapısını açan metin, ses ve video içeren UR-FUNNY adlı çok modlu bir veri seti önermektir. Önceki veri setleriyle karşılaştırıldığında, UR-FUNNY aynı anda metin, ses ve videoyu kapsayan ilk veri setidir (bkz. Tablo 1). Bu makale UR-FUNNY'nin kaynağını, veri setinin açıklamasını, özelliklerin çıkarılmasını ve kıyaslama modeli sınıflandırmasının deneysel sonuçlarını tanıtmaktadır. Şekil 1, UR-FUNNY'deki bir örneği göstermektedir.

Tablo 1. UR-FUNNY ile mevcut mizah algılama veri kümeleri arasındaki karşılaştırma, burada #Pos ve #Neg sırasıyla pozitif ve negatif örneklerin sayısını temsil eder, Mod sütunu metni, a sesi temsil eder ve v videoyu temsil eder.

Şekil 1. UR-FUNNY'den bir örnek.

Veri kaynakları

UR-FUNNY halka açık bir TED konuşmasından geliyor. TED konuşmalarının materyalini kullanmak, doğal dil işleme ile ilgili problemlerde birçok avantaja sahiptir: konuşmacılar ve konular, manuel olarak oluşturulmuş altyazılar ve izleyici etiketleriyle çeşitlidir, özellikle kahkaha etiketi kahkahanın yerini belirlemek için kullanılabilir, böylece mizahı işaretler Karşılık gelen klip.

Bu kağıt kullanır 186 TED ingilizce konuşmalarının 6 videosu ve altyazıları, bu videolar şunları içerir: 174 1 konuşmacı ve 417 konu. Kahkaha etiketine dayanarak, yazarlar 8257 mizahi parça çıkardı ve 8257 komik olmayan rastgele parça seçtiler.

Veri kümesi açıklaması

UR-FUNNY'nin bazı istatistiksel özellikleri Tablo 2 ve Şekil 2'de verilmiştir. Mizahi olan ve olmayan örneklerin istatistiksel özellikleri önemli ölçüde farklı değildir, bu nedenle basit ölçülerle sınıflandırılamazlar.

Tablo 2. UR-FUNNY veri setinin istatistiksel göstergeleri.

Şekil 2. UR-FUNNY verilerinin istatistiksel açıklaması.

Yazarlar ayrıca veri setini eğitim seti, doğrulama seti ve test setine ayırdı.İstatistiksel göstergeler Tablo 3'te gösterildi.

Tablo 3. UR-FUNNY veri setindeki eğitim seti, doğrulama seti ve test setinin istatistikleri.

Özellik çıkarma

Yazarlar, üç boyutlu orijinal derlemeden özellikleri çıkarmak için mevcut olgun araç setlerini kullandılar:

(1) Metin: Glove kelimesi embe kullanılır gg ing ve P2FA zorla hizalama modeli;

(2) Ses: 81 özelliği çıkarmak için COVAREP yazılımını kullanın;

(3) Video: OpenFace yüz davranış analizi aracı kullanılmaktadır.

Modeller ve deneyler

Yazarlar, Bellek Füzyon Ağına (MFN) dayanarak gelişti ve Bağlamsal Bellek Füzyon Ağı (C-MFN) adlı bir kıyaslama modeli önerdiler. C-MFN üç bölümden oluşur:

(1) Tek modlu bağlam ağı: Şekil 3'te gösterildiği gibi, her modun bilgisi M uzun ve kısa süreli bellek ağları tarafından kodlanır ve çıktı H olarak belirtilir;

(2) Çok modlu bağlam ağı: Şekil 4'te gösterildiği gibi, öz-dikkat mekanizması, tek modlu bilgilerden çok modlu bilgileri çıkarmak için kullanılır H

(3) Bellek füzyon ağı: Şekil 5'te gösterildiği gibi, H ve parametre başlatmaya dayalı standart bir bellek füzyon ağı modeli kullanılır.

Şekil 3. Tek modlu bir bağlam ağının yapısı.

Şekil 4. Çok modlu bir bağlam ağının yapısı.

Şekil 5. Bellek füzyon ağı ve başlatma.

Yazarlar, C-MFN temelinde, yalnızca kahkaha cümlelerini kullanarak C-MFN (P) ve yalnızca bağlam cümlelerini kullanarak C-MFN (C) de incelediler. Deneyde, yazarlar farklı düzeylerde girdi kombinasyonları kullandılar: T (yalnızca metin), T + V (Metin + video), T + A (metin + ses), A + V (Ses + video), T + A + V (Metin + ses + video). Yazarlar, farklı C-MFN varyantları arasındaki karşılaştırmaya ek olarak, sinirsel olmayan ağ yapısının bir temsilcisi olarak rastgele bir orman sınıflandırıcısı da denediler.

sonuçlar ve tartışma

C-MFN'nin farklı girdi kombinasyonları altındaki sınıflandırma doğruluğu Tablo 4'te gösterilmektedir. Tüm modların verileri girildiğinde, C-MFN rastgele ormandan (% 57,78) daha yüksek olan% 65,23 ile en yüksek doğruluğu elde etti, ancak İnsan performansından çok daha düşüktür (% 82,5).

Tablo 4. Farklı giriş kombinasyonları altında farklı C-MFN'lerin sınıflandırma doğruluğu.

sonuç olarak

Bu makale, mizah algılama problemine metin, ses ve video içeren çok modlu bir veri setine katkıda bulundu ve bağlam bellek füzyon ağı adı verilen bir kıyaslama sınıflandırma modeli önerdi. Deneysel sonuçlar, çok-modlu verilerin kullanımının mizahı daha doğru bir şekilde algılayabildiğini ve hem gülme noktası hem de bağlamın mizahı anlama sürecinde önemli olduğunu göstermektedir.

Aynı zamanda, bu makalenin sonuçları, bu bağlam bellek füzyon ağının tanıma sonuçları ile insan performansı arasında hala bir miktar boşluk olduğuna ve bu veri seti üzerinde daha iyi bir model önermek için daha sonra araştırmaya ihtiyaç olduğuna işaret etti.

referans

Blinov V, Bolotova-Baranova V, Braslavski P.Mizah Tanıma için Büyük Veri Kümesi ve Dil Modeli Eğlence Ayarı // Hesaplamalı Dilbilim Derneği 57. Yıllık Toplantısı Bildirileri.2019: 4027-4032.

Pennington J, Socher R, Manning C. Glove: Sözcük temsil için küresel vektörler // Doğal dil işlemede deneysel yöntemler (EMNLP) 2014 konferansının bildirileri. 2014: 153 2- 154 3.

Yuan J, Liberman, SCOTUS külliyatında konuşmacı kimliği. Journal of the AcousticalSociety of America, 2008, 123 (5): 3878.

Degottex G, KaneJ, Drugman T, ve diğerleri. COVAREP Konuşma teknolojileri için işbirliğine dayalı bir ses analizi deposu // 2014 ieee akustik, konuşma ve sinyal işleme üzerine uluslararası konferans (icassp). IEEE, 2014: 960-9 64 .

Baltruaitis T, Robinson P, Morency L P. Openface: bir açık kaynak yüz davranış analizi araç seti // 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2016: 1-10.

Zadeh A, Liang PP, Mazumder N, ve diğerleri.Çoklu görüntülü sıralı öğrenme için bellek füzyon ağı // Yapay Zeka Üzerine Otuz İkinci AAAI Konferansı.2018.

"Mutlu Okuma Hayatı ve İşyeri Birincisi" Okuma Paylaşımı Oturumu "Tianjin Şehri Kitap Barı" nda Yeni Mekanı Okurken Yapıldı
önceki
Haftalık Yeni Tüketici Ürünleri | Karma Gerçeklik Gözlüklerinin Küresel Ön Satışı Nreal Light Geliştirici Kiti; Kohler Reve Kitchen Reverse Osmosis Purifier'ı Piyasaya Sürüyor
Sonraki
Güney Çin'deki ilk "Su Bebeği" vakası 13 yaşında! Kaplıcada bebek var, denemek ister misin?
Haftanın Isı Haritası Bill Gates, Pekin'de elektronik hap kutusunu gösteriyor; aydınlatma sanatı düğümü Şangay'da parlıyor; Chen Feiyu ve Lai Guanlin, L'Oreal'e yardım ediyor
Haberler! Tanınmış veritabanı uzmanı Fan Wenfei, Bilimler Akademisi'nin yabancı bir akademisyeni olarak seçildi (Bilimler Akademisi'nin birlikte seçilen akademisyenlerinin bir listesiyle)
191124 Cai Xukun'un New York gezisi videosu yayınlandı. Plak satın almak ve antika dükkanlarını ziyaret etmek rahat ve mutlu
Ev kıyafetlerinin doğru giyilmesi! Jing Boran baskılı uzun kaban ferah ve sanatsal
2020'deki sahte strateji burada! İki "13 günlük" tatil yapabilirsiniz
Tek dilli temsiller nasıl birden çok dile taşınır?
Wall Street, hisse senedi alım satımının sırlarını özetledi: kayıpları azaltın ve karların akmasına izin verin! Ana finansal dinamikler size Çin borsasında parayı kimin kazandığını söylüyor?
Qilu Sabah Haberleri Shandong'da kurtarılan 11 madencinin hayati belirtileri stabil ve muayene ve tedavi görüyorlar
3 yılda 900.000 kayıptan 5.8 milyon kara kadar, sadece ısrar ettim: 20'nin altında tam pozisyonla satın al ve 80'in üzerinde tam pozisyonla sat, neredeyse tüm kısa vadeli kazançları yakalıyor
Yüzlerce Çinli öğrenci New York'u ziyaret eden "Hong Kong kaosunu" protesto etti: "Hong Kong barış istiyor!"
Büyük ölçekli çok dilli genel sinir makinesi çeviri yönteminin analizi
To Top