Yazar | Jiang Weiwei
Editör | Tang Li
Bildiri Başlığı: UR-FUNNY: Mizahı Anlamak İçin Çok Modlu Bir Dil Veri Kümesi
Yazar: Md Kamrul Hasan, Wasifur Rahman, Amir Zadeh, Jianyuan Zhong, Md Iftekhar Tanveer, Louis-Philippe Morency, Mohammed (Ehsan) Hoque
İndirme bağlantısı: https: // ar xi v.org/abs/1904.06618
Yayınlanma zamanı: 14 Nisan 2019
EMNLP2019 kağıdı
Mizah, dil, ses tonlaması, jest, vücut duruşu gibi çok modlu davranışlarda üretilen karmaşık ve yaratıcı bir iletişim davranışıdır. Mizah tespiti zaten doğal bir dil işlemedir Dikkat Sorunlardan biri, geçmişte İngilizce olarak da bazı esprili materyaller vardı. Araştırmacılar, bu konudaki araştırmaları zenginleştirmek için, Rus mizah külliyatında olduğu gibi gittikçe daha fazla veri seti topladı ve önerdi.
Bu makalenin en büyük katkısı, ifadesiz mizah kullanan çok modlu dilleri anlamanın kapısını açan metin, ses ve video içeren UR-FUNNY adlı çok modlu bir veri seti önermektir. Önceki veri setleriyle karşılaştırıldığında, UR-FUNNY aynı anda metin, ses ve videoyu kapsayan ilk veri setidir (bkz. Tablo 1). Bu makale UR-FUNNY'nin kaynağını, veri setinin açıklamasını, özelliklerin çıkarılmasını ve kıyaslama modeli sınıflandırmasının deneysel sonuçlarını tanıtmaktadır. Şekil 1, UR-FUNNY'deki bir örneği göstermektedir.
Tablo 1. UR-FUNNY ile mevcut mizah algılama veri kümeleri arasındaki karşılaştırma, burada #Pos ve #Neg sırasıyla pozitif ve negatif örneklerin sayısını temsil eder, Mod sütunu metni, a sesi temsil eder ve v videoyu temsil eder.
Şekil 1. UR-FUNNY'den bir örnek.
Veri kaynakları
UR-FUNNY halka açık bir TED konuşmasından geliyor. TED konuşmalarının materyalini kullanmak, doğal dil işleme ile ilgili problemlerde birçok avantaja sahiptir: konuşmacılar ve konular, manuel olarak oluşturulmuş altyazılar ve izleyici etiketleriyle çeşitlidir, özellikle kahkaha etiketi kahkahanın yerini belirlemek için kullanılabilir, böylece mizahı işaretler Karşılık gelen klip.
Bu kağıt kullanır 186 TED ingilizce konuşmalarının 6 videosu ve altyazıları, bu videolar şunları içerir: 174 1 konuşmacı ve 417 konu. Kahkaha etiketine dayanarak, yazarlar 8257 mizahi parça çıkardı ve 8257 komik olmayan rastgele parça seçtiler.
Veri kümesi açıklaması
UR-FUNNY'nin bazı istatistiksel özellikleri Tablo 2 ve Şekil 2'de verilmiştir. Mizahi olan ve olmayan örneklerin istatistiksel özellikleri önemli ölçüde farklı değildir, bu nedenle basit ölçülerle sınıflandırılamazlar.
Tablo 2. UR-FUNNY veri setinin istatistiksel göstergeleri.
Şekil 2. UR-FUNNY verilerinin istatistiksel açıklaması.
Yazarlar ayrıca veri setini eğitim seti, doğrulama seti ve test setine ayırdı.İstatistiksel göstergeler Tablo 3'te gösterildi.
Tablo 3. UR-FUNNY veri setindeki eğitim seti, doğrulama seti ve test setinin istatistikleri.
Özellik çıkarma
Yazarlar, üç boyutlu orijinal derlemeden özellikleri çıkarmak için mevcut olgun araç setlerini kullandılar:
(1) Metin: Glove kelimesi embe kullanılır gg ing ve P2FA zorla hizalama modeli;
(2) Ses: 81 özelliği çıkarmak için COVAREP yazılımını kullanın;
(3) Video: OpenFace yüz davranış analizi aracı kullanılmaktadır.
Modeller ve deneyler
Yazarlar, Bellek Füzyon Ağına (MFN) dayanarak gelişti ve Bağlamsal Bellek Füzyon Ağı (C-MFN) adlı bir kıyaslama modeli önerdiler. C-MFN üç bölümden oluşur:
(1) Tek modlu bağlam ağı: Şekil 3'te gösterildiği gibi, her modun bilgisi M uzun ve kısa süreli bellek ağları tarafından kodlanır ve çıktı H olarak belirtilir;
(2) Çok modlu bağlam ağı: Şekil 4'te gösterildiği gibi, öz-dikkat mekanizması, tek modlu bilgilerden çok modlu bilgileri çıkarmak için kullanılır H
(3) Bellek füzyon ağı: Şekil 5'te gösterildiği gibi, H ve parametre başlatmaya dayalı standart bir bellek füzyon ağı modeli kullanılır.
Şekil 3. Tek modlu bir bağlam ağının yapısı.
Şekil 4. Çok modlu bir bağlam ağının yapısı.
Şekil 5. Bellek füzyon ağı ve başlatma.
Yazarlar, C-MFN temelinde, yalnızca kahkaha cümlelerini kullanarak C-MFN (P) ve yalnızca bağlam cümlelerini kullanarak C-MFN (C) de incelediler. Deneyde, yazarlar farklı düzeylerde girdi kombinasyonları kullandılar: T (yalnızca metin), T + V (Metin + video), T + A (metin + ses), A + V (Ses + video), T + A + V (Metin + ses + video). Yazarlar, farklı C-MFN varyantları arasındaki karşılaştırmaya ek olarak, sinirsel olmayan ağ yapısının bir temsilcisi olarak rastgele bir orman sınıflandırıcısı da denediler.
sonuçlar ve tartışma
C-MFN'nin farklı girdi kombinasyonları altındaki sınıflandırma doğruluğu Tablo 4'te gösterilmektedir. Tüm modların verileri girildiğinde, C-MFN rastgele ormandan (% 57,78) daha yüksek olan% 65,23 ile en yüksek doğruluğu elde etti, ancak İnsan performansından çok daha düşüktür (% 82,5).
Tablo 4. Farklı giriş kombinasyonları altında farklı C-MFN'lerin sınıflandırma doğruluğu.
sonuç olarak
Bu makale, mizah algılama problemine metin, ses ve video içeren çok modlu bir veri setine katkıda bulundu ve bağlam bellek füzyon ağı adı verilen bir kıyaslama sınıflandırma modeli önerdi. Deneysel sonuçlar, çok-modlu verilerin kullanımının mizahı daha doğru bir şekilde algılayabildiğini ve hem gülme noktası hem de bağlamın mizahı anlama sürecinde önemli olduğunu göstermektedir.
Aynı zamanda, bu makalenin sonuçları, bu bağlam bellek füzyon ağının tanıma sonuçları ile insan performansı arasında hala bir miktar boşluk olduğuna ve bu veri seti üzerinde daha iyi bir model önermek için daha sonra araştırmaya ihtiyaç olduğuna işaret etti.
referans
Blinov V, Bolotova-Baranova V, Braslavski P.Mizah Tanıma için Büyük Veri Kümesi ve Dil Modeli Eğlence Ayarı // Hesaplamalı Dilbilim Derneği 57. Yıllık Toplantısı Bildirileri.2019: 4027-4032.
Pennington J, Socher R, Manning C. Glove: Sözcük temsil için küresel vektörler // Doğal dil işlemede deneysel yöntemler (EMNLP) 2014 konferansının bildirileri. 2014: 153 2- 154 3.
Yuan J, Liberman, SCOTUS külliyatında konuşmacı kimliği. Journal of the AcousticalSociety of America, 2008, 123 (5): 3878.
Degottex G, KaneJ, Drugman T, ve diğerleri. COVAREP Konuşma teknolojileri için işbirliğine dayalı bir ses analizi deposu // 2014 ieee akustik, konuşma ve sinyal işleme üzerine uluslararası konferans (icassp). IEEE, 2014: 960-9 64 .
Baltruaitis T, Robinson P, Morency L P. Openface: bir açık kaynak yüz davranış analizi araç seti // 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2016: 1-10.
Zadeh A, Liang PP, Mazumder N, ve diğerleri.Çoklu görüntülü sıralı öğrenme için bellek füzyon ağı // Yapay Zeka Üzerine Otuz İkinci AAAI Konferansı.2018.