UCSB'nin yeni çalışması: "Resimlere Bakmak ve Hikayeleri Anlatmak", mevcut değerlendirme sistemi geçersiz kılınacak | ACL 2018

Lei Feng.com AI Technology Review Press: Son zamanlarda, University of California, Santa Barbara Profesör William Wang Ekip, arXiv'de "Ölçü Yok: Mükemmel Değil: Tartışmalı Ödül Öğrenimi veya Görsel Hikaye Anlatma" başlıklı bir makale yayınladı. Bu makale, mevcut değerlendirme sisteminin (METEOR, BLEU, vb.) "Resimleri izlemek ve hikayeleri anlatmak" gibi daha öznel bir görevde başarısız olacağına işaret etti. Sonuç olarak, ters pekiştirmeli öğrenme yoluyla en iyi ödül işlevini elde etmek için rakip bir ödül öğrenme çerçevesi önerdiler. Deneysel sonuçlar, otomatik değerlendirme sisteminde, bu yöntemin GAN, pekiştirmeli öğrenme ve diğer modellerle aynı veya biraz daha yüksek sonuçları alabildiğini; manuel değerlendirme sisteminde ise, sonuçlarından çok daha iyi olduğunu göstermektedir.

Şu anda, bu makale doğal dil işleme konulu en büyük konferans olan ACL 2018 tarafından kabul edilmiştir.

Diğer bir deyişle, iki yıl önce, "görsel altyazı" (Görsel Altyazı Oluşturma) hala heyecan verici bir araştırma noktasıydı ve şimdi birçok "görsel anlatım" (Görsel Hikaye Anlatma) var. Araştırma çalışması. Bu iki görevin farkı ve zorluğu ortada. Aşağıdaki resimleri örnek olarak alın:

"Resimlere bak ve konuş", resimlerde görünen kişi ve nesneleri algılamayı ve ardından bunları doğal bir dille ifade etmeyi gerektirir. Yukarıdaki resim için çıktı sonucu:

(a) Küçük bir oğlan ve bir kız birlikte oturuyor.

(b) Verandada sırt çantaları üzerinde oturan iki çocuk.

(c) Verandada sırt çantaları oturan iki küçük çocuk.

(d) Birbirine çok yakın iki küçük çocuk.

(e) Birlikte kameraya gülümseyen bir erkek ve bir kız.

"Resimlere bakmak ve hikayeler anlatmak" daha ileri gitmeli, resmin ana fikrini çıkarmalı ve ardından birbirini izleyen birden fazla resmin içeriğini tam bir hikayeye uyumlu hale getirmelidir. Bu, yalnızca resimdeki nesneleri tanımlamak değil, aynı zamanda insan duyguları, potansiyel nesneler vb. Gibi görüntüde açıkça ifade edilmeyen bilgileri anlatmak için "hayal gücünüzü kullanmak" anlamına da gelir (aşağıdaki renkli yazı tipinde gösterildiği gibi). Yukarıdaki 5 seri resim için çıktı sonucu:

Hikaye 1: Kardeşler okulun ilk gününe hazırdılar, ilk günlerine gidip yeni arkadaşlarla tanışmaktan heyecan duydular, annelerine ne kadar mutlu olduklarını söylediler, çok yeni arkadaşlar edinebileceklerini söylediler ve sonra kalktılar ve arabaya binmeye hazırlandılar.

Hikaye 2: Ağabey kız kardeşiyle konuşmak istemedi, kardeşler barıştı, konuşmaya ve gülümsemeye başladılar, anne babaları geldi, onları görmekten mutlu oldular

Açıkçası, "resimleri görmek ve hikayeleri anlatmak" ın öznelliği çok özneldir, bu da bu görev için standart şablonların eksikliğine neden olur.Örneğin, yukarıdaki resim seti tamamen farklı iki hikaye halinde derlenebilir.

İlk görsel anlatı araştırması (aslında, 16 veya 17 yıl) esas olarak görsel alt başlıkların başarısından esinlenmiştir. Gözlem veri çiftlerinin olasılığını en üst düzeye çıkarmak için hala eğitimden geçmektedir.Sonuç, veritabanındaki ifade modeliydi. Sınırlı, ortaya çıkan anlatı sonuçları da çok basit ve düz. Bu sorunu çözmek ve insan tanımlarına daha benzer hikayeler üretmek için Rennie ve diğerleri, gelişmiş öğrenme için bir çerçeve önermişlerdir. Bununla birlikte, görsel anlatım görevinde, yaygın geliştirme öğrenme yöntemleri esas olarak, stratejik aramanın tanıtımı için ya önyargılı ya da çok fazla olan, dizgi eşleştirme (BLEU, METEOR, ROUGE, CIDEr, vb.) İçin manuel ödüllere dayanmaktadır. Seyrek. Örneğin, bu makalenin yazarları karşılaştırma yapmak için makalede strateji öğrenmelerini güçlendirmek için ROUGE puanlarını ödül olarak kullandıklarında, ROUGE puanı önemli ölçüde arttığında, diğer puanların (BLEU, CIDEr, vb.) Onunla iyileşmediğini gördüler. 0'a düşebilir.

(Ortadaki dört satır, manuel ödüllere dayalı geliştirilmiş öğrenme modelleridir. XE-ss ve AREL (bu makalede önerilen model) daha sonra tartışılacaktır.)

Düşmanca bir örnek aşağıdaki gibidir:

Birçoğuna sahip olmak için harika zaman geçirdik. Onlar arasında olacaklardı. İçinde olacaklardı. Ve o olacaktı. The, ve olacaktı.

Ortalama METEOR puanı 40,2'ye kadar çıkmaktadır, ancak diğer puanlar çok düşüktür. Bu, bu geleneksel manuel ödüllerin "resimleri görme ve hikayeler anlatma" görevinin ödül mekanizmasına bağlı olmadığını göstermektedir.

Yazar, bu sorunu çözmek için "Ters Pekiştirmeli Öğrenme" den ilham aldı ve Tartışmalı Ödül Öğrenimi (AREL) çerçevesini önerdi. Önceki yöntemle karşılaştırıldığında, geleneksel manuel ödül yöntemi artık burada kullanılmamaktadır, ancak bir ödül modeli eklenir.Bu ödül modeli, strateji modelinin sonucunu optimize etmek için insan örnekleri aracılığıyla örtük ödül işlevini öğrenir. AREL çerçeve şeması aşağıdaki gibidir:

Peki bu model çerçevesi iyi mi?

Yazar, test için Ting-Hao K. Huang ve diğerleri tarafından 2016 yılında yayınlanan Görsel Hikaye Anlatma (VIST) veri kümesini kullanıyor. VIST veri seti, 10117 Flickr fotoğraf albümü (web fotoğraf albümleri) ve 210.819 ayrı fotoğraf içeren ilk sıralı vizyondan dile görev (görsel anlatım görevi dahil) veri setidir.

İyi veya kötü, değerlendirme kriterlerine bağlıdır. "Görsel anlatım" görevi için geleneksel olarak BLEU (B), METEOR (M), ROUGH-L (R) ve CIDEr (C) puanları değerlendirme göstergeleri olarak kullanılır. Karşılaştırma için, Huang ve diğerleri ve Yu ve diğerlerinin iki sonucuna ek olarak, yazar ayrıca şu anda mevcut olan en iyi iki modeli seçmiştir, biri XE-ss ve diğeri GAN modelidir. Bu makaledeki AREL modeli, XE-ss ile aynı strateji modelini kullanıyor, ancak fark, XE-ss modelinin ödül fonksiyonu olarak çapraz entropi kullanması, AREL'in ise özel bir ödül öğrenme modeline sahip olmasıdır.

Deneysel sonuçlardan, değerlendirme için geleneksel göstergeler kullanıldığında, AREL'in en azından en son teknolojiye ulaştığı ve hatta biraz iyileştiği görülebilir.

Ancak yazar artık bu geleneksel göstergelerin "görsel anlatı" görevinde iyi değerlendirme kriterleri olabileceğine inanmıyor gibi görünüyor. İnsanların bu tür yaratıcı çalışmalarda iyi veya kötü yargılamasına izin verilmesi gerektiğini düşünmeye daha meyilliler. Bu nedenle, Amazon Türk robotları üzerinde iki farklı insan değerlendirme deneyi yapmayı seçtiler: Döndürme testi ve ikili insan değerlendirmesi.

Turing testinde, her değerlendirici (işçi) aynı anda insan açıklamalı bir numune ve makine tarafından oluşturulmuş bir numune verecek ve hangisinin insan / makine tarafından oluşturulmuş olduğuna karar vermesine izin verecektir. Yazar, XE-ss, BLEU-RL, CIDEr-RL, GAN ve AREL'in beş modeli üzerinde bağımsız olarak Turing testleri gerçekleştirdi:

AREL modelinin sonuçlarının insan değerlendirmesinde diğer modellerin sonuçlarından çok daha iyi olduğu ve Win + Unsure oranının% 50'ye çok yakın olduğu görülüyor.

Hikayenin anlamsal özelliklerindeki farklı algoritmalar arasındaki farklılıkları daha fazla karşılaştırmak için yazar, dört çift karşılaştırma testi gerçekleştirdi: AREL ve XE-ss, BLEU-RL, CIDEr-RL ve GAN arasında karşılaştırma. Karşılaştırma süreci şu şekildedir: oluşturulan iki hikayeyi aynı anda değerlendiricilere sunun ve onlardan üç yönden oylamalarını isteyin (uygunluk, açıklayıcılık ve özgüllük). Örneğin, aşağıdaki örnek (deneyde İnsan yapımı hikaye yok, burada referans olarak görünüyor):

Alaka düzeyi, ifade gücü ve özgüllük açısından, (AREL: XE-ss: eşitlik) oylama sonuçları sırasıyla 5: 0: 0, 4: 0: 1 ve 5: 0: 0 idi. Tüm deneyin sonuçları aşağıdaki gibidir:

Bu ezici sonuç (en azından deneysel olarak) AREL modelinin ürettiği öykülerin alaka düzeyi, ifade gücü ve özgüllük açısından daha mükemmel olduğunu ve otomatik ölçüm ve değerlendirmede açıkça yansıtılmadığını göstermektedir.

Bir noktayı vurgulamalıyım: Yukarıdaki sonuçlar aynı zamanda geleneksel değerlendirme kriterlerinin daha fazla öznellik içeren görevlerde (görsel anlatım gibi) bir dereceye kadar güvenilmez olduğunu da göstermektedir. Bu nedenle, bir yandan görevde geleneksel otomatik değerlendirme kriterlerini kullanırken dikkatli olmalısınız; diğer yandan çok yüksek bir puan alsanız bile modelinizin iyi olduğu anlamına gelmez.

Lei Feng.com, bu makalenin önemini özetliyor:

1. Bu makale bir noktaya işaret ediyor: güçlü öznellik içeren görevlerde, geleneksel otomatik ölçütler eğitim veya değerlendirme açısından mutlaka uygun değildir;

2. Yukarıdaki sorunlara yanıt olarak yazar, insan değerlendirme testlerinde iyi performans gösteren ödüllü öğrenmeye karşı bir çerçeve önerir.

Kağıt adresi: https://arxiv.org/abs/1804.09160

Öz

Son zamanlarda görsel altyazı oluşturma görevlerinde etkileyici sonuçlar elde edilmiş olsa da, fotoğraf akışlarından soyut hikayeler oluşturma görevi hala zor bir sorundur. Altyazıların aksine, hikayeler daha fazla dil ifade stiline sahiptir ve görüntülerde bulunmayan birçok kurgusal kavram içerir. Bu nedenle, davranışsal klonlama algoritmasına meydan okur. Ek olarak, hikaye kalitesini değerlendirmeye yönelik otomatik göstergelerin sınırlamaları nedeniyle, manuel ödüllü pekiştirmeli öğrenme yöntemi de genel performans iyileştirmelerini elde etmede zorluklarla karşı karşıyadır. Bu nedenle, insan örneklerinden örtük bir ödül işlevini öğrenmek için bir Tartışmalı Ödül Öğrenme (AREL) çerçevesi öneriyoruz ve ardından strateji aramasını optimize etmek için öğrenilen ödül işlevini kullanıyoruz. Otomatik değerlendirme, yöntemimizin uzman davranışını klonlamada son teknoloji (SOTA) yönteminden yalnızca biraz daha iyi olduğunu gösterse de, insan değerlendirmesi, yöntemimizin SOTA sisteminden daha çok insan benzeri öyküler üretme performansında önemli bir gelişme gösterdiğini göstermektedir. .

Lei Feng Network AI Technology Review aracılığıyla

Yerli markalara yabancı şirketler tarafından defalarca "porselen dokundu", peki markaların tescil edilmesi nasıl engellenir?
önceki
Yıl sonunda en büyük cep telefonu güncellemesi! Kasım ayında yeni yayınlanan popüler cep telefonu önerileri
Sonraki
Yılın en iyi ebeveyn-çocuk filmi "Alpha: The Return of the Wolf", aile tarih öncesi yolculuğun tadını çıkaracak
Zhang Bo ve Zhu Junun ekibinin hazırladığı son makale: Derin Örtük Model + Olasılıksal Grafik Model = Grafik-GAN
Apple, iPhone 6s'in otomatik kapanma sorununu kabul ediyor: kullanıcıların pili koşullu olarak değiştirmesi gerekiyor
Zheng Kai havai fişek patlatmayı gerçekten istediğini yazdı @: Çocuklar yola çıkarken yetişkinler eşlik etmeli
Bitmain markalı alan adının fiyatı ifşa edildi, ancak satıcı 1 milyon $ "kaybetti" ancak pişman değil mi?
Yeni Meilan telefonun adı doğrulandı: Meilan X ve başka bir gizemli ürün 30 Kasım'da piyasaya sürülecek
"Amazing Immortal Simulator" gelecekteki güncelleme planı duyuruldu
Yeniden doğuş, sadece asıl niyetle! KEF R serisi hoparlör yepyeni bir deneyim
"Detective Conan: Zero Executor" Çince seslendirme başarıyla sona eriyor
AnTuTu, Lenovo ZUK Edge'in ayrıntılı konfigürasyonunu ortaya koyuyor: çalışma noktaları süper harika!
Merhaba, bu senin "Kurt" mu?
Alan adları dünyaya nasıl satılır? Bu makale sizi denizaşırı alan adı pazarını anlamaya götürüyor!
To Top