Academia UCSB'nin yeni çalışması: "Resimlere bakın ve hikayeler anlatın", mevcut değerlendirme sistemi geçersiz olacak

AI Technology Review Press: Son zamanlarda, Santa Barbara'daki California Üniversitesi'nden Profesör William Wang'ın ekibi arXiv'de "Ölçü Yok Mükemmel: Tartışmalı Ödül Öğrenimi veya Görsel Hikaye Anlatma" başlıklı bir makale yayınladı. Bu makale, mevcut değerlendirme sisteminin (METEOR, BLEU, vb.) "Resimleri izlemek ve hikayeleri anlatmak" gibi daha öznel bir görevde başarısız olacağına işaret etti. Sonuç olarak, ters pekiştirmeli öğrenme yoluyla en iyi ödül işlevini elde etmek için rakip bir ödül öğrenme çerçevesi önerdiler. Deneysel sonuçlar, otomatik değerlendirme sisteminde bu yöntemin GAN, pekiştirmeli öğrenme ve diğer modellerle aynı veya biraz daha yüksek sonuçlar elde edebileceğini; manuel değerlendirme sisteminde ise sonuçlarından çok daha iyi olduğunu göstermektedir.

Şu anda bu makale, doğal dil işleme konulu en büyük konferans olan ACL 2018 tarafından kabul edilmiştir.

Başka bir deyişle, iki yıl önce, "Resimlere Bakmak ve Konuşmak" (Görsel Altyazı Oluşturma) hala heyecan verici bir araştırma noktasıydı ve şimdi birçok "Resimlere Bakmak ve Hikaye Anlatmak" (Görsel Hikaye Anlatma) var. Araştırma çalışması. Bu iki görevin farkı ve zorluğu ortada. Aşağıdaki resimleri örnek olarak alın:

"Resimlere bak ve konuş", resimlerde görünen insanları ve nesneleri algılamayı ve ardından bunları doğal bir dille ifade etmeyi gerektirir. Yukarıdaki resim için çıktı sonucu:

(a) Küçük bir oğlan ve bir kız birlikte oturuyor.

(b) Verandada sırt çantaları üzerinde oturan iki çocuk.

(c) Verandada sırt çantaları oturan iki küçük çocuk.

(d) Birbirine çok yakın iki küçük çocuk.

(e) Birlikte kameraya gülümseyen bir erkek ve bir kız.

"Resimlere bakmak ve hikayeler anlatmak" daha ileriye gitmeli, resmin ana fikrini çıkarmalı ve ardından birden fazla ardışık resmin içeriğini eksiksiz bir hikaye haline getirmelidir. Bu, yalnızca resimdeki nesneleri tanımlamak değil, aynı zamanda insan duyguları, potansiyel nesneler vb. Gibi görüntüde açıkça ifade edilmeyen bilgileri (aşağıdaki renkli yazı tipinde gösterildiği gibi) "hayal gücünüzü kullanmak" anlamına gelir. Yukarıdaki 5 seri resim için çıktı sonucu:

1. Hikaye: Erkek ve kız kardeş okulun ilk gününe hazırdılar. İlk günlerine gidip yeni arkadaşlarla tanışmaktan heyecan duydular. Annelerine ne kadar mutlu olduklarını söylediler. Çok şey yapacaklarını söylediler. Yeni arkadaşlar Sonra kalkıp arabaya binmeye hazırlandılar.

Hikaye 2: Kardeş, kız kardeşiyle konuşmak istemedi, kardeşler barıştılar, konuşmaya ve gülümsemeye başladılar, anne babaları geldi, onları görmekten mutlu oldular.

Açıkçası, "resimleri görmek ve hikayeleri anlatmak" ın öznelliği çok özneldir, bu da bu görev için standart şablonların eksikliğine neden olur.Örneğin, yukarıdaki resim seti tamamen farklı iki hikaye halinde derlenebilir.

Erken görsel anlatı araştırması (aslında, 16 veya 17 yıl) esas olarak görsel alt başlıkların başarısından esinlenmiştir. Gözlem veri çiftlerinin olasılığını en üst düzeye çıkarmak için hala eğitimden geçmekteydi.Sonuç, veritabanındaki ifade modeliydi. Sınırlı, ortaya çıkan anlatı sonuçları da çok basit ve düz. Bu sorunu çözmek ve insan tanımlarına daha benzer hikayeler üretmek için, Rennie ve diğerleri, gelişmiş öğrenme için bir çerçeve önermişlerdir. Bununla birlikte, görsel anlatım görevinde, yaygın geliştirme öğrenme yöntemleri esas olarak, stratejik aramayı teşvik etmek için önyargılı veya çok fazla olan dizi eşleştirme (BLEU, METEOR, ROUGE, CIDEr, vb.) İçin manuel ödüllere dayanmaktadır. Seyrek. Örneğin, bu makalenin yazarları karşılaştırma yapmak için makalede strateji öğrenmelerini güçlendirmek için ROUGE puanlarını ödül olarak kullandıklarında, ROUGE puanı önemli ölçüde arttığında, diğer puanların (BLEU, CIDEr, vb.) Onunla iyileşmediğini gördüler. 0'a düşebilir.

(Ortadaki dört satır, manuel ödüllere dayalı geliştirilmiş öğrenme modelleridir. XE-ss ve AREL (bu makalede önerilen model) daha sonra tartışılacaktır.)

Karşıt bir örnek aşağıdaki gibidir:

Birçoğuna sahip olmak için harika zaman geçirdik. Onlar arasında olacaklardı. İçinde olacaklardı. Ve o olacaktı. The, ve olacaktı.

Ortalama METEOR puanı 40,2'ye kadar çıkmaktadır, ancak diğer puanlar çok düşüktür. Bu, bu geleneksel manuel ödüllerin "resimleri görme ve hikayeler anlatma" görevinin ödül mekanizmasına bağlı olmadığını göstermektedir.

Yazar, bu sorunu çözmek için "ters pekiştirmeli öğrenmeden" ilham aldı ve Tartışmalı Ödül Öğrenimi (AREL) çerçevesini önerdi. Önceki yöntemle karşılaştırıldığında, geleneksel manuel ödül yöntemi artık burada kullanılmamaktadır, ancak bir ödül modeli eklenmiştir.Bu ödül modeli, strateji modelinin sonucunu optimize etmek için insan örnekleri aracılığıyla örtük ödül işlevini öğrenir. AREL çerçeve şeması aşağıdaki gibidir:

Peki bu model çerçevesi iyi mi?

Yazar, test için Ting-Hao K. Huang ve diğerleri tarafından 2016 yılında yayınlanan Görsel Hikaye Anlatma (VIST) veri kümesini kullanıyor. VIST veri seti, 10117 Flickr fotoğraf albümü (web fotoğraf albümleri) ve 210819 ayrı fotoğrafı içeren ilk sıralı vizyondan dile görev (görsel anlatım görevi dahil) veri setidir.

İyi veya kötü, değerlendirme kriterlerine bağlıdır. "Görsel anlatım" görevi için geleneksel olarak BLEU (B), METEOR (M), ROUGH-L (R) ve CIDEr (C) puanları değerlendirme göstergeleri olarak kullanılır. Karşılaştırma olarak, Huang ve diğerleri ve Yu ve diğerlerinin iki sonucuna ek olarak, yazar ayrıca şu ana kadarki en iyi iki modeli seçmiştir, biri XE-ss ve diğeri GAN modelidir. Bu makaledeki AREL modeli, XE-ss ile aynı strateji modelini kullanıyor, ancak aradaki fark, XE-ss modelinin ödül fonksiyonu olarak çapraz entropi kullanması, AREL'in ise özel bir ödül öğrenme modeline sahip olmasıdır.

Deneysel sonuçlardan, değerlendirme için geleneksel göstergeler kullanıldığında, AREL'in en azından en son teknolojiye ulaştığı ve hatta biraz iyileştiği görülebilir.

Ancak, kalplerindeki yazarlar artık bu geleneksel göstergelerin "görsel anlatı" görevinde iyi değerlendirme kriterleri olabileceğine inanmıyor gibi görünüyorlar.İnsanların bu tür yaratıcı çalışmalarda iyi veya kötü yargılamasına izin verilmesi gerektiğine daha fazla inanma eğilimindeler. Bu nedenle, Amazon Türk robotları üzerinde iki farklı insan değerlendirme deneyi yapmayı seçtiler: Döndürme testi ve ikili insan değerlendirmesi.

Turing testinde, her değerlendirici (işçi) aynı anda insan açıklamalı bir örnek ve makine tarafından oluşturulmuş bir örnek verecek ve hangisinin insan / makine tarafından oluşturulmuş olduğuna karar vermesine izin verecektir. Yazar, XE-ss, BLEU-RL, CIDEr-RL, GAN ve AREL'in beş modeli üzerinde bağımsız olarak Turing testleri gerçekleştirdi:

AREL modelinin sonuçlarının insan değerlendirmesinde diğer modellerin sonuçlarından çok daha iyi olduğu ve Win + Unsure oranının% 50'ye çok yakın olduğu görülüyor.

Yazar, öykünün anlamsal özelliklerindeki farklı algoritmalar arasındaki farklılıkları daha fazla karşılaştırmak için, sırasıyla AREL ve XE-ss, BLEU-RL, CIDEr-RL ve GAN olmak üzere dört çift karşılaştırma testi gerçekleştirdi. Karşılaştırma süreci, oluşturulmuş iki hikayeyi aynı anda değerlendiricilere sunmak ve onlardan üç yönden (alaka düzeyi, açıklayıcılık ve özgüllük) oy vermelerini istemektir. Örneğin, aşağıdaki örnek (deneyde İnsan yapımı hikaye yok, burada referans olarak görünüyor):

Alaka düzeyi, ifade gücü ve özgüllük açısından, (AREL: XE-ss: eşitlik) oylama sonuçları sırasıyla 5: 0: 0, 4: 0: 1 ve 5: 0: 0 idi. Tüm deneyin sonuçları aşağıdaki gibidir:

Bu ezici sonuç (en azından deneysel olarak) AREL modelinin ürettiği hikayenin alaka, ifade ve özgüllük açısından daha mükemmel olduğunu ve otomatik ölçüm ve değerlendirmede açıkça yansıtılmadığını göstermektedir.

Bir noktayı vurgulamalıyım: Yukarıdaki sonuçlar aynı zamanda geleneksel değerlendirme kriterlerinin daha fazla öznellik içeren görevlerde (görsel anlatım gibi) belirli bir dereceye kadar güvenilmez olduğunu da göstermektedir. Bu nedenle bir yandan görevde geleneksel otomatik değerlendirme kriterlerini kullanırken dikkatli olmalısınız; diğer yandan çok yüksek bir puan alsanız bile modelinizin iyi olduğu anlamına gelmez.

Bu makalenin önemini özetleyin:

1. Bu makale bir noktaya işaret ediyor: güçlü öznellik içeren görevlerde, geleneksel otomatik ölçütler eğitim veya değerlendirme açısından mutlaka uygun değildir;

2. Yukarıdaki sorunlara yanıt olarak yazar, insan değerlendirme testlerinde iyi performans gösteren ödüllü öğrenmeye karşı bir çerçeve önerir.

Kağıt adresi:

https://arxiv.org/abs/1804.09160

Öz

Son zamanlarda görsel altyazı koyma görevlerinde etkileyici sonuçlar elde edilmiş olsa da, fotoğraf akışlarından soyut hikayeler oluşturma görevi hala zor bir sorundur. Altyazıların aksine, hikayeler daha fazla dil ifade stiline sahiptir ve görüntülerde bulunmayan birçok kurgusal kavram içerir. Bu nedenle, davranışsal klonlama algoritmasına meydan okur. Buna ek olarak, öykülerin kalitesini değerlendirmek için otomatik göstergelerin sınırlamaları nedeniyle, manuel ödüllü pekiştirmeli öğrenme yöntemi de genel performans iyileştirmelerini elde etmede zorluklarla karşı karşıyadır. Bu nedenle, insan örneklerinden örtük bir ödül işlevini öğrenmek için bir Tartışmalı Ödül Öğrenimi (AREL) çerçevesi öneriyoruz ve ardından strateji aramasını optimize etmek için öğrenilen ödül işlevini kullanıyoruz. Otomatik değerlendirme, yöntemimizin uzman davranışını klonlamada son teknoloji (SOTA) yönteminden yalnızca biraz daha iyi olduğunu gösterse de, insan değerlendirmesi, yöntemimizin SOTA sisteminden daha çok insan benzeri öyküler üretme performansında önemli bir iyileşme gösterdiğini göstermektedir. .

Bu arada, insanları işe alıyoruz, öğrenelim mi?

BAT kıdemli algoritma mühendisleri için özel araştırma ve geliştirme kursları

Hayata ve işe en yakın eğlenceli pratik projeler

Profesyonel öğretim asistanları ile sınıf yönetimi yardımı

Bir teklif almak için öğrendiklerinizi uygulayın ve bitirdikten sonra istihdam önerin

Kodu tarayın veya öğrenmek için orijinal metni okumak için tıklayın!

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

"Kızıldeniz Operasyonu" çok yüksek bir üne sahip, gişede neden "Monster Catch 2" kadar iyi değil?
önceki
2017 Frankfurt Otomobil Fuarı: Audi RS4 Avant'ın tanıtımı
Sonraki
OPPO gizemli yeni makine teşhir: veya tam ekran + ekran parmak izi ile donatılmış
Zhao Benshan'ın "en çirkin" öğrencisi, görünüşü nedeniyle Bahar Şenliği Galası tarafından "karartıldı", Köpek Yılı için 95 puan
Ekran altı kazma cep telefonunun piyasaya sürülmesinden önce sizi en çok fethedebilecek Lenovo, Samsung veya Huawei hangisi?
2.Spor BANKASI Ödül Töreninde on iki ödül açıklandı
2017 Frankfurt Otomobil Fuarı: Yeni BMW 5 Serisi Seyahat Sürümü
Bu dört nedenden ötürü, Guo Degang'ın "The Nineteenth Generations of Ancestor" dizisinin sokakta olması gerekiyordu.
Üzücü hatırlatma Cook! Apple Watch 4'ün gişe rekorları kıran özelliği süresiz olarak geri döndü
Çinli şirket "Hacksaw Ridge" e denizaşırı yatırımlar yapıyor, ancak yerel bölgede imzalı ama tuhaf bir şekilde ortadan kayboluyor
Bahar Şenliği dosyasındaki en yüksek reytingli film, Bahar Şenliği olmasaydı, gişe "Wolf Warrior 2" yi kaybetmeyebilirdi.
Xiao Ai 3.5 yeni sürüm güncellemesi, "Microsoft Xiaobing" i çağırabilir, QQ müziğini destekleyebilirsiniz
Akademi Modelin yorumlanabilirliği üzerine derinlemesine düşünme: Nereden geldi ve nereye gitti?
Kendi kendine yapılan dramalar, filmler ve İnternet kapsamlı troikalarının tümü açık ve Mango Entertainment tüm medya hızlandırma moduna giriyor
To Top