ACM MM En İyi Bildiri Tam Metin: Çok Yönlü Eğitim Yoluyla Resimlerden Şiirler Üretin

Lei Feng.com'un AI teknolojisi inceleme notu: Multimedya bilgi işleme alanındaki en önemli akademik konferans olan ACM MM 2018 (ACM Uluslararası Multimedya Konferansı), 22-26 Ekim 2018 tarihleri arasında Güney Kore'nin Seul kentinde düzenlendi.

Konferans,% 27,61 kabul oranı ile toplam 757 bildiri sunumu ve 209 bildiri aldı; 64 bildiri sözlü sunum,% 8,45 oranıyla. En çok başvurunun olduğu alanlar "Anlama-Multimedya ve Görme", "Anlama-Derin Öğrenme Çoklu Ortam İşleme", "Anlama-Çok Modlu Analiz ve Açıklama", "Etkileşimli-Multimedya Arama ve Öneriler" dir. Başvuru sayısı sırasıyla 210 ve 167'dir. Bölüm 86, 79.

Kazanan makalelerin listesi

24 Ekim öğleden sonra, en iyi bildirilerin kazananları konferans sitesinde açıklandı.Leifeng.com'un AI Technology Review'in özeti aşağıdaki gibidir

En iyi gazetelerden biri

Anlatı Açıklamanın Ötesinde: Çok Çekişmeli Eğitimle Görüntülerden Şiir Üretmek

  • Anlatı tanımının ötesine geçin: çoklu yüzleşme eğitimi yoluyla görüntülerden şiir üretin

  • Kağıt adresi: https://dl.acm.org/authorize?N660819

  • Aşağıdaki makalenin tam metnine bakın

En iyi öğrenci kağıtlarından biri

Kalabalık Sahnelerde İnsanları Anlamak: Derinlemesine İç İçe Çekişmeli Öğrenme ve Çok İnsanlı Ayrıştırma için Yeni Bir Kriter

  • İnsanları yoğun senaryolarda anlamak: derinlemesine yerleşik düşmanca öğrenme ve yeni bir çok kişili analiz karşılaştırması

  • Kağıt adresi: https://dl.acm.org/authorize?N660810

En iyi iki demo belgesi

AniDance: Gerçek Zamanlı Dans Hareketi Şarkıya Sentezle

  • AniDance: Dans hareketlerinden gerçek zamanlı müzik üretimi

  • Kağıt adresi: https://dl.acm.org/authorize?N660964

AR-bot ile tanışın: Hareketli Uzaysal AR Robotu ile Her Zaman, Her Yerde Toplantı

  • Gelin ve AR-bot ile tanışın: Farklı alanlarda, her zaman, her yerde hareket edebilen AR robotlarla tanışın

  • Kağıt adresi: https://dl.acm.org/authorize?N660976

En iyi açık kaynak yazılım yarışmasının iki belgesi

Canlı: Görsel Derin Öğrenme için Sanal Ortam

  • Canlı: görsel derin öğrenme için sanal bir ortam

  • Kağıt adresi: https://dl.acm.org/authorize?N660990

Veri Paralel Akışları Kullanan Genel Amaçlı Dağıtılmış Programlama Sistemi

  • Paralel veri akışları kullanan genel amaçlı dağıtılmış bir dönüşüm sistemi

  • Kağıt adresi: https://dl.acm.org/authorize?N660991

ACM TOMM dergilerindeki en iyi makalelerden biri

Kolektif Zekadan Öğrenmek: Sosyal İmaj ve Etiketleri Kullanarak Öğrenmeyi Öne Çıkarın

  • Kolektif bilgelikten öğrenme: Özellikleri öğrenmek için sosyal görselleri ve etiketleri kullanın

  • Kağıt adresi: https://dl.acm.org/citation.cfm?id=2978656

En İyi Tam Metin Okuma

ACM MM 2018'in en iyi makalesi "Anlatının Ötesinde Açıklama: Çok Tartışmalı Eğitimle Görüntülerden Şiir Oluşturmak", Kyoto Üniversitesi ve Microsoft Research Asia arasında bir işbirliğidir. Aşağıda, Microsoft Research Asia tarafından sağlanan makalenin Çince sürümünün tam metni yer almaktadır.

Özet

Görüntülerden otomatik olarak doğal dil üretme teknolojisi yaygın bir ilgi gördü. Bu makalede, bir adım daha ileri gidiyoruz ve otomatik şiir yaratmak için resimlerden şiir dilinin nasıl üretileceğini inceleyeceğiz. Bu çalışma, imgelerdeki şiirsel ipuçlarını keşfetmek (örneğin, yeşilin içerdiği umut) ve hem imgelerin alaka düzeyini hem de dil şiirini tatmin eden şiir üretmeyi içeren bir dizi zorluğu içerir. Yukarıdaki sorunları çözmek için, modlar arası uygunluğu ve şiir dili stilini sağlamak için, şiir oluşturma çalışmasını strateji gradyanı aracılığıyla birbiriyle ilişkili iki çok çekişmeli eğitim alt görevine ayırıyoruz. Resimlerden şiirsel ipuçları çıkarmak için, makinelerin resimlerdeki nesnelerin, duyguların ve sahnelerin şiirsel sunumunu ortaklaşa öğrenebildiği, derinlemesine bağlı görsel şiirsel düğünleri öğrenmeyi öneriyoruz. Bu makale aynı zamanda şiir üretimine rehberlik eden, multimodal ayrımcı ve şiir stili ayırt ediciyi içeren iki ayrımcı ağı tanıtıyor. Araştırmanın rahatlığı için, insan açıklamaları aracılığıyla iki şiir veri kümesi topladık. Aşağıdaki özelliklere sahipler: 1) Birincisi, insan açıklamalı "görüntü-şiir" çiftlerinin (toplam 8.292 çift) veri kümesidir ve şimdiye kadar 2) En büyük halka açık İngilizce şiir külliyat veri seti (toplam 92.265 farklı şiir). 8.000 görüntü oluşturmak için kendi modelimizi uyguladık ve 1.500 görüntü değerlendirme için rastgele seçilen büyük ölçekli deneyler yürüttük. Hem nesnel değerlendirme hem de öznel değerlendirme, bu yöntemin en gelişmiş görüntü oluşturma şiir yöntemlerine kıyasla iyi performans gösterdiğini göstermektedir. Turing testini, 30'u profesyonel şiir alanında olmak üzere 500 insandan istedik ve test sonuçları yöntemimizin etkinliğini kanıtladı.

1. Giriş

Son zamanlarda, hem vizyonu hem de dili içeren araştırmalar büyük ilgi gördü ve resim tanımlaması üzerine yapılan araştırmaların sayısı (resim altyazı teknolojisi ve resim oluşturma denemeleri gibi) patlayıcı bir büyüme gösterdi. . Görüntü tanımlama araştırması, görüntülere dayalı olarak insan dilinde gerçekleri tanımlayan cümleler oluşturmayı amaçlamaktadır. Bu makalede, bir adım daha ileri gidip daha bilişsel bir çalışmayı tamamlamayı umuyoruz: şiir yaratma amacıyla imgelere dayalı şiir dili yaratmak. Bu çalışma araştırma camiasında ve endüstride büyük ilgi uyandırdı.

Şekil 1: Aynı görüntü üzerine insanlar tarafından yazılan örnek açıklamalar ve şiirler. İki formdaki aynı renkteki kelimelerin açıkça farklı olduğunu görebiliriz. Şiir, imgelerdeki gerçekleri betimlemek yerine, imgelerdeki nesnelerin, sahnelerin ve duyguların daha derin anlamlarını ve şiirsel sembollerini yakalama eğilimindedir (örneğin, şövalyeler ve şahinler, avlanma ve gönderme ve yeme, kalma ve ayakta kalma).

Doğal dil işleme alanında şiir üretimi konusu incelenmiştir. Örneğin, içinde yazar esas olarak stil ve ritmin kalitesine odaklanır. Bu makalede, bu çalışmalar daha çok temalara dayalı şiir üretmeye odaklanıyor. Facebook, endüstride İngilizce kafiye şiirleri üretmek için sinir ağlarının kullanılmasını önerdi.Microsoft, en önemli işlevlerinden biri şiir üretmek olan "Xiaobing" adlı bir sistem geliştirdi. Bununla birlikte, görüntülerden uçtan uca şiirler üretmek hala yeni bir konu ve büyük zorluklarla karşı karşıya.

Görüntü başlığı teknolojisi ve görüntü oluşturma denemelerinin odak noktası, imgeler hakkında açıklayıcı cümleler oluşturmaktır, şiir dilinin oluşturulması ise daha zorlu bir problemdir. Görsel sunum ile şiirsel semboller arasında, imgelerle uyarılabilen ve şiirin daha iyi üretilmesine yardımcı olan daha büyük bir mesafe vardır. Örneğin, resim tanımındaki "kişi" şiir yaratımındaki "umudu" sembolize etmek için "parlak güneş ışığı" ve "açık kollar" kullanabilir veya "yalnızlığı" sembolize etmek için "boş sandalye" ve "karanlık" arka plan kullanabilir. Şekil 1, aynı görüntünün açıklaması ile şiiri arasındaki farkı göstermek için somut bir örnek verir.

Bir görüntüden şiir üretmek için, özellikle aşağıdaki üç zorlukla yüzleşmemiz gerekir: Birincisi, konuya dayalı şiir üretmeye kıyasla, bu, modlar arası bir sorundur. Resimlerden şiir oluşturmanın sezgisel bir yolu, ilk önce görüntüden anahtar sözcükler veya açıklayıcı metin çıkarmak ve ardından bu anahtar sözcükleri veya açıklayıcı metni, temalardan şiir oluşturmak gibi şiir oluşturmak için tohum olarak kullanmaktır. Bununla birlikte, anahtar kelimeler veya açıklayıcı metin, şiir üretimi için önemli olan şiir ipuçlarından bahsetmemekle birlikte, birçok görüntü bilgisini kaybedecektir. İkincisi, resim yazısı teknolojisi ve görüntü oluşturma denemeleri ile karşılaştırıldığında, görüntülerden şiir üretmek daha öznel bir görevdir, bu da aynı görüntünün farklı yönlerden birden çok şiire karşılık gelebileceği anlamına gelirken, görüntü alt yazı teknolojisi / görüntü oluşturma denemeleri daha fazladır. Gerekçe, görüntüdeki gerçekleri tanımlamak ve benzer cümleler üretmektir. Üçüncüsü, ayetin şekli ve üslubu anlatı cümlesinden farklıdır. Bu çalışmada, esas olarak açık bir şiir biçimi olan özgür şiirle ilgileniyoruz. Ölçü, ritim veya diğer geleneksel şiir tekniklerine ihtiyacımız olmasa da, yine de şiirsel yapıya ve şiirsel dile ihtiyacımız var. Bu çalışmada bu niteliği şiirsel olarak tanımlıyoruz. Örneğin şiirlerin uzunluğu genel olarak sınırlıdır; imge betimlemelerine göre şiirler genellikle belirli sözcükleri tercih eder; şiirlerdeki cümlelerin aynı konuyla ilgili ve tutarlı olması gerekir.

Yukarıdaki zorlukların üstesinden gelmek için, insan açıklamalı iki şiir veri seti topladık ve tek bir sistemde entegre bilgi alma ve üretme teknolojileri aracılığıyla şiir yaratımı üzerinde çalıştık. Şiir oluşturmada imgelerin şiir ipuçlarını daha iyi incelemek için, ilk önce görüntü CNN özelliklerini kullanarak derinlemesine bağlı görsel şiir gömme modelini ve binlerce imge-şiir çifti içeren çok modlu şiir veri kümesini (yani, "multimodal Şiirlerdeki atlama düşünce vektörü özellikleri "). Daha sonra bu gömme modelini daha büyük bir imge monomodal şiir külliyatından (yani, "monomodal şiir antolojisi") ilgili ve farklı şiirleri almak için kullanırız. Bu geri alınan şiirlerin resimleri, çok-modelli şiir koleksiyonuyla birlikte, büyütülmüş bir görüntü-şiir çifti veri setini (yani "çok-modelli şiir koleksiyonu (EX)") oluşturur. Çok modlu şiir koleksiyonu (EX) veri setinde uçtan uca şiir üretme modeli eğitmek için en son sekans öğrenme teknolojisini kullanmayı da öneriyoruz. Bu mimari, şiir üretimi için çok önemli olan genişletilmiş imge-şiir çiftinden çok sayıda şiir ipucunu keşfedip şekillendirebilmemizi sağlıyor.

Uzun bir dizinin (tüm şiir satırları bir arada) neden olduğu maruz kalma önyargısı sorunundan kaçınmak ve şiirlerin üretimini nicel olarak değerlendirmek için özel bir kayıp işlevi bulunmaması için, çok düşmanlı bir eğitim şiir üretme tekrarlayan sinir ağı (RNN) kullanmayı ve politika gradyanını kullanmayı öneriyoruz. Daha da optimize edin. Üretilen şiirin belirli bir imge ve üretilen şiirin şiiriyle ilgisini ödüllendirmek için iki ayrımcı ağ kullanıyoruz. Multimodal şiir antolojileri, monomodal şiir antolojileri ve multimodal şiir antolojileri (EX) üzerine deneyler yapıyor, görüntülere dayalı şiirler üretiyor ve üretilen şiirleri otomatik ve yapay bir şekilde değerlendiriyoruz. Uygunluk, yenilik ve yorumun tutarlılığına ilişkin otomatik değerlendirme kriterleri tanımladık ve üretilen şiirleri temel yöntemle üretilenlerle karşılaştırmak için alaka düzeyi, tutarlılık ve hayal gücü üzerine kullanıcı araştırması yaptık. Bu araştırmanın sonuçları şu şekildedir:

  • Resimlerden otomatik olarak şiirler (İngilizce ücretsiz şiirler) üretmeyi öneriyoruz. Bildiğimiz kadarıyla, bu, makinelerin bilişsel çalışmalarda insanlara yaklaşabilmesini sağlayan genel çerçeve içinde İngilizce serbest şiirinde görüntü üretimi sorununu incelemeye yönelik ilk girişimdir.

  • Derinlemesine bağlı görsel şiirsel yerleştirme modelini, çapraz modal korelasyon ve şiir için ödüller sağlamak için iki ayırt edicinin birden fazla yüzleşmeyle eğitildiği RNN tabanlı ortak öğrenme üreteci ile birleştiriyoruz.

  • İlk insan açıklamalı görüntü-şiir çifti veri kümesini ve en büyük genel şiir külliyat veri kümesini topladık. Otomatik ve manuel değerlendirme kriterlerinin uygulanması yoluyla (500'den fazla insan denek üzerinde gerçekleştirilen Turing testi dahil), çok sayıda deney, yöntemimizin birkaç temel yöntemden daha etkili olduğunu kanıtlamıştır. İmge oluşturma şiirinin araştırılmasını daha iyi teşvik etmek için, bu veri setlerini yakın gelecekte yayınlayacağız.

2. İlgili çalışma

2.1 Şiir üretimi

Geleneksel şiir üretme yöntemleri arasında şablon ve gramer tabanlı yöntemler, kısıt optimizasyonu altında nesil indüksiyonu ve istatistiksel makine çevirisi modelleri bulunur. Son yıllarda derin öğrenme uygulamasıyla şiir üretme teknolojisi üzerine araştırmalar yeni bir aşamaya girmiştir. Tekrarlayan sinir ağları şiir üretmek için yaygın olarak kullanılır (okuyucular bu şiirlerin makineler tarafından mı yoksa şairler tarafından mı üretildiğini söyleyemez). Önceki şiir nesli çalışmaları esas olarak şiirin tarzı ve ritim kalitesine odaklanırken, son araştırmalar şiir üretimi için koşullar olarak temaları tanıttı. Bir şiir için konu, belirli bir sahne olmadan hala soyut bir kavramdır. Şairlerin belirli sahnelerde olduğu ve belirli sahneleri seyrettiği bir çok şiir yaratıldı, bundan esinlenerek bir adım daha ileri giderek görsel sahnelerden esinlenerek şiir üretme sorununu çözmeye çalıştık. Önceki araştırmalarla karşılaştırıldığında, çalışmamız, özellikle çok modlu sorunları ele alırken daha fazla zorlukla karşı karşıyadır.

2.2 Resim açıklaması

Resim yazısı teknolojisi, başlangıçta, belirli bir resim için bir veri kümesinden metin açıklamalarını aramanın bir geri getirme problemi olarak görülüyordu, bu nedenle tüm resimler için doğru ve uygun açıklamalar sağlayamıyor. Bu sorunu çözmek için, bazı insanlar, insan tarafından okunabilir cümleler oluşturmak için şablon doldurma ve evrişimli sinir ağı (CNN) ve tekrarlayan sinir ağı (RNN) paradigmalarını kullanmayı önermektedir. Son zamanlarda, Generative Adversarial Networks (GAN), farklı sorun geçmişlerine dayalı açıklayıcı metinler oluşturmak için kullanılmaktadır. Resim altyazı teknolojisine benzer şekilde, resim oluşturma denemeleri de benzer gelişmelere sahiptir. Görüntü oluşturma denemeleri üzerine yapılan son araştırmalar, ağırlıklı olarak bölge tespiti ve oluşturulan cümlelerin hiyerarşik yapısına odaklanmaktadır. Bununla birlikte, söylediğimiz gibi, resim yazısı teknolojisi ve görüntü oluşturma denemeleri, görüntü gerçeklerini ifade eden açıklayıcı cümleler oluşturmak için tasarlanırken, şiir üretimi şiirsel ve dil tarzı kısıtlamaları gerektiren üst düzey bir dil formuyla ilgilenir.

3 yöntem

Bu araştırmada amacımız imgelere dayalı şiirler üretmek, oluşturulan şiirleri girdi imgesi ile ilişkilendirmek ve şiirsel gereksinimleri karşılamaktır. Bu amaçla, sorunu çok çekişmeli bir eğitim ve öğrenme sürecine dönüştürüyor ve daha da optimize etmek için politika gradyanlarını kullanıyoruz. CNN-RNN üretici modeli, bir ajan olarak kullanılır. Temsilcinin parametreleri bir politika oluşturur ve bu politikanın uygulanması hangi kelimelerin eylem olarak seçileceğini belirleyecektir. Temsilci bir şiirdeki tüm kelimeleri seçtiğinde, bir ödül sağlar. Oluşturulan şiirlerin giriş resmiyle eşleşip eşleşmediğini ve üretilen şiirlerin şiirsel olup olmadığını belirlemek için iki ayırt edici ağ tanımlıyoruz ve bunun için ödül sağlıyoruz. Şiir üretme modelimizin amacı, beklenen nihai ödülü en üst düzeye çıkarmak için bir imge için bir dizi şiir kelimesi üretmektir. Farklılaştırılamaz kriterleri olmayan birçok görev için, bu strateji gradyanının son derece etkili olduğu kanıtlanmıştır.

Şekil 2: Çok düşmanlı eğitim kullanarak şiir üretme mimarisi. Derin bir şekilde bağlanmış görsel şiirsel gömme modelini (e) eğitmek için ilk olarak görüntü-şiir çiftini (a) insan açıklama eşlemesinin (çok modlu şiir koleksiyonu) görüntü-şiir veri kümesinde kullanıyoruz. Konuşma parçası analizörü (Stanford Üniversitesi'nin NLP aracı) şiirlerden şiir sembollerini (nesneler, sahneler ve duygular gibi) çıkarır. Görüntü özelliği (b), bu çıkarılan semboller kullanılarak CNN'de ince ayar yapıldıktan sonra elde edilen şiirin CNN özelliğidir. Şiirin cümle özelliği (d), en büyük kamusal şiir külliyatında (monomodal şiir külliyatı) eğitilmiş atlama-düşünce modelinden (c) çıkarılmıştır. RNN tabanlı cümle oluşturucu (f) bir ajan olarak eğitilmiştir ve iki ayırıcı (belirli bir görüntüden üretilen şiirin çok modalitesini (g) ve şiir stilini (h) değerlendirerek) strateji gradyanı (i) için ödüller sağlar. . Konuşma bölümü çözümleyicisi, şiirlerden sözcüklerin bir kısmını çıkarır.

Şekil 2'de gösterildiği gibi, mimari birkaç bölümden oluşur: (1) görüntülerin şiirsel sunumunu öğrenmek için kullanılan derinlemesine bağlı bir görsel şiirsel gömme modeli (e) ve (2) strateji gradyan optimizasyonu için çok-düşmanca eğitim. İki ayrımcı ağ (g ve h), RNN'lere dayanır ve politika gradyanları için ödül sağlamak için aracılar olarak hareket eder.

3.1 Derinden bağlı görsel şiirsel yerleştirme

Görsel şiirsel yerleştirme modelinin amacı, farklı modalitelerin (görüntüler ve cümleler gibi) noktalarının haritalanabileceği gömme alanını öğrenmektir. Bir çift imge ve şiirin aynı şiirsel semantiği paylaştığını varsayarak, görüntü başlığı teknik problemine benzer bir yöntem kullanıyoruz, böylece gömme alanı öğrenilebilir. Görüntüleri ve şiirleri aynı özellik uzayına yerleştirerek, bir şiir ile bir görselde sunulan şiir vektörü arasındaki ilişkiyi doğrudan hesaplayabiliriz. Ek olarak, şiir üretmede şiir ipuçlarının optimal sunumunu başlatmak için gömülü özellikleri daha fazla kullanabiliriz.

Derinden bağlı görsel şiirsel gömülü modelimizin mimarisi Şekil 2'nin sol kısmında gösterilmektedir. Görüntü girişi için, görüntü oluşturma şiirinin önemli faktörleri hakkında kullanıcı araştırması yaptıktan sonra, derin bir evrişimli sinir ağı (CNN) - ağ kullandık ve görüntüdeki önemli şiir ipuçlarının üç yönünü sembolize ettik (yani öğeler (v1), Sahne (v2) duygu (v3) ile ilgilidir.Şiirdeki kavramların genellikle hayali ve şiirsel olduğunu ve CNN modelini eğitmek için kullandığımız sınıflandırma veri setindeki kavramların spesifik ve sıradan olduğunu gözlemliyoruz. Görsel ifade ve şiirsel metin ifadesi arasındaki anlamsal farklılık için, bu üç ağda ince ayar yapmak için çok modlu şiir veri kümelerini kullanmayı öneriyoruz.Şiirdeki nesneler, duygular ve sahnelerle ilgili ortak anahtar kelimeleri etiket kelimeleri olarak seçip daha fazlasını kullanıyoruz Modal şiir veri setine dayanarak, nesnelerin, duyguların ve sahnelerin tespiti için üç adet çok etiketli veri seti oluşturuldu.Çok etiketli veri seti tamamlandıktan sonra, üç veri setinde önceden eğitilmiş CNN modeline ince ayar yaptık. Denklem (1) 'de gösterilen S-şekilli çapraz entropi kaybı ile optimize edilir. Daha sonra, CNN modelinin sondan bir önceki tamamen bağlı katmanının tüm yönleri için D-boyutlu derin özellikleri benimser ve birleştirilmiş N-boyutlu elde ederiz. (N = D × 3), her görüntünün görsel şiirsel yerleştirmesinin girdisi olarak vektör v (v RN) özelliğini içerir:

Bunların arasında, tam bağlı katman çıktısını v1, v2 ve v3'ün özellikleri olarak kullanıyoruz. Görsel şiirsel yerleştirmenin çıktı vektörü x, görüntü özelliklerinin doğrusal eşlemesinin görüntü gömülmesini temsil eden K boyutlu bir vektördür:

Bunların arasında, WvRKxN görüntü gömme matrisidir ve bvRK görüntü sapma vektörüdür. Aynı zamanda şiirin ifade öznitelik vektörü, şiir cümlesinin düşünce atlama ortalama değerine göre hesaplanır. Şekilde gösterildiği gibi daha iyi performans gösterdiğinden, M boyutlu bir vektörle (t RM olarak gösterilir) Combine-skip kullanıyoruz. Düşünce atlama modeli, monomodal şiir veri kümesi üzerinde eğitilmiştir. Görüntü yerleştirmeye benzer şekilde şiir yerleştirme şu şekilde ifade edilir:

Bunlar arasında, WtRKxM şiir gömme matrisini temsil eder ve btRK şiir sapma vektörünü temsil eder. Son olarak, iç çarpım benzerliği, her bir çiftin sıralama kaybını en aza indirmek için kullanılır, böylece görüntü ve şiir birlikte yerleştirilir:

Bunlar arasında mk, x imgesinin gömülmesi için kullanılan karşılaştırmalı bir çalışmadır (ilgisiz, eşleşmemiş) şiirdir ve xk bunun tam tersidir. , kontrast marjını temsil eder. Bu nedenle, eğittiğimiz model, orijinal görüntü-şiir çiftinin gömme özellikleri arasında rastgele oluşturulan çifte göre daha yüksek bir kosinüs benzerliğine sahip olacaktır (iç çarpımın benzerliği ile tutarlıdır).

3.2 Bir ajan olarak şiir üreteci

Yöntemimizde bir aracı olarak geleneksel CNN-RNN resim yazısı teknolojisi modeli kullanılmaktadır. Son zamanlarda görüntü oluşturma denemelerinde birden çok cümle oluşturmak için kullanılan hiyerarşik yöntemi kullanmadık, bunun yerine cümle sonunu kelime haznesindeki bir kelime olarak ele alarak hiyerarşik olmayan özyinelemeli modeli kullandık. Bunun nedeni şiirin genellikle paragraflardan daha az kelime içermesidir. Ayrıca şiir eğitiminde cümleler arası tutarlılık düzeyi daha düşüktür, bu da cümle düzeylerini öğrenmeyi zorlaştırır. Deney yapmak için temel olarak hiyerarşik özyinelemeli dil modelini de kullandık ve sonuçları deneysel bölümde göstereceğiz.

Oluşturulan modeller, görüntü kodlayıcı CNN'leri ve şiir kod çözücü RNN'yi içerir. Bu çalışmada, kod çözücü olarak kapılı döngüsel birim kullanıyoruz. Görüntü girdi kodlayıcısı olarak Bölüm 3.1'de gösterilen derinlemesine bağlı görsel şiirsel gömme modeli aracılığıyla öğrenilen görüntü gömme özelliklerini kullanıyoruz. 'nin modelin bir parametresi olduğunu varsayalım. Geleneksel olarak amacımız, gözlenen cümlenin benzerliğini maksimize ederek öğrenmektir y = y1: TY * (burada T, oluşturulan cümlenin maksimum uzunluğudur (cümlenin başlangıcı ve cümlenin sonu dahil), Ve Y *, seçilen kelimenin tüm sıra boşluklarını temsil eder).

R (y1: t) t zamanında elde edilen ödülü temsil etsin ve R (y1: T) kümülatif ödül, yani R (yk: T) =

. Önceki tüm y1: (t-1) kelimeleri verildiğinde, t anında yt'yi seçmenin parametre koşullu olasılığı p (yt | y1: (t-1)) olsun. p, politikasının bir parametre fonksiyonudur. Her partinin politika gradyanı ödülü, beklenen gelecekteki ödül olarak tüm etkili eylem dizilerinin toplamı olarak hesaplanabilir. Tüm olası eylem dizilerini yinelemek katlanarak büyür, ancak bunu beklentinin içine yazabiliriz, böylece ona yaklaşmak için tarafsız bir tahminci kullanabiliriz:

Gradyanını takip ederek J () 'yi maksimize ederiz:

Uygulamada, beklenen gradyan bir Monte Carlo örneği kullanılarak yaklaşık olarak tahmin edilebilir.Kullanım yöntemi şu şekildedir: t'nin 1'e T'ye eşit olduğu p (yt | y1: (t-1) model dağılımından her yt'yi sırasıyla örnekleyin Yukarıda bahsedildiği gibi, temel b, beklenen gradyanı değiştirmeden gradyan tahmininin varyansını azaltmak için eklenebilir. Bu nedenle, tek bir numunenin beklenen gradyanı yaklaşık olarak şuna eşittir:

3.3 Ödül olarak ayrımcı

İyi bir imge şiiri en az iki kriteri karşılamalıdır: şiir (1) imge ile ilgilidir ve (2) uygun uzunluk, şiirsel dil tarzı ve dizelerin tutarlılığı açısından şiir anlayışına sahiptir. Bu iki gerekliliğe göre, şiir üretimine rehberlik etmek için iki ayrımcı ağ öneriyoruz: çok-modlu ayırıcı ve şiir stili ayırt edici. Derin ayrımcı ağın, özellikle iyi bir kayıp işlevi kuramayan görevler için metin sınıflandırma görevlerinde oldukça etkili olduğu kanıtlanmıştır. Bu makalede, önerdiğimiz iki ayrımcının, bir pozitif kategori ve birden çok negatif kategori dahil olmak üzere birden çok kategorisi var.

Çok modlu ayırıcı: Oluşturulan şiir y'nin giriş görüntüsü x ile eşleşip eşleşmediğini kontrol etmek için, (x, y) üç kategoriye sınıflandırmak için çok modlu bir ayırıcı (Dm) eğitiyoruz: eşleşen, eşleşmeyen ve oluşturulan . Dm, çok modlu bir kodlayıcı, bir modal füzyon katmanı ve softmax işlevine sahip bir sınıflandırıcı içerir:

Bunların arasında Wx, bx, Wc, bc, Wm, bm öğrenilecek parametrelerdir, eleman seviyesinde çarpımdır ve Cm çok modlu ayırıcının üç tip olasılığını temsil eder. Ayırıcıyı eğitmek için GRU'ya dayalı bir cümle kodlayıcı kullanıyoruz. Denklem 11, (x, y her kategoriye sınıflandırılır, Cm (c | x, y) ile temsil edilir), burada c {uyuşmazlığı, uyuşmazlığı, üretilen} olasılığını oluşturmak için bir yöntem sağlar.

Şiir stili ayırt edici. Metrik, ritim ve diğer geleneksel şiir tekniklerini vurgulayan şiir üretimi üzerine yapılan çoğu araştırmanın aksine, açık bir şiir biçimine - özgür şiire odaklanıyoruz. Bununla birlikte, Bölüm 1'de belirtildiği gibi, ürettiğimiz şiirin şiirsel özelliklere sahip olmasını istiyoruz. Şiir için belirli şablonlar veya kurallar belirlemedik, ancak üretilen şiiri insanın yaratılış yönüne doğru yönlendirmek için bir şiirsel stil ayrımı (Dp) önerdik. Dp'de, üretilen şiirler dört kategoriye ayrılacaktır: şiirsel, düzensiz, paragraflı ve oluşturulmuş.

Şiirsel kategoriler, şiirsel standartları karşılayan olumlu örneklerdir. Diğer üç kategori olumsuz örnekler olarak kabul edilir. Bozukluk kategorisi ayetler arası iç yapı ve tutarlılıkla ilgili iken, paragraf kategorisi olumsuz örnek olarak kabul edilen paragraf cümlelerini kullanır. Dp'de, tek biçimli şiiri olumlu bir şiir örneği olarak kullanıyoruz. Düzensiz bir şiir kategorisi oluşturmak için, önce tek modlu şiir koleksiyonundaki tüm şiirleri bölerek bir ayet havuzu oluşturduk. Ayet havuzundan makul sayıda dizeye sahip ayetleri rastgele seçip düzensizliğin bir örneği olarak şiiri yeniden inşa ediyoruz. Sağlanan paragraf veri seti, bir paragraf örneği olarak kullanılır.

Üretilen şiirinin tamamı GRU tarafından kodlanır ve tamamen bağlantılı bir katmana ayrıştırılır ve ardından softmax işlevi dört kategoriye ayrılma olasılığını hesaplamak için kullanılır. Bu işlemin formülü aşağıdaki gibidir:

Cp = softmax (Wp GRU (y) + bp), (12)

Bunlar arasında , Wp, bp öğrenilmesi gereken parametrelerdir. Üretilen şiirin c kategorisine sınıflandırılma olasılığı Cp (c | y) ile hesaplanabilir, burada c {şiirsel, düzensiz, paragraf, üretilmiştir}.

Ödül işlevi. Politika gradyanının ödül işlevini, oluşturulan şiir y'nin (giriş görüntüsü x'e göre oluşturulmuş) pozitif kategoride sınıflandırılma olasılığının doğrusal bir kombinasyonu olarak tanımlıyoruz (çok modlu ayırıcı Dm'nin eşleşen sınıfı ve şiir stili ayırıcı Dp'nin şiirsel sınıfı) , Ve sonra ağırlıklandırma parametresi ile ağırlıklandırılır:

R (y | ) = Cm (c = çiftli | x, y) + (1-) Cp (c = şiirsel | y). (13)

3.4 Çok çekişmeli eğitim

Çekişmeli eğitimden önce, jeneratör için daha iyi bir strateji başlatma sağlamak üzere jeneratörü önceden eğitmek için görüntü başlığı oluşturma teknolojisini kullandık. Oluşturucu ve ayırıcı, rakip bir şekilde yinelemeli olarak güncellenir. Üreticinin amacı, kriterleri karşılayan şiirler üretmektir, böylece her iki ayrımcı da daha yüksek ödüller kazanır, böylece ayırıcıyı aldattıklarında, ayırt edici, üretilen şiiri eşleşen şiir ve şiirden nasıl ayırt edeceğini öğrenmek için eğitilebilir. Şiir. Yukarıda açıklandığı gibi, üretilen şiirlerin iki ayırıcıda pozitif olarak sınıflandırılma olasılığı, politika gradyanı için bir ödül olarak kullanılır.

Gerçek verilerden olumlu örnekler (Dm'de eşleşen şiirler ve Dp'de şiirsel şiirler) ve jeneratör tarafından üretilen şiirlerden ve diğer gerçek verilerden olumsuz örnekler (Dm'de eşsiz şiirler ve Dp'de paragraflar) kullanıyoruz. Sınıf şiirleri ve düzensiz şiirler) çoklu ayrımcıları eğitmek için (bu makalede iki tane). Aynı zamanda, strateji gradyanı ve Monte Carlo örneklemesi kullanılarak, jeneratör, çeşitli ayırt ediciler tarafından sağlanan beklenen ödüllere göre güncellenir. İki ayrımcıya sahip olduğumuz için, aynı anda iki ayrımcıyı eğitmek için çok çekişmeli eğitim kullandık.

Tablo 1: Üç veri setinin ayrıntıları. İlk iki veri seti tarafımızdan toplanır ve üçüncüsü VPE genişlemesinden türetilir.

4 deney

4.1 Veri seti

Görüntülerden şiir üretme araştırmasını teşvik etmek için, biri görüntü ve şiir çiftlerini içeren, yani multimodal şiir veri kümesi (multimodal şiir koleksiyonu) ve diğeri büyük bir şiir külliyatı, yani tek olan iki şiir veri kümesi topladık. Modal şiir veri kümesi (monomodal şiir koleksiyonu). Gereksiz şiir külliyatından üç komşu şiir ekleyerek imge ve şiir çiftlerini genişletmek için kendi eğitimli gömme modelimizi kullanıyoruz.

Tablo 1: Üç veri setinin ayrıntıları. İlk iki veri seti tarafımızdan toplanır ve üçüncüsü VPE genişlemesinden türetilir. Ve çok modlu şiir koleksiyonu (EX) adı verilen genişletilmiş bir imge-şiir çifti veri kümesi oluşturdu. Bu veri setlerinin ayrıntılı bilgileri Tablo 1'de gösterilmektedir. Toplanan iki veri setinin örnekleri için Şekil 3'e bakın. İmge oluşturma şiirinin araştırılmasını daha iyi teşvik etmek için, bu veri setlerini yakın gelecekte yayınlayacağız.

Çok modlu şiir veri kümesi için, önce Flickr'daki çeşitli gruplardan 34.847 görüntü-şiir çiftini taradık (bu gruplar, insanlar tarafından yazılan şiirlere illüstrasyonlar eklemeye çalıştı). Daha sonra, İngiliz edebiyatı alanında uzman beş insan değerlendiriciden, bu şiirlerin görüntülerle ilgili olup olmadığını değerlendirmelerini istedik: Yargılama standardı şudur: görüntülerin aynı şiir grubuna doğru bir şekilde ilham verip veremeyeceğine karar vermek için nesneleri, duyguları ve sahneleri kapsamlı bir şekilde değerlendirmek. İlgisiz olarak işaretlenen görüntü-şiir çiftlerini filtreledik ve kalan 8,292 çifti çok modlu bir şiir veri kümesi oluşturmak için tuttuk.

Monomodal şiir koleksiyonları Poetry Foundation, PoetrySoup, best-poem.net ve poets.org gibi çeşitli halka açık çevrimiçi şiir web sitelerinden taranmaktadır. Yeterli model eğitimi elde etmek için, şiirleri çok fazla satır (10 satırdan fazla) veya çok az (3 satırdan az) ile filtrelemek için önceden işledik. Ayrıca bilinmeyen metinler, İngilizce dışındaki diller ve tekrarlanan şiirleri içeren şiirleri de kaldırdık.

4.2 Karşılaştırma yöntemi

Önerilen yöntemin etkinliğini incelemek için, dört temel yöntemi farklı ayarlarla karşılaştırdık. Görüntü ayrımcılık modelini ve SeqGAN'ı seçtik çünkü bunlar görüntü altyazı teknolojisindeki en son araştırma sonuçlarıdır. Karşılaştırmalı bir görüntü oluşturma kısa deneme modeli seçtik çünkü çeşitli görüntü içeriğini taklit etme konusunda güçlü bir yeteneğe sahip. Lütfen tüm yöntemlerin eğitim veri seti olarak çok modlu şiir (EX) kullandığını ve çok satırlı şiirler üretebileceğini unutmayın. Spesifik yöntemler ve deneysel ayarlar aşağıdaki gibidir:

Görüntü Tanıma (1CNN): Yalnızca CNN öğesi kullanılır ve CNN-RNN modeli VGG-16 aracılığıyla eğitilir.

Göster-tanımla (3CNN'ler): Üç CNN özelliği kullanılarak, CNN-RNN modeli VGG-16 aracılığıyla eğitildi.

SeqGAN: CNN-RNN modeli, bir ayırt edici (üretilen şiirleri gerçek kişiler tarafından oluşturulan şiirlerden ayırmak için kullanılan bir ayırıcı) kullanılarak optimize edilmiştir.

Bölgesel seviye: Model, seviye paragrafına göre oluşturulur. Şiir dağılımıyla daha tutarlı olabilmek için deneyde maksimum satır sayısını 10 satırla ve satır başına maksimum kelime sayısını 10 ile sınırlandırıyoruz.

Modelimiz: İki ayırt edicinin etkinliğini kanıtlamak için, modelimizi dört bağlamda eğitiyoruz (GAN, I2P-GAN görüntüsünü şiire kullanarak): ayrımcı olmayan önceden eğitilmiş bir model (I2P-GAN w / o Discriminator), yalnızca çok modlu bir ayırıcıya sahip bir eğitim modeli (I2P-GAN w / Dm), şiirsel stil ayırıcılı bir eğitim modeli (I2P-GAN w / Dp) ve iki ayırıcılı bir eğitim modeli (I2P -GAN).

4.3 Otomatik değerlendirme kriterleri

Şiirin değerlendirilmesi genellikle zor bir iştir Mevcut araştırmada belirlenmiş değerlendirme kriterleri yoktur.Bu, özellikle imgelerden şiir üretmenin yeni görevi için geçerlidir. Şiirin kalitesini daha iyi değerlendirmek için, değerlendirme için hem otomatik hem de manuel yöntemler kullanmayı öneriyoruz.

Otomatik değerlendirme için, BLEU, yenilik ve alaka düzeyi gibi üç değerlendirme kriteri öneriyoruz. Daha sonra toplam puan, standardizasyon sonrası üç kritere göre hesaplanır.

BLEU. Oluşturulan şiirlerin gerçek şiirlere ne kadar benzediğini kontrol etmek için ilk olarak İki Dilli Çeviri Kalitesi Değerlendirme Asistanının (BLEU) puan temelli değerlendirmesini kullanırız, tıpkı resim yazısı teknolojisi ve görüntü oluşturma denemeleri üzerine yapılan araştırmaların genellikle yaptığı gibi. Diğer bazı şiir üretme araştırmalarında da kullanılmaktadır. Her resim için sadece insanlar tarafından yaratılan şiirleri gerçek şiir olarak kullanıyoruz.

Yenilik. Ayrıştırıcı Dp'yi tanıtarak, oluşturucu tek modlu şiir veri setinden kelimeler veya ifadeler sunmalı ve çok modlu şiir koleksiyonunda (EX) sıklıkla görünmeyen kelimeler veya ifadeler üretmelidir. Şiirlerde görülen düşük frekanslı kelimeleri veya cümleleri hesaplamak ve oluşturmak için önerilen yeniliği kullanıyoruz. Yenilik-2 ve yenilik-3'ün iki N-gram ölçeğini inceliyoruz (örneğin, ikili model ve üçlü model). İlk olarak, çok modlu şiir koleksiyonu (EX) eğitim veri setinde görünen n-gramları, en yüksek 2.000'i yüksek frekans olarak alarak sıraladık. Yenilik, eğitim veri setinde görünen n-gram oranına göre hesaplanır (üretilen şiirlerde yüksek frekanslı n-gramlar hariç).

Korelasyon. Şiirin içeriği üzerinde hiç kısıtlaması olmayan ya da çok zayıf olan şiir üretimi üzerine yapılan çalışmalardan farklı olarak, bu çalışmada üretilen şiir ile verilen imge arasındaki ilişkiyi önemli bir kriter olarak görüyoruz. Altyazıların oluşturulması, görüntünün gerçek tanımına daha fazla önem verir.Farkı, farklı şiirlerin aynı görüntü ile çeşitli yönlerden ilişkilendirilebilmesidir. Bu nedenle, üretilen şiir ile gerçek şiir arasındaki ilişkiyi hesaplamadık, şiir ve imge arasındaki ilişkiyi belirlemek için derinlemesine birleştirilmiş görsel şiirsel gömme modelimizi kullandık. Gömme modelimiz aracılığıyla görüntüleri ve şiirleri aynı alana eşledikten sonra, korelasyonlarını ölçmek için kosinüs benzerliğini kullanırız. Gömme modelimiz imgeler ve şiir arasındaki ilişkiyi kabaca ölçebilse de, yine de insan seviyesinde şiir üretmedeki etkinliğimizi daha iyi incelemek için öznel değerlendirmeyi kullanıyoruz.

genel. Toplam puanı yukarıdaki üç kritere göre hesaplıyoruz. Bir standart a'nın tüm değerlerinin her bir ai değeri için, önce aşağıdaki yöntemi kullanarak onu normalize ederiz:

Ardından, ortalama BLEU (örneğin, BLEU-1, BLEU-2 ve BLEU-3) ve yeniliğin (örneğin, Yenilik-2 ve Yenilik-3) elde edilir. Farklı standartların eşit katkılarını sağlamak için normalleştirilmiş değerlerin ortalamasını alarak nihai puanı hesaplıyoruz.

Bununla birlikte, böylesine açık bir görevde, üretilen şiirin kalitesini mükemmel bir şekilde değerlendirebilecek özellikle uygun bir standart yoktur. Kullandığımız otomatik standartlar bir dereceye kadar kılavuz olarak görülebilir. Şiirin kalitesini insan algısı açısından daha iyi göstermek için aşağıdaki genişletilmiş kullanıcı araştırmasını da yaptık.

4.4 İnsan değerlendirmesi

Amazon Türkiye Robotu'nda insan değerlendirmesi yaptık. AMT çalışanlarına aşağıdaki şekilde üç görev atadık:

Görev 1: Derinden bağlı görsel şiirsel yerleştirme modelimizin etkililiğini incelemek. Açıklayıcılardan, içerik, duygu ve sahne açısından bir şiir ile belirli bir resim arasındaki benzerliğe dayalı olarak 0-10 puan almaları istenir.

Görev 2: Bu görevin amacı, bir görüntüden üretilen şiirleri ve her yönden farklı yöntemler (dört temel yöntem ve dört model ayarımız) kullanarak karşılaştırmaktır. Bir görüntü verildiğinde, açıklayıcıdan şiiri dört kritere göre 0-10 puan arasında puanlamasını isteriz: alaka (görüntü ile), tutarlılık (şiirin satırlarının tutarlı olup olmadığı), hayal gücü (şiir belirli bir Görüntü ne kadar hayal gücü ve yaratıcılık) ve genel izlenimi gösterir.

Görev 3: Açıklayıcıdan insan yaratımı ve makine neslinin karışımı olan şiirleri taramasını istedik ve Turing testini tamamladık. Turing testinin imgeli şiirler ve imgesiz şiirler olmak üzere iki koşul altında yapıldığını lütfen unutmayın.

Her görev için rastgele 1.000 resim seçtik ve bunları üç değerlendiriciye atadık. Şiir edebi bir form olduğu için, Turing testini yapmak için uzman kullanıcılar olarak İngiliz edebiyatıyla ilgili 30 profesyonel notlandırıcıyı (on tanesi anadili İngilizce olan) davet ettik.

4.5 Eğitim ayrıntıları

Derinden bağlı görsel şiirsel gömme modelinde, her CNN için D = 4.096 boyutlu özellikler kullanıyoruz. ImageNet üzerinde eğitilmiş VGG-16'dan nesne özelliklerini, Place205-VGGNet modelinden sahne özelliklerini ve duygu modelinden duygusal özellikleri çıkarıyoruz.

Şiir sembolizminin görsel özelliklerini daha iyi çıkarmak için ilk olarak tek modlu şiir veri setinde en az beş frekanslı isimler, fiiller ve sıfatlar elde ettik. Ardından, duygular için sıfatları ve fiilleri (328 etiket dahil) ve nesneler için isimleri (604 etiket dahil) ve sahneleri (125 etiket dahil) manuel olarak seçiyoruz. Şiir özelliklerine gelince, her şiir için birleşik düşünce atlama vektörünü çıkarmak için M = 2.048-boyut (her 1.024 boyut tablosu tek yönlü ve iki yönlüdür) kullanıyoruz ve nihayet ortalama havuzlama yoluyla şiir özelliğini elde ediyoruz. Marjinal a, 'deki deneysel deneye göre 0.2'ye ayarlanmıştır. Bir resim için rastgele 127 şiir seçtik, karşılaştırma şiirleri olarak kullandık (Denklem 5'te mk ve xk) ve her sayıda yeniden örnekledik. Sonuçları 0,1 ile 0,9 arasında değişen otomatik değerlendirmeler yoluyla karşılaştırılabilir gözlemler yapıyoruz ve ampirik kanıtlara göre ağırlıklandırma parametresini A olarak A = 0,8 olarak ayarlıyoruz.

4.6 Değerlendirme

Şekil 4: Bir görüntüden şiir oluşturmak için altı yöntem kullanma örneği.

Şiirleri alın. Resimlerle ilişkilerine göre üç tür şiiri karşılaştırdık: VPE ile aranan gerçek şiirler, ince ayarlanmamış görüntü özelliklerine sahip şiirler (VPE w / o FT) ve VPE arama (VPE) kullanılarak ince ayarlı grafik özelliklere sahip şiirler. w / FT). Tablo 2, 0-10 puan aralığında bu üç şiir türünün karşılaştırmasını göstermektedir (0 puan ilgisiz anlamına gelir, 10 puan en alakalı anlamına gelir). Önerilen görsel şiirsel gömme modelini kullanarak, çıkarılan şiirlerin alaka düzeyi puanının ortalama bir puana (yani 5 puan) veya daha fazlasına ulaşabileceğini görebiliriz. Şiir sembolizmini kullanan ince ayarlanmış görüntü özellikleri, alaka düzeyini önemli ölçüde artırabilir.

Tablo 2: İnsanlar tarafından oluşturulan üç şiir türü ile imge arasındaki korelasyonun ortalama puanı, puan aralığı 0-10 puandır (0 puan-ilgisiz, 10 puan-ilgili). Tek yönlü varyans analizi, bu şiirlerin değerlendirilmesinin istatistiksel olarak anlamlı olduğunu göstermektedir (F (2, 9) = 130.58, p

Şiir üretildi. Tablo 3, önerilen modelin dört ayarlı otomatik değerlendirme sonuçlarını ve önceki çalışmada önerilen dört temel çizginin otomatik değerlendirme sonuçlarını göstermektedir. Açıklayıcı metin modelinin sonuçlarını bir CNN ve üç CNN ile karşılaştırdığımızda, birden çok CNN'nin gerçekten görüntüyle daha alakalı şiirlerin oluşturulmasına yardımcı olduğunu görebiliriz. Bölgesel hiyerarşik model, temaların ayetler arasındaki tutarlılığını vurgular, ancak insanlar tarafından yaratılan birçok şiir birden fazla temayı kapsar veya aynı tema için farklı semboller kullanır. Yalnızca CNN-RNN'nin açıklama metni modeliyle karşılaştırıldığında SeqGAN, şiir üretiminde karşıt eğitim uygulamanın avantajlarını kanıtlar, ancak şiirde daha az yeni kavram üretir. VPE'nin önceden eğitilmiş modelini açıklayıcı metin modelinden daha iyi performans göstermesi için kullanıyoruz, bu da VPE'nin şiir özelliklerini daha iyi oluşturmak için görüntülerden şiir özelliklerini daha etkili bir şekilde çıkarabildiğini gösteriyor. Üç modelimizin çoğu standart altında daha iyi performans gösterdiği ve her birinin bir açıdan özellikle iyi performans gösterdiği görülebilir. Yalnızca çok modlu ayırıcı (I2P-GAN w / Dm) modeli modeli gerçek şiir üretmesi için yönlendirecektir, bu nedenle BLEU'da en yüksek puana sahiptir ve çeviri yöntemlerindeki n-gramların benzerliğini vurgular. Şiir stili ayırt edici (Dp), oluşturulan şiire daha şiirsel bir dil stili kullanmaları için rehberlik etmek üzere tasarlanmıştır.I2P-GAN w / Dm, Dp'nin oluşturulan şiir için daha yeni ve daha yenilikçi şiir sağlamaya yardımcı olduğunu kanıtlamak için en yüksek yenilik puanını elde eder. Hayali ifade. Genel olarak, I2P-GAN, iki ayırt edicinin avantajlarını birleştirir ve BLEU ve yenilikte makul bir orta puan elde eder, ancak yine de diğer üretici modellerden daha iyi performans gösterir. Ek olarak, modellerimiz tarafından iki ayırıcı kullanılarak üretilen şiirler, gömme korelasyon kriterlerimizde en yüksek puanları alabilir.

İnsan değerlendirme sonuçlarının karşılaştırması Tablo 4'te gösterilmektedir. Otomatik değerlendirme sonuçlarında bölgesel düzeyde performans iyi değildir ve puan sonuçları açıklayıcı metin modelinden sadece biraz daha yüksektir ancak manuel değerlendirme farklıdır, çünkü tüm ayetler aynı konuyla ilgilidir ve kullanıcının onayını almak kolaydır. Üç modelimiz, tüm standartlarda dört temel yöntemi geride bırakıyor. Önceden eğitilmiş modelle karşılaştırıldığında, iki ayrımcı şiirlerin gerçek insan düzeyine daha yakın çağrışımlara sahip olmasını sağlar. İki ayrımcıyı kullanan modellerin ürettiği şiirler, alaka, tutarlılık ve hayal gücü açısından daha kalitelidir. Şekil 4, belirli bir resimden üç temel yöntem ve bizim yöntemimiz kullanılarak üretilen şiirlerin bir örneğidir. Yöntemimiz tarafından üretilen daha fazla şiir örneği Şekil 5'te görülebilir.

Şekil 5: I2P-GAN yöntemimizle şiir üretme örneği.

Tablo 3: Otomatik değerlendirme. BLEU puanının, insanlar tarafından açıklanmış gerçek şiirlerin karşılaştırılmasıyla hesaplandığını lütfen unutmayın (bir şiir bir resme karşılık gelir). Toplam puan, normalizasyondan sonraki üç standardın ortalamasından hesaplanır (Denklem 14). Tüm puanlar yüzdedir (%).

Tablo 4: Dört kriter altında altı yöntemin insan değerlendirmesi sonuçları: alaka (İlişki), tutarlılık (Sütun), hayal gücü (İmag) ve toplam puan. Tüm standartlar için puanlama aralığı 0-10 puandır (0-zayıf, 10-mükemmel).

Tablo 5: ATM kullanıcıları ve resimli / resimsiz şiir kullanan uzman kullanıcılar için Turing Testinin Doğruluğu

Turing testi. AMT açıklayıcılarının Turing testi için 548 işçi işe aldık ve her bir işçi ortalama 10.9 görevi tamamladı. Uzman kullanıcıların Turing testi için, 15 kişiden insanlar tarafından yazılan şiirleri resimlerle yargılamalarını ve diğer 15 kişiden şiirleri resimsiz test etmelerini istedik. Her kişiye 20 resim atandı ve uzman kullanıcılardan toplam 600 görevi tamamlamalarını istedik. Tablo 5, belirli bir görüntüye göre farklı şiirlerin insan şiirleri olarak değerlendirilme olasılığını göstermektedir. Gördüğümüz gibi, üretilen şiirler, uzmanların yargılarının sıradan insanlardan daha doğru olmasına rağmen, hem sıradan notlayıcılar hem de uzmanlar için kafa karışıklığına neden olmuştur. İlginç bir gözlem, uzmanların şiirleri resimlerle değerlendirirken daha doğru olduğu, AMT çalışanları ise şiirleri imgeler olmadan değerlendirirken daha iyi performans gösterdiği.

5. Sonuç

Resimlerden şiir üretme üzerine ilk araştırma (İngilizce özgür şiirler) olarak, politika gradyanları için ödül olarak birden fazla ayrımcı kullanıyoruz.Derinden bağlı görsel şiirsel yerleştirme modelleri ve RNN tabanlı yüzleşme eğitimini entegre ederek yeni bir simülasyon problemi öneriyoruz yöntem. Buna ek olarak, şiir üretimi, özellikle imgelere dayalı şiir üretimi üzerine araştırmaları teşvik etmek için ilk görüntü-şiir çifti veri setini (çok modlu şiir korpusu) ve büyük bir şiir külliyatını (monomodal şiir külliyatı) tanıttık. Pek çok deney, yerleştirme modelimizin yaklaşık olarak makul bir görsel yaratıcı yerleştirme alanını öğrenebileceğini kanıtladı. Otomatik ve manuel değerlendirmenin sonuçları şiir üretme modelimizin etkinliğini kanıtlıyor.

Referanslar

T.-H. Chen, Y.-H. Liao, C.-Y. Chuang, W.-T. Hsu, J. Fu ve M. Sun. Display, Adaptation and Discrimination: Confrontation of Cross-domain Image Title Technology Eğitim. ICCV, 2017.

X. Chen ve C. Lawrence Zitnick. Eye of the Mind: Image Caption Teknolojisinin Yinelemeli Görsel İfadesi. CVPR, s. 2422-2431, 2015.

J. Chung, C. Gulcehre, K. Cho ve Y. Bengio.Sekans modellemede kapılı tekrarlayan sinir ağları üzerine deneysel araştırma.NIPS, 2014.

H. Fang, S. Gupta, F. Iandola, RK Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M. Mitchell, JC Platt, et al. Açıklayıcı metinden görsel kavrama, tekrar geri dön Açıklayıcı metin için CVPR, sayfa 1473-1482, 2015.

A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young, Rashtchian, J. Hockenmaier ve D. Forsyth. Her resim bir hikaye anlatıyor: görüntülere dayalı cümleler oluşturma. CVPR, 15-29, 2010.

A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov ve diğerleri Buluş: Gömülü Derin Görsel Anlambilim Modeli, NIPS, s. 2121-2129, 2013.

M. Ghazvininejad, X. Shi, Y. Choi ve K. Knight. Tema şiirleri üretme. NIPS, 1183, 1191, 2016.

M. Ghazvininejad, X. Shi, J. Priyadarshi ve K. Knight. Hafez: An Interactive Poetry Generation System. ACL, s. 4348, 2017.

I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, Warde-Farley, S. Ozair, A. Courville ve Y. Ben-gio. Generative Adversarial Networks. NIPS'de, sayfalar 2672-2680, 2014.

J. He, M. Zhou ve L. Jiang. Geleneksel Çin şiirini oluşturmak için istatistiksel makine çevirisi modellerini kullanma. AAAI, 2012'de.

J. Hopkins ve D. Kiela. Kafiye şiirlerini otomatik olarak oluşturmak için sinir ağlarını kullanma. ACL, Cilt 1, Sayfa 168-178, 2017.

L. Jiang ve M. Zhou. Çince beyitleri oluşturmak için istatistiksel makine çeviri yöntemlerini kullanma. COLING, s. 377-384, 2008.

A. Karpathy, A. Joulin ve F. F. F. Li. Çift yönlü görüntü cümle eşlemesi için derin parça gömme. NIPS, s. 1889-1897, 2014.

R. Kiros, R. Salakhutdinov ve R. S. Zemel. Birleşik multimodal nöral dil modelinin görsel anlamsal gömülmesi. ArXiv ön baskı arXiv: 1411.2539, 2014.

R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba ve S. Fidler. Skip-düşünce vektörü. In NIPS, pp. 3294-3302, 2015.

J. Krause, J. Johnson, R. Krishna ve L. Fei-Fei. Açıklayıcı resim denemeleri oluşturmak için hiyerarşik bir yöntem. CVPR, 2017.

G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg ve T.L.Berg.Diş Dili: Görüntü Açıklamasını Anlama ve Oluşturma, CVPR, 2011.

Y. Liu, J. Fu, T. Mei ve C. W. Chen. Fotoğraflarınızın konuşmasına izin verin: Fotoğraf akışları için açıklayıcı paragraflar oluşturmak için iki yönlü dikkat tekrarlayan sinir ağı. AAAI, 2017'de.

H. M. Manurung Prozodik desenli metin için bir grafik oluşturucu.İlk Uluslararası Biliş ve Bilgisayar Edebiyatı Konferansı Bildirileri, sayfalar 15-19, 1999.

H. Oliveira. Otomatik şiir üretimi: bir inceleme. Universidade de Coimbra, 2009.

H. G. Oliveira.Poetryme: Şiir üretimi için çok işlevli bir platform. Yenilikçi hesaplama, kavramsal yenilik ve genel zeka, 1:21, 2012.

K. Papineni, S. Roukos, T. Ward ve W.-J. Zhu Bleu: Makine çevirisinin otomatik değerlendirmesi için bir yöntem, InACL, s. 311-318, 2002.

C. C. Park ve G. Kim. Bir görüntü akışını ifade etmek için bir dizi doğal cümle kullanın. NIPS, s. 73-81, 2015.

S. J. Rennie, E. Marcheret, Y. Mroueh, J. Ross ve V. Goel. Görüntü altyazı teknolojisinin öz-kritik sekans eğitimi. ArXivpreprint arXiv: 1612.00563, 2016.

O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, ve diğerleri Imagenet Büyük Ölçekli Görsel Bilişsel Zorluk .IJCV, 115 (3): 211-252, 2015.

K. Simonyan ve A. Zisserman. Büyük ölçekli görüntü tanıma için çok derin evrişimli sinir ağı. ArXiv ön baskı arXiv: 1409.1556, 2014.

O. Vinyals, A. Toshev, S. Bengio ve D. Erhan. Ekran ve tanımlama: bir nöral görüntü açıklama üreteci. CVPR, s. 3156-3164, 2015.

J. Wang, J. Fu, Y. Xu ve T. Mei. Ultra uzak nesne tanıma: Derin bağlı sıfatlar ve isim sinir ağları kullanılarak görsel duyarlılık analizi. IJ- CAI, s. 3484-3490, 2016.

L. Wang, S. Guo, W. Huang ve Y. Qiao. Sahnede kullanılan Diğer Yerler205-vggnet modelleri. ArXiv ön baskı arXiv: 1508.01667, 2015.

R. J. Williams. Basit istatistiksel gradyan - bağlantılı pekiştirmeli öğrenme için bir izleme algoritması.Makine Öğrenimi, 8 (3-4): 229-256, 1992.

Z. Xu, B. Liu, B. Wang, S. Chengjie, X. Wang, Z. Wang ve C. Qi. Yaklaşık gömülü katmanlarla GAN aracılığıyla nöral yanıtlar oluşturma. EMNLP'de, s. 628-637, 2017 .

R. Yan, H. Jiang, M. Lapata, S.-D. Lin, X. Lv ve X. Li. I, Şiir: kısıtlama optimizasyonu altında endüktif bir çerçeve oluşturarak Çin şiirinin otomatik olarak yaratılması. IJCAI, No. 2197- 2203 sayfa, 2013.

X. Yi, R. Li ve M. Sun. Çin klasik şiirini oluşturmak için rnn kodlayıcı-kod çözücüyü kullanın. Doğal Açıklamalı Büyük Veriye Dayalı Çin Hesaplamalı Dilbilim ve Doğal Dil İşleme, s. 211-223. Springer, 2017.

Q. You, H. Jin, Z. Wang, C. Fang ve J. Luo. Anlamsal dikkat kullanan resim yazısı teknolojisi. CVPR'de, s. 4651-4659, 2016.

L. Yu, W. Zhang, J. Wang ve Y. Yu.SeqGAN: Policy Gradient ile Sequence Generative Adversarial Network. AAAI'de, sayfa 2852-2858, 2017.

W. Zaremba ve I. Sutskever. Yoğun Kimya, Öğrenme ve Nöroşirürji için Turing Makinesi-Revize Edildi. ArXiv preprint arXiv.1505.00521, 2015.

X. Zhang ve M. Lapata. Çin şiirini oluşturmak için yinelenen sinir ağlarını kullanma EMNLP, s. 670-680, 2014.

Kağıt adresi: https://dl.acm.org/authorize?N660819

Leifeng.com AI Teknolojisi İnceleme Raporu

Hiçbir arkadaşa güzel değil! 13. Ulusal Öğrenci Oyunlarının Açılışı
önceki
Yingji Filter Hanging Coffee ile tüm kış dışarı çıkmanıza gerek yok!
Sonraki
Tercih edilen romantik film "A Story More Sad Than Sad" Mart ayında White Day'de gösterime girecek!
Zafer Kralı: Güzel bayan bunu ister ve neden gülmek zordur
Tsinghua Üniversitesi'nden 11 araştırmacı, başka hiç kimse için cezalandırıldı
"En İyi" tam ekran olun: Charm Blue E3 Dan Cyan
Apple, Siri'yi Çin üniversitelerinde tam zamanlı mühendisler işe alıyor; Facebook İngiltere'de 640.000 ABD doları para cezası verdi; Amazon Q3 geliri bir önceki yıla göre% 29 arttı Lei Feng Morning
Xiaomi Youpin, tüm ağdaki en uygun maliyetli kotlardan birine sahip, sadece 99 yuan
"İnsan · Komedi", sıkı çalışan ve vasat olmaya istekli olmayan herkese MV'nin son şarkısını açıklıyor
Zafer Kralı: 20 saniyede nasıl altın para kazanılır, annemin artık altın paralarım için endişelenmesine gerek yok!
Tam ekranda çok yönlü oyuncu: Meilan E3 ayrıntılı değerlendirme
CNCC 2018 Bilim ve Teknoloji Fuarı, yaklaşık 100 şirketin bir araya geldiği görülmemiş derecede büyük
Guo Tao, "en sevdiği" gerilim temasını açıkladı, ilk yönetmenlik denemesi "Game of Desire" beynini yakmak üzere
Yeni Lexus NX'ten daha keskin ve daha otoriter bir şehirli SUV var mı?
To Top