AAAI 2020 | Multimodal kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetler

Yazar | Zhu Junnan, Zhang Jiajun

Düzenle | Kongun Sonu

Çok modlu otomatik özetleme, iki veya daha fazla modalite (resimler, metin vb. Gibi) içeren bilgilerden grafik bir özet oluşturmak için bir bilgisayar kullanma sürecini ifade eder. Bu teknoloji, haber itme, sınır ötesi e-ticaret, ürün tanımı otomatik oluşturma vb. Birçok alanda yaygın olarak kullanılabilir ve önemli araştırma değeri ve zengin uygulama senaryolarına sahiptir.

Son yıllarda, bilgisayar vizyonunun ve doğal dil işleme teknolojisinin gelişmesiyle birlikte, çok modlu otomatik özetleme teknolojisi, giderek akademi ve endüstride bir araştırma odağı haline geldi. Mevcut çok-modlu otomatik özetleme, veri kümesinin kendisi ile sınırlıdır, çünkü tüm ağı eğitmek için amaç işlevi olarak metin modelinin negatif log-olabilirlik kaybını kullanabilir ve resim seçimine yardımcı olmak için dikkat mekanizmasını kullanabilir.

Bu yaklaşım, mod sapması sorununu ortaya çıkarmak kolaydır, yani, tüm ağ Şekil 1'de gösterildiği gibi, metin oluşturma kalitesini optimize etme ve resimlerin seçim sürecini göz ardı etme eğilimindedir. Yalnızca metin yöntemlerinin kaybını dikkate alırsak, özet B, özet A'dan daha iyidir, ancak özet B'deki resimlerdeki karakterlerin doğru olmadığı açıktır; ve resim seçiminin kaybını ortaya koyduğumuzda, A'yı açıkça yargılayabiliriz. Özet, B özetinden daha iyidir ve bu, temel gerçeklerle uyumludur.

Şekil 1 Modsal sapma örneği

Tez yöntemi

Yukarıdaki problemlere yanıt olarak, Çin Bilimler Akademisi Otomasyon Enstitüsü Doğal Dil İşleme Grubundan doktora öğrencileri Zhu Junnan, araştırmacı Zhou Yu, araştırmacı Zhang Jiajun ve araştırmacı Zong Chengqing, çok modlu kıyaslamalarla yönlendirilen çok modlu bir otomatik soyutlama yöntemi önerdi. Temel fikir, çok modlu özetleme eğitiminin amaç işlevini optimize etmektir, yani metin kaybına bağlı olarak görüntü seçiminin kayıp işlevini arttırmaktır.

Şekil 2'de gösterildiği gibi, yöntem üç bölümden oluşmaktadır:

  • (1) İlk olarak, eğitim verilerini yalnızca metin ölçütleri ile çok modlu karşılaştırmalara genişletmek için veri kümesinin özelliklerini kullanın.İki ana yöntem vardır: resimleri sıralamak için doğrudan giriş resimlerinin sırasını kullanmak veya resimlerin metin açıklamasını ve standart metin özetlerini kullanmak Giriş resimlerini yanıtlar arasındaki ROUGE değerine göre sıralayın;

  • (2) Resim seçme sürecini eğitmek için modele bir resim ayırıcı ekleyin Modelin kayıp fonksiyonu ayrıca metnin kayıp fonksiyonunun ve resim seçiminin kayıp fonksiyonunun ağırlıklı toplamıdır;

  • (3) Çok modlu segmentleri daha iyi değerlendirebilen bir değerlendirme modeli geliştirmek için veri setindeki resimlere ve metin açıklamalarına dayalı bir metin-resim hizalama segmenti oluşturun. Özellikle, iki çift resim-açıklayıcı metin parçası (veya resim Bölüm) Şekil 3'te gösterildiği gibi iki eşleşen çok modlu parça oluşturmak için değişim.

Şekil 2 Çok modlu kıyaslama tarafından yönlendirilen çok modlu otomatik özetlemenin çerçeve diyagramı

Şekil 3 Çok modlu eşleşen segment yapısının şematik diyagramı

Deneysel sonuçlar

Şu anda, çok-modlu otomatik özetlemenin veri seti hala nispeten azdır, daha önce bir kamu veri seti MSMO yayınlamıştık ve bu çalışma da bu veri seti üzerinde deneysel olarak doğrulanmıştır. Özet yönteminin performansını karşılaştırmadan önce, öncelikle hangi değerlendirme indeksinin kullanılması gerektiğini netleştirmemiz gerekiyor.

Önceki çalışmada grafik özetlerin değerlendirilmesi Dikkat Üç gösterge: Resim doğruluğu (IP), metin özetinin ROUGE değeri (ROUGE-L) ve sistem çıkışındaki resim metninin alaka düzeyi (Msim).

Yöntemimizde, iki çok modlu bilgi arasındaki benzerliği (çıktı ile referans yanıtı arasındaki maksimum benzerlik) doğrudan ölçmek için yeni bir otomatik değerlendirme indeksi MRmax'ı sunuyoruz. MMAE, IP, ROUGE ve Msim'in bir kombinasyonudur ve MMAE ++, IP, ROUGE, Msim ve MRmax'ın dört otomatik değerlendirme göstergesinin birleşimidir. Farklı otomatik değerlendirme göstergelerini karşılaştırmak için korelasyonu manuel puanlama ile kullanırız.

Tablo 1 Farklı değerlendirme göstergeleri ile manuel puanlama arasındaki korelasyon (puan ne kadar yüksekse, performans o kadar iyi)

Tablo 1, farklı otomatik değerlendirme indeksleri ile manuel skorlama arasındaki korelasyonu göstermektedir.Multipal segmentleri doğrudan ölçen MR değerlendirme indeksini dahil ettikten sonra, yeni otomatik değerlendirme modeli MMAE ++, MMAE'ye kıyasla manuel skorlama ile bir korelasyona sahip olduğu görülmektedir. Derecede önemli bir gelişme var.

Önerdiğimiz çok modlu kıyaslama rehberlik modelini ölçmek için, üretken otomatik özetleme modelleri (ATG, ATL), küresel veya yerel görsel özellikleri içeren çok modlu dikkat mekanizmaları dahil olmak üzere çok sayıda güçlü temel modelle karşılaştırdık. Hiyerarşik çok modlu otomatik özetleme modeli (HAN) ve grafik modeline dayalı çıkarımlı otomatik özetleme modeli (GR).

Tablo 2 Farklı modeller tarafından oluşturulan grafik özetlerin kalitesinin karşılaştırması (MOF, çok modlu kıyaslama rehberlik yöntemini, RR, resimleri ROUGE değerine göre sıralamayı, OR, resimleri giriş resimlerinin sırasına göre sıralamayı, enk ise gizlemek için kodlayıcıyı kullanmayı belirtir Katman durumu resmi seçer, dec, resmi seçmek için kod çözücünün gizli katman durumunu kullanmak anlamına gelir)

Tablo 2, farklı modeller tarafından oluşturulan grafik özetlerin kalite karşılaştırmasını göstermektedir. Çok-modlu kıyaslama kılavuzluğunun sunulmasından sonra, modelin görüntü seçim kalitesinin (IP) önemli ölçüde iyileştirildiği ve metin oluşturma kalitesinin de biraz iyileştirildiği, böylece daha yüksek kaliteli grafik özetleri oluşturduğu görülebilir. Kodlayıcının gizli katman durumunu kullanmakla karşılaştırıldığında, resimleri seçmek için kod çözücünün gizli katman durumunu kullanmak daha iyidir.

.

Öte yandan, resimleri sıralamak için resim açıklaması ile metin özeti arasında ROUGE değeri kullanılarak elde edilen çok-modlu kıyaslama, model üzerinde daha açık bir yol gösterici etkiye sahiptir.

Tablo 3 Resim tarafından seçilen kayıp fonksiyonunun ağırlığı

Farklı görüntü seçme kayıp fonksiyon ağırlıklarının modelin performansı üzerindeki etkisini de karşılaştırdık.Görüntü ve metnin kayıp fonksiyonunun ağırlıkları aynı olduğunda, görüntü özetinin kalitesinin en iyi olduğu görülebilmektedir.

Tablo 4 Resim kaybının hesaplanmasında dikkate alınan resim sayısının etkisi

Resim kaybının hesaplanmasında dikkate alınan resim sayısının etkisini karşılaştırdık (yani altın standart olarak en iyi K resimler) ve K = 3 olduğunda modelin en iyi sonuçları elde ettiğini bulduk.

İlgili ayrıntılar için lütfen en iyi yapay zeka akademisyenindeki yayına bakın. toplantı AAAI 2020 Bildirileri:

Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li , Chengqing Zong, Changliang Li. Multimodal Referans Kılavuzuyla Multimodal Özetleme AAAI-2020.

Bitkiler kitlesel yok olma döneminde nasıl hayatta kaldı?
önceki
En üst düzey konferans raporu teklif için nasıl gerekli bir koşul haline geldi?
Sonraki
En gelişmiş nesne dedektörü fillere göz yumuyor
"duman" mı? Bekle, bir düşün
2019'da uzayda hangi uzay çevre olayları oldu?Arama Alanı
Kum sabitleyen çalılardan kurtulmanın yolu
90'larda doğan on milyonlarca insan olan Ningbo evlendi ve sadece 4 sofra şarabı vardı! Tören bir saatten az sürdü ve nedimeler yoktu! Gelin dedi ki ...
Evdeki tuvalet bakıma muhtaç ve adam yarım ay boyunca alt kata dışkı atıyor.
Adam banyo yaparken trafik kazasında yakalandı ama iki kilometre uzakta öldü mü?
Büyük Veri Wuhan halkı, yaklaşan Bahar Festivali tatilinde başlangıçta nereye uçtu?
Gökbilimciler kuasarların ilk geometrik mesafe ölçümünü gerçekleştirdi
Blazar ışık dejenerasyonu çalışmasında yeni ilerleme kaydedildi
İki akademinin akademisyenleri, 2019'da Çin ve dünyadaki ilk on bilimsel ve teknolojik ilerlemeyi seçiyor
Pterosaur hyoid kemik evrimi üzerine araştırma ilerlemesi
To Top