CVPR 2020 | Resimlere bakın ve istediğiniz gibi konuşun: Otomatik olarak oluşturulan ince taneli ve kontrol edilebilir görüntü açıklaması

Bu makale, CVPR 2020'de (açık kaynaklı) Oral olarak kabul edilen "İstediğiniz Gibi Söyle: Soyut Sahne Grafiği ile Resim Başlığı Oluşturmanın İnce Taneli Kontrolü" başlıklı makaleyi tanıtmaktadır.Yazar, Çin Renmin Üniversitesi'nden bir doktora öğrencisi Chen Shizhe'dir. Chen Shizhe, Avustralya'daki Adelaide Üniversitesi'ndeki Wu Qi öğretmen grubuna yaptığı ziyaret sırasında yapıldı.

Metin | Chen Shizhe

Editör | Jia Wei

Makaleye bağlantı: https://arxiv.org/abs/2003.00387

Kod bağlantısı: https://github.com/cshizhe/asg2cap

1. Motivasyon

Resim altyazıları karmaşık bir sorundur. Makinelerin nesne tanıma, sahne tanıma, nitelik ve ilişki algılama gibi çeşitli bilgisayar vizyonu anlamsal tanıma teknolojilerine hakim olmasını gerektirir. Aynı zamanda, tüm algılama sonuçlarını doğal olarak özetlemek de gereklidir. Dilde ifade edilen cümleler. Derin öğrenme teknolojisinin hızla gelişmesiyle birlikte, son görüntü tanımlama oluşturma modelleri, doğrulukla ilgili belirli göstergelerde insan tarafından yazılmış metin açıklamalarını bile aşarak önemli ilerleme kaydetti.

Mevcut modeller daha akıcı ve görsel olarak alakalı görüntü açıklamaları oluşturabilmesine rağmen, kullanıcılarla zayıf etkileşim ve düşük çeşitlilik gibi sorunları vardır. Bir yandan, çoğu görüntü açıklama modeli yalnızca pasif olarak cümleler oluşturur ve kullanıcıların ilgilendiği içeriği veya açıklama için istenen ayrıntı düzeyini dikkate almaz. Örneğin Şekil 1'de bir kullanıcı çiçekler hakkında detaylı bilgi edinmek isterse, çiçeklerin rengini ve miktarını hızlı bir şekilde anlatabiliriz ancak mevcut sistem kullanıcıların basit ihtiyaçlarını karşılayamaz. Öte yandan, bu pasif oluşturma modu cümlelerde çeşitlilik eksikliğine neden olma eğilimindedir ve nispeten basit ve boş olan ve kullanıcılar tarafından ihtiyaç duyulan kritik ve ayrıntılı bilgilerden yoksun olan nispeten "güvenli" cümleler oluşturmak için yaygın yüksek frekanslı ifadeleri kullanma eğilimindedir.

Şekil 1: Niyetten bağımsız ve ayrıntılı kontrol edilebilir görüntü açıklama kontrastı. Niyetle ilgisi olmayan resim açıklamaları, kullanıcıların tanımlamak istediklerini ve çeşitlilikten yoksun olanları üretemez.

Yukarıdaki problemleri çözmek için, birkaç çalışma, iki türe ayrılabilen görüntü açıklaması oluşturmanın aktif kontrolünü önermiştir: stil kontrolü ve içerik kontrolü. Stil kontrolü, mizah, romantizm vb. Gibi farklı resim metni açıklama stillerinin üretilmesine atıfta bulunurken, içerik kontrolü, resmin farklı alanlarını ve nesnelerini belirtmek gibi resim içeriğinin tanımını kontrol etmeyi amaçlar, böylece model kullanıcıların ilgilendiklerini açıklayabilir. Görüntü içeriği. Ancak, mevcut çalışma, kategori etiketi veya görüntü alanı gibi yalnızca çok kaba kontrol sinyalleri sağlar. Bu kontrol sinyalleri, daha ince bir seviyede görüntü tanımlarının oluşturulmasını kontrol edemez; örneğin, nesnelerin özniteliklerinin üretilmesi gerekip gerekmediği, kaç öznitelik etiketinin üretilmesi gerekip gerekmediği; hedef nesne ile ilgili nesnelerin açıklanmasının gerekip gerekmediği ve nesneler arasındaki ilişki nedir ; Cümlelerin açıklama sırası vb.

Gerçekten kullanışlı ve kullanımı kolay bir görüntü tanımlama oluşturma modelinin kontrol edilebilir olması gerektiğine inanıyoruz.Bu nedenle, geçirilebilen Soyut Sahne Grafiği (ASG) adı verilen daha hassas bir kontrol sinyali öneriyoruz. Grafik yapısı ayrıca ifade etmek istediğiniz nesneleri, öznitelikleri ve ilişkileri de kontrol eder; bu, yalnızca kullanıcının ayrıntılı açıklama niyetlerini yansıtmakla kalmaz, aynı zamanda daha çeşitli görüntü açıklamaları da üretir. Şekil 1'de gösterildiği gibi, ASG, üç tür soyut düğüm içeren yönlendirilmiş bir grafiktir.Bu üç tür soyut düğüm, kullanıcıların tanımlamak istediği nesneleri, öznitelikleri ve ilişkileri temsil eder. Her soyut düğüm, Haritada belirli alanlar vardır, ancak belirli anlamsal etiketlere gerek yoktur. ASG herhangi bir anlamsal tanıma gerektirmediğinden, kullanıcı tarafından kolayca tanımlanabilir veya otomatik olarak oluşturulabilir.

Belirtilen ASG'ye dayalı görüntü açıklamaları oluşturmak için, ASG kontrol görüntü açıklaması oluşturmadaki üç ana sorunu, görüntü açıklaması oluşturmaya yönelik genel kodlayıcı-kod çözücü çerçevesine kıyasla çözebilen ASG2Caption modelini öneriyoruz.

Birincisi, ASG sadece herhangi bir anlamsal etiket içermeyen soyut bir sahne çerçevesi içerdiğinden, kodlama sırasında kullanıcının grafikte ifade edilen niyetini göz önünde bulundurmak ve grafikteki düğümlerin anlamlarını belirlemek gerekir. Bu nedenle, farklı düğümlerin ayrıntılı amaçlarını ayırt etmek için role duyarlı bir grafik kodlayıcı öneriyoruz ve her düğümün anlamsal tanıma yeteneğini artırmak için grafikteki bağlam bilgisini kullanıyoruz.

İkinci olarak, ASG yalnızca düğümler aracılığıyla açıklanması gereken resmin içeriğini kontrol etmekle kalmaz, aynı zamanda düğümler arasındaki bağlantı yoluyla açıklamanın yapı sırasını örtük olarak kontrol eder. Bu nedenle, önerilen kod çözücümüz, düğümlerin anlamsal içeriğini ve bağlantı yapısını göz önünde bulundurmak için grafik tabanlı bir dikkat mekanizması kullanır, böylece model, grafik akış sırasına dayalı olarak belirtilen düğüm içeriğini tanımlayabilir.

Son olarak, oluşturulan görüntü açıklamasının ASG'de belirtilen düğümleri tamamen kapsaması gerekir ve eksik veya tekrarlayan düğüm içeriği olamaz. Bu nedenle, grafikteki farklı düğümlerin erişim durumlarını kaydetmek ve izlemek için kod çözme işlemi sırasında kodlanmış grafik gösterimini kademeli olarak güncelliyoruz.

Bu makalenin ana katkıları aşağıdaki üç noktayı içerir:

1. Bu makale, görüntü açıklamasının oluşturulmasını hassas bir şekilde kontrol etmek için ilk kez ASG soyut sahne grafiğini önermektedir. ASG, hangi nesnelerin tanımlandığı, nesnelerin niteliklerinin tanımlanıp tanımlanmayacağı ve nesneler arasındaki ilişkiler gibi görüntü tanımlarının oluşturulmasında farklı ayrıntıları kontrol edebilir.

2. Önerilen ASG2Caption modeli, ASG'deki soyut düğümleri otomatik olarak tanımlayabilen ve grafikte belirtilen anlamsal içerik ve açıklama sırasına göre gerekli görüntü açıklamasını oluşturabilen, role duyarlı bir grafik kodlayıcı ve grafik tabanlı bir dil kod çözücüden oluşur.

3. ASG açıklamalı veri kümelerinin eksikliğinden dolayı, var olan görsel açıklama veri kümeleri VisualGenome ve MSCOCO'ya dayalı olarak eğitim ve test için otomatik olarak ASG etiketleri oluşturuyoruz. Modelimiz her iki veri seti üzerinde daha iyi kontrol sağlar. Ek olarak, model, çeşitli ASG'lere dayalı olarak daha çeşitli görüntü açıklamaları oluşturabilir.

2. Yöntem

Şekil 2. İnce taneli kontrol edilebilir görüntü açıklaması ASG2Caption model çerçeve diyagramı.

1. Soyut Sahne Grafiği (ASG)

Kullanıcı niyetlerini ayrıntılı bir şekilde ifade etmek için, özel bir görüntü açıklaması oluşturmak için bir kontrol sinyali olarak Soyut Sahne Grafiği (ASG) konseptini öneriyoruz.

Şekil 2'nin sol üst kısmında gösterildiği gibi, ASG'deki düğümler amaçlanan role göre üç kategoriye ayrılabilir: nesne düğümü, öznitelik düğümü ve ilişki düğümü.

Kullanıcı o nesnesiyle ilgileniyorsa, nesne düğümü olarak ASG'ye görüntü alanına o ekleyebilir; kullanıcı nesne o hakkında daha fazla ayrıntı bilmek isterse, ona farklı sayıda öznitelik düğümü a ekleyebilir ve oluşturabilirsiniz A ve o arasındaki yönlendirilmiş kenar; iki nesne arasındaki ilişkiyi tanımlamak istiyorsanız, nesneler arasına bir ilişki düğümü r ekleyebilir ve ilişkinin nesnesi ile r ve r ilişkisinin konu nesnesinden iki nesne oluşturabilirsiniz. Yan.

ASG herhangi bir anlamsal etiket gerektirmediğinden, farklı ASG'leri otomatik olarak oluşturmak için nesneler arasında bir ilişki olup olmadığını belirlemek için yalnızca önceden eğitilmiş bir nesne teklif oluşturucu ve basit bir ikili sınıflandırıcı kullanmamız gerekir. Aynı zamanda kullanıcılar soyut bir sahne grafiği ASG'yi de kolayca oluşturabilirler.Kullanıcıların zahmetli bir şekilde eksiksiz bir ASG oluşturmasına gerek yoktur.Sadece ilgili nesneleri veya önceki çalışmadaki gibi tanımlamak istedikleri ayrıntı seviyesini belirtmeleri gerekir.Kullanıcı ihtiyaçlarına göre algoritmaları otomatik olarak kullanabiliriz. İyi bir kullanıcı etkileşimi olan kontrol için eksiksiz bir ASG oluşturun.

2. ASG2Caption modeli

Bir görüntü ve belirli bir ASG verildiğinde, modelin amacı, kullanıcının niyetini karşılamak için ASG tarafından sıkı bir şekilde kontrol edilen akıcı bir metin açıklaması oluşturmaktır. Modelin genel çerçevesi, role duyarlı bir grafik kodlayıcı ve grafik tabanlı dil kod çözücüsü dahil olmak üzere Şekil 2'de gösterilmektedir.

2.1 Rol bilincine sahip görüntü kodlayıcı: görüntüleri ve sahne soyut görüntülerini ASG kodlamak için kullanılır.

(1) Rol algılama vektörü.

Düğümün, görüntüdeki karşılık gelen görsel özelliklerini tasvir etmesi gerektiğinden, amaçlanan rolünü de yansıtması gerekir. Bunun nedeni, nesne düğümleri ve aynı alana karşılık gelen öznitelik düğümleri gibi aynı görüntü alanına sahip düğümleri ayırt etmenin önemli olmasıdır. Bu nedenle, düğüm temsilini geliştirmek ve amaçlanan rolle ilgili düğüm temsilini elde etmek için rol algılama vektörünü kullanmayı öneriyoruz.

(2) Çok ilişkili grafik evrişimli sinir ağı.

ASG'deki düğümler izole edilmediğinden, komşu düğümlerin bağlam bilgisi, düğümlerin anlamlarını ve rol bilgilerini anlamak için yararlıdır. ASG'deki kenarlar tek yönlü olsa da, düğümler arasındaki etki karşılıklıdır. Ek olarak, farklı düğüm türleri nedeniyle, bilginin bir düğüm türünden diğerine aktarılma şekli, ters yönden farklıdır. Bu nedenle, çok ilişkisel bir grafik oluşturmak için orijinal ASG'nin kenarlarını farklı çift yönlü kenarlara genişletiyoruz ve grafiğin içeriğini kodlamak için çok ilişkisel grafik evrişimli sinir ağını (MR-GCN) kullanıyoruz. .

2.2 Görüntü tabanlı dil kod çözücü: Şifreli görüntüleri görüntü metin tanımlarına dönüştürmek için tasarlanmıştır.

(1) Diyagram dikkat mekanizması.

Bağımsız görüntü vektör setlerine dayanan önceki kod çözme işleminin aksine, kodlanmış grafik yalnızca düğüm özelliği gösterimini içermez, aynı zamanda grafikte yapılandırılmış bir bağlantı ilişkisine de sahiptir. Bunların arasında, düğümlerin bağlantı modu, kullanıcı tarafından istenen açıklama sırasını yansıtır ve kod çözücü tarafından göz ardı edilemez. Örneğin, şu anda odaklanmış düğüm bir ilişki düğümü ise, grafiğin akışına göre, ziyaret edilecek bir sonraki düğüm büyük olasılıkla ilişki düğümünü bağlayan nesne düğümü olacaktır.

Hem grafiğin anlamsal içeriğini hem de grafiğin yapı bilgisini göz önünde bulundurmak için, grafik anlamsal dikkat ve grafik akış dikkat olarak adlandırılan iki farklı dikkat mekanizmasını birleştiriyoruz. Grafik semantik dikkati, sorgu vektörü ile grafik kodlama vektörü arasındaki anlamsal ilgiyi dikkate alır; Grafik akışı dikkati, Şekil 3'te gösterildiği gibi grafikteki yapı akış bilgilerini açıklamak için kullanılır. Son olarak, grafik dikkat mekanizması, grafik semantik dikkatini ve grafik akışı dikkatini dinamik olarak birleştirir.

Şekil 3. Grafik akışı dikkat mekanizması, grafik yapısı bilgilerinin görüntü açıklamalarının oluşturulması üzerindeki etkisini değerlendirir.

(2) Harita güncelleme mekanizması.

Kullanıcının niyetini ve talebini karşılamak için ASG'deki tüm düğümler metin açıklamasıyla ifade edilmeli ve eksik veya tekrarlanan olay olmamalıdır. Bu nedenle, kodlanmış grafikten cümle açıklamasına kadar kaliteyi iyileştirmek için, grafik düğümlerinin erişim durumunu dinamik olarak kaydeden bir grafik güncelleme mekanizması öneriyoruz. Her bir kod çözme adımında, önce ifade edilen ASG'deki düğümleri dinamik olarak sileriz, bir düğümün ifade edilmesi gerekmiyorsa 0'a ayarlanabilir; ardından grafikteki düğümleri güncellemek için dinamik olarak yeni düğüm bilgileri yazılır Farklı düğümlerin erişim durumunu kaydetmek için özellik temsili.

3. Deney

Yaygın olarak kullanılan iki görüntü tanımlama veri kümesinin, VisualGenome ve MSCOCO'nun açıklamalarına dayanarak, ayrıntılı kontrol edilebilir modeller için gereken eğitim verilerini otomatik olarak oluşturuyoruz. Bunlar arasında, MSCOCO veri setinin ASG'si, daha fazla ilişki düğümü ve daha uzun metin açıklamaları içeren, VisualGenome veri setinden daha karmaşıktır.

Oluşturulan görüntü açıklamalarının kalitesini iki yönden değerlendiriyoruz: kontrol edilebilirlik ve çeşitlilik.

1. Kontrol edilebilirlik değerlendirmesi.

Ayrıntılı kontrol edilebilir görüntü açıklaması oluşturma yeni bir görev olduğundan, karşılaştırma için mevcut modellere dayalı olarak aşağıdaki iki temel model türünü dikkatlice tasarladık. Birinci tür, geleneksel amaçtan bağımsız görüntü tanımlama oluşturma modelidir ve ikinci model türü, yukarıdaki modeli ASG kontrolüne dayalı bir görüntü tanımlama oluşturma modeline genişletir.

Tablo 1: Farklı modellerin ASG tabanlı kontrol edilebilir görüntü tanımlama oluşturma performansının karşılaştırılması.

Tablo 1, farklı modellerin sonuçlarını karşılaştırmaktadır. Kontrol sinyali ASG, etiketli metin açıklamasına karşılık geldiğinden, kontrol edilebilir modelin performansı açıkça, hiçbir amacı olmayan kontrol edilemeyen modelden kaynaklanmaktadır. Önerilen ASG2Caption modeli, genel görüntü tanımlama kalitesi ve ASG yapısı hizalama performansı dahil olmak üzere tüm değerlendirme göstergelerinde temel modelin performansını önemli ölçüde aşmaktadır. Özellikle ayrıntılı öznitelik kontrolü için öznitelik hizalama hatasını neredeyse yarı yarıya azalttık. Şekil 4, kullanıcı tarafından oluşturulan ASG'ye dayalı bir görüntü açıklaması oluşturmanın bir örneğidir.

Şekil 4. Kullanıcı tarafından belirlenen farklı ASG'lere göre model tarafından oluşturulan kontrol edilebilir görüntü metni açıklaması. ASG'deki ince farklar (kenarların yönü gibi) aynı zamanda kullanıcının

2. Çeşitlilik değerlendirmesi.

ASG kontrolüne dayalı görüntü açıklaması oluşturmanın bir avantajı, farklı görüntü açıklamalarının çeşitlendirilmiş ASG'lere dayalı olarak üretilebilmesi ve görüntü içeriğinin farklı yönlerinin farklı ayrıntı düzeyleriyle tanımlanabilmesidir. Mevcut en iyi çeşitlilik değerlendirme yöntemiyle karşılaştırıyoruz ve sonuçlar Tablo 2'de gösterilmektedir. Modelimiz tarafından oluşturulan görüntü açıklamasının çeşitliliği daha yüksektir.

Tablo 2. Mevcut en iyi modelle karşılaştırıldığında çeşitlendirilmiş görüntü metni açıklaması oluşturma.

Şekil 5, örnek görüntülerin otomatik örneklenmesi için oluşturulan farklı ASG'leri ve bunlara karşılık gelen kontrol edilebilir görüntü açıklamalarını gösterir.

Şekil 5. Otomatik örneklemeye dayalı olarak ASG tarafından oluşturulan çeşitlendirilmiş görüntü açıklaması örneği

Oluşturulan açıklama, verilen ASG'ye göre etkili bir şekilde cümleler oluşturur. ASG'lerin çeşitliliği nedeniyle, modelimiz önemli ölçüde çeşitli görüntü metni açıklamaları üretebilir.

3. Ablasyon deneyi.

ASG2Caption modelindeki farklı bileşenlerin katkısını doğrulamak için, Tablo 3'te çok sayıda ablasyon deneysel sonucu sunuyoruz. Önerilen farklı modüllerin tümü performansa katkıda bulunur.

Tablo 3. ASG2Caption modelinin her bir bileşeninin katkıda bulunduğu ablasyon deneyleri.

4. Özet

Mevcut resim tanımlama çalışmalarının çoğu pasif olarak cümleler oluşturmaktır. Üretilen olası cümlelerin stili tamamen eğitim setindeki verilerin stili tarafından belirlenir.Kullanıcı ile etkileşimle serbestçe kontrol edilemez ve çeşitlilik genellikle çok düşüktür.

Bu nedenle, bu yazıda, görüntü tanımındaki hangi nesnelerin dikkat etmesi gerektiğini, ilişkiyi, açıklamadaki ayrıntı derecesini vb. Kontrol etmek için kullanılan ince bir kontrol sinyali ASG'yi araştırdık ve grafik kontrolüne dayalı ASG2Caption modelini önerdik. Görüntü açıklaması oluşturun. Bu ayrıntılı kontrol sayesinde, yalnızca daha iyi etkileşim ve yorumlanabilirlik elde etmekle kalmıyor, aynı zamanda oluşturulan açıklamayı daha çeşitli hale getirebiliriz.

Makale kodu açık kaynaklıdır: https://github.com/cshizhe/asg2cap

AAAI 2020 | En önemli hedef tespit sonuçlarını elde etmek için aşamalı parlatma kullanın
önceki
COVID-19 ve influenzayı ayırt etmek için derin öğrenme nasıl kullanılır? İlk taramadan kritik hastalık tahminine
Sonraki
Birleşik öğrenmedeki en son araştırma trendleri
Microsoft AI araştırması koçları değiştirdi, yeni pozisyonlar yarattı ve gazileri Shen Xiangyang'ın yerini almaları için terfi etti.
ICLR2020 | Google'ın en son araştırması: "Bileşik diverjans" nicel modeliyle genelleme yeteneğini sentezleyin
BYD, yeni enerjili araç sübvansiyonlarından 1,3 milyar yuan aldı ve yeni enerji araçlarının geliştirilmesinin önünde uzun bir yol var
Yurtdışı pazarına ilk kez girin, Eğitimin Malezya kurumlarını satın almak için 140 milyon ABD doları harcayacağını umuyoruz.
Virüs ve ev sahibi "birbirini sevip dizginler"
Orta Pleistosen iklim geçiş döneminin ilk aşamasında Nihewan Havzasında taş alet teknolojisi çalışmasında ilerleme kaydedilmiştir.
Betelgeuse patlamadı ve "kıyamet kuyruklu yıldızı" yakın mı?
Aşıklar, netizenlerle tanışmak için "yumuşak kızlar" gibi davranıyor ve "1314 "'ü sorduktan sonra ortadan kayboluyor
Sisin içindeki "Waldorf"
Tıp kurumlarının "yeni altyapısı" için fırsatlar nelerdir? Salgın güçlü bir ilaç getirecek
Kaliforniya yeni kraliyet salgınının etkisinden muzdarip, Silikon Vadisi'nin "savaş salgını" sürüyor
To Top