[AAAI Paper] Ali, kaybolan gradyan sorununu çözmek için yeni bir görüntü tanımlama çerçevesi önerdi

Xinzhiyuan önerilir

Kaynak: Alibaba AI Labs

Editör: Craig

Xin Zhiyuan Rehberi Yakın tarihli bir makalede, Alibaba AI Labs genelden inceye çok seviyeli bir görüntü tanımlama ve tahmin çerçevesi önerdi. Çerçeve, her biri bir önceki aşamanın çıktısına göre çalışan birden fazla kod çözücüden oluşuyor, böylece giderek daha fazla Görüntü açıklaması ne kadar ince olursa. Orta düzey denetimi uygulayan bir öğrenme hedefi işlevi sağlayarak, öğrenme yöntemi eğitim süreci sırasında gradyan kaybolması sorununu çözebilir.

Mevcut görüntü tanımlama yöntemleri genellikle tek aşamalı bir cümle kod çözücüyü eğitir, bu da zengin ve ayrıntılı açıklamalar oluşturmak zordur. Öte yandan, gradyan kaybolması sorunu nedeniyle, çok seviyeli görüntü tanımlama modelinin eğitilmesi zordur. Bu yazıda, her biri bir önceki aşamanın çıktısına göre çalışan ve böylece gittikçe daha rafine hale getirilmiş birden fazla kod çözücüden oluşan kabadan inceye çok seviyeli bir görüntü tanımlama tahmin çerçevesi öneriyoruz. Görüntü açıklaması. Orta düzey denetimi uygulayan bir öğrenme hedefi işlevi sağlayarak, önerilen öğrenme yöntemimiz, eğitim süreci sırasında gradyan kaybolması sorununu çözebilir.

Özellikle, modelimizi optimize etmek için bir takviye öğrenme yöntemi kullandığımızı belirtmeliyiz.Bu yöntem, ödülü normalleştirmek için her bir ara kod çözücünün test süresi çıkarım algoritmasının çıktısını ve önceki kod çözücünün çıktısını kullanabilir. , İyi bilinenleri çözebilecek Pozlama önyargı sorunu (Maruz kalma yanlılığı sorunu) ve Kayıp değerlendirme uyuşmazlığı sorunu (Kayıp değerlendirme uyumsuzluğu sorunu). Önerilen yöntemimizi değerlendirmek için MSCOCO üzerinde birçok deney yaptık ve sonuçlar, yöntemimizin mevcut en iyi performansı elde edebileceğini gösteriyor.

Kabadan inceye çok seviyeli tahmin çerçevesi

Görüntü açıklamasının zorluğu, tasarlanan modelin görüntü bilgilerini etkili bir şekilde kullanmasına ve insanlara daha yakın zengin görüntü açıklamaları oluşturmasına izin vermektir. Doğal dil işlemedeki son gelişmelerden hareketle, mevcut görüntü tanımlama yöntemleri genellikle sifre desifre çerçeve. Bu çerçeve, bir evrişimli sinir ağına (CNN) dayalı bir görüntü kodlayıcı ve tekrarlayan bir sinir ağına (RNN) dayalı bir cümle kod çözücüsünden oluşur ve görüntü açıklaması için birçok varyant vardır. Bu mevcut görüntü tanımlama yöntemlerinin eğitim yöntemleri, her bir temel doğruluk sözcüğünün olasılığını en üst düzeye çıkarmak için geri yayılımı kullanarak çoğunlukla önceki kesinlik sözlerine ve görüntülerine dayanmaktadır.

Bu mevcut görüntü tanımlama yöntemlerinin üç ana sorunu vardır. Birincisi, zengin ve ayrıntılı açıklamalar oluşturmak zordur. İkincisi, eğitim ve test arasında bir maruz kalma eğilimi vardır. Üçüncüsü, kayıp ve değerlendirme arasında bir uyumsuzluk vardır.

Zengin görüntü açıklamaları oluşturmak için tek aşamalı bir model kullanmanın büyük zorluğunu göz önünde bulundurarak, Bu yazıda önerildi Genelden ince çok seviyeli bir tahmin çerçevesi. Modelimiz, bir görüntü kodlayıcı ve bir dizi cümle kod çözücüden oluşur ve bunlar, art arda daha fazla ve daha ayrıntılı görüntü açıklamaları oluşturabilir. Bununla birlikte, böyle bir çok seviyeli kod çözücünün doğrudan görüntü açıklama modelinde oluşturulması, gradyan kaybolması problemi ile karşı karşıyadır. Zhang, Lee ve Lee 2016; Fu, Zheng ve Mei 2017 ve görüntü tanıma üzerine yapılan diğer araştırmalar, çok derin bir ağın orta katmanını denetlemenin öğrenmeye yardımcı olduğunu göstermiştir. Bu çalışmalardan esinlenerek, her bir kod çözücü düzeyini de sağlıyoruz Ara denetim uygulandı.

Ek olarak, Rennie ve diğerleri tarafından yapılan bu son görüntü tanımlama çalışması, kayıp değerlendirme uyumsuzluğu problemini çözmek için pekiştirmeli öğrenmeyi (RL) kullanır ve ayrıca maruz kalma yanlılığı problemini çözmek için eğitimde bir kriter olarak çıkarım sürecini içerir; ayrıca tasarladık Pekiştirmeli öğrenmeye dayalı benzer bir eğitim yöntemi, ancak tek bir seviyeden çok seviyeli çerçevemize genişletildi, burada her seviye bir ara denetim olarak bir ödül sunuyor. Özellikle, modelimizi optimize etmek için bir takviye öğrenme yöntemi kullandığımızı belirtmeliyiz.Bu yöntem, ödülü normalleştirmek için her bir ara kod çözücünün test süresi çıkarım algoritmasının çıktısını ve önceki kod çözücünün çıktısını kullanabilir. .

Buna ek olarak, kabaca ince öğrenme çerçevemize yanıt olarak, Kelime tahmininin her aşaması için daha ayrıntılı görsel dikkat bilgisi çıkarmak için kademeli bir dikkat modeli kullanılır. Şekil 1, üç yığılmış uzun kısa süreli bellek (LSTM) ağından oluşan kabataslak ince çerçevemizin şematik diyagramını göstermektedir. İlk LSTM, kaba ölçekli bir görüntü açıklaması üretir ve aşağıdaki LSTM ağı, ince ölçekli bir kod çözücü olarak kullanılır. Modelimizdeki her düzeyin girdisi, bir sonraki düzeyin belirsizliği giderme ipuçları olarak kullanılan, önceki düzeyden elde edilen dikkat ağırlığı ve gizli vektördür. Sonuç olarak, her bir kod çözücü seviyesi, dikkat ağırlıkları ve sözcüklerle gittikçe daha ince cümleler oluşturacaktır.

Şekil 1: Kabadan inceye çerçevemizin şematik diyagramı. Modelimiz bir görüntü kodlayıcı (CNN) ve bir dizi cümle kod çözücüden (dikkat tabanlı bir LSTM ağı) oluşur. Model, görüntüleri girdi olarak alır ve görüntü açıklamasını kabadan inceye sürekli olarak iyileştirebilir. Burada, iki seviyeli bir resim açıklaması kademeli iyileştirme gösteriyoruz (gri ve koyu gri).

Bu çalışmanın ana katkıları şunları içerir: (a) model karmaşıklığını kademeli olarak artırmak için gittikçe daha rafine edilmiş dikkat ağırlıkları kullanabilen görüntü tanımı için kabadan ince çerçeveye; (b) normalleştirilmiş Ara ödüllerin doğrudan modeli optimize ettiği pekiştirmeli öğrenme yöntemi. Deneyler, yöntemimizin MSCOCO üzerinde iyi performans gösterdiğini gösteriyor.

yöntem

Bu yazıda, resim açıklamaları oluşturmayı öğrenme problemini ele aldık. Algoritmamız, tek aşamalı modelle aynı hedeflere sahip, ancak çıktı katmanı ile giriş katmanı arasında ek bir ara katman bulunan genelden inceye bir model oluşturur. Modeli, her bir ardışık hedef kelimenin logaritmik olasılığını en üst düzeye çıkararak giriş görüntüsünün altın geçmişine ve hedef sözcüğe dayalı olarak eğitiyoruz ve ardından modeli optimize etmek için cümle düzeyinde değerlendirme göstergelerini kullanıyoruz. Sonuç olarak, her bir ara cümle kod çözücü gittikçe artan bir şekilde rafine edilmiş bir görüntü açıklamasını tahmin edecek ve son kod çözücünün tahmin sonucu, son görüntü açıklaması olarak kullanılacaktır.

Görüntü kodlama

Önce belirli bir görüntüyü uzamsal görüntü özelliklerine kodluyoruz. Spesifik olarak, CNN'nin son evrişimli katmanından görüntü özelliklerini çıkarıyoruz ve ardından bu özelliklerin boyutunu sabit boyutlu bir uzamsal temsile ayarlamak için uzamsal uyarlanabilir ortalama havuzlamayı kullanıyoruz.

Kaba ve ince kod çözme

Genel olarak kaba ve ince cümle kod çözücü, kaba bir kod çözücü ve bir dizi dikkat temelli ince kod çözücüden oluşur.Bu kod çözücüler, önceki kod çözücünün ipuçlarına dayalı olarak her kelime tahmininin rafine edilmiş dikkat haritasını elde edebilir ( dikkat haritası). Modelimizin ilk aşaması, genel görüntü özelliği tahminine dayalı olarak kaba bir açıklama alabilen kaba bir kod çözücüdür. Sonraki aşamalarda, her aşama, önceki aşamanın görüntü özelliklerine ve çıktısına bağlı olarak daha iyi bir görüntü tanımını tahmin edebilen ince bir kod çözücüdür. Özellikle, bir sonraki kelime tahmini düzeyinin bölgesel inançlarını sağlamak için önceki seviyenin dikkat ağırlıklarını kullandığımızı belirtmemiz gerekir. Diğer bir deyişle, görüntü özelliklerinin kodunu çok seviyeli bir şekilde çözüyoruz; burada her seviyenin tahmin sonucu, önceki seviyenin tahmin sonucunun bir iyileştirmesidir.

Şekil 2, her seviyeden sonra ara denetimin (ödül) kullanıldığı, önerdiğimiz genelden inceye kod çözme mimarimizi göstermektedir. Üst sıra (gri) bir kaba kod çözücü (sol) ve iki yığılmış dikkat temelli ince kod çözücü (eğitim modunda) içerir; alt sıra, ince kod çözücüyü çıkarım modunda (açgözlü kod çözme) gösterir. Ara denetimi entegre etmek için ödülleri hesaplamak.

Kaba kod çözücü. İlk önce birinci seviyenin kaba arama alanında kodu çözeriz, burada kaba bir kod çözücüyü öğrenmek için bir LSTM ağı kullanırız.

.

Her zaman adımındaki girdi, önceki hedef sözcükten (genel görüntü özellikleriyle bağlantılı) ve önceki gizli durumdan oluşur.

Güzel kod çözücü. Sonraki çoklu seviyelerde, her rafine kod çözücü, önceki LSTM'den görüntü özelliklerine ve dikkat ağırlığına ve gizli duruma dayalı olarak kelimeleri yeniden tahmin edecektir. Her bir hassas kod çözücü, bir

Ağ, bir dikkat modelinden oluşur.

Her zaman adımındaki giriş, ortaya çıkan görüntü özelliklerini, önceki kelime gömme ve gizli durumunu ve önceki LSTM'den güncellenmiş gizli durumu içerir.

Basamaklı dikkat modeli. Daha önce de belirtildiği gibi, kaba kod çözücümüz, global görüntü özelliklerine dayalı sözcükler üretir. Ancak çoğu durumda, her kelime yalnızca resmin küçük bir kısmıyla ilgilidir. Görüntüdeki ilgisiz bölgeler her tahmin sırasında gürültüye neden olacağından, kelime tahmini için global görüntü özelliklerinin kullanılması optimumun altında sonuçlar verecektir. Bu nedenle, görüntü açıklamasının performansını önemli ölçüde artırabilen bir dikkat mekanizması geliştirdik. Dikkat mekanizması genellikle tahmin edilen her kelime ile ilişkili görüntü alanını vurgulayan bir uzaysal harita ile sonuçlanır. Kelime tahmini için daha ayrıntılı görsel bilgiler elde etmek amacıyla, bu çalışmada, gürültüyü kademeli olarak filtrelemek ve kelime tahminiyle yüksek oranda ilgili bölgeleri bulmak için kademeli bir dikkat modeli uyguladık. Her ince işleme aşamasında, dikkat modelimiz önceki aşamadaki görüntü özellikleri ve dikkat ağırlıkları üzerinde çalışır.

Öğrenin

Yukarıda açıklanan kaba ve ince yöntemler, derin bir mimari elde edebilir. Böylesine derin bir ağın eğitilmesi, gradyan kaybolması sorununa eğilimli olabilir, yani, birden çok ara katmandan geri yayılırken gradyanın büyüklüğü güçte azalacaktır. Bu sorunu çözmenin doğal bir yolu, denetlenen eğitim hedefini orta katmana entegre etmektir. Kaba ve ince cümle kod çözücünün her seviyesinin eğitim amacı, kelimeleri tekrar tekrar tahmin etmektir. İlk önce, her seviye için çapraz entropi kaybını en aza indiren bir kayıp işlevi tanımlayarak ağı eğitiyoruz.

Ancak burada eğitim için sadece kayıp fonksiyonunu kullanmak yeterli değildir.

Her seviye için değerlendirme göstergelerini optimize etmek için, görüntü tanımlama oluşturma sürecini bir takviye öğrenme problemi olarak görüyoruz, yani bir ortam verildiğinde (önceki durum), bir ajanın (RNN, LSTM veya GRU gibi) ortamı görüntülemesini istiyoruz ( Görüntü özellikleri, gizli durum ve önceki kelimeler) ve eylemler yapın (sonraki kelimeyi tahmin edin). Temsilci, tam bir cümle oluşturduktan sonra, cümle düzeyinde ödülleri gözlemleyecek ve iç durumunu güncelleyecektir.

Deney

Veri seti ve ayarlar

Önerilen yöntemimizi MSCOCO veri kümesinde değerlendirdik.

Karşılaştırma için kıyaslama yöntemi

Önerdiğimiz yöntemin etkinliğini anlamak için aşağıdaki modelleri birbirleriyle karşılaştırdık:

LSTM ve

. Vinyals ve diğerleri 2015 tarafından önerilen çerçeveye dayalı tek katmanlı LSTM tabanlı bir görüntü açıklama modeli uyguladık. Ayrıca tek katmanlı LSTM modelinden sonra iki LSTM ağı daha ekledik.

ile

Görsel dikkati temel alan iki görüntü açıklama modeli uyguladık: Xu ve diğerleri tarafından önerilen yumuşak dikkat modeli. 2015

Ve Anderson ve diğerleri tarafından önerilen yukarıdan aşağıya dikkat modeli. 2017

Stack-Cap ve Stack-Cap *. Stack-Cap önerdiğimiz yöntemdir, Stack-Cap * basitleştirilmiş bir versiyondur. Stack-Cap ve Stack-Cap * mimarileri benzerdir, ancak Stack-Cap bağımsız dikkat modeli yerine önerdiğimiz yığınlanmış dikkat modelini uygular.

Nicel analiz

Deneyde, ilk önce modeli standart çapraz entropi kaybını kullanarak optimize ettik. Modelimizin ve kıyaslama modelimizin performansını Karpathy test bölümünde Tablo 1'de gösterildiği gibi rapor ediyoruz. Burada bildirilen tüm sonuçların ResNet-101'in ince ayarını kullanmadığını unutmayın.

Tablo 1: MSCOCO'da performans karşılaştırması, burada B @ n, BLEU-n'yi, M, METEOR'u ve C, CIDEr'ı ifade eder. Buradaki tüm değerler yüzdelerdir (kalın sayılar en iyi sonuçlardır).

Modeli çapraz entropi kaybını kullanarak optimize ettikten sonra, bunları CIDEr göstergesi için optimize etmek için takviye öğrenme tabanlı bir algoritma kullandık. Tablo 2, SCST (Rennie ve ark. 2017) kullanılarak CIDEr endeksi için optimize edilmiş dört modelin performansını ve genelden inceye (C2F) öğrenme yöntemimiz kullanılarak optimize edilmiş iki modelin performansını göstermektedir. Stack-Cap modelimizin tüm göstergelerde önemli avantajlara sahip olduğu görülmektedir.

Tablo 3, Stack-Cap (C2F) modelimizin sonuçlarını ve MSCOCO Karpathy test bölümündeki diğer mevcut yöntemleri karşılaştırmaktadır. Stack-Cap, tüm göstergelerde en iyi performansı gösterir.

Çevrimiçi değerlendirme. Tablo 4, resmi MSCOCO değerlendirme sunucusunda öğrenmeyi ve eğitimi hassaslaştırmak için kaba kullanan önerilen Stack-Cap modelimizin performansını göstermektedir. Yöntemimizin mevcut en iyi yöntemle karşılaştırıldığında çok rekabetçi olduğu görülmektedir. SCST: Att2in (Ens. 4) sonucunun 4 model birlikte kullanılarak gerçekleştirildiğine, sonucumuzun ise tek bir model kullanılarak oluşturulduğuna dikkat edin.

Nitel analiz

Önerdiğimiz kaba-ince yönteminin kademeli olarak daha iyi ve daha iyi görüntü açıklamaları oluşturabildiğini ve bu görüntü açıklamalarının uyarlanabilir odaklanmış bölgelerle iyi bir korelasyona sahip olduğunu göstermek için, üretilen açıklamalarda kelimelerin uzamsal dikkat ağırlıklarını görselleştirdik. . Dikkat ağırlığını 16 örnekleme faktörü ile yükselttik ve giriş görüntüsüyle aynı boyuta getirmek için bir Gauss filtresi kullandık ve orijinal girdi görüntüsünün üzerine tüm yükseltilmiş uzaysal dikkat haritalarını yerleştirdik.

Şekil 3, üretilen açıklamalardan bazılarını göstermektedir. Çoklu dikkat katmanları aracılığıyla adım adım çıkarım, Stack-Cap modeli gürültüyü kademeli olarak filtreleyebilir ve mevcut kelime tahminiyle son derece ilişkili bölgeleri bulabilir. Stack-Cap modelimizin insan sezgisinin yüksekliğine karşılık gelen hizalamayı öğrenebildiği görülebilir. İlk görüntüyü bir örnek olarak alırsak, kaba seviye tarafından üretilen açıklamayı karşılaştırarak, birinci ince kod çözücü tarafından üretilen ilk rafine açıklama "köpek" i içerir ve ikinci ince kod çözücü yalnızca "köpek" değil, aynı zamanda "Şemsiye" tanınır.

Ek olarak, yöntemimiz daha açıklayıcı cümleler oluşturabilir. Örneğin, jet görüntülerinin dikkat görselleştirmesi, Stack-Cap modelinin bu jetler ile arkalarındaki uzun duman izleri arasındaki ilişkiyi sorgulayabildiğini göstermektedir, çünkü bu öne çıkan alanlar yüksek dikkat ağırlıklarına sahiptir. Bu örnek ve diğer durumlar, ardışık dikkatin, sekans tahmini için görsel bilgileri daha etkili bir şekilde keşfedebileceğini göstermektedir. Başka bir deyişle, bir görüntüdeki görsel bilgileri kabadan inceye, genellikle görüntüleri kabadan inceye bir süreçle anlayan insan görsel sistemine çok benzeyen katmanlı dikkat yöntemini kullanarak değerlendirebiliriz.

Orijinal indirme adresi:

https://102.alibaba.com/downloadFile.do?file=1518074198430/AAAI2018Stack-Captioning_Coarse-to-Fine%20Learning%20for%20Image%20Captioning_12213(1).pdf

Gerçekten mi! Hanchuan trafik polisi, merkezi düzeltme operasyonlarının ilk turunu yayınladı
önceki
Bir düşünceyle, Çin bir Nobel Ödülü sahibi kaybetti! Netizen: Katkısı bu ödül sertifikasını gerektirmiyor
Sonraki
Sevgililer Günü Arama Listesi, dünyanın en coşkulu 12 otel banyosu ~
Pelepe'nin karısı sevgisini Quancheng Meydanı'nda gösteriyor, İtalya Huaxia savaşını kaçırabilir
Gelir art arda altı düşüşü durdurdu, yılın ilk yarısında mağazalar açtı, Ajisen Ramen "en karanlık an" mı?
[Sinir ağları elektronik koyunları hayal edecek mi? ] "Eşleştirme Modu" sinir ağlarındaki ölümcül kusurları ortaya çıkarır
Pirinç ekim teknolojisi: mekanik hasat pirincinin yetiştirme teknolojisinin paylaşımı
Adam öfkesini dışa vurması için kardeşini tekmeledi, hiç beklemedi ... polisin sözleri insanları ağlattı
Haftanın Perakende Popüler Noktaları | Liu Qiangdong, Amerika Birleşik Devletleri'ndeki üniversite öğrencilerine cinsel saldırıya uğradı, Jingdong'un haksız yere suçlandığı iddia edildi
"Öfke Qingxi Xiangxi" tüm ağı mı vurdu? Söyleyecek bir şeyim var Chen Yulou!
Yeşil biber nasıl gübrelenir? Yeşil biber için su ve gübre yönetimi becerileri
Xiaogan 2 adamı, başkalarıyla suç işledikten sonra arabayla uzaklaştı ve polis tarafından durduruldu
"Eş 2" yabancı basına kapandı! Çok az Çinli turistin yaşadığı bu güneşli şehir çok güzel
Gerçekten paranın karşılığını veren bir ada! Bu arada, karides yemek için 20 yuan, kişi başına 200 otel, dalış sertifikası al
To Top