Xinzhiyuan önerilir
Kaynak: Alibaba AI Labs
Editör: Craig
Xin Zhiyuan Rehberi Yakın tarihli bir makalede, Alibaba AI Labs genelden inceye çok seviyeli bir görüntü tanımlama ve tahmin çerçevesi önerdi. Çerçeve, her biri bir önceki aşamanın çıktısına göre çalışan birden fazla kod çözücüden oluşuyor, böylece giderek daha fazla Görüntü açıklaması ne kadar ince olursa. Orta düzey denetimi uygulayan bir öğrenme hedefi işlevi sağlayarak, öğrenme yöntemi eğitim süreci sırasında gradyan kaybolması sorununu çözebilir.
Mevcut görüntü tanımlama yöntemleri genellikle tek aşamalı bir cümle kod çözücüyü eğitir, bu da zengin ve ayrıntılı açıklamalar oluşturmak zordur. Öte yandan, gradyan kaybolması sorunu nedeniyle, çok seviyeli görüntü tanımlama modelinin eğitilmesi zordur. Bu yazıda, her biri bir önceki aşamanın çıktısına göre çalışan ve böylece gittikçe daha rafine hale getirilmiş birden fazla kod çözücüden oluşan kabadan inceye çok seviyeli bir görüntü tanımlama tahmin çerçevesi öneriyoruz. Görüntü açıklaması. Orta düzey denetimi uygulayan bir öğrenme hedefi işlevi sağlayarak, önerilen öğrenme yöntemimiz, eğitim süreci sırasında gradyan kaybolması sorununu çözebilir.
Özellikle, modelimizi optimize etmek için bir takviye öğrenme yöntemi kullandığımızı belirtmeliyiz.Bu yöntem, ödülü normalleştirmek için her bir ara kod çözücünün test süresi çıkarım algoritmasının çıktısını ve önceki kod çözücünün çıktısını kullanabilir. , İyi bilinenleri çözebilecek Pozlama önyargı sorunu (Maruz kalma yanlılığı sorunu) ve Kayıp değerlendirme uyuşmazlığı sorunu (Kayıp değerlendirme uyumsuzluğu sorunu). Önerilen yöntemimizi değerlendirmek için MSCOCO üzerinde birçok deney yaptık ve sonuçlar, yöntemimizin mevcut en iyi performansı elde edebileceğini gösteriyor.
Görüntü açıklamasının zorluğu, tasarlanan modelin görüntü bilgilerini etkili bir şekilde kullanmasına ve insanlara daha yakın zengin görüntü açıklamaları oluşturmasına izin vermektir. Doğal dil işlemedeki son gelişmelerden hareketle, mevcut görüntü tanımlama yöntemleri genellikle sifre desifre çerçeve. Bu çerçeve, bir evrişimli sinir ağına (CNN) dayalı bir görüntü kodlayıcı ve tekrarlayan bir sinir ağına (RNN) dayalı bir cümle kod çözücüsünden oluşur ve görüntü açıklaması için birçok varyant vardır. Bu mevcut görüntü tanımlama yöntemlerinin eğitim yöntemleri, her bir temel doğruluk sözcüğünün olasılığını en üst düzeye çıkarmak için geri yayılımı kullanarak çoğunlukla önceki kesinlik sözlerine ve görüntülerine dayanmaktadır.
Bu mevcut görüntü tanımlama yöntemlerinin üç ana sorunu vardır. Birincisi, zengin ve ayrıntılı açıklamalar oluşturmak zordur. İkincisi, eğitim ve test arasında bir maruz kalma eğilimi vardır. Üçüncüsü, kayıp ve değerlendirme arasında bir uyumsuzluk vardır.
Zengin görüntü açıklamaları oluşturmak için tek aşamalı bir model kullanmanın büyük zorluğunu göz önünde bulundurarak, Bu yazıda önerildi Genelden ince çok seviyeli bir tahmin çerçevesi. Modelimiz, bir görüntü kodlayıcı ve bir dizi cümle kod çözücüden oluşur ve bunlar, art arda daha fazla ve daha ayrıntılı görüntü açıklamaları oluşturabilir. Bununla birlikte, böyle bir çok seviyeli kod çözücünün doğrudan görüntü açıklama modelinde oluşturulması, gradyan kaybolması problemi ile karşı karşıyadır. Zhang, Lee ve Lee 2016; Fu, Zheng ve Mei 2017 ve görüntü tanıma üzerine yapılan diğer araştırmalar, çok derin bir ağın orta katmanını denetlemenin öğrenmeye yardımcı olduğunu göstermiştir. Bu çalışmalardan esinlenerek, her bir kod çözücü düzeyini de sağlıyoruz Ara denetim uygulandı.
Ek olarak, Rennie ve diğerleri tarafından yapılan bu son görüntü tanımlama çalışması, kayıp değerlendirme uyumsuzluğu problemini çözmek için pekiştirmeli öğrenmeyi (RL) kullanır ve ayrıca maruz kalma yanlılığı problemini çözmek için eğitimde bir kriter olarak çıkarım sürecini içerir; ayrıca tasarladık Pekiştirmeli öğrenmeye dayalı benzer bir eğitim yöntemi, ancak tek bir seviyeden çok seviyeli çerçevemize genişletildi, burada her seviye bir ara denetim olarak bir ödül sunuyor. Özellikle, modelimizi optimize etmek için bir takviye öğrenme yöntemi kullandığımızı belirtmeliyiz.Bu yöntem, ödülü normalleştirmek için her bir ara kod çözücünün test süresi çıkarım algoritmasının çıktısını ve önceki kod çözücünün çıktısını kullanabilir. .
Buna ek olarak, kabaca ince öğrenme çerçevemize yanıt olarak, Kelime tahmininin her aşaması için daha ayrıntılı görsel dikkat bilgisi çıkarmak için kademeli bir dikkat modeli kullanılır. Şekil 1, üç yığılmış uzun kısa süreli bellek (LSTM) ağından oluşan kabataslak ince çerçevemizin şematik diyagramını göstermektedir. İlk LSTM, kaba ölçekli bir görüntü açıklaması üretir ve aşağıdaki LSTM ağı, ince ölçekli bir kod çözücü olarak kullanılır. Modelimizdeki her düzeyin girdisi, bir sonraki düzeyin belirsizliği giderme ipuçları olarak kullanılan, önceki düzeyden elde edilen dikkat ağırlığı ve gizli vektördür. Sonuç olarak, her bir kod çözücü seviyesi, dikkat ağırlıkları ve sözcüklerle gittikçe daha ince cümleler oluşturacaktır.
Şekil 1: Kabadan inceye çerçevemizin şematik diyagramı. Modelimiz bir görüntü kodlayıcı (CNN) ve bir dizi cümle kod çözücüden (dikkat tabanlı bir LSTM ağı) oluşur. Model, görüntüleri girdi olarak alır ve görüntü açıklamasını kabadan inceye sürekli olarak iyileştirebilir. Burada, iki seviyeli bir resim açıklaması kademeli iyileştirme gösteriyoruz (gri ve koyu gri).
Bu çalışmanın ana katkıları şunları içerir: (a) model karmaşıklığını kademeli olarak artırmak için gittikçe daha rafine edilmiş dikkat ağırlıkları kullanabilen görüntü tanımı için kabadan ince çerçeveye; (b) normalleştirilmiş Ara ödüllerin doğrudan modeli optimize ettiği pekiştirmeli öğrenme yöntemi. Deneyler, yöntemimizin MSCOCO üzerinde iyi performans gösterdiğini gösteriyor.
Bu yazıda, resim açıklamaları oluşturmayı öğrenme problemini ele aldık. Algoritmamız, tek aşamalı modelle aynı hedeflere sahip, ancak çıktı katmanı ile giriş katmanı arasında ek bir ara katman bulunan genelden inceye bir model oluşturur. Modeli, her bir ardışık hedef kelimenin logaritmik olasılığını en üst düzeye çıkararak giriş görüntüsünün altın geçmişine ve hedef sözcüğe dayalı olarak eğitiyoruz ve ardından modeli optimize etmek için cümle düzeyinde değerlendirme göstergelerini kullanıyoruz. Sonuç olarak, her bir ara cümle kod çözücü gittikçe artan bir şekilde rafine edilmiş bir görüntü açıklamasını tahmin edecek ve son kod çözücünün tahmin sonucu, son görüntü açıklaması olarak kullanılacaktır.
Görüntü kodlama
Önce belirli bir görüntüyü uzamsal görüntü özelliklerine kodluyoruz. Spesifik olarak, CNN'nin son evrişimli katmanından görüntü özelliklerini çıkarıyoruz ve ardından bu özelliklerin boyutunu sabit boyutlu bir uzamsal temsile ayarlamak için uzamsal uyarlanabilir ortalama havuzlamayı kullanıyoruz.
Kaba ve ince kod çözme
Genel olarak kaba ve ince cümle kod çözücü, kaba bir kod çözücü ve bir dizi dikkat temelli ince kod çözücüden oluşur.Bu kod çözücüler, önceki kod çözücünün ipuçlarına dayalı olarak her kelime tahmininin rafine edilmiş dikkat haritasını elde edebilir ( dikkat haritası). Modelimizin ilk aşaması, genel görüntü özelliği tahminine dayalı olarak kaba bir açıklama alabilen kaba bir kod çözücüdür. Sonraki aşamalarda, her aşama, önceki aşamanın görüntü özelliklerine ve çıktısına bağlı olarak daha iyi bir görüntü tanımını tahmin edebilen ince bir kod çözücüdür. Özellikle, bir sonraki kelime tahmini düzeyinin bölgesel inançlarını sağlamak için önceki seviyenin dikkat ağırlıklarını kullandığımızı belirtmemiz gerekir. Diğer bir deyişle, görüntü özelliklerinin kodunu çok seviyeli bir şekilde çözüyoruz; burada her seviyenin tahmin sonucu, önceki seviyenin tahmin sonucunun bir iyileştirmesidir.
Şekil 2, her seviyeden sonra ara denetimin (ödül) kullanıldığı, önerdiğimiz genelden inceye kod çözme mimarimizi göstermektedir. Üst sıra (gri) bir kaba kod çözücü (sol) ve iki yığılmış dikkat temelli ince kod çözücü (eğitim modunda) içerir; alt sıra, ince kod çözücüyü çıkarım modunda (açgözlü kod çözme) gösterir. Ara denetimi entegre etmek için ödülleri hesaplamak.
Kaba kod çözücü. İlk önce birinci seviyenin kaba arama alanında kodu çözeriz, burada kaba bir kod çözücüyü öğrenmek için bir LSTM ağı kullanırız.
.
Her zaman adımındaki girdi, önceki hedef sözcükten (genel görüntü özellikleriyle bağlantılı) ve önceki gizli durumdan oluşur.
Güzel kod çözücü. Sonraki çoklu seviyelerde, her rafine kod çözücü, önceki LSTM'den görüntü özelliklerine ve dikkat ağırlığına ve gizli duruma dayalı olarak kelimeleri yeniden tahmin edecektir. Her bir hassas kod çözücü, bir
Ağ, bir dikkat modelinden oluşur.
Her zaman adımındaki giriş, ortaya çıkan görüntü özelliklerini, önceki kelime gömme ve gizli durumunu ve önceki LSTM'den güncellenmiş gizli durumu içerir.
Basamaklı dikkat modeli. Daha önce de belirtildiği gibi, kaba kod çözücümüz, global görüntü özelliklerine dayalı sözcükler üretir. Ancak çoğu durumda, her kelime yalnızca resmin küçük bir kısmıyla ilgilidir. Görüntüdeki ilgisiz bölgeler her tahmin sırasında gürültüye neden olacağından, kelime tahmini için global görüntü özelliklerinin kullanılması optimumun altında sonuçlar verecektir. Bu nedenle, görüntü açıklamasının performansını önemli ölçüde artırabilen bir dikkat mekanizması geliştirdik. Dikkat mekanizması genellikle tahmin edilen her kelime ile ilişkili görüntü alanını vurgulayan bir uzaysal harita ile sonuçlanır. Kelime tahmini için daha ayrıntılı görsel bilgiler elde etmek amacıyla, bu çalışmada, gürültüyü kademeli olarak filtrelemek ve kelime tahminiyle yüksek oranda ilgili bölgeleri bulmak için kademeli bir dikkat modeli uyguladık. Her ince işleme aşamasında, dikkat modelimiz önceki aşamadaki görüntü özellikleri ve dikkat ağırlıkları üzerinde çalışır.
Öğrenin
Yukarıda açıklanan kaba ve ince yöntemler, derin bir mimari elde edebilir. Böylesine derin bir ağın eğitilmesi, gradyan kaybolması sorununa eğilimli olabilir, yani, birden çok ara katmandan geri yayılırken gradyanın büyüklüğü güçte azalacaktır. Bu sorunu çözmenin doğal bir yolu, denetlenen eğitim hedefini orta katmana entegre etmektir. Kaba ve ince cümle kod çözücünün her seviyesinin eğitim amacı, kelimeleri tekrar tekrar tahmin etmektir. İlk önce, her seviye için çapraz entropi kaybını en aza indiren bir kayıp işlevi tanımlayarak ağı eğitiyoruz.
Ancak burada eğitim için sadece kayıp fonksiyonunu kullanmak yeterli değildir.
Her seviye için değerlendirme göstergelerini optimize etmek için, görüntü tanımlama oluşturma sürecini bir takviye öğrenme problemi olarak görüyoruz, yani bir ortam verildiğinde (önceki durum), bir ajanın (RNN, LSTM veya GRU gibi) ortamı görüntülemesini istiyoruz ( Görüntü özellikleri, gizli durum ve önceki kelimeler) ve eylemler yapın (sonraki kelimeyi tahmin edin). Temsilci, tam bir cümle oluşturduktan sonra, cümle düzeyinde ödülleri gözlemleyecek ve iç durumunu güncelleyecektir.
Veri seti ve ayarlar
Önerilen yöntemimizi MSCOCO veri kümesinde değerlendirdik.
Karşılaştırma için kıyaslama yöntemi
Önerdiğimiz yöntemin etkinliğini anlamak için aşağıdaki modelleri birbirleriyle karşılaştırdık:
LSTM ve
. Vinyals ve diğerleri 2015 tarafından önerilen çerçeveye dayalı tek katmanlı LSTM tabanlı bir görüntü açıklama modeli uyguladık. Ayrıca tek katmanlı LSTM modelinden sonra iki LSTM ağı daha ekledik.
ile
Görsel dikkati temel alan iki görüntü açıklama modeli uyguladık: Xu ve diğerleri tarafından önerilen yumuşak dikkat modeli. 2015
Ve Anderson ve diğerleri tarafından önerilen yukarıdan aşağıya dikkat modeli. 2017
Stack-Cap ve Stack-Cap *. Stack-Cap önerdiğimiz yöntemdir, Stack-Cap * basitleştirilmiş bir versiyondur. Stack-Cap ve Stack-Cap * mimarileri benzerdir, ancak Stack-Cap bağımsız dikkat modeli yerine önerdiğimiz yığınlanmış dikkat modelini uygular.
Nicel analiz
Deneyde, ilk önce modeli standart çapraz entropi kaybını kullanarak optimize ettik. Modelimizin ve kıyaslama modelimizin performansını Karpathy test bölümünde Tablo 1'de gösterildiği gibi rapor ediyoruz. Burada bildirilen tüm sonuçların ResNet-101'in ince ayarını kullanmadığını unutmayın.
Tablo 1: MSCOCO'da performans karşılaştırması, burada B @ n, BLEU-n'yi, M, METEOR'u ve C, CIDEr'ı ifade eder. Buradaki tüm değerler yüzdelerdir (kalın sayılar en iyi sonuçlardır).
Modeli çapraz entropi kaybını kullanarak optimize ettikten sonra, bunları CIDEr göstergesi için optimize etmek için takviye öğrenme tabanlı bir algoritma kullandık. Tablo 2, SCST (Rennie ve ark. 2017) kullanılarak CIDEr endeksi için optimize edilmiş dört modelin performansını ve genelden inceye (C2F) öğrenme yöntemimiz kullanılarak optimize edilmiş iki modelin performansını göstermektedir. Stack-Cap modelimizin tüm göstergelerde önemli avantajlara sahip olduğu görülmektedir.
Tablo 3, Stack-Cap (C2F) modelimizin sonuçlarını ve MSCOCO Karpathy test bölümündeki diğer mevcut yöntemleri karşılaştırmaktadır. Stack-Cap, tüm göstergelerde en iyi performansı gösterir.
Çevrimiçi değerlendirme. Tablo 4, resmi MSCOCO değerlendirme sunucusunda öğrenmeyi ve eğitimi hassaslaştırmak için kaba kullanan önerilen Stack-Cap modelimizin performansını göstermektedir. Yöntemimizin mevcut en iyi yöntemle karşılaştırıldığında çok rekabetçi olduğu görülmektedir. SCST: Att2in (Ens. 4) sonucunun 4 model birlikte kullanılarak gerçekleştirildiğine, sonucumuzun ise tek bir model kullanılarak oluşturulduğuna dikkat edin.
Nitel analiz
Önerdiğimiz kaba-ince yönteminin kademeli olarak daha iyi ve daha iyi görüntü açıklamaları oluşturabildiğini ve bu görüntü açıklamalarının uyarlanabilir odaklanmış bölgelerle iyi bir korelasyona sahip olduğunu göstermek için, üretilen açıklamalarda kelimelerin uzamsal dikkat ağırlıklarını görselleştirdik. . Dikkat ağırlığını 16 örnekleme faktörü ile yükselttik ve giriş görüntüsüyle aynı boyuta getirmek için bir Gauss filtresi kullandık ve orijinal girdi görüntüsünün üzerine tüm yükseltilmiş uzaysal dikkat haritalarını yerleştirdik.
Şekil 3, üretilen açıklamalardan bazılarını göstermektedir. Çoklu dikkat katmanları aracılığıyla adım adım çıkarım, Stack-Cap modeli gürültüyü kademeli olarak filtreleyebilir ve mevcut kelime tahminiyle son derece ilişkili bölgeleri bulabilir. Stack-Cap modelimizin insan sezgisinin yüksekliğine karşılık gelen hizalamayı öğrenebildiği görülebilir. İlk görüntüyü bir örnek olarak alırsak, kaba seviye tarafından üretilen açıklamayı karşılaştırarak, birinci ince kod çözücü tarafından üretilen ilk rafine açıklama "köpek" i içerir ve ikinci ince kod çözücü yalnızca "köpek" değil, aynı zamanda "Şemsiye" tanınır.
Ek olarak, yöntemimiz daha açıklayıcı cümleler oluşturabilir. Örneğin, jet görüntülerinin dikkat görselleştirmesi, Stack-Cap modelinin bu jetler ile arkalarındaki uzun duman izleri arasındaki ilişkiyi sorgulayabildiğini göstermektedir, çünkü bu öne çıkan alanlar yüksek dikkat ağırlıklarına sahiptir. Bu örnek ve diğer durumlar, ardışık dikkatin, sekans tahmini için görsel bilgileri daha etkili bir şekilde keşfedebileceğini göstermektedir. Başka bir deyişle, bir görüntüdeki görsel bilgileri kabadan inceye, genellikle görüntüleri kabadan inceye bir süreçle anlayan insan görsel sistemine çok benzeyen katmanlı dikkat yöntemini kullanarak değerlendirebiliriz.
Orijinal indirme adresi:
https://102.alibaba.com/downloadFile.do?file=1518074198430/AAAI2018Stack-Captioning_Coarse-to-Fine%20Learning%20for%20Image%20Captioning_12213(1).pdf