Dikkat dikkati İnsan görsel sisteminden (HVS) kaynaklanmaktadır.Kişisel olarak tanımlanmış, dış dünyadan Stimuli'ye bir uyarana benzer olmalı ve daha sonra HVS, ilgili belirginlik haritasını ilk kez oluşturacak ve dikkat bu belirginlik alanına karşılık gelmelidir.
Bu, aşağıdan yukarıya ve yukarıdan aşağıya doğru birçok fizyolojik ilkeyi içerir ~
Yerel olmayan NN, CVPR2018
FAIR'in başyapıtı, görüntüleri denoize etmek için yerel olmayan benzerliği kullanmak için geleneksel yöntemlerden esinlenmiştir.
Ana fikir de çok basit.CNN'deki evrişim birimi yalnızca komşu çekirdek boyutunun alanına dikkat eder. Daha sonraki aşamada alıcı alan daha da genişlese bile, diğer küresel alanları (uzak gibi) görmezden gelen hala yerel alanın işleyişidir. Pixel) mevcut alana katkısı.
Dolayısıyla, yerel olmayan blokların yapması gereken, bu uzun menzilli ilişkiyi yakalamaktır: 2B görüntüler için, görüntüdeki herhangi bir piksel ile geçerli piksel arasındaki ilişkinin ağırlığıdır; 3B video için, geçerli kare için tüm karelerdeki tüm piksellerdir. Pikselin ilişki ağırlığı.
Ağ çerçeve diyagramı da basit ve kabadır:
Yerel olmayan blok
Makale, çoklu uygulama yöntemlerinden bahsediyor, işte DL çerçevesinde en iyi şekilde uygulanan Matmul yöntemine kısa bir giriş:
1. Önce girdi özellik haritası X üzerinde doğrusal eşleme gerçekleştirin (açık bir şekilde ifade etmek gerekirse, kanal sayısını sıkıştırmak için 1 * 1 * 1 evrişimdir) ve ardından , , g özelliklerini elde edin
2. Yeniden şekillendirme işlemi yoluyla, kanal sayısı hariç yukarıdaki üç özelliğin boyutlarını zorla birleştirin ve ardından kovaryans matrisine benzer bir şey elde etmek için ve üzerinde matris nokta çarpma işlemini gerçekleştirin (bu işlem çok önemlidir. Korelasyon, yani her karedeki her piksel ile diğer tüm karelerdeki tüm pikseller arasındaki ilişki)
3. Ardından, 0 ~ 1 ağırlıklar elde etmek için sütunlar veya satırlar halinde (matris g formuna bağlı olarak) otokorelasyon özelliği üzerinde Softmax işlemini gerçekleştirin, işte ihtiyacımız olan Öz-dikkat katsayısı
4. Son olarak, dikkat katsayısı uygun şekilde tekrar özellik matrisine g çarpılır ve ardından kanalların sayısı genişletilir ve orijinal giriş özelliği haritası X'in kalıntısı aynıdır, tüm darboğaz
Eylem tanıma çerçevesine gömülü dikkat haritasının görselleştirilmesi:
Dikkat görselleştirme
Şekildeki oklar, önceki karelerdeki bazı piksellerin son görüntünün (mevcut kare) ayak eklem piksellerine katkısını gösterir. Yumuşak bir dikkat olduğu için, aslında her karedeki her pikselin ona bir katkısı vardır.Şekildeki sarı ok, en büyük tepki ile olan ilişkiyi açıklamaktadır.
sonuç olarak
Artıları: Yerel olmayan bloklar çok yönlüdür ve ilgili CV görevlerini iyileştirmek veya görselleştirmek için mevcut herhangi bir 2D ve 3D evrişimli ağa yerleştirilmesi kolaydır. Örneğin, Video ReID görevinde yakın zaman önce yerel olmayan kullanan bir makale vardı.
Eksileri: Makaledeki sonuçlar, yerel olmayanın mümkün olduğunca ön katmana yerleştirilmesi gerektiğini öne sürüyor, ancak aslında, 3B görevler için ön katman, nispeten büyük zamansal T nedeniyle nispeten büyüktür, bu nedenle , ve nokta çarpımını oluşturmak için çok fazla adım vardır. Parametrelerin çok fazla GPU Belleği tüketmesi gerekir ~ Daha sonra geliştirilebilir
Etkileşime Duyarlı Dikkat, ECCV2018
Meitu ve Çin Bilimler Akademisi makalesi.
Bu makale çok sayıda Çok-ölçekli özellik füzyonundan bahsediyor ve bir sürü hikayeden bahsediyor, ancak hepsi yumurtadır; doğrudan konuşursak, temel katkı, yerel olmayan bloğun kovaryans matrisine dayalı olarak PCA'ya dayalı yeni bir kayıp tasarlamaktır. Özellik etkileşimi gerçekleştirin. Yazar, bu süreçte özelliklerin kanal boyutunda yerel olmayan etkileşimi daha iyi gerçekleştireceğine inanmaktadır, bu nedenle buna Etkileşime duyarlı dikkat denir.
Öyleyse soru şu: PCA ile Dikkat ağırlıklarına nasıl ulaşılır?
Makale, bunu elde etmek için doğrudan kovaryans matrisinin özdeğer ayrışımını kullanmaz, ancak aşağıdaki eşdeğer formu kullanır:
Yukarıdaki formülün kısıtlamalarına göre, Etkileşime duyarlı kayıp, kanallar arasındaki yerel olmayan etkileşimi geliştirmek için tasarlanmıştır:
A, öğrenilecek dikkat ağırlıkları ve X, girdi özellik haritasıdır.
Genel Dikkat Bloğu çerçeve diyagramı temelde yerel olmayan ile aynıdır.Küçük fark, X ve Watten çarpıldıktan sonra bir b öğesinin eklenmesidir.Makale, bunun PCA'nın veri merkezi işlemi (çıkarma ortalaması) olarak kabul edilebileceğini söylüyor.
mekansal piramit etkileşimli dikkat katmanı
Eylem tanıma için ana ağ, yerel olmayan I3D'nin doğrudan kullanımından farklıdır.Burada, giriş TSN'ye benzer örnekleme segmentleri biçimindedir ve daha sonra 2B ağ, özellikleri çıkarmak için kullanılır ve ardından uzamsal-zamansal toplama için Dikkat bloğunda birleştirilir.
Eylem tanıma ağı çerçevesi
CBAM: Evrişimli Blok Dikkat Modülü, ECCV2018
Bu ürün, daha fazla genişletme için SE-Net'teki Squeeze-and-Excitation modülüne dayanmaktadır.Özellikle, kanal bazında dikkat, metinde 'ne' öğretme ağı olarak kabul edilir ve mekansal dikkat, öğretme ağı Look 'olarak kabul edilir. burada ', bu nedenle SE Modülüne göre ana avantajı ikincisidir.
Önce SE modülüne bir göz atalım:
SE modülü
Süreç:
1. 1 * 1 * Kanal elde etmek için giriş özelliklerinde Global AVE havuzlaması gerçekleştirin
2. Ardından, darboğaz özelliğiyle etkileşime geçin, önce kanal sayısını sıkıştırın ve ardından kanalların sayısını yeniden oluşturun
3. Son olarak, kanallar arasında 0 ~ 1 dikkat ağırlıkları oluşturmak için bir sigmoid bağlanır ve son olarak ölçek, orijinal giriş özelliğine geri çarpılır.
CBAM'e tekrar bakın:
CBAM
Temelde SE modülü ile aynı olan Kanal Dikkat Modülü, Maxpool dalını ekledi. Sigmoid'den önce, iki dal element-bilge toplama füzyonundan geçer.
Uzamsal Dikkat Modülü, giriş özelliklerinde kanallar arasında AVE ve Max havuzlaması gerçekleştirin, ardından birleştirme, ardından büyük bir 7 * 7 evrişim ve son olarak Sigmoid
Genel olarak, yukarıda bahsedilen Attention modülleri mevcut ağ çerçevelerine kolayca yerleştirilebilir ve CBAM özellikle hafiftir ve uçta dağıtımı kolaydır. Ayrıca zamansal dikkati kademelendirebilir ve kullanmak için video görevine koyabilirsiniz ~~
Sonraki akademik çevrelerde pek çok deformasyon ve bunlara dayalı uygulama olacağı tahmin ediliyor, haha ~
Referans:
Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He, Yerel Olmayan Sinir Ağları, CVPR2018
Xingyu Liao, Lingxiao He, Zhouwang Yang, 3B Evrişimli Ağlar ve Yerel Olmayan Dikkat aracılığıyla Video Tabanlı Kişi Yeniden Tanımlama, 2018
Yang Du, Chunfeng Yuan, Bing Li, Lili Zhao, Yangxi Li, Weiming Hu, Etkileşime Duyarlı Uzay-Zamansal Piramit Eylem Sınıflandırması için Dikkat Ağları, ECCV2018
CSanghyun Woo, Jongchan Park, Joon-Young Lee, So Kweon, BAM: Evrişimli Blok Dikkat Modülü, ECCV2018
Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks, ILSVRC 2017 görüntü sınıflandırması kazananı; CVPR 2018 Oral
SIGAI Katkıda Bulunan Yazar
Fisher Yu
CV doktora adayı
Araştırma yönü: duygusal bilgi işlem