Bilgisayarla görme teknolojisinin kişisel ilgisinin en son gelişimi

Dikkat dikkati İnsan görsel sisteminden (HVS) kaynaklanmaktadır.Kişisel olarak tanımlanmış, dış dünyadan Stimuli'ye bir uyarana benzer olmalı ve daha sonra HVS, ilgili belirginlik haritasını ilk kez oluşturacak ve dikkat bu belirginlik alanına karşılık gelmelidir.

Bu, aşağıdan yukarıya ve yukarıdan aşağıya doğru birçok fizyolojik ilkeyi içerir ~

Yerel olmayan NN, CVPR2018

FAIR'in başyapıtı, görüntüleri denoize etmek için yerel olmayan benzerliği kullanmak için geleneksel yöntemlerden esinlenmiştir.

Ana fikir de çok basit.CNN'deki evrişim birimi yalnızca komşu çekirdek boyutunun alanına dikkat eder. Daha sonraki aşamada alıcı alan daha da genişlese bile, diğer küresel alanları (uzak gibi) görmezden gelen hala yerel alanın işleyişidir. Pixel) mevcut alana katkısı.

Dolayısıyla, yerel olmayan blokların yapması gereken, bu uzun menzilli ilişkiyi yakalamaktır: 2B görüntüler için, görüntüdeki herhangi bir piksel ile geçerli piksel arasındaki ilişkinin ağırlığıdır; 3B video için, geçerli kare için tüm karelerdeki tüm piksellerdir. Pikselin ilişki ağırlığı.

Ağ çerçeve diyagramı da basit ve kabadır:

Yerel olmayan blok

Makale, çoklu uygulama yöntemlerinden bahsediyor, işte DL çerçevesinde en iyi şekilde uygulanan Matmul yöntemine kısa bir giriş:

1. Önce girdi özellik haritası X üzerinde doğrusal eşleme gerçekleştirin (açık bir şekilde ifade etmek gerekirse, kanal sayısını sıkıştırmak için 1 * 1 * 1 evrişimdir) ve ardından , , g özelliklerini elde edin

2. Yeniden şekillendirme işlemi yoluyla, kanal sayısı hariç yukarıdaki üç özelliğin boyutlarını zorla birleştirin ve ardından kovaryans matrisine benzer bir şey elde etmek için ve üzerinde matris nokta çarpma işlemini gerçekleştirin (bu işlem çok önemlidir. Korelasyon, yani her karedeki her piksel ile diğer tüm karelerdeki tüm pikseller arasındaki ilişki)

3. Ardından, 0 ~ 1 ağırlıklar elde etmek için sütunlar veya satırlar halinde (matris g formuna bağlı olarak) otokorelasyon özelliği üzerinde Softmax işlemini gerçekleştirin, işte ihtiyacımız olan Öz-dikkat katsayısı

4. Son olarak, dikkat katsayısı uygun şekilde tekrar özellik matrisine g çarpılır ve ardından kanalların sayısı genişletilir ve orijinal giriş özelliği haritası X'in kalıntısı aynıdır, tüm darboğaz

Eylem tanıma çerçevesine gömülü dikkat haritasının görselleştirilmesi:

Dikkat görselleştirme

Şekildeki oklar, önceki karelerdeki bazı piksellerin son görüntünün (mevcut kare) ayak eklem piksellerine katkısını gösterir. Yumuşak bir dikkat olduğu için, aslında her karedeki her pikselin ona bir katkısı vardır.Şekildeki sarı ok, en büyük tepki ile olan ilişkiyi açıklamaktadır.

sonuç olarak

Artıları: Yerel olmayan bloklar çok yönlüdür ve ilgili CV görevlerini iyileştirmek veya görselleştirmek için mevcut herhangi bir 2D ve 3D evrişimli ağa yerleştirilmesi kolaydır. Örneğin, Video ReID görevinde yakın zaman önce yerel olmayan kullanan bir makale vardı.

Eksileri: Makaledeki sonuçlar, yerel olmayanın mümkün olduğunca ön katmana yerleştirilmesi gerektiğini öne sürüyor, ancak aslında, 3B görevler için ön katman, nispeten büyük zamansal T nedeniyle nispeten büyüktür, bu nedenle , ve nokta çarpımını oluşturmak için çok fazla adım vardır. Parametrelerin çok fazla GPU Belleği tüketmesi gerekir ~ Daha sonra geliştirilebilir

Etkileşime Duyarlı Dikkat, ECCV2018

Meitu ve Çin Bilimler Akademisi makalesi.

Bu makale çok sayıda Çok-ölçekli özellik füzyonundan bahsediyor ve bir sürü hikayeden bahsediyor, ancak hepsi yumurtadır; doğrudan konuşursak, temel katkı, yerel olmayan bloğun kovaryans matrisine dayalı olarak PCA'ya dayalı yeni bir kayıp tasarlamaktır. Özellik etkileşimi gerçekleştirin. Yazar, bu süreçte özelliklerin kanal boyutunda yerel olmayan etkileşimi daha iyi gerçekleştireceğine inanmaktadır, bu nedenle buna Etkileşime duyarlı dikkat denir.

Öyleyse soru şu: PCA ile Dikkat ağırlıklarına nasıl ulaşılır?

Makale, bunu elde etmek için doğrudan kovaryans matrisinin özdeğer ayrışımını kullanmaz, ancak aşağıdaki eşdeğer formu kullanır:

Yukarıdaki formülün kısıtlamalarına göre, Etkileşime duyarlı kayıp, kanallar arasındaki yerel olmayan etkileşimi geliştirmek için tasarlanmıştır:

A, öğrenilecek dikkat ağırlıkları ve X, girdi özellik haritasıdır.

Genel Dikkat Bloğu çerçeve diyagramı temelde yerel olmayan ile aynıdır.Küçük fark, X ve Watten çarpıldıktan sonra bir b öğesinin eklenmesidir.Makale, bunun PCA'nın veri merkezi işlemi (çıkarma ortalaması) olarak kabul edilebileceğini söylüyor.

mekansal piramit etkileşimli dikkat katmanı

Eylem tanıma için ana ağ, yerel olmayan I3D'nin doğrudan kullanımından farklıdır.Burada, giriş TSN'ye benzer örnekleme segmentleri biçimindedir ve daha sonra 2B ağ, özellikleri çıkarmak için kullanılır ve ardından uzamsal-zamansal toplama için Dikkat bloğunda birleştirilir.

Eylem tanıma ağı çerçevesi

CBAM: Evrişimli Blok Dikkat Modülü, ECCV2018

Bu ürün, daha fazla genişletme için SE-Net'teki Squeeze-and-Excitation modülüne dayanmaktadır.Özellikle, kanal bazında dikkat, metinde 'ne' öğretme ağı olarak kabul edilir ve mekansal dikkat, öğretme ağı Look 'olarak kabul edilir. burada ', bu nedenle SE Modülüne göre ana avantajı ikincisidir.

Önce SE modülüne bir göz atalım:

SE modülü

Süreç:

1. 1 * 1 * Kanal elde etmek için giriş özelliklerinde Global AVE havuzlaması gerçekleştirin

2. Ardından, darboğaz özelliğiyle etkileşime geçin, önce kanal sayısını sıkıştırın ve ardından kanalların sayısını yeniden oluşturun

3. Son olarak, kanallar arasında 0 ~ 1 dikkat ağırlıkları oluşturmak için bir sigmoid bağlanır ve son olarak ölçek, orijinal giriş özelliğine geri çarpılır.

CBAM'e tekrar bakın:

CBAM

Temelde SE modülü ile aynı olan Kanal Dikkat Modülü, Maxpool dalını ekledi. Sigmoid'den önce, iki dal element-bilge toplama füzyonundan geçer.

Uzamsal Dikkat Modülü, giriş özelliklerinde kanallar arasında AVE ve Max havuzlaması gerçekleştirin, ardından birleştirme, ardından büyük bir 7 * 7 evrişim ve son olarak Sigmoid

Genel olarak, yukarıda bahsedilen Attention modülleri mevcut ağ çerçevelerine kolayca yerleştirilebilir ve CBAM özellikle hafiftir ve uçta dağıtımı kolaydır. Ayrıca zamansal dikkati kademelendirebilir ve kullanmak için video görevine koyabilirsiniz ~~

Sonraki akademik çevrelerde pek çok deformasyon ve bunlara dayalı uygulama olacağı tahmin ediliyor, haha ~

Referans:

Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He, Yerel Olmayan Sinir Ağları, CVPR2018

Xingyu Liao, Lingxiao He, Zhouwang Yang, 3B Evrişimli Ağlar ve Yerel Olmayan Dikkat aracılığıyla Video Tabanlı Kişi Yeniden Tanımlama, 2018

Yang Du, Chunfeng Yuan, Bing Li, Lili Zhao, Yangxi Li, Weiming Hu, Etkileşime Duyarlı Uzay-Zamansal Piramit Eylem Sınıflandırması için Dikkat Ağları, ECCV2018

CSanghyun Woo, Jongchan Park, Joon-Young Lee, So Kweon, BAM: Evrişimli Blok Dikkat Modülü, ECCV2018

Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks, ILSVRC 2017 görüntü sınıflandırması kazananı; CVPR 2018 Oral

SIGAI Katkıda Bulunan Yazar

Fisher Yu

CV doktora adayı

Araştırma yönü: duygusal bilgi işlem

AI Geliştirme] Derin öğrenmeye dayalı çok hedefli video izlemenin uygulanması
önceki
Dil modelinden Bert'in kararsızlığını ve GPT'nin ısrarını görmek için
Sonraki
PCB-RPP ve SGGNN Modellerinde Yüz Tanıma-Tartışmanın Yaya Tanıma
En kısa yolu bulmak için grafik sinir ağını (GNN) kullanın
Odak analizi | yalnız Zhou Hongyi, salıncak 360
Sıcak yaz aylarında köpekleri nasıl düzgün bir şekilde soğutabilirim?
Köpeğin vücudunun garip davranışları olduğunda, boktan kürek memurunu görmezden gelmeyin ~
AAAI 2019 Gaussian Transformer: doğal dil çıkarımı için hafif bir yöntem
Kediler size sevgi gösterdiklerinde genellikle ne yaparlar?
Milyar düzeyindeki siparişlerin siparişlerini senkronize etmenin keşfi ve uygulaması
Sentetik verilere dayalı sahne metninin derinlik gösterimi yöntemi
Kukla kedi gerçekten de kediler arasında gerçek bir "peri" dir!
Karmaşık açık sahnelerde metin anlama
CTR tahminine resim özellikleri nasıl eklenir? Görüntü özellikleri nasıl çıkarılır?
To Top