Meitu Cloud ve Çin Bilimler Akademisi, etkileşimli algı dikkat mekanizması sinir ağına dayalı bir davranış sınıflandırma teknolojisi önerdi ECCV 2018

Leifeng.com AI teknolojisi inceleme notu: Bu makale, Meitu Cloud'un Vision Technology Departmanı tarafından ECCV 2018 tarafından kabul edilen makalelerin bir yorumudur.

Geçmişte dikkat mekanizması modelleri, tüm yerel özellikleri ağırlıklandırarak, yerel özellikler arasındaki güçlü korelasyonu göz ardı ederek temel özellikleri hesaplamış ve çıkarmıştır ve özellikler arasında güçlü bilgi fazlalığı vardı. Bu sorunu çözmek için, Meitu Bulut Vizyon Teknolojisi Departmanı ve Çin Bilimler Akademisi Otomasyon Enstitüsü Ar-Ge personeli, yerel özelliklerin etkileşimli algısını tanıtan ve modeli CNN ağına yerleştiren bir öz-ilgi mekanizması modeli önermek için PCA (Ana Bileşen Analizi) fikrini kullandı. İçinde, uçtan uca bir ağ yapısı önerin. Algoritma, birden çok akademik veri kümesinde ve Meitu'nun dahili endüstriyel video veri kümelerinde davranış sınıflandırmasında çok iyi performans gösterir. Algoritma fikrini temel alan "Etkileşime duyarlı Uzay-zamansal Piramit Dikkat Ağları Eylem Sınıflandırması" başlıklı ilgili makale ECCV2018'e dahil edilmiştir.Aşağıda arka plan, temel fikirler, etkiler ve uygulama olanakları tanıtılacaktır.

1. Arkaplan

Derin evrişimli sinir ağlarında, özellik haritasındaki bitişik uzaysal konumların yerel kanal özellikleri, örtüşen alıcı alanları nedeniyle genellikle yüksek korelasyona sahiptir. Öz-dikkat mekanizması modeli, ağırlık puanını elde etmek için genellikle her yerel özelliğin iç öğelerinin ağırlıklı toplamını (veya diğer işlevlerini) kullanır Bu ağırlık, temel özellikleri elde etmek için tüm yerel özellikleri ağırlıklandırmak için kullanılır. Yerel özellikler arasında yüksek bir korelasyon olmasına rağmen bu ağırlık hesaplaması aralarındaki etkileşimi hesaba katmaz.

PCA, global özelliğin ana boyutlarının temel bileşen bilgilerini çıkarabilir ve bu temel bileşen bilgileri, çıkarılan yerel özellikler olarak kabul edilebilir ve son boyutluluk azaltma global özelliği, temel yerel özellikler kümesidir. Dikkat mekanizmasının amacı, anahtar parçayı yerel özellik kümesinden, yani PCA'daki yerel özellikten çıkarmaktır. Aradaki fark, dikkat mekanizmasının nihai genel özelliği hesaplamak için her yerel özelliğe karşılık gelen ağırlıklı puanı kullanmasıdır. PCA, boyut azaltma (veya ağırlıklı ağırlık) temel vektörleri elde etmek için kovaryans matrisini kullanır ve böylece özellikler arasındaki bilgi fazlalığını ve gürültüyü azaltır. Yukarıdaki arka plana dayanarak, ekip önerilen dikkat modeline rehberlik etmek için PCA'yı kullandı ve PCA algoritmasını bir kayıp tasarımına dönüştürerek uyguladı. Ek olarak, derin ağdaki farklı katmanlar farklı ölçeklerdeki özellik haritalarını yakalayabildiğinden, algoritma bu özellik haritalarını uzamsal piramitleri oluşturmak için kullanır ve her yerel kanal özelliği için daha doğru dikkat puanları hesaplamak için çok ölçekli bilgileri kullanır. Bu ağırlık puanları, Yerel özellikler tüm uzamsal konumlarda ağırlıklandırılmıştır.

2. Temel Fikirler

Bu makale, derin evrişimli sinir ağındaki her katmanın farklı ölçekli yerel özelliklerinin interaktif algılama ve uzay-zamansal özellik kaynaşmasını gerçekleştirmek için yeni bir etkileşimli algı uzay-zamansal piramit dikkat katmanını tanımlar. Mimarisi yukarıdaki şekilde gösterilmektedir Algoritma ilk olarak farklı katmanların özellik haritalarını tek bir ölçekte birleştirmek için bir alt örnekleme fonksiyonu R tanımlar. Daha sonra farklı ölçeklerdeki özellik haritalarının yerel kanal özelliklerinin temel özelliklerini çıkarmak için dikkat mekanizması kullanılmış ve füzyon fonksiyonu kullanılarak farklı ölçeklerin özellikleri birleştirilerek her bir yerel özelliğin dikkat puanı ağırlıklandırma özellikleri için hesaplanmıştır.

PCA'da kovaryans matrisi projeksiyon vektörünü hesaplamak için kullanılır ve boyutluluk buna göre azaltılır, yani temel yerel özellikleri çıkarmak için. Bu makale, dönüşüm kaybı fonksiyonunun tasarımını son modele ekler:

Ardından, farklı ölçek katmanlarının özellik haritalarının mümkün olduğunca farklı bilgilere dikkat etmesini sağlamak için önerilen uzamsal piramit dikkat modelini sınırlayın ve son kayıp işlevini elde etmek için sınıflandırma kaybını ekleyin:

Makalede önerilen model parametrelerinin girdi özellik haritalarının sayısıyla ilgisi yoktur. Bu nedenle, doğal olarak video düzeyinde uçtan uca eğitim uzay-zamansal ağına genişletilir. Nihai ağ yapısı aşağıdaki gibi tanımlanır:

Üç, etki

Ar-Ge personeli, Meitu'nun karakter davranış sınıflandırması için videoyla ilgili işine etkileşimli algıya dayalı uzay-zamansal piramit dikkat mekanizmasının önerilen sinir ağı algoritmasını uyguladı ve etki mükemmeldi. Ayrıca değerlendirme, UCF101, HMDB51 ve kesmeyen davranış veritabanı Charades üzerinde kamuya açık veri setleri üzerinde gerçekleştirilmiş ve önde gelen sonuçlar da elde edilmiştir.Sonuçlar aşağıdaki şekilde gösterilmiştir:

Ek olarak, makale video uzamsal-zamansal girdiyi değerlendirir ve değerlendirme sonuçları, modelin aynı anda herhangi bir sayıda video çerçevesi girişini işleyebileceğini ve iyi deneysel sonuçlar elde edebileceğini gösterir.

Yukarıdaki şekil, davranış sınıflandırması yapılırken algoritmanın görsel çıktı sonuçlarını göstermektedir Algoritmanın videodaki anahtar davranışları doğru bir şekilde bulabildiği görülmektedir.

Dört, görünüm

Pratik uygulamalarda, iş senaryolarının algoritmanın çalışma süresi konusunda katı gereksinimleri vardır. Bu makalenin genel veri seti üzerindeki sonuçlarının tümü videodaki birden çok karenin yakalanmasıyla elde edilmiştir.Zaman karmaşıklığı yüksektir ve çekirdek modül algoritma zaman karmaşıklığını azaltmak amacıyla optimize edilecektir. Bu makalede önerilen uzamsal piramit dikkat modelinin, girdi özelliği haritalarının sayısıyla sınırlı olmadığını, dolayısıyla herhangi bir sayıdaki girdi çerçevesiyle uyumlu olabilen uzamsal-zamansal bir sürüme kolayca genişletilebileceğini belirtmek gerekir. Neredeyse hiç etkilenmeme varsayımı altında, kesim çerçevelerinin sayısı azaltılarak işleme hızı iyileştirilir.

Altın Büro'da su ne kadar derin? Ulusal hizmette ilk yenilmenin utancı yayınlandı!
önceki
Başlama hakkını alamıyorsanız son treni yakalayın, vivo amiral gemisi modeli Xiaolong 845'in son modeli olabilir!
Sonraki
"Baharın Ötesinde", Çin filminin gücünü göstererek 13. Asya Film Ödülleri'nde çifte onurla kısa listeye alındı.
Muhalefet çok yüksek ve tasarımcı pes etmek zorunda! Bu sefer yerli ve yabancı LOL oyuncuları Morgana'yı kurtarmak için güçlerini birleştirdi.
Samsung ve Huawei ilk olarak "delik kazma ekranını" ele geçirdi, beklenmedik bir şekilde Lenovo Z5s çıkış zamanını doğruladı!
Altıncı nesil WiFi çağı yakında geliyor Intel 802.11ax kablosuz ağ kartı maruziyeti
Kanye mutlu bir şekilde gülümsedi. 2 Chainz ile büyük bir etkinliğe mi hazırlanıyorsunuz?
Volkswagen Tiguan L'nin ABD versiyonu yayınlandı, isteğe bağlı yedi koltuklu orta boy SUV
Menkul Kıymetler Sanayicileri Derneği, sadece menkul kıymet firmalarının işletme maliyetlerini düşürmek için vergi ve ücretleri düşürüyor mu?
China Mobile'ın AI bin yuan makinesi JD.com'da, ancak fiyat / performans oranı Nokia X5 kadar iyi değil!
Zhao Wei, yaratıcı bilgiler hakkında ilk kez konuşmak için "Doğrulama" toplantısına katıldı, karakterlerin rol şekli süreci hakkında konuştu
Bu 15 kahramanın 1000 gündür yeni bir görünümü yok! Utangaç doğum kahramanı da listede
Yapay zeka odaklı içgörüler Akıllı veri pazarlama çağı bir dönüm noktasını başlattı!
MateBook yine tükendi, Amerikan imparatorunun vicdanı ... için?
To Top