Xin Zhiyuan Rehberi Facebook AI, Singapur Ulusal Üniversitesi ve 360 Yapay Zeka Araştırma Enstitüsü'nden araştırmacılar, bellek ve hesaplama maliyetlerini azaltırken görüntü ve video tanıma görevlerinin doğruluğunu sürekli olarak iyileştiren, geleneksel evrişimin yerini alabilecek yeni bir evrişim operasyonu OctConv önerdi.
Geleneksel evrişim işleminin yeni bir alternatif yöntemi vardır.
Son zamanlarda, Facebook AI, Singapur Ulusal Üniversitesi ve 360 Yapay Zeka Araştırma Enstitüsü'nden araştırmacılar yeni bir evrişim operasyonu önerdiler Oktav Evrişim (OctConv) .
Kağıt adresi:
https://export.arxiv.org/pdf/1904.05049
Bunların arasında ilk kağıt Chen Yunpeng Doktora Singapur Ulusal Üniversitesi'nde, vesayeti altında Yan Shuicheng ile Feng Jiashi , İkisi de bu makalenin yazarlarıdır. Diğer yazarlar Facebook AI'dan.
Yazar şunları söyledi: OctConv, ağ mimarisinde herhangi bir ayarlama yapmadan geleneksel evrişimi doğrudan değiştirebilen bir tak ve çalıştır evrişim birimidir. .
Doğal görüntülerde bilgi, daha yüksek frekansların genellikle ince detaylarla kodlandığı ve daha düşük frekansların genellikle global yapıyla kodlandığı farklı frekanslarda iletilir.
Benzer şekilde, evrişimli katmanın çıktı özelliği haritası da farklı frekanslardaki bilgilerin bir karışımı olarak kabul edilebilir.
Bu çalışmada yazar, hibrit özellik haritasını frekansına göre ayrıştırmayı önerdi ve yeni bir evrişim operasyonu tasarladı: daha düşük uzaysal çözünürlüklerde uzamsal değişiklikleri depolamak ve işlemek için Octave Convolution (OctConv). "Daha yavaş" özellik haritası, böylece bellek ve bilgi işlem maliyetlerini azaltır.
Octave kelimesi "oktav" veya "oktav" anlamına gelir. Müzikte 8 ölçek düşüş, frekansın yarıya indirildiği anlamına gelir. Düşük frekans özelliklerinin çözünürlüğü düşürülerek hafıza ve hesaplamalar kaydedilir.
Deneyler gösteriyor ki, evrişimi OctConv ile değiştirerek, Bellek ve bilgi işlem maliyetlerini azaltırken görüntü ve video tanıma görevlerinin doğruluğunu sürekli olarak iyileştirin .
OctConv kullanan ResNet-152, yalnızca 22,2 GFLOP ile ImageNet'te% 82,9 en iyi sınıflandırma doğruluğuna ulaşabilir.
Geleneksel evrişimin mükemmel değişimi, parametre ayarlaması olmadan tak ve çalıştır
Evrişimli Sinir Ağları (CNN'ler) birçok bilgisayarla görme görevinde dikkate değer bir başarı elde etti ve son çalışmalar yoğun model parametrelerinin ve özellik haritası kanal boyutlarının doğal fazlalığını azalttığı için verimlilikleri artmaya devam etti. Bununla birlikte, CNN tarafından oluşturulan özellik haritalarının, her bir konumun kendi özellik tanımlayıcısını bağımsız olarak depoladığı ve birlikte depolanabilen ve işlenebilen bitişik konumlar arasındaki ortak bilgileri göz ardı ettiği uzaysal boyutta da çok fazla fazlalık vardır.
Şekil 1: (a) Motivasyon. Uzamsal frekans modeli üzerine yapılan araştırmalar, doğal görüntülerin düşük uzaysal frekans ve yüksek uzaysal frekans olmak üzere iki kısma ayrıştırılabileceğini göstermektedir. (b) Evrişimli katmanın çıktı görüntüsü de ayrıştırılabilir ve uzamsal frekansına göre gruplandırılabilir. (c) Önerilen çok frekanslı özellik temsili, uzamsal fazlalığı azaltmak için düşük çözünürlüklü bir tensörde sorunsuz değişen düşük frekans eşlemesini depolar. (d) Önerilen Oktav Evrişimi doğrudan bu gösterime göre hareket eder. Her grubun bilgilerini güncelleyecek ve gruplar arasında bilgi alışverişini daha da destekleyecektir.
Şekil 1 (a) 'da gösterildiği gibi, doğal görüntüler şu şekilde ayrıştırılabilir: Düşük uzaysal frekans bileşenleri Ve hızla değişen ince ayrıntıları tanımlayın Yüksek uzaysal frekans bileşenleri .
Benzer şekilde düşünüyoruz Evrişimli katmanın çıktı özelliği haritası, farklı uzamsal frekansların özelliklerine de ayrıştırılabilir. Ve Şekil 1 (b) 'de gösterildiği gibi, yüksek frekanslı ve düşük frekans özellik haritalarını farklı gruplarda saklayan yeni bir çok frekanslı özellik gösterimi yöntemi önerdi. Bu nedenle, Bitişik konumlar arasında bilgi paylaşımı , Şekil 1 (c) 'de gösterildiği gibi, düşük frekans grubunun uzamsal çözünürlüğünü güvenli bir şekilde azaltabilir ve uzamsal fazlalığı azaltabilir.
Yeni özellik sunumuna uyum sağlamak için, Octave Convolution (OctConv) öneriyoruz. İki frekans içeren bir özellik haritası alın ve yüksek frekansa kod çözmeden doğrudan düşük frekans haritasından bilgi alın , Şekil 1 (d) 'de gösterildiği gibi.
Geleneksel evrişime alternatif olarak, OctConv tarafından tüketilen bellek ve bilgi işlem kaynakları büyük ölçüde azaltılır. Ek olarak, OctConv, düşük frekanslı bilgileri işlemek için karşılık gelen (düşük frekanslı) evrişimi kullanır, bu da orijinal piksel alanının alıcı alanını etkin bir şekilde genişletir ve böylece tanıma performansını artırır.
OctConv'u genel bir şekilde tasarladık, onu evrişime bir alternatif haline getirdik ve Tak ve oyna . OctConv, esas olarak birden fazla uzamsal frekansın özellik eşlemesini işlemeye ve uzaysal fazlalığını azaltmaya odaklandığından, mevcut yöntemlerle kesişir ve onları tamamlar.Mevcut yöntemler daha iyi bir CNN topolojisi oluşturmaya ve evrişimli özellik eşlemesini azaltmaya odaklanır. Kanalda fazlalık ve yoğun model parametrelerinde artıklık.
Ek olarak, çok ölçekli bilgileri kullanan yöntemlerin aksine, OctConv, ağ yapısını değiştirmeden veya hiperparametre ayarı gerektirmeden evrişimi değiştirmek için bir tak ve çalıştır birimi olarak kolayca konuşlandırılabilir.
Deneylerimiz, geleneksel evrişim yerine yalnızca OctConv kullanarak şunları yapabileceğinizi kanıtlıyor: Popüler 2D CNN modelinin ImageNet görüntü tanıma performansını iyileştirmeye devam edin , ResNet ResNeXt, DenseNet, MobileNet ve SE-Net dahil.
OctConv kullanan Oct-ResNet-152, elle tasarlanmış son teknoloji ürünü ağın ötesine geçer ve daha düşük bellek ve hesaplama maliyeti gerektirir.
Katkımız şu şekilde özetlenebilir:
Oktav Evrişimi: Ayrıntılı yöntem
Oktav özellik gösterimi, uzamsal fazlalığı azaltır ve orijinal temsilden daha kompakttır. Bununla birlikte, girdi özelliklerinin farklı uzaysal çözünürlüğü nedeniyle, geleneksel evrişim doğrudan bu temsil üzerinde çalışamaz.
Bu sorunu önlemenin kolay bir yolu, düşük frekanslı kısmı koymaktır.
Orijinal uzamsal çözünürlüğe yükseltin ve şununla karşılaştırın:
Bunları bağlayın ve ardından ek hesaplama ve bellek ek yüküne neden olacak evrişim gerçekleştirin.
Kompakt çok frekanslı özellik sunumundan tam olarak yararlanmak için, tensörü doğrudan ayrıştırabilen Octave Convolution öneriyoruz.
Herhangi bir ek hesaplama veya bellek ek yükü olmadan çalıştırın.
Geleneksel evrişim (Vanilya Evrişimi)
Yapmak
Bir k × k evrişim çekirdeğini temsil eder,
Giriş tensörünü ve çıkış tensörünü temsil eder.
Her özellik haritası aşağıdaki formülle hesaplanabilir:
(P, q) konum koordinatlarıdır,
Yerel bir mahalle tanımlanmıştır.
Oktav Evrişimi.
Tasarım hedefimiz, Octave özelliğimizin temsil ettiği yüksek frekanslı bileşenler ve düşük frekanslı bileşenler arasında etkili iletişim sağlarken, ilgili frekans tensöründeki düşük frekanslı ve yüksek frekanslı bileşenlerle etkin bir şekilde ilgilenmektir.
X, Y ayrıştırma girdi ve çıktı tensörü olsun. Sonra çıktı
Yüksek frekanslı ve düşük frekanslı özellik haritaları,
ile
Verildi.
Octave Convolution çekirdeği. K × k Octave evrişim çekirdeği sıradan evrişim çekirdeğine eşdeğerdir, yani ikisi tamamen aynı parametrelere sahiptir.
Deney ve değerlendirme
Deney ve değerlendirme bölümünde, Octave Convolution'un 2D ve 3D ağlarda etkinliğini ve verimliliğini doğruladık.
ImageNet üzerinde ayrı ayrı görüntü sınıflandırma araştırması yaptık ve daha sonra en gelişmiş yöntemlerle karşılaştırdık.
Ardından, önerilen OctConv'un 3D CNN için de geçerli olduğunu kanıtlamak için Kinetics-400 ve dynamics 600 veri setlerini kullanıyoruz.
Şekil 4'te gösterildiği gibi, OctConv kullanan model, temel modelden daha etkili ve doğrudur. Şekildeki her bir çizginin siyah işareti, OctConv olmadan ilgili temel modelin doğruluğunu gösterir.
Tablo 8: Video eylemi tanımanın sonuçları