Geleneksel evrişim öldü mü? Facebook ve diğerleri yeni bir evrişim operasyonu öneriyor OctConv

Xinzhiyuan Orijinal
Kaynak: arxiv
Editör: Xiao Qin

Xin Zhiyuan Rehberi Facebook AI, Singapur Ulusal Üniversitesi ve 360 Yapay Zeka Araştırma Enstitüsü'nden araştırmacılar, bellek ve hesaplama maliyetlerini azaltırken görüntü ve video tanıma görevlerinin doğruluğunu sürekli olarak iyileştiren, geleneksel evrişimin yerini alabilecek yeni bir evrişim operasyonu OctConv önerdi.

Geleneksel evrişim işleminin yeni bir alternatif yöntemi vardır.

Son zamanlarda, Facebook AI, Singapur Ulusal Üniversitesi ve 360 Yapay Zeka Araştırma Enstitüsü'nden araştırmacılar yeni bir evrişim operasyonu önerdiler Oktav Evrişim (OctConv) .

Kağıt adresi:

https://export.arxiv.org/pdf/1904.05049

Bunların arasında ilk kağıt Chen Yunpeng Doktora Singapur Ulusal Üniversitesi'nde, vesayeti altında Yan Shuicheng ile Feng Jiashi , İkisi de bu makalenin yazarlarıdır. Diğer yazarlar Facebook AI'dan.

Yazar şunları söyledi: OctConv, ağ mimarisinde herhangi bir ayarlama yapmadan geleneksel evrişimi doğrudan değiştirebilen bir tak ve çalıştır evrişim birimidir. .

Doğal görüntülerde bilgi, daha yüksek frekansların genellikle ince detaylarla kodlandığı ve daha düşük frekansların genellikle global yapıyla kodlandığı farklı frekanslarda iletilir.

Benzer şekilde, evrişimli katmanın çıktı özelliği haritası da farklı frekanslardaki bilgilerin bir karışımı olarak kabul edilebilir.

Bu çalışmada yazar, hibrit özellik haritasını frekansına göre ayrıştırmayı önerdi ve yeni bir evrişim operasyonu tasarladı: daha düşük uzaysal çözünürlüklerde uzamsal değişiklikleri depolamak ve işlemek için Octave Convolution (OctConv). "Daha yavaş" özellik haritası, böylece bellek ve bilgi işlem maliyetlerini azaltır.

Octave kelimesi "oktav" veya "oktav" anlamına gelir. Müzikte 8 ölçek düşüş, frekansın yarıya indirildiği anlamına gelir. Düşük frekans özelliklerinin çözünürlüğü düşürülerek hafıza ve hesaplamalar kaydedilir.

Deneyler gösteriyor ki, evrişimi OctConv ile değiştirerek, Bellek ve bilgi işlem maliyetlerini azaltırken görüntü ve video tanıma görevlerinin doğruluğunu sürekli olarak iyileştirin .

OctConv kullanan ResNet-152, yalnızca 22,2 GFLOP ile ImageNet'te% 82,9 en iyi sınıflandırma doğruluğuna ulaşabilir.

Geleneksel evrişimin mükemmel değişimi, parametre ayarlaması olmadan tak ve çalıştır

Evrişimli Sinir Ağları (CNN'ler) birçok bilgisayarla görme görevinde dikkate değer bir başarı elde etti ve son çalışmalar yoğun model parametrelerinin ve özellik haritası kanal boyutlarının doğal fazlalığını azalttığı için verimlilikleri artmaya devam etti. Bununla birlikte, CNN tarafından oluşturulan özellik haritalarının, her bir konumun kendi özellik tanımlayıcısını bağımsız olarak depoladığı ve birlikte depolanabilen ve işlenebilen bitişik konumlar arasındaki ortak bilgileri göz ardı ettiği uzaysal boyutta da çok fazla fazlalık vardır.

Şekil 1: (a) Motivasyon. Uzamsal frekans modeli üzerine yapılan araştırmalar, doğal görüntülerin düşük uzaysal frekans ve yüksek uzaysal frekans olmak üzere iki kısma ayrıştırılabileceğini göstermektedir. (b) Evrişimli katmanın çıktı görüntüsü de ayrıştırılabilir ve uzamsal frekansına göre gruplandırılabilir. (c) Önerilen çok frekanslı özellik temsili, uzamsal fazlalığı azaltmak için düşük çözünürlüklü bir tensörde sorunsuz değişen düşük frekans eşlemesini depolar. (d) Önerilen Oktav Evrişimi doğrudan bu gösterime göre hareket eder. Her grubun bilgilerini güncelleyecek ve gruplar arasında bilgi alışverişini daha da destekleyecektir.

Şekil 1 (a) 'da gösterildiği gibi, doğal görüntüler şu şekilde ayrıştırılabilir: Düşük uzaysal frekans bileşenleri Ve hızla değişen ince ayrıntıları tanımlayın Yüksek uzaysal frekans bileşenleri .

Benzer şekilde düşünüyoruz Evrişimli katmanın çıktı özelliği haritası, farklı uzamsal frekansların özelliklerine de ayrıştırılabilir. Ve Şekil 1 (b) 'de gösterildiği gibi, yüksek frekanslı ve düşük frekans özellik haritalarını farklı gruplarda saklayan yeni bir çok frekanslı özellik gösterimi yöntemi önerdi. Bu nedenle, Bitişik konumlar arasında bilgi paylaşımı , Şekil 1 (c) 'de gösterildiği gibi, düşük frekans grubunun uzamsal çözünürlüğünü güvenli bir şekilde azaltabilir ve uzamsal fazlalığı azaltabilir.

Yeni özellik sunumuna uyum sağlamak için, Octave Convolution (OctConv) öneriyoruz. İki frekans içeren bir özellik haritası alın ve yüksek frekansa kod çözmeden doğrudan düşük frekans haritasından bilgi alın , Şekil 1 (d) 'de gösterildiği gibi.

Geleneksel evrişime alternatif olarak, OctConv tarafından tüketilen bellek ve bilgi işlem kaynakları büyük ölçüde azaltılır. Ek olarak, OctConv, düşük frekanslı bilgileri işlemek için karşılık gelen (düşük frekanslı) evrişimi kullanır, bu da orijinal piksel alanının alıcı alanını etkin bir şekilde genişletir ve böylece tanıma performansını artırır.

OctConv'u genel bir şekilde tasarladık, onu evrişime bir alternatif haline getirdik ve Tak ve oyna . OctConv, esas olarak birden fazla uzamsal frekansın özellik eşlemesini işlemeye ve uzaysal fazlalığını azaltmaya odaklandığından, mevcut yöntemlerle kesişir ve onları tamamlar.Mevcut yöntemler daha iyi bir CNN topolojisi oluşturmaya ve evrişimli özellik eşlemesini azaltmaya odaklanır. Kanalda fazlalık ve yoğun model parametrelerinde artıklık.

Ek olarak, çok ölçekli bilgileri kullanan yöntemlerin aksine, OctConv, ağ yapısını değiştirmeden veya hiperparametre ayarı gerektirmeden evrişimi değiştirmek için bir tak ve çalıştır birimi olarak kolayca konuşlandırılabilir.

Deneylerimiz, geleneksel evrişim yerine yalnızca OctConv kullanarak şunları yapabileceğinizi kanıtlıyor: Popüler 2D CNN modelinin ImageNet görüntü tanıma performansını iyileştirmeye devam edin , ResNet ResNeXt, DenseNet, MobileNet ve SE-Net dahil.

OctConv kullanan Oct-ResNet-152, elle tasarlanmış son teknoloji ürünü ağın ötesine geçer ve daha düşük bellek ve hesaplama maliyeti gerektirir.

Katkımız şu şekilde özetlenebilir:

  • öneriyoruz Evrişim özelliği haritasını farklı uzamsal frekanslardan oluşan iki gruba ayırın ve karşılık gelen frekanslarla farklı evrişimleri işleyin , Bir oktav ile ayrılmış. Düşük frekanslı görüntünün çözünürlüğü azaltılabildiğinden, depolama ve hesaplama kaydedilebilir. Bu aynı zamanda her katmanın daha bağlamsal bilgi yakalamak için daha geniş bir alıcı alan elde etmesine yardımcı olur.
  • Biz Geleneksel evrişim işleminin yerini alması için OctConv adlı bir tak ve çalıştır işlemi tasarladı . OctConv, yeni özellik gösterimi üzerinde doğrudan işlemler gerçekleştirerek uzamsal fazlalığı azaltır. Daha da önemlisi, OctConv pratikte çok hızlıdır ve teorik sınıra yakın bir ivmeye ulaşır.
  • Görüntü ve video görevleri için çeşitli omurga CNN'leri üzerinde önerilen OctConv'un özelliklerini kapsamlı bir şekilde inceledik ve en iyi AutoML ağlarıyla karşılaştırılabilecek önemli performans iyileştirmeleri elde ettik.

Oktav Evrişimi: Ayrıntılı yöntem

Oktav özellik gösterimi, uzamsal fazlalığı azaltır ve orijinal temsilden daha kompakttır. Bununla birlikte, girdi özelliklerinin farklı uzaysal çözünürlüğü nedeniyle, geleneksel evrişim doğrudan bu temsil üzerinde çalışamaz.

Bu sorunu önlemenin kolay bir yolu, düşük frekanslı kısmı koymaktır.

Orijinal uzamsal çözünürlüğe yükseltin ve şununla karşılaştırın:

Bunları bağlayın ve ardından ek hesaplama ve bellek ek yüküne neden olacak evrişim gerçekleştirin.

Kompakt çok frekanslı özellik sunumundan tam olarak yararlanmak için, tensörü doğrudan ayrıştırabilen Octave Convolution öneriyoruz.

Herhangi bir ek hesaplama veya bellek ek yükü olmadan çalıştırın.

Geleneksel evrişim (Vanilya Evrişimi)

Yapmak

Bir k × k evrişim çekirdeğini temsil eder,

Giriş tensörünü ve çıkış tensörünü temsil eder.

Her özellik haritası aşağıdaki formülle hesaplanabilir:

(P, q) konum koordinatlarıdır,

Yerel bir mahalle tanımlanmıştır.

Oktav Evrişimi.

Tasarım hedefimiz, Octave özelliğimizin temsil ettiği yüksek frekanslı bileşenler ve düşük frekanslı bileşenler arasında etkili iletişim sağlarken, ilgili frekans tensöründeki düşük frekanslı ve yüksek frekanslı bileşenlerle etkin bir şekilde ilgilenmektir.

X, Y ayrıştırma girdi ve çıktı tensörü olsun. Sonra çıktı

Yüksek frekanslı ve düşük frekanslı özellik haritaları,

ile

Verildi.

Octave Convolution'un tasarım detayları. Yeşil oklar bilgi güncellemelerini gösterir ve kırmızı oklar iki frekans arasındaki bilgi alışverişini gösterir.

Octave Convolution çekirdeği. K × k Octave evrişim çekirdeği sıradan evrişim çekirdeğine eşdeğerdir, yani ikisi tamamen aynı parametrelere sahiptir.

Deney ve değerlendirme

Deney ve değerlendirme bölümünde, Octave Convolution'un 2D ve 3D ağlarda etkinliğini ve verimliliğini doğruladık.

ImageNet üzerinde ayrı ayrı görüntü sınıflandırma araştırması yaptık ve daha sonra en gelişmiş yöntemlerle karşılaştırdık.

Ardından, önerilen OctConv'un 3D CNN için de geçerli olduğunu kanıtlamak için Kinetics-400 ve dynamics 600 veri setlerini kullanıyoruz.

Şekil 4: ImageNet'teki Sonuçlar

Şekil 4'te gösterildiği gibi, OctConv kullanan model, temel modelden daha etkili ve doğrudur. Şekildeki her bir çizginin siyah işareti, OctConv olmadan ilgili temel modelin doğruluğunu gösterir.

Tablo 2: ResNet-50 Sonuçları

Tablo 4: ImageNet sınıflandırma doğruluğu

Tablo 5: Küçük modellerin ImageNet sınıflandırma doğruluğu

Tablo 6: Orta modelin ImageNet sınıflandırma doğruluğu

Tablo 7: Büyük modellerin ImageNet sınıflandırma doğruluğu

Tablo 8: Video eylemi tanımanın sonuçları

Chongqing 2-1 TEda çift hatlı 6 maçlık mağlubiyet serisini bitirdi
önceki
Yeni Jeep Free Light'ın değerlendirilmesi: performans avantajları bir bakışta anlaşılır, son dokunuş değer artırımıdır
Sonraki
Tek bayanlar yarı finallerinde Chen Meng ve Liu Shiwen 31 rauntta süper güçlü Netizenler: Periler dövüşüyor!
Patlamak! Bu sabah Nanchang'da bir ev çöktü, 3 kişi kurtarıldı
Yurtdışı test Volvo S60 R-Design versiyonu: Kusur örtbas ediyor mu yoksa kusurları örtüyor mu?
Zhongguancun Shougang AI Park, yenilikçi kahramanlar çağrısının ilk aşamasını yayınladı: beş senaryo yapay zeka gösteri projelerini gerektiriyor
Tanrıça Gao Yuanyuan yardım ediyor Bu giyim şirketi bir sonraki Armani olabilir mi?
"Paylaşılan alan" iptal edilecek mi? O kadar basit değil
Yan LeCun, AI'dan Bayan Curie mi?
2019 Buick GL6'yı deneyin: Dora'nın hızlı koşusunu karşıladıktan sonra, akıllı ara bağlantı yeteneği ne kadar güçlü?
Kuzeydoğu Lehçesindeki "Zheng" kelimesi ne kadar derin?
Sektör yeni enerji çıkışlarından bahsediyor veya tüketiciler bir SUV satın almak mı istiyor?
Paris'te ağlama! Milyarlarca veriyi doğru bir şekilde tarayan yapay zeka, Notre Dame de Paris'i yeniden oluşturuyor
Ma Huateng, WeChat genel hesabında ücretli okumanın yakında kullanıma sunulacağını doğruladı!
To Top