Makale, etkili alıcı alana uyum sağlamak için bir deforme olabilir evrişim çekirdeğini (DK) önermektedir. Bir evrişim işlemi her gerçekleştirildiğinde, orijinal evrişimden yeni bir evrişim örneklenmektedir. Bak, bu önceki yöntemin güçlü bir tamamlayıcısı.
Yazar | VincentLee
Editör | Jia Wei
Kağıt adresi: https://arxiv.org/abs/1910.02940
Kod adresi: https://github.com/hangg7/deformable-kernels
Bu makale ilk olarak halka açık hesapta yayınlandı: Xiaofei'nin algoritma mühendisliği notları
Geleneksel kıvrımlar, zor kurallar nedeniyle nesneleri büyütürken veya döndürürken uyarlanabilir değişiklikler yapamazken, deforme olabilen kıvrımlar, uyarlamalı değişiklikler yapmak, yani teorik alıcı alanı değiştirmek için girdi örnekleme konumunu değiştirir. Bununla birlikte, teorik alıcı alan piksellerin çıktıya katkısını ölçemez.Teorik alıcı alanla karşılaştırıldığında, teorik duyguyu değiştirmek için girdiye karşılık gelen çıktının (evrişim ağırlığı ile ilgili) kısmi türevinin hesaplanmasıyla elde edilen etkin alıcı alan (ERF) daha önemlidir. Etki alanı, yalnızca etkili algılama alanını değiştirmenin bir yoludur.
Bu amaçla, makale, deforme olabilen modelleme için yeni bir evrişim işlemi türü olan Deforme Edilebilir Çekirdekler (DK) önermektedir ve muhakeme sırasında etkili alıcı alanı değiştirmek için girdiye göre doğrudan yeni evrişim çekirdekleri oluşturur. Şekil d'de gösterildiği gibi DK, giriş verilerini değiştirmeden orijinal evrişimi yeniden örneklemek için evrişim çekirdeğinin ofsetini öğrenir. Deneysel sonuçlardan DK, sınıflandırma görevleri ve algılama görevleri için çok etkilidir ve eski deforme olabilen evrişim yöntemini birleştirmek daha iyi sonuçlar verebilir.
1 yöntem
Etkili alıcı alan kavramıyla ilgilenmeyenler, doğrudan deforme olabilen evrişim çekirdeğinin tanımına gidebilirler.Etkili alıcı alanın tanıtımı aşağıdaki içeriği etkilemez.
Adım 1 olan iki boyutlu evrişim işleminin boyutu formül 1'deki gibidir ve çıktı, hedef alan pikselinin ve evrişim çekirdeğinin çarpımının toplamıdır.
Teorik Alıcı Alan
Önceki katmanın girdisine göre evrişimsel katmanın tek bir çıktısının alıcı alanı, evrişim çekirdeğinin boyutudur. Evrişim katmanları üst üste getirildiğinde, tek çıktının karşılık gelen ara katman alıcı alanları da üst üste bindirilir ve ortaya çıkan üst üste binen alan Teorik alıcı alan, evrişim çekirdeğinin boyutu ve ağın derinliği ile doğrusal olarak ilişkilidir.
Etkili Alıcı Alan
Konvolüsyonun üst üste binmesi ve doğrusal olmayan aktivasyonun ortaya çıkması nedeniyle, teorik alıcı alandaki piksellerin çıktıya katkısı farklıdır.Etkili alıcı alan (ERF), alandaki her pikselin çıktı üzerindeki etkisini ölçmek için kullanılabilir ve ilgili piksel hesaplanarak çıkarılır. Değerin kısmi türevi elde edilebilir, ayrıntılar için referans belgesine bakın.
2. Etkili kabul alanı analizi
Buradaki ana analiz, girdiye ve bir dizi konvolüsyona dayalı olarak etkili alıcı alanın nasıl hesaplanacağı, önce doğrusal evrişimli ağın senaryosunun nasıl analiz edileceği ve ardından doğrusal olmayan evrişimli ağa nasıl genişletileceğidir.
Doğrusal bir evrişimli ağ için, giriş görüntüsü ve adım 1 olan bir evrişim ağırlığı verildiğinde, formül 1 formül 2'ye genişletilebilir ve özellik haritasının üst simgesi ve evrişim ağırlığı ve evrişim çekirdek konumunun alt simgesi katman sayısıdır.
ERF tanımına göre, çıktı koordinatları girdi koordinatlarının etkin algılama eşiğine karşılık gelir.
İlk evrişim çekirdeğinin bir evrişim çekirdeği ile değiştirildiği varsayıldığında, ERF'nin hesaplanması, \ katman içermeyen formül 4 olacaktır.Burada, her bir yolun ağırlığı doğrudan çarpılır, çünkü katmanın yalnızca bir yolu vardır ve gösterge işlevini karşılayan yol içermelidir .
Evrişim, dikdörtgen bir alana dağılmış bir evrişim olarak kabul edilebilir.Bu nedenle, formül 3, formül 5 olarak yeniden yazılabilir. Katmanların evrişimi, çoklu evrişimler olarak kabul edilir ve göreceli çıktı konumları buna göre değiştirilmelidir (burada Daha uygun).
Karmaşık doğrusal olmayan konvolüsyonlar için, formül 6'yı elde etmek için formül 1'de ReLU aktivasyonunun eklenmesi, yani her bir konvolüsyon katmanı aktivasyon fonksiyonuna bağlanır.
Doğrusal olmayan versiyonun etkili alıcı alan değeri yukarıdaki formül gibi hesaplanır Faktör ERF değerini veriyle ilişkilendirir Pratikte, etkili alıcı alan düzensiz bir şekle sahiptir ve düzensiz olarak dağıtılmış birçok sıfır değeri içerir.
Formül 4 ve formül 5 hesaplamalarının doğrusal olduğu unutulmamalıdır, böylece etkili algısal alan değerinin hesaplanması, çekirdeğin doğrusal örnekleme işlemiyle uyumlu olabilir.Örneğin, ondalık konumdaki çekirdek değerini elde etmek için çift doğrusal enterpolasyon kullanarak, çekirdek örneklemesinin verilere eşit olduğu düşünülebilir. Doğrusal ERF örneklemesi gerçekleştirin (ERF, çıktı örnekleme konumu, evrişim çekirdek konumu ve evrişim çekirdek ağırlığı ile ilgilidir) ve bu uyumluluk, doğrusal olmama durumuna benzer şekilde genişletilebilir. Yukarıdaki analize dayanarak, makale Deforme Edilebilir Çekirdekler (DK) önermektedir.
3. Deforme olabilir çekirdek (DK)
DK öğrenilebilir bir çekirdek ofset değeri ekler, böylece çıktının hesaplaması formül 1'den formül 7'ye değişir ve ERF'nin hesaplanması da çekirdek ofset değeriyle ilişkili formül 8 olur. Ofset değeri genellikle ondalık sayılar içerdiğinden, ofset değerini hesaplamak için çift doğrusal enterpolasyon kullanılır.
Orijinal evrişim çekirdeğinin boyutuna puan boyutu denir Genel olarak, DK'nin kapsam boyutu üzerinde herhangi bir kısıtlaması yoktur, yani orijinal evrişimden örneklenen ve daha sonra bölgenin boyutu için kullanılan yeni bir evrişim. Bu şekilde, ağ çok fazla ek hesaplamaya neden olmadan daha büyük orijinal evrişimi olabildiğince kullanabilir.Kağıdın en büyük orijinal evrişimi 'dir.
Şekil 2'de gösterildiği gibi, DK'nin global mod ve yerel mod olmak üzere iki uygulama formu vardır.Giriş bloklarını çekirdek ofset değerlerine dönüştüren öğrenilebilir bir çekirdek ofset üreticisidir:
Global modun uygulaması, boyut azaltma ve çıktı ofset değerleri için kullanılan global ortalama bir havuzlama katmanı + tamamen bağlantılı bir katmandır.
Yerel modun gerçekleştirilmesi, hedef evrişim ile aynı boyutta bir evrişim işlemidir, çıktı boyuttur ve son çıktıdır.
Global mod, resmin tamamına daha fazla dikkat eder ve tüm resme göre çekirdek ofsetini gerçekleştirirken, yerel mod resmin yerel alanına daha fazla dikkat eder.Küçük nesneler için, özel şekillere (büyük değer farkı) sahip çekirdekler oluşturun, bu da ERF'yi büyük nesneler için daha yoğun hale getirir. Nesneler, ERF'yi daha geniş hale getirerek daha düz bir çekirdek oluşturur (küçük değer farkı). Genel olarak, yerel modun serbestlik derecesi daha yüksektir.
4. Deforme olabilen çekirdeğin hesaplama süreci
Şekil 5, yerel DK hesaplamasının şematik bir diyagramını göstermektedir Ofset üreteci, girişe göre bir ofset değeri üretir, orijinal evrişimdeki hedef evrişim noktalarını eşit şekilde döşer ve ardından çift doğrusal enterpolasyon kullanarak ofset değerine göre ofsetler Hedef evrişimi güncellemek için ofset ağırlığını hesaplayın ve son olarak, giriş ve çıkışı birleştirmek için hedef evrişimi kullanın.
İleriye doğru, orijinal evrişim ve öğrenilen evrişim çekirdek ofseti verildiğinde, hedef evrişimi oluşturmak için çift doğrusal ara değerleme ile birleştirilir ve ardından girişte geleneksel evrişim çıkışı gerçekleştirmek için hedef evrişimi kullanır.
DK'nin geri yayılmasının 3 tür gradyan oluşturması gerekir:
Önceki katmanın özellik haritasının gradyanı
Mevcut katmanın yerel evrişiminin gradyanı
Geçerli katman ofset oluşturucunun gradyanı
İlk iki hesaplama yöntemi, sıradan evrişim ile aynıdır ve üçüncü yöntem, çift doğrusal interpolasyonla birlikte formül 13'ü kullanır.
DK'nin özü, deforme olabilirlik amacına ulaşmak için giriş ofset değerini orijinal evrişimi örneklemeye adapte etmeyi öğrenmektir Genel fikir, deforme olabilen evrişime benzer olabilir.
Deforme edilebilir evrişimin hesaplanması, esas olarak verileri dengeleyen formül 9 gibidir ve etkili alıcı alan, formül 10'dur. Daha önce belirtildiği gibi, etkili alıcı alan, çıktı örnekleme konumu ve evrişim çekirdeğinin konumu ile ilgilidir, bu da deforme olabilen evrişimin neden değişken şekillere sahip nesneleri öğrenmek için uygun olduğunu bir dereceye kadar açıklar.
Verinin ve çekirdeğin aynı anda ofset olduğu varsayıldığında, çıktının hesaplanması ve etkin alıcı alanın hesaplanması formül 11'deki gibidir. İki yöntemin amacı benzer olsa da, iki yöntemin işbirliğinin iyi ve daha iyi sonuçlar getirebileceği pratikte bulunmuştur. Etki.
2 Deney
Deney esas olarak derinlemesine evrişimler için optimize edilmiştir ve çekirdek ofseti puan boyutunu aşamaz. Temel modeller ResNet-50-DW ve MobileNetV2'dir ve karşılaştırma deneyi Koşullu Konvolüsyonlar ve Deformable Konvolüsyonların karşılaştırmasını ekler.
Görselleştirme sonucunu elde etmek için MobileNet-V2'nin son katmanında t-SNE boyut azaltımı gerçekleştirin. Noktanın rengi kategori (10 kategori) veya bbox boyutudur (10 eşit bölüm). DK ve koşullu evrişimi karşılaştırın ve koşullu evrişim öğrenir Anlamla ilgili özellikler, DK boyutla ilgili özellikleri öğrenirken, önceki deneydeki iki yöntemin aynı anda kullanıldığında daha etkili olduğunu açıklıyor.
Farklı evrişimlerin etkili alıcı alanlarını görselleştirin Hem deforme olabilen evrişim hem de DK benzer uyarlanabilir ERF üretebilir, ancak deforme olabilen evrişim daha geniş bir yanıta sahip olma eğilimindeyken DK nesnenin içinde yoğunlaşma eğilimindedir. En iyi kombinasyon.
3 Sonuç
Makale, etkili alıcı alana uyum sağlamak için bir deforme olabilir evrişim çekirdeğini (DK) önermektedir. Bir evrişim işlemi her gerçekleştirildiğinde, orijinal evrişimden yeni bir evrişim örneklenmektedir. Bak, bu önceki yöntemin güçlü bir tamamlayıcısı.
ICLR 2020 makale serisinin yorumlanması
0 ICLR 2020 konferans haber raporu
Salgın ciddi, ICLR2020 sanal bir konferans düzenleyecek ve Afrika'nın ilk AI uluslararası zirvesi sırılsıklam olacak
Salgından etkilenen ICLR aniden çevrimiçi moda geçti. 2020 zirvenin değişim yılı mı olacak?
1. Canlı yayın
Tekrar | Huawei Noah's Ark ICLR Full Score Paper: Reinforcement Learning'e Dayalı Nedensel Keşif
2, Oral
01. Sözlü | Yansıtılmış üretken makine çevirisi modeli: MGNMT
02. Oral | Negatif çeşitlilik cehaletini hafifletmeden önce Ekstra Gauss
03. Oral | Ek geçitleme işlemleri uygulayın, LSTM biraz değiştirildi, performans Transformer-XL ile karşılaştırılabilir
04. Oral | Paralel Monte Carlo araması, performans kaybı olmadan, doğrusal hızlanma ve "Eksik Eğlence" nin 1000 seviyesini cesurca aşma!
05. Sözlü | Meta yoğunlaştırılmış öğrenme, soğuk su dolu bir tencerede başlatıldı: yuan-Q öğrenmesinden çok daha iyi değil
06. Oral | Derin, eşdeğer bir kapsül ağı oluşturmak için grup evrişimini kullanın
07. Oral | Google, dağıtılmış pekiştirmeli öğrenme çerçevesi SEED'i başlattı, performans "patlayıcı" IMPALA, binlerce makineye genişletilebilir, ancak aynı zamanda çok ucuz
08. Oral | Reformer, verimli bir Transformatör
09. Oral | Değer fonksiyonu planlaması ve pekiştirme öğrenmeye dayalı kontrol mimarisi (canlı video)
10. Oral | Pekin Üniversitesi Turing Sınıfı tam puanlı makale: Hesaplama kısıtlamaları altında faydalı bilgilere dayalı bilgi teorisi
11. Oral | GAN kullanarak yüksek kaliteli konuşma sentezi
3. Gündem
01. Gündem | Bu kadar çok model parametresi varken, genelleme yeteneği neden bu kadar güçlü?
02. Gündem | Adalet ve hassasiyet aynı derecede önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir
03. Gündem | Zayıf kombinasyon genelleme yeteneği? Derin öğrenme füzyon kombinasyonu çözücüyü kullanmayı deneyin
05. Gündem | Washington Üniversitesi: Görüntü sınıflandırmada ulaşılabilir saldırılara karşı savunma (video yorumlama)
06. Gündem | Grafik sinir ağına dayalı geleneksel, endüktif matris tamamlamanın ötesinde
07. Gündem | Çok ölçekli ifadeyi (video yorumlama) öğrenmek için ızgara hücrelerini kullanarak araştırma için Aydınlanma Ödülü aldı
08. Gündem | Sinir Tanjantı, sonsuz genişlikte bir sinir ağı modeli oluşturmak için 5 satır kod
4. Afiş
01. Afiş | Huawei Noah: Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırıyor
02. Poster | Evrişimin yanı sıra, çok başlı öz-ilgi herhangi bir evrişim işlemini ifade edebilir
03. Poster | NAS çok zor, arama sonuçları rastgele örnekleme ile karşılaştırılabilir! Huawei 6 öneri veriyor
04. Poster | Tsinghua, yorumlanabilirliği öğrenmek için "nöron yürütme ağacını" kullanarak NExT çerçevesini önerdi
05. Poster | Google'ın son araştırması: "Bileşik diverjans" nicel modelle genelleme yeteneğini sentezleyin
06. Poster | Google'ın en iyi NLP ön eğitim modeli BERT'e karşı zafer, açık kaynaktır, tek kartlı eğitim yalnızca 4 gün sürer
07. Poster | FSNet: Evrişim çekirdek özeti kullanılarak derin evrişimli sinir ağlarının sıkıştırılması
08. Poster | "Eşzamanlı Ortalama Öğretim" çerçevesi, denetimsiz öğrenim için daha sağlam sözde etiketler sağlar
09. Poster | Hızlı Sinir Ağı Uyarlanabilir Teknoloji
10. Poster | Temsilcinin genelleme yeteneğini geliştirmek için rastgele rahatsızlık verin