Görsel Tanıma için Derin Evrişimli Ağlarda Uzamsal Piramit Havuzlaması
Motivasyon
Bilgisayarla görmedeki sinir ağlarının başarısı, evrişimli sinir ağlarından yararlanmaktadır, ancak mevcut birçok başarılı sinir ağı yapısı, girdinin sabit bir boyutta olmasını (224x224.299x299 gibi) ve bir görüntüden geçmesini gerektirir. Uzatılır veya kesilir ve ardından hesaplama için ağa girilir.
Ancak kırpma bilgileri kaybedebilir ve esnetme görüntüyü deforme eder, bu faktörler görsel görevlerin eşiğini yükseltir, bu nedenle çeşitli ölçeklerde girdi alabilen bir model varsa, görsel görevi daha kolay tamamlayabilmelidir.
Girişin boyutunu ne sınırlar
Derin evrişimli sinir ağında iki çekirdek bileşen vardır, biri CNN ve diğeri tamamen bağlantılı bir katmandır. Convolution, görüntüyü çevirmek ve görüntünün parçalarıyla bit bit çarpma yapmak için filtreler kullanır. Birden çok filtre birden çok özellik haritası oluşturur. (Özellik / özellik haritası) ve ardından havuzlama işlemini daha küçük bir özellik haritası elde etmek için daha fazla örneklemek için kullanabilirsiniz; aslında, özellik haritasının ne kadar büyük olduğu umurumuzda değil. Farklı görüntülerin özellik haritalarının farklı boyutları olabilir; ancak ikincisi Sınıflandırma görevleri gibi özel görevlerde, softmax'e karşılık gelen tek sıcak katmanın çıktısını almak için, sabit bir boyutun çıkarılması gerekir.Farklı girdilerin bir dizi ağırlık parametresini paylaşmasına izin vermek için, tam olarak bağlı katmanın girdi boyutunun aynı olması gerekir. Aynı zamanda özellik haritasının boyutunu aynı olacak şekilde sınırlar ve farklı boyutlardaki giriş görüntüleri aynı evrişim çekirdeği setini (filtre) kullandığında, farklı boyutlarda özellik haritaları oluşturulacaktır.Bu nedenle, farklı boyutlardaki giriş görüntülerinin kırpılması gerekir, Aynı boyuta streç ayarı.
Çözüm
Bu yüzden iki buluş var,
Tam evrişim ile evrişim arasındaki fark, sonunda sınıflandırma için tamamen bağlantılı bir katman kullanmak yerine, evrişimli bir katman kullanmamızdır. 16x16 özellik haritasını 10x1 tek sıcak sınıflandırmaya dönüştürmek istersek, 101x1 rulo kullanabiliriz Evrişim çekirdeği, her evrişim çekirdeği bir kategoriye karşılık gelir, parametrelerin sayısı çok daha azdır, ancak ... deneysel sonuçlar bunun oldukça etkili olduğunu gösterir ve tam evrişim + ters evrişim yeni bir görüntü bölütleme fikrini ortaya çıkarır ki bu bir açılış olduğu söylenebilir Yenilikçi çalışma, ilgilenen öğrenciler bu blogu okuyabilir
Burada SPP hakkında ayrıntılı olarak konuşuyoruz
SPP'deki SP (Spatial Pyramid) fikri SPM'den (Spatial Pyramid Matching) gelir.Bu makaleye başvurabilirsiniz.Sonuç makalesinde belirtildiği gibi, çalışmalarımız, bilgisayarla görmedeki zamanla kanıtlanmış birçok tekniğin / içgörünün hala önemli olabileceğini göstermektedir. derin ağ tabanlı tanımada roller.
SPM, resmi farklı çözünürlüklerde (ölçeklerde) bölümlere ayırmak ve ardından her bir parça için özellikleri çıkarmak ve bu özellikleri son bir özelliğe entegre etmektir.Bu özellik, alanı koruyan makroskopik ve mikroskobik (çok ölçekli piramitler) Özellikler (farklı bölgeler farklı özelliklere sahiptir) ve ardından özellikler arasındaki benzerliği görüntüler arasında eşleştirmek için (eşleştirme) kullanın. Daha önce bahsettiğimiz gibi, her filtre bir özellik haritası alacaktır ve SPP'nin girişi, evrişimden sonra bu özellik haritalarıdır.Bir özellik haritası farklı ölçeklerde her bölündüğünde ve L ölçeği resmi 2 ^ L'ye böler. ^ Küçük ızgaralar (aslında, ızgaraların sayısı kendiniz belirlenebilir, 2 ^ L ^ 'ye bölünmesi gerekmez), L, tüm görüntü için 0'dır; her küçük ızgara için, kağıtta havuzlama yapılır, maks. Havuzlama, pratikte de Diğerini kullanın, burada SPM'nin SIFT gibi özellik çıkarımı yapması gerektiği gibi değildir, çünkü özellik haritası zaten evrişimli katman tarafından çıkarılan özelliktir ve havuzlama ile elde edilen sonuçlar sabit boyutlu bir özellik haritası elde etmek için birbirine eklenir.
Örneğin, 256 filtreli bir evrişimli katman, 256 özellik haritası çıkarır 640x320'lik bir resim için çıktı özelliği haritası 32x16 olabilir ve 640x640'lık bir resim için çıktı özelliği haritası 32x32 olabilir. , 256 özellik haritasındaki her özellik haritası için, bunları 4 ölçekte kestik, en kaba ölçekte 1 grafiğe böldük, sonra 2 alt grafiğe ve ardından 4 alt grafiğe böldük. 8, her alt grafik için maksimum havuzlama yapın, en büyük sayıyı alın, son özelliğe koyun, 1 + 2 + 4 + 8 = 15 olduğu sürece bir özellik elde edebilirsiniz ve 256 özellik son 256'yı alabilir * 15 Bu kadar uzun bir özellik için, son öznitelik boyutunun yalnızca evrişimli katman yapısı ve SP ölçeği L ile ilgili olduğu ve giriş görüntüsüyle hiçbir ilgisi olmadığı, böylece farklı boyutlardaki görüntüler için aynı boyut özelliklerinin çıktı alınmasını sağladığı görülebilir.
Aslında, bunu görünce, farklı boyutlar için aynı boyut özelliğinin çıktı alma özelliğinin, birden çok girdiyi tek bir değerde toplayan işlemler olan maksimum havuzlama ve toplam havuzlama gibi havuzlama işlemleriyle belirlendiğini keşfetmiş olabilirsiniz; ve Uzaysal Piramit Bu sadece daha iyi bir özellik organizasyonu. Tabii ki, böyle etkili bir özellik organizasyonu bulmak takdire değer. Ama burada hala tartışmalı olan bir şey var: Aslında, maksimum havuzlama bazı bilgileri kaybeder, ancak bu bilgiler çok katmanlı özelliklerle telafi edilebilir.
Deney
Daha sonra yazar bu yapıyı çeşitli ağ yapılarına ve çeşitli görevlere uyguladı ve iyi sonuçlar elde etti (hafif, bir sürü makale yeniden üretin, kaynak kodunu değiştirin, çok sayıda deney yapın, çok yorgun olmalı); Özellikle tespit görevinde RCNN'nin iyileştirilmesinde burası daha ilgi çekicidir. RCNN'de, her Bölge Önerisinin hangi kategoriye ait olduğunu belirlemek için evrişimli katmana girdi olması gerekir ve bölge önerisi karedir, bu da birçok bölgede tekrarlanan evrişim işlemlerine yol açar.
SPP-net deneyinde,
Görüntünün tamamı yalnızca bir kez çevrildiğinden, orijinal RCNN'den çok daha hızlıdır ve doğruluğu fena değildir.
Özet
Açıkça söylemek gerekirse, SPP-net algılama için doğmuş bir model değildir, ancak SPP-net RCNN'nin Hızlı RCNN'ye evrimi için bir referans görevi görmüştür ve okumaya değer. SPP-net fikri çok ilginç. SPP (Uzamsal Piramit Havuzlama) ağ yapısının bir iyileştirmesidir.Çinliler tarafından yazılan kağıtların okunmasının çok kolay olmasından kaynaklanabilir.Kişisel olarak altın içeriğinin RCNN veya DPM kağıtları kadar yüksek olmadığını hissediyorum, ancak deney çok iyi. Zengin, sınıflandırma görevleri ve algılama görevleri üzerindeki çeşitli ağ yapılarından SPP'nin etkinliğini kanıtlayın