Makine öğrenmiyor: derin öğrenme ve Nesne Algılama · SPP Net nesne algılama

Makine www.jqbxx.com'u öğrenmiyor: Derin toplu makine öğrenimi, derin öğrenme algoritmaları ve teknik mücadele

Görsel Tanıma için Derin Evrişimli Ağlarda Uzamsal Piramit Havuzlaması

Motivasyon

Bilgisayarla görmedeki sinir ağlarının başarısı, evrişimli sinir ağlarından yararlanmaktadır, ancak mevcut birçok başarılı sinir ağı yapısı, girdinin sabit bir boyutta olmasını (224x224.299x299 gibi) ve bir görüntüden geçmesini gerektirir. Uzatılır veya kesilir ve ardından hesaplama için ağa girilir.

Ancak kırpma bilgileri kaybedebilir ve esnetme görüntüyü deforme eder, bu faktörler görsel görevlerin eşiğini yükseltir, bu nedenle çeşitli ölçeklerde girdi alabilen bir model varsa, görsel görevi daha kolay tamamlayabilmelidir.

Girişin boyutunu ne sınırlar

Derin evrişimli sinir ağında iki çekirdek bileşen vardır, biri CNN ve diğeri tamamen bağlantılı bir katmandır. Convolution, görüntüyü çevirmek ve görüntünün parçalarıyla bit bit çarpma yapmak için filtreler kullanır. Birden çok filtre birden çok özellik haritası oluşturur. (Özellik / özellik haritası) ve ardından havuzlama işlemini daha küçük bir özellik haritası elde etmek için daha fazla örneklemek için kullanabilirsiniz; aslında, özellik haritasının ne kadar büyük olduğu umurumuzda değil. Farklı görüntülerin özellik haritalarının farklı boyutları olabilir; ancak ikincisi Sınıflandırma görevleri gibi özel görevlerde, softmax'e karşılık gelen tek sıcak katmanın çıktısını almak için, sabit bir boyutun çıkarılması gerekir.Farklı girdilerin bir dizi ağırlık parametresini paylaşmasına izin vermek için, tam olarak bağlı katmanın girdi boyutunun aynı olması gerekir. Aynı zamanda özellik haritasının boyutunu aynı olacak şekilde sınırlar ve farklı boyutlardaki giriş görüntüleri aynı evrişim çekirdeği setini (filtre) kullandığında, farklı boyutlarda özellik haritaları oluşturulacaktır.Bu nedenle, farklı boyutlardaki giriş görüntülerinin kırpılması gerekir, Aynı boyuta streç ayarı.

Çözüm

Bu yüzden iki buluş var,

  • Evrişimli katmanın farklı boyutlu girdiler (SPP) için aynı boyutta çıktı üretmesine izin verin
  • Tamamen bağlı katmanın farklı boyuttaki girişler için aynı boyutta çıktı üretmesine izin verin (tam evrişim)

Tam evrişim ile evrişim arasındaki fark, sonunda sınıflandırma için tamamen bağlantılı bir katman kullanmak yerine, evrişimli bir katman kullanmamızdır. 16x16 özellik haritasını 10x1 tek sıcak sınıflandırmaya dönüştürmek istersek, 101x1 rulo kullanabiliriz Evrişim çekirdeği, her evrişim çekirdeği bir kategoriye karşılık gelir, parametrelerin sayısı çok daha azdır, ancak ... deneysel sonuçlar bunun oldukça etkili olduğunu gösterir ve tam evrişim + ters evrişim yeni bir görüntü bölütleme fikrini ortaya çıkarır ki bu bir açılış olduğu söylenebilir Yenilikçi çalışma, ilgilenen öğrenciler bu blogu okuyabilir

Burada SPP hakkında ayrıntılı olarak konuşuyoruz

SPP'deki SP (Spatial Pyramid) fikri SPM'den (Spatial Pyramid Matching) gelir.Bu makaleye başvurabilirsiniz.Sonuç makalesinde belirtildiği gibi, çalışmalarımız, bilgisayarla görmedeki zamanla kanıtlanmış birçok tekniğin / içgörünün hala önemli olabileceğini göstermektedir. derin ağ tabanlı tanımada roller.

SPM, resmi farklı çözünürlüklerde (ölçeklerde) bölümlere ayırmak ve ardından her bir parça için özellikleri çıkarmak ve bu özellikleri son bir özelliğe entegre etmektir.Bu özellik, alanı koruyan makroskopik ve mikroskobik (çok ölçekli piramitler) Özellikler (farklı bölgeler farklı özelliklere sahiptir) ve ardından özellikler arasındaki benzerliği görüntüler arasında eşleştirmek için (eşleştirme) kullanın. Daha önce bahsettiğimiz gibi, her filtre bir özellik haritası alacaktır ve SPP'nin girişi, evrişimden sonra bu özellik haritalarıdır.Bir özellik haritası farklı ölçeklerde her bölündüğünde ve L ölçeği resmi 2 ^ L'ye böler. ^ Küçük ızgaralar (aslında, ızgaraların sayısı kendiniz belirlenebilir, 2 ^ L ^ 'ye bölünmesi gerekmez), L, tüm görüntü için 0'dır; her küçük ızgara için, kağıtta havuzlama yapılır, maks. Havuzlama, pratikte de Diğerini kullanın, burada SPM'nin SIFT gibi özellik çıkarımı yapması gerektiği gibi değildir, çünkü özellik haritası zaten evrişimli katman tarafından çıkarılan özelliktir ve havuzlama ile elde edilen sonuçlar sabit boyutlu bir özellik haritası elde etmek için birbirine eklenir.

Örneğin, 256 filtreli bir evrişimli katman, 256 özellik haritası çıkarır 640x320'lik bir resim için çıktı özelliği haritası 32x16 olabilir ve 640x640'lık bir resim için çıktı özelliği haritası 32x32 olabilir. , 256 özellik haritasındaki her özellik haritası için, bunları 4 ölçekte kestik, en kaba ölçekte 1 grafiğe böldük, sonra 2 alt grafiğe ve ardından 4 alt grafiğe böldük. 8, her alt grafik için maksimum havuzlama yapın, en büyük sayıyı alın, son özelliğe koyun, 1 + 2 + 4 + 8 = 15 olduğu sürece bir özellik elde edebilirsiniz ve 256 özellik son 256'yı alabilir * 15 Bu kadar uzun bir özellik için, son öznitelik boyutunun yalnızca evrişimli katman yapısı ve SP ölçeği L ile ilgili olduğu ve giriş görüntüsüyle hiçbir ilgisi olmadığı, böylece farklı boyutlardaki görüntüler için aynı boyut özelliklerinin çıktı alınmasını sağladığı görülebilir.

Aslında, bunu görünce, farklı boyutlar için aynı boyut özelliğinin çıktı alma özelliğinin, birden çok girdiyi tek bir değerde toplayan işlemler olan maksimum havuzlama ve toplam havuzlama gibi havuzlama işlemleriyle belirlendiğini keşfetmiş olabilirsiniz; ve Uzaysal Piramit Bu sadece daha iyi bir özellik organizasyonu. Tabii ki, böyle etkili bir özellik organizasyonu bulmak takdire değer. Ama burada hala tartışmalı olan bir şey var: Aslında, maksimum havuzlama bazı bilgileri kaybeder, ancak bu bilgiler çok katmanlı özelliklerle telafi edilebilir.

Deney

Daha sonra yazar bu yapıyı çeşitli ağ yapılarına ve çeşitli görevlere uyguladı ve iyi sonuçlar elde etti (hafif, bir sürü makale yeniden üretin, kaynak kodunu değiştirin, çok sayıda deney yapın, çok yorgun olmalı); Özellikle tespit görevinde RCNN'nin iyileştirilmesinde burası daha ilgi çekicidir. RCNN'de, her Bölge Önerisinin hangi kategoriye ait olduğunu belirlemek için evrişimli katmana girdi olması gerekir ve bölge önerisi karedir, bu da birçok bölgede tekrarlanan evrişim işlemlerine yol açar.

SPP-net deneyinde,

  • Görüntünün tamamı evrişimli katmandan yalnızca bir kez geçer ve görüntünün tamamına karşılık gelen özellik haritası, conv5'ten elde edilir;
  • Daha sonra özellik haritasındaki her bir bölge önerisine karşılık gelen kısmı çıkarın Bu konum için hesaplama miktarı küçük değildir, ancak yine de evrişimin kendisinden çok daha hızlıdır.Orijinal görüntüdeki bir bölge, özellik haritasındaki bir bölgeye karşılık gelir. Bununla birlikte, özellik haritasındaki bir bölge, aslında orijinal görüntünün aralığına karşılık gelen (alıcı alan adı verilen alan), bölge önerisinin bulunduğu bölgeden daha büyüktür Bu anlamda, yine de daha alakasız bilgiler alır, ancak neyse ki hiçbir kırpma veya deformasyon yoktur;
  • Bölge teklifinin şekli farklı olduğundan ve ilgili özellik haritasının boyutu da tutarsız olduğundan, SPP, özelliklerine tam anlamıyla hakim olabilir ve farklı boyutlardaki özellik haritalarını aynı boyuttaki özelliklere dönüştürebilir ve bunları sınıflandırma için tamamen bağlı katmana aktarabilir.
  • Orijinal görüntü aslında orijinal görüntünün en boy oranını koruyabilir ve çeşitli ölçeklerde yakınlaştırabilir (metinde genişlik veya yükseklik bu beş boyuta yakınlaştırılır {480, 576, 688, 864, 1200} ve her biri farklı olacak bir özellik olarak sayılır) Ölçeğin özellikleri, sınıflandırma için birbirine eklenir.Bu kombinasyon yöntemi, doğruluğu bir dereceye kadar artırabilir.
  • Burada ayrıca, orijinal görüntüyü alana yakın bir aralığa (metinde 224x224) yakınlaştırabilen ve ardından doğruluğu daha da iyileştirmek için ağa girebilen küçük bir numara var. Nedeni ... metafiziksel açıklama, giriş ölçeğinin daha yakın olmasıdır. Model eğitimi daha kolaydır.

Görüntünün tamamı yalnızca bir kez çevrildiğinden, orijinal RCNN'den çok daha hızlıdır ve doğruluğu fena değildir.

Özet

Açıkça söylemek gerekirse, SPP-net algılama için doğmuş bir model değildir, ancak SPP-net RCNN'nin Hızlı RCNN'ye evrimi için bir referans görevi görmüştür ve okumaya değer. SPP-net fikri çok ilginç. SPP (Uzamsal Piramit Havuzlama) ağ yapısının bir iyileştirmesidir.Çinliler tarafından yazılan kağıtların okunmasının çok kolay olmasından kaynaklanabilir.Kişisel olarak altın içeriğinin RCNN veya DPM kağıtları kadar yüksek olmadığını hissediyorum, ancak deney çok iyi. Zengin, sınıflandırma görevleri ve algılama görevleri üzerindeki çeşitli ağ yapılarından SPP'nin etkinliğini kanıtlayın

Sonunda XMP seçeneğini göz ardı edebilirsiniz! Bu gerçek 2400MHz bellek
önceki
Makine öğrenmiyor: derin öğrenme ve Nesne Algılama · RCNN nesne algılama
Sonraki
Bu yüzlere bakma çağı, performans önemli değil, "görünen değer" en önemlisidir
Yeterince otoriter! En iyi 100 marka Baotuan platformu JD 3C açılış sezonu
Şangay ile bağlantı kurun! Haining belediye başkanı, bu gelişen endüstriyi "aramak" için Şangay'a özel bir gezi yaptı
Gao Lin ve karısı çılgınca köpek maması serpti, netizenleri kıskandırdı
Makineler öğrenmez: derin öğrenme notları Stokastik Optimizasyon
Makineler öğrenmez: derin öğrenme notları, derin metin modelleri ve diziler
Önemsiz bir bilgisayarı "alın", içinde ne olduğunu görmek için açın
Makineler öğrenmiyor: CNCC2017'de derin öğrenme ve çapraz medya zekası
Yanzhaomen'den korkmayın, Samsung T3 mobil SSD performans testi
Makine öğrenmiyor: derin öğrenme notları Lojistik Sınıflandırma
Ağ diskinden çok daha güvenilir, Samsung T3 mobil SSD güvenlik yazılımı deneyimi
Napoli'nin kalbi Hamsik
To Top