Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:
Gözden Geçirme: DilatedNet - Genişletilmiş Evrişim (Anlamsal Segmentasyon)
Yazar | Sik-Ho Tsang
Tercüme | Stephen Ergouzi
Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı
Orijinal bağlantı:
https://towardsdatascience.com/review-dilated-convolution-semantic-segmentation-9d5a5bd768f5
Not: Bu makaledeki ilgili bağlantılar için lütfen makalenin sonunu ziyaret edin [orijinal metni okuyun]
Bu sefer Princeton Üniversitesi ve Intel Labs'ın Genişletilmiş Evrişim makalesini kısaca gözden geçirdim. Evrişimi genişletme fikri dalgacık ayrışmasından gelir. Aynı zamanda "acımasız evrişim", "algoritmaya dayalı" ve "delik algoritması" olarak da adlandırılır. Bu nedenle, onları derin öğrenme çerçevelerine dönüştürebilirsek, geçmişte kalan fikirlerin hala yararlı olduğu düşünülebilir.
Bu hikayeyi yazdığımda, bu genişletilmiş evrişim 2016'da ICLR'de yayınlandı ve 1.000'den fazla alıntı yapıldı. (SH Tsang @ Orta)
Ne dahil
Genişlemiş evrişim
Çok ölçekli bağlam toplama (bağlam modülü)
sonuç
Standart evrişim (sol), genişletilmiş evrişim (sağda)
Solda standart evrişim var. Doğru olan, genişlemiş evrişimdir. S + lt = p'yi toplarken evrişim sırasında bazı noktaları atlayacağımızı görebiliriz.
L = 1 olduğunda, standart evrişimdir.
Ne zaman > 1'de, genişlemiş evrişimdir.
Standart evrişim (l = 1)
Genişletilmiş evrişim (l = 2)
Yukarıda l = 2 olduğunda genişlemiş evrişime bir örnek. Standart evrişime kıyasla alıcı alanın daha büyük olduğunu görebiliriz.
l = 1 (sol), l = 2 (orta), l = 4 (sağ)
Yukarıdaki şekil, alıcı alanların üç örneğini göstermektedir.
Genişletilmiş evrişime dayalı olarak oluşturulan Bağlam Modülü aşağıdaki gibidir:
Temel bağlam modülü ve geniş bağlam modülü
Şekilde gösterildiği gibi, bağlam modülünün 7 katmanı vardır.Bu katmanlar, farklı genişleme oranlarına sahip 3 × 3 çekirdek boyutunda genişletilmiş konvolüsyonlar kullanır.
Son katman, kanal sayısını giriş kanallarının sayısıyla aynı boyuta eşlemek için 1 × 1 evrişim kullanır. Bu nedenle, giriş ve çıkış aynı sayıda kanala sahiptir. Farklı evrişimli sinir ağlarına eklenebilir.
Temel bağlam modülü, temel bağlam modülü, tüm modülde yalnızca 1 kanala (1C, 1 kanal) sahipken, geniş bağlam modülü, 32C kanallarının 7. katmanına giriş olarak 1C kullanır.
VGG-16, ön uç modülü olarak kullanılır (eğitim öncesi). Son iki havuz katmanını ve adım katmanını silin ve bağlam modülünü buna ekleyin. Ortadaki özellik haritasının dolgusu da kaldırıldı. Yazar, girdi özelliği haritasına 33 genişliğinde bir dolgu ekledi. Sıfır Dolgu (0 dolgusu) ve yansıma dolgusu (giriş sınırını kullanan yansıtıcı dolgu, bir tür dolgu) deneylerimizde benzer sonuçlar elde etti. Ek olarak, giriş ve çıkış kanallarının sayısının ağırlığı, model parametrelerinin standart rastgele başlatılması yerine başlatmak için kullanılır.
PASCAL VOC 2012 test seti
Orijinal yazar tarafından eğitilen genel model ile karşılaştırıldığında, genişletilmiş evrişim yönteminin test setindeki performansı, FCN-8s modelinden ve DeepLabv1 modelinden yaklaşık yüzde 5 puan daha iyidir.
% 67.6 ortalama IoU elde edildi (ortalama kavşak oranı)
PASCAL VOC 2012 doğrulama seti
Yukarıda gösterildiği gibi, Microsoft-COCO veri setinden görüntüler üzerine eğitim yoluyla, ablasyon deneyi, genişleme evrişiminin kendisi üzerinde çalışır.
Ön uç: Ön uç modülü
Temel: Temel bağlam modülü
Büyük: Büyük içerik modülü
CRF: Model girişini işlemek için DeepLabv1 ve DeepLabv2'de belirtilen koşullu rastgele alanı kullanın
RNN: Tekrarlayan sinir ağları aracılığıyla koşullu rastgele alanlar kullanan işlem sonrası adımlar
Dilate evrişim (temel veya büyük) kullanmanın her zaman sonuçları iyileştirdiğini ve CRF gibi diğer sonraki işlem adımlarını kullanmaya devam edebileceğini görebiliriz.
% 73.9 ortalama IoU elde edildi (ortalama kavşak oranı)
PASCAL VOC 2012 test seti
Yukarıdaki tablodaki ön uç modülleri ayrıca Microsoft COCO veri seti eğitimi ile elde edilir. CRF-RNN (yani yukarıdaki tablodaki RNN) kullanılarak,% 75.3'lük bir ortalama IoU elde edildi. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı
3.2. Niteliksel sonuçlarPASCAL VOC 2012
Tüm modeller, özellik çıkarma için VGG-16 kullanır ve dilate evrişim kullanımının segmentasyon sonuçları üzerinde daha iyi bir etkisi vardır
PASCAL VOC 2012
Daha iyi sonuçlar elde etmek için sonraki işlem adımı olarak CRF-RNN'yi kullanın. Ancak CRF-RNN, süreci uçtan uca öğrenmeyi değil.
Arıza durumu
Yukarıda model bölümleme hatasının gösterildiği bazı durumlarda, nesne tıkandığında bölümleme hatası ortaya çıkar.
CamVid, KITTI ve Cityscapes gibi farklı veri setlerinin test sonuçları ekte verilmektedir, lütfen bu makaleyi okumaktan çekinmeyin. Ayrıca, genişletilmiş evrişim kullanan bir artık ağ olan Dilated Residual Networks'ü de piyasaya sürdüler. Umarım ileride bunun hakkında yazabilirim. :)
Genişletilmiş Evrişimlerle Çok Ölçekli Bağlam Birleştirme
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?
Tıklamak DilatedNet-Dilated Convolution (Semantik Segmentasyon)] şunlara erişmek için:
https://ai.yanxishe.com/page/TextTranslation/1538
Makine öğrenimi çılgınlığı
Sınırlı bir süre için ücretsiz \ 18 klasik kitap / Stanford klasik ders kitapları + makaleler
Almak için bağlantıya tıklayın:
https://ai.yanxishe.com/page/resourceDetail/574