g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

DilatedNet-Dilate Evrişim (Anlamsal Segmentasyon)

Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:

Gözden Geçirme: DilatedNet - Genişletilmiş Evrişim (Anlamsal Segmentasyon)

Yazar | Sik-Ho Tsang

Tercüme | Stephen Ergouzi

Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı

Orijinal bağlantı:

https://towardsdatascience.com/review-dilated-convolution-semantic-segmentation-9d5a5bd768f5

Not: Bu makaledeki ilgili bağlantılar için lütfen makalenin sonunu ziyaret edin [orijinal metni okuyun]

Bu sefer Princeton Üniversitesi ve Intel Labs'ın Genişletilmiş Evrişim makalesini kısaca gözden geçirdim. Evrişimi genişletme fikri dalgacık ayrışmasından gelir. Aynı zamanda "acımasız evrişim", "algoritmaya dayalı" ve "delik algoritması" olarak da adlandırılır. Bu nedenle, onları derin öğrenme çerçevelerine dönüştürebilirsek, geçmişte kalan fikirlerin hala yararlı olduğu düşünülebilir.

Bu hikayeyi yazdığımda, bu genişletilmiş evrişim 2016'da ICLR'de yayınlandı ve 1.000'den fazla alıntı yapıldı. (SH Tsang @ Orta)

Ne dahil

Genişlemiş evrişim

Çok ölçekli bağlam toplama (bağlam modülü)

sonuç

1. Genişletilmiş Evrişim

Standart evrişim (sol), genişletilmiş evrişim (sağda)

Solda standart evrişim var. Doğru olan, genişlemiş evrişimdir. S + lt = p'yi toplarken evrişim sırasında bazı noktaları atlayacağımızı görebiliriz.

L = 1 olduğunda, standart evrişimdir.

Ne zaman > 1'de, genişlemiş evrişimdir.

Standart evrişim (l = 1)

Genişletilmiş evrişim (l = 2)

Yukarıda l = 2 olduğunda genişlemiş evrişime bir örnek. Standart evrişime kıyasla alıcı alanın daha büyük olduğunu görebiliriz.

l = 1 (sol), l = 2 (orta), l = 4 (sağ)

Yukarıdaki şekil, alıcı alanların üç örneğini göstermektedir.

2. Çok ölçekli bağlam toplama (bağlam modülü)

Genişletilmiş evrişime dayalı olarak oluşturulan Bağlam Modülü aşağıdaki gibidir:

Temel bağlam modülü ve geniş bağlam modülü

Şekilde gösterildiği gibi, bağlam modülünün 7 katmanı vardır.Bu katmanlar, farklı genişleme oranlarına sahip 3 × 3 çekirdek boyutunda genişletilmiş konvolüsyonlar kullanır.

Son katman, kanal sayısını giriş kanallarının sayısıyla aynı boyuta eşlemek için 1 × 1 evrişim kullanır. Bu nedenle, giriş ve çıkış aynı sayıda kanala sahiptir. Farklı evrişimli sinir ağlarına eklenebilir.

Temel bağlam modülü, temel bağlam modülü, tüm modülde yalnızca 1 kanala (1C, 1 kanal) sahipken, geniş bağlam modülü, 32C kanallarının 7. katmanına giriş olarak 1C kullanır.

3. Sonuçlar

3.1. PASCAL VOC 2012

VGG-16, ön uç modülü olarak kullanılır (eğitim öncesi). Son iki havuz katmanını ve adım katmanını silin ve bağlam modülünü buna ekleyin. Ortadaki özellik haritasının dolgusu da kaldırıldı. Yazar, girdi özelliği haritasına 33 genişliğinde bir dolgu ekledi. Sıfır Dolgu (0 dolgusu) ve yansıma dolgusu (giriş sınırını kullanan yansıtıcı dolgu, bir tür dolgu) deneylerimizde benzer sonuçlar elde etti. Ek olarak, giriş ve çıkış kanallarının sayısının ağırlığı, model parametrelerinin standart rastgele başlatılması yerine başlatmak için kullanılır.

PASCAL VOC 2012 test seti

Orijinal yazar tarafından eğitilen genel model ile karşılaştırıldığında, genişletilmiş evrişim yönteminin test setindeki performansı, FCN-8s modelinden ve DeepLabv1 modelinden yaklaşık yüzde 5 puan daha iyidir.

% 67.6 ortalama IoU elde edildi (ortalama kavşak oranı)

PASCAL VOC 2012 doğrulama seti

Yukarıda gösterildiği gibi, Microsoft-COCO veri setinden görüntüler üzerine eğitim yoluyla, ablasyon deneyi, genişleme evrişiminin kendisi üzerinde çalışır.

Ön uç: Ön uç modülü
Temel: Temel bağlam modülü
Büyük: Büyük içerik modülü
CRF: Model girişini işlemek için DeepLabv1 ve DeepLabv2'de belirtilen koşullu rastgele alanı kullanın
RNN: Tekrarlayan sinir ağları aracılığıyla koşullu rastgele alanlar kullanan işlem sonrası adımlar

Dilate evrişim (temel veya büyük) kullanmanın her zaman sonuçları iyileştirdiğini ve CRF gibi diğer sonraki işlem adımlarını kullanmaya devam edebileceğini görebiliriz.

% 73.9 ortalama IoU elde edildi (ortalama kavşak oranı)

PASCAL VOC 2012 test seti

Yukarıdaki tablodaki ön uç modülleri ayrıca Microsoft COCO veri seti eğitimi ile elde edilir. CRF-RNN (yani yukarıdaki tablodaki RNN) kullanılarak,% 75.3'lük bir ortalama IoU elde edildi. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı

3.2. Niteliksel sonuçlar

PASCAL VOC 2012

Tüm modeller, özellik çıkarma için VGG-16 kullanır ve dilate evrişim kullanımının segmentasyon sonuçları üzerinde daha iyi bir etkisi vardır

PASCAL VOC 2012

Daha iyi sonuçlar elde etmek için sonraki işlem adımı olarak CRF-RNN'yi kullanın. Ancak CRF-RNN, süreci uçtan uca öğrenmeyi değil.

Arıza durumu

Yukarıda model bölümleme hatasının gösterildiği bazı durumlarda, nesne tıkandığında bölümleme hatası ortaya çıkar.

CamVid, KITTI ve Cityscapes gibi farklı veri setlerinin test sonuçları ekte verilmektedir, lütfen bu makaleyi okumaktan çekinmeyin. Ayrıca, genişletilmiş evrişim kullanan bir artık ağ olan Dilated Residual Networks'ü de piyasaya sürdüler. Umarım ileride bunun hakkında yazabilirim. :)