Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:
Gözden Geçirme: DeepLabv1 ve DeepLabv2 - Atrous Convolution (Anlamsal Segmentasyon)
Yazar | Sik-Ho Tsang
Tercüme | Stephen Ergouzi
Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı
Orijinal bağlantı:
https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d
Bu yazıda DeepLabv1 ve DeepLabv2 ağlarını gözden geçirdim çünkü ikisi de delikli Atrous Convolution ve tam bağlantılı Koşullu Rastgele Alan (CRF) kullanıyorlar.DeepLabv2'ye ek olarak Atous Spatial adlı ek bir teknik var. Piramit Havuzlama (ASPP), DeepLabv2 ve DeepLabv1 arasındaki temel fark budur. (Elbette başka farklılıklar da vardır, örneğin: DeepLabv2 deneyler için ResNet ve VGGNet kullanır, ancak DeepLabv1 yalnızca VGGNet kullanır.)
DeepLab modeli
Yukarıdaki resim DeepLab model mimarisidir. İlk olarak, giriş görüntüsü ağdaki ani evrişim ve ASPP'den geçirilir. Ardından, ağın çıktı grafiği çift doğrusal olarak enterpolasyonlu hale getirilir ve sonuç, tam bağlı CRF aracılığıyla ince ayar yapılır ve nihai çıktı elde edilir.
DeepLabv1 ve DeepLabv22015 ICLR ve 2018 TPAMI'de yayınlandı.Bu hikayeyi yazarken sırasıyla 400 ve 2000'den alıntı yaptım.
Bu makalenin içeriği:
Delikli evrişim
Uzamsal piramit havuzu
Tamamen bağlı koşullu rastgele alan
Deneysel sonuçlar
"Atrous" kelimesi, delik anlamına gelen Fransızca "àtrous" kelimesinden gelir. Bu nedenle, Atrous dönüşümü "delik evrişimi" olarak da adlandırılır. Bazı kağıtlara "genişletilmiş evrişim" de denir. Genellikle dalgacık dönüşümü için kullanılır ve şimdi derin öğrenme için evrişimde kullanılmaktadır.
Aşağıdakiler acımasız evrişimin ifadesidir:
Delikli 1 boyutlu evrişim (r > 1: atrous evrişim, r = 1: standart evrişim)
R = 1 olduğunda, genellikle kullandığımız standart evrişimdir.
R ne zaman > 1'de, delikli bir evrişimdir ve r, evrişim işlemi sırasında giriş örneklerinin adım boyutudur.
Aşağıdaki şekil bunu göstermektedir
Standart evrişim deliği evrişim (altta)
Acımasız evrişim fikri basittir. Şeklin üst kısmında standart evrişim var.
Şeklin altında bir delik evrişimi var. Hız = 2 olduğunda, giriş sinyalinin dönüşümlü olarak örneklendiğini görebiliriz. İlk olarak pad = 2, sol ve sağ tarafa 2 sıfır koyduğumuz anlamına gelir. Ardından, oran = 2 durumunda, her 2 girişte bir evrişim için giriş sinyalini örneklemeliyiz. Bu nedenle, çıktıda, çıktı özelliği haritasını daha büyük yapan 5 çıktıya sahip olacağız. FCN makalesinde hatırlarsak, bir dizi evrişim ve havuzlama çıktı özelliği haritasını çok küçük hale getirecektir, bu nedenle son 32 kez yukarı örnekleme gereklidir ki bu biraz fazla örneklemedir.
Ek olarak, ani evrişim, evrişim çekirdek filtresinin görüş alanını daha büyük alıcı alan bilgilerini içerecek şekilde genişletmemize izin verir. Aynı zamanda, alıcı alanın boyutunu kontrol etmek ve hassas konumlandırma (küçük görüş alanı) ile ön ve arka bilgiler (geniş görüş alanı) aracılığıyla ayrıntıları onarmak arasında en iyi dengeyi bulmak için etkili bir mekanizma sağlar.
DeepLab'de, VGG-16 veya ResNet-101 kullanılır ve aşırı sinyal ekstraksiyonunu önlemek için son havuzlama (havuz5) veya evrişim konv5_1 adımı sırasıyla 1'e ayarlanır. Ve sonraki tüm evrişim katmanlarını değiştirmek için delik evrişimi oran = 2 ile kullanın. Bu, çıktıyı çok daha büyük hale getirir. Gerekli boyutu çıktı almak için yalnızca 8 kez yukarı örnekleme yapmamız gerekir. Ve çift doğrusal enterpolasyon, 8 kat yukarı örnekleme için oldukça iyi performansa sahiptir.
Delikli mekansal piramit havuzu (ASPP)
ASPP, aslında SPPNet'te açıklanan uzaysal piramit havuzunun bir versiyonudur. ASPP'de, giriş özellik haritasında farklı oranlarda paralel delik konvolüsyonları uygulanır ve birleştirilir. Aynı türdeki nesneler görüntüde farklı oranlara sahip olabileceğinden, ASPP, doğruluğu artırabilen nesnelerin farklı oranlarını dikkate almaya yardımcı olur.
Tam bağlı CRF, çift doğrusal enterpolasyondan sonra ağ çıkışına uygulanır.
Tam bağlı CRF
x, piksellerin etiket atamasıdır. P (xi) i pikselindeki etiket atama olasılığıdır. Bu nedenle, ilk terim i, logaritmik bir olasılıktır. İkinci terim olan ij için bu bir filtredir. Xi! = Xj, = 1 olduğunda. Xi = xj olduğunda, = 0. Parantez içinde, iki çekirdeğin ağırlıklı toplamıdır. İlk çekirdek, piksel değeri farkına ve iki taraflı bir filtre olan piksel konum farkına bağlıdır. Çift taraflı filtre, kenarları koruma özelliğine sahiptir. İkinci çekirdek yalnızca bir Gauss filtresi olan piksel konum farkına bağlıdır. Bu ve w çapraz doğrulama ile bulunur. Yineleme sayısı 10'dur.
Üst: puan grafiği (softmax işlevinden önce giriş), alt grafik: güven grafiği (softmax işlevinin çıktısı)
10 kat CRF ile, uçağın çevresindeki farklı renkteki küçük alanlar pürüzsüz hale gelir.
Ancak CRF, DeepLabv1 ve DeepLabv2'yi uçtan uca bir öğrenme çerçevesi haline getiren bir işlem sonrası süreçtir. Ve DeepLabv3 ve DeepLabv3 + 'da kullanılmaz.
4.1 Deneysel doğrulama
DeepLab-LargeFOV (sol: yalnızca tek bir atrous dönüşüm), DeepLab-ASPP (sağ, ASPP)
ResNet-101'in her bir model bileşenini PASCAL VOC 2012 doğrulama setinde kullanmanın sonuçları
ResNet-101'in basit kullanımı:% 68.72
MSC: Çok ölçekli giriş
COCO: COCO veri kümesinden önceden eğitilmiş bir model
Ağu: Giriş görüntüsünü rastgele ölçeklendirerek (0,5'ten 1,5'e) veri geliştirme
LargeFOV: Delik evrişimi kullanarak DeepLab modeli yukarı örnekleme
ASPP: Paralel delik evrişimi kullanan DeepLab modeli
CRF: Son işleme için tamamen bağlı koşullu rastgele alan
4.2 En gelişmiş yöntemlerle karşılaştırma
PASCAL VOC 2012 test seti (en solda) PASCAL-Context (soldan ikinci) PASCAL-Person-Part (sağdan ikinci) Şehir Manzarası (en sağda)
Yukarıda da belirtildiği gibi
4.3 Nitel sonuçlar
Sonuç: PASCAL-Bağlam verileri
Sonuç: Şehir manzarası verileri
Ancak DeepLab'de, bisikletlerin ve sandalyelerin bisikletler ve sandalye ayakları gibi çok sayıda küçük parçadan oluştuğu bazı başarısızlık örnekleri de vardır:
Başarısız örnek
Gelecekte DeepLabv3 ve DeepLabv3 + hakkında bir blog yazısı yazmayı umuyorum.
Referanslar
Derin Evrişimli Ağlar ve Tamamen Bağlı CRF'ler ile Anlamsal Görüntü Segmentasyonu
DeepLab: Derin Evrişimli Ağlar, Yoğun Evrişim ve Tam Bağlı CRF'ler ile Anlamsal Görüntü Segmentasyonu
İlgili makalelerim
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz? Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı
Erişmek için [DeepLabv1 ve DeepLabv2-Hole Convolution (Semantik Segmentasyon)] öğesine tıklayın veya aşağıdaki adrese basılı tutun:
https://ai.yanxishe.com/page/TextTranslation/1531
Python Çince kitaplarından oluşan geniş bir koleksiyon
100 Python Çince e-kitap, 6 kaynak kodu, girişten keşişe kadar Python, tek elden hizmet.
Python temelleri, gelişmiş, tarayıcılar, algoritma uygulaması, derin öğrenme, TensorFlow, NLP vb. İçerir.
Dostça bir hatırlatma: Dosya boyutu 2.89GB, lütfen veri indirmeyi dikkatli kullanın, önce kaydedebilirsiniz ~~!
Almak için bağlantıya tıklayın: https://ai.yanxishe.com/page/resourceDetail/676