Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:
Görüntü Segmentasyonuna Genel Bakış ve ENet Uygulaması
Yazar | Aviv Shamsian
Tercüme | sherry3255, alexchung
Düzeltme | Demps Jeff İncelemesi | Sos Armut Bitirme | Daimi Balık Kralı
Orijinal bağlantı:
https://medium.com/@mista2311/image-segmentation-overview-enet-implementation-8394ff71cf26
Bu blog yazısında, görüntü segmentasyonunu ana hatlarıyla anlatacağım ve ENet makalesini tanıtacağım.
Kağıt bağlantısı:
https://s3-us-west-2.amazonaws.com/mlsurveys/54.pdf
Kitaplık bağlantısı:
https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation
Bilgisayar görüşü alanında, dijital bir görüntünün birden fazla bileşene (bir dizi piksel veya bilindiği şekliyle süper piksel) bölünmesi işlemi görüntü bölümlemedir. Segmentasyonun amacı, görüntüyü basitleştirmek ve / veya daha anlamlı ve daha kolay analiz edilebilir bir içerik ifadesine dönüştürmektir. Görüntü bölütleme, genellikle nesnelerin ve sınırların (çizgiler, yüzeyler) görüntüdeki konumunu belirlemek için kullanılır. Daha kesin olarak, görüntü segmentasyonu, aynı etikete sahip piksellerin aynı özelliklere sahip olduğu görüntüdeki her pikseli etiketlemektir. Görüntü bölümleme alanında birçok teknoloji vardır:
Bölge bazlı segmentasyon teknolojisi
Sınır algılama bölümleme teknolojisi
Küme tabanlı segmentasyon teknolojisi
Geçmişte, görüntü bölümleme için aşağıdakiler dahil birçok farklı algoritma önerilmiştir:
Eşik teknolojisi - Bu teknolojinin temel amacı, bir görüntü için en iyi eşiği belirlemektir. Yoğunluk değeri eşik değerini aşan pikselin yoğunluk değeri 1 olacak ve kalan piksellerin yoğunluk değeri sıfır olacak ve sonunda ikili görüntü oluşacaktır. Eşiği seçmek için kullanılan yöntemler şunlardır: Otsu, k-ortalama kümeleme ve maksimum entropi yöntemi.
Hareket ve etkileşimli bölümleme - bu teknoloji, görüntüdeki hareketin bölümlere ayrılmasına dayanır. Fikir çok sezgiseldir.İki resim arasındaki fark, hedefin hareket ettiği varsayımı altında bulunursa, o zaman fark hedef konum olmalıdır.
Sınır tespiti - amacı dijital bir görüntüde, görüntünün parlaklığının büyük ölçüde değiştiği veya daha resmi olarak tutarsızlıkların olduğu bir alanda bulunan noktaları işaretlemek olan çeşitli matematiksel yöntemler içerir. Bölge sınırları ve kenarlar arasındaki yüksek korelasyon nedeniyle, sınır tespiti genellikle başka bir segmentasyon tekniği için ön koşul bir adımdır.
Bölge büyütme yöntemi - esas olarak aynı bölgedeki bitişik piksellerin benzer piksel değerlerine sahip olduğu varsayımına dayanır. Yaygın bir adım, bir pikseli komşularıyla karşılaştırmaktır Benzerlik kriteri karşılanırsa, piksel bir veya daha fazla komşudan oluşan kümelere bölünebilir. Benzerlik kriterlerinin seçimi kritiktir ve sonuçlar her durumda gürültüye duyarlıdır.
İkili kümeleme yöntemi, hızlı eşleştirme yöntemi, havza dönüştürme yöntemi ve benzeri gibi yukarıda bahsedilmeyen görüntü bölümleme için birçok yöntem vardır.
UNet - u-net, görüntüleri hızlı ve doğru bir şekilde bölümlere ayırmak için kullanılan evrişimli bir sinir ağı yapısıdır. Şimdiye kadar, ISBI zorlamasında, ağ, nöron yapısını elektron mikroskobu altında bölümlere ayırma görevinde önceki en iyi modelden (kayan bir pencereye dayalı evrişimli bir ağ) daha iyi sonuçlar elde etti. 2015 ISBI konferansında, bilgisayar tarafından ısırık kanat dilimlerindeki şiddetli çürükleri otomatik olarak tespit etme büyük zorluğunu kazandı ve büyük ölçüde (duyurumuza bakın) iletilen en zorlu iki ışık mikroskobu olarak kabul edilebilir. Kategori (faz kontrastı ve DIC mikroskobu), hücre izleme zorluğunu kazandı.
SegNet - SegNet, kodlayıcı ve kod çözücüden oluşur, ancak tam olarak bağlı bir katman yoktur. SegNet, tamamen evrişimli bir ağ (FCN) içeren 13 VGG16 evrişimli katmandır.
Maske R-CNN - Daha Hızlı R-CNN, görüntü özelliklerini çıkarmak için bir CNN özelliği kullanır. Ardından ilgilenilen bölgeyi (ROi) oluşturmak için CNN bölgesi öneri ağını kullanın. Sabit bir boyut oluşturmak üzere onları paketlemek için ROI havuzlama katmanı uyguluyoruz. Ardından, sınıflandırma ve sınırlayıcı kutu tahmini için tamamen bağlı katmanın girdisi olarak kullanın.
Tam Çözünürlüklü Artık Ağ (FRRN) - FRRN, gerekli ek işleme adımlarını gerçekleştirerek tam görüntü çözünürlüğünde bir piksel doğruluğu segmentasyon maskesi elde eder.
Piramit Sahne Analizi Ağı (PSPNet) - Tam çözünürlüklü artık ağ, hesaplama açısından çok yoğundur ve tam ölçekli fotoğraflara uygulanması çok yavaştır. Bu sorunu çözmek için PSPNet, 4 farklı pencere boyutu ve adım boyutuna karşılık gelen 4 farklı maksimum havuzlama işlemi kullanır. Maksimum havuz katmanını kullanmak, özellik bilgilerini farklı ölçeklerde daha etkili bir şekilde çıkarabilir.
DeepLabv3 + --Önceki ağlar, farklı değişim oranlarına sahip filtreler ve havuz işlemleri kullanarak çok ölçekli bağlamsal bilgileri kodlayabilir. Güncellenen ağ, mekansal bilgileri geri yükleyerek daha net hedef sınırları yakalayabilir. DeepLabv3 + bu iki yöntemi birleştirir. DeepLabv3 + ayrıca kodlayıcı, kod çözücü ve uzamsal piramit havuzlama modülünü kullanır.
ENet (Etkili Sinir Ağı), gerçek zamanlı piksel piksel anlamsal bölümleme gerçekleştirme yeteneği sağlar. ENet'in yürütme hızı 18 kat daha hızlı, gerekli kayan noktalı işlem sayısı 75 kat daha az, parametreler 79 kat azaltılarak mevcut modellere (2016'ya göre) benzer veya daha yüksek doğruluk sağlıyor. CamVid, CityScapes ve SUN veri kümelerinde testler gerçekleştirin.
Model mimarisi, bir ilk blok ve beş darboğazdan oluşur. İlk üç darboğaz, giriş görüntüsünü kodlamak için kullanılır ve diğer ikisi, giriş görüntüsünün kodunu çözmek için kullanılır.
Her bir darboğaz modülü şunları içerir:
1x1 projeksiyon boyutsallığı azaltır
Ana evrişim tabakası (evrişim) (herhangi bir düzenli, genişlemiş veya tam evrişim) (3x3)
1x1 genişleme
Tüm evrişimli katmanlar arasında toplu normalleştirme ve PReLU
Darboğaz aşağı örneklemeyse, maksimum havuz katmanını ana dala ekleyin. Aynı zamanda, ilk 1x1 projeksiyonun yerini almak için adım boyutu 2 olan 2x2 bir evrişim kullanılır.
İşlev haritalarının sayısıyla eşleşmek için sıfır doldurma ile etkinleştirilirler.
Evrişim bazen 5 * 1 evrişim ve 1 * 5 evrişim serisi gibi asimetrik evrişimdir.
Düzenli hale getirmek için uzamsal Bırakma kullanırlar:
p = 0.01, darboğazdan önce2.0
p = 0.1, sonra
ENet modelini eğitmek ve sonuçları tek seferde yeniden üretmek istiyorsanız, not defterini açıp orijinal metin görünümü bağlantısını okuyarak çalıştırabilirsiniz. İndirmeden çalışabilir ve kullanabilir.
Beğendiyseniz, alkışlamayı, yıldızları işaretlemeyi ve bu projeyi çatallamayı unutmayın !!!!
https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation
Tıklamak Orijinal metni okuyun, geriye bakın Görüntü segmentasyonu ile ilgili makaleler