Kuru ürünler | Görüntü bölümlendirmeye genel bakış ve ENet örnekleri

Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:

Görüntü Segmentasyonuna Genel Bakış ve ENet Uygulaması

Yazar | Aviv Shamsian

Tercüme | sherry3255, alexchung

Düzeltme | Demps Jeff İncelemesi | Sos Armut Bitirme | Daimi Balık Kralı

Orijinal bağlantı:

https://medium.com/@mista2311/image-segmentation-overview-enet-implementation-8394ff71cf26

Bu blog yazısında, görüntü segmentasyonunu ana hatlarıyla anlatacağım ve ENet makalesini tanıtacağım.

Kağıt bağlantısı:

https://s3-us-west-2.amazonaws.com/mlsurveys/54.pdf

Kitaplık bağlantısı:

https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation

Görüntü segmentasyonuna genel bakış

Bilgisayar görüşü alanında, dijital bir görüntünün birden fazla bileşene (bir dizi piksel veya bilindiği şekliyle süper piksel) bölünmesi işlemi görüntü bölümlemedir. Segmentasyonun amacı, görüntüyü basitleştirmek ve / veya daha anlamlı ve daha kolay analiz edilebilir bir içerik ifadesine dönüştürmektir. Görüntü bölütleme, genellikle nesnelerin ve sınırların (çizgiler, yüzeyler) görüntüdeki konumunu belirlemek için kullanılır. Daha kesin olarak, görüntü segmentasyonu, aynı etikete sahip piksellerin aynı özelliklere sahip olduğu görüntüdeki her pikseli etiketlemektir. Görüntü bölümleme alanında birçok teknoloji vardır:

  • Bölge bazlı segmentasyon teknolojisi

  • Sınır algılama bölümleme teknolojisi

  • Küme tabanlı segmentasyon teknolojisi

Klasik Görüntü Bölütleme Algoritması

Geçmişte, görüntü bölümleme için aşağıdakiler dahil birçok farklı algoritma önerilmiştir:

Eşik teknolojisi - Bu teknolojinin temel amacı, bir görüntü için en iyi eşiği belirlemektir. Yoğunluk değeri eşik değerini aşan pikselin yoğunluk değeri 1 olacak ve kalan piksellerin yoğunluk değeri sıfır olacak ve sonunda ikili görüntü oluşacaktır. Eşiği seçmek için kullanılan yöntemler şunlardır: Otsu, k-ortalama kümeleme ve maksimum entropi yöntemi.

Hareket ve etkileşimli bölümleme - bu teknoloji, görüntüdeki hareketin bölümlere ayrılmasına dayanır. Fikir çok sezgiseldir.İki resim arasındaki fark, hedefin hareket ettiği varsayımı altında bulunursa, o zaman fark hedef konum olmalıdır.

Sınır tespiti - amacı dijital bir görüntüde, görüntünün parlaklığının büyük ölçüde değiştiği veya daha resmi olarak tutarsızlıkların olduğu bir alanda bulunan noktaları işaretlemek olan çeşitli matematiksel yöntemler içerir. Bölge sınırları ve kenarlar arasındaki yüksek korelasyon nedeniyle, sınır tespiti genellikle başka bir segmentasyon tekniği için ön koşul bir adımdır.

Bölge büyütme yöntemi - esas olarak aynı bölgedeki bitişik piksellerin benzer piksel değerlerine sahip olduğu varsayımına dayanır. Yaygın bir adım, bir pikseli komşularıyla karşılaştırmaktır Benzerlik kriteri karşılanırsa, piksel bir veya daha fazla komşudan oluşan kümelere bölünebilir. Benzerlik kriterlerinin seçimi kritiktir ve sonuçlar her durumda gürültüye duyarlıdır.

İkili kümeleme yöntemi, hızlı eşleştirme yöntemi, havza dönüştürme yöntemi ve benzeri gibi yukarıda bahsedilmeyen görüntü bölümleme için birçok yöntem vardır.

Görüntü bölümleme için derin öğrenme modeli

UNet - u-net, görüntüleri hızlı ve doğru bir şekilde bölümlere ayırmak için kullanılan evrişimli bir sinir ağı yapısıdır. Şimdiye kadar, ISBI zorlamasında, ağ, nöron yapısını elektron mikroskobu altında bölümlere ayırma görevinde önceki en iyi modelden (kayan bir pencereye dayalı evrişimli bir ağ) daha iyi sonuçlar elde etti. 2015 ISBI konferansında, bilgisayar tarafından ısırık kanat dilimlerindeki şiddetli çürükleri otomatik olarak tespit etme büyük zorluğunu kazandı ve büyük ölçüde (duyurumuza bakın) iletilen en zorlu iki ışık mikroskobu olarak kabul edilebilir. Kategori (faz kontrastı ve DIC mikroskobu), hücre izleme zorluğunu kazandı.

SegNet - SegNet, kodlayıcı ve kod çözücüden oluşur, ancak tam olarak bağlı bir katman yoktur. SegNet, tamamen evrişimli bir ağ (FCN) içeren 13 VGG16 evrişimli katmandır.

Maske R-CNN - Daha Hızlı R-CNN, görüntü özelliklerini çıkarmak için bir CNN özelliği kullanır. Ardından ilgilenilen bölgeyi (ROi) oluşturmak için CNN bölgesi öneri ağını kullanın. Sabit bir boyut oluşturmak üzere onları paketlemek için ROI havuzlama katmanı uyguluyoruz. Ardından, sınıflandırma ve sınırlayıcı kutu tahmini için tamamen bağlı katmanın girdisi olarak kullanın.

Tam Çözünürlüklü Artık Ağ (FRRN) - FRRN, gerekli ek işleme adımlarını gerçekleştirerek tam görüntü çözünürlüğünde bir piksel doğruluğu segmentasyon maskesi elde eder.

Piramit Sahne Analizi Ağı (PSPNet) - Tam çözünürlüklü artık ağ, hesaplama açısından çok yoğundur ve tam ölçekli fotoğraflara uygulanması çok yavaştır. Bu sorunu çözmek için PSPNet, 4 farklı pencere boyutu ve adım boyutuna karşılık gelen 4 farklı maksimum havuzlama işlemi kullanır. Maksimum havuz katmanını kullanmak, özellik bilgilerini farklı ölçeklerde daha etkili bir şekilde çıkarabilir.

DeepLabv3 + --Önceki ağlar, farklı değişim oranlarına sahip filtreler ve havuz işlemleri kullanarak çok ölçekli bağlamsal bilgileri kodlayabilir. Güncellenen ağ, mekansal bilgileri geri yükleyerek daha net hedef sınırları yakalayabilir. DeepLabv3 + bu iki yöntemi birleştirir. DeepLabv3 + ayrıca kodlayıcı, kod çözücü ve uzamsal piramit havuzlama modülünü kullanır.

ENet uygulama

ENet (Etkili Sinir Ağı), gerçek zamanlı piksel piksel anlamsal bölümleme gerçekleştirme yeteneği sağlar. ENet'in yürütme hızı 18 kat daha hızlı, gerekli kayan noktalı işlem sayısı 75 kat daha az, parametreler 79 kat azaltılarak mevcut modellere (2016'ya göre) benzer veya daha yüksek doğruluk sağlıyor. CamVid, CityScapes ve SUN veri kümelerinde testler gerçekleştirin.

Model mimarisi, bir ilk blok ve beş darboğazdan oluşur. İlk üç darboğaz, giriş görüntüsünü kodlamak için kullanılır ve diğer ikisi, giriş görüntüsünün kodunu çözmek için kullanılır.

Her bir darboğaz modülü şunları içerir:

  • 1x1 projeksiyon boyutsallığı azaltır

  • Ana evrişim tabakası (evrişim) (herhangi bir düzenli, genişlemiş veya tam evrişim) (3x3)

  • 1x1 genişleme

  • Tüm evrişimli katmanlar arasında toplu normalleştirme ve PReLU

Darboğaz aşağı örneklemeyse, maksimum havuz katmanını ana dala ekleyin. Aynı zamanda, ilk 1x1 projeksiyonun yerini almak için adım boyutu 2 olan 2x2 bir evrişim kullanılır.

İşlev haritalarının sayısıyla eşleşmek için sıfır doldurma ile etkinleştirilirler.

Evrişim bazen 5 * 1 evrişim ve 1 * 5 evrişim serisi gibi asimetrik evrişimdir.

Düzenli hale getirmek için uzamsal Bırakma kullanırlar:

  • p = 0.01, darboğazdan önce2.0

  • p = 0.1, sonra

ENet modeli sonuçları

ENet modelini eğitmek ve sonuçları tek seferde yeniden üretmek istiyorsanız, not defterini açıp orijinal metin görünümü bağlantısını okuyarak çalıştırabilirsiniz. İndirmeden çalışabilir ve kullanabilir.

Beğendiyseniz, alkışlamayı, yıldızları işaretlemeyi ve bu projeyi çatallamayı unutmayın !!!!

https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation

Tıklamak Orijinal metni okuyun, geriye bakın Görüntü segmentasyonu ile ilgili makaleler

İlk yıl kırmızı ve beyaz renk şemasını yakalayamadınız mı? Bu sefer NIKE Air Max 1'in mavi ve beyaz yeniden gravürü karakterin değerini bir kez daha test etti!
önceki
Zemin temizlendi ve yolların kaçak işgali azaltıldı ... "Kapı önündeki üç teminat" davasının ardından cadde dükkanlarında bu değişiklikler yapıldı
Sonraki
Chen Yanxi ve Chen Xiao, Qixi Festivalinde Köpek Maması Serpiştirdi
FAW Toyota'nın yeni RAV4 satışı devam ediyor: 179.800'den 269.800'e satıldı
Popüler açık sınıf özeti: Hong Kong Çin Üniversitesi'nden Chen Kai, nesne algılama algoritmalarının son gelişmelerini ve açık kaynak çerçevesini yorumluyor
One Piece temalı restoran saniyeler içinde öldürülecek mi? ! Yakında açılacak olan Dragon Ball Dining Bar'ın bu resmi versiyonuna gitmek istiyorum!
2017 Hurun Küresel Zengin Listesi yayınlandı ve listede iki Çinli çiftçi var.
Röportaj | Liu Hong, göreve geldikten sonra ilk olarak bağımsız kalkınma hakkında konuşuyor
Avantajlardan tasarruf etmek için geri sayım, kaçırılmaması gereken büyük bir dijital ekipman yükseltmesi
Kuru ürünler Derin takviye öğrenimi için yapılandırılmış kontrol ağı (ICML kağıt açıklaması)
Ekspres Şimdi tekrar bir araba inşa etme zamanı, "Crossover King" Di Xintong'un güveni nerede?
Yarı fiyat açık kapma! Roborock süpürme robotu çift onbir en kapsamlı stratejiyi satın alıyor
Balenciaga'nın yüksek "alışveriş çantası" 1000 doları aştı mı? ! Belki sırtüstü sebze almak gerçekten büyük bir üstünlük duygusuna sahip olur?
"Wolf Warriors 2" Tao Piao'dan 2 milyar gişe biletleri! Beijing Culture ve Alibaba Pictures arasındaki balayı yeni başladı
To Top