Zayıf denetimli öğrenmeye dayalı görüntü bölümlemede CNN'nin uygulanması

Son zamanlarda, derin öğrenmeye dayalı görüntü bölümleme teknolojisi, genellikle evrişimli sinir ağı CNN'nin eğitimine dayanmaktadır.Eğitim sürecinde çok sayıda etiketli görüntü gerekmektedir, yani eğitim görüntülerinin genellikle doğru bölümleme sonuçlarına sahip olması gerekmektedir.

Görüntü bölümleme için çok sayıda tam olarak etiketlenmiş görüntü elde etmek çok zordur.Örneğin, ImageNet veri kümesinde kategori etiketleri olan 14 milyon görüntü ve sınırlayıcı kutuları olan 500.000 görüntü vardır, ancak yalnızca 4460 görüntü Piksel düzeyinde segmentasyon sonuçları var. Eğitim görüntüsündeki her pikseli etiketlemek çok zaman alır, özellikle medikal görüntüler için, üç boyutlu bir CT veya MRI görüntüsündeki her dokunun etiketleme işlemini tamamlamak birkaç saat sürer.

Öğrenme algoritması, bazı ön etiketli veri setlerini öğrenerek iyi segmentasyon sonuçlarını tamamlayabilirse, eğitim verilerinin etiketleme süreci çok basittir ve bu da eğitim verilerinin etiketlenmesine harcanan zamanı büyük ölçüde azaltabilir. Bu ön işaretler şunlar olabilir:

1. Bir resimde sadece hangi nesnelerin bulunduğunu verin;

2. Bir nesnenin sınırlayıcı kutusunu verin;

3. Görüntüdeki nesne alanının bazı piksellerini işaretleyin, örneğin bazı çizgiler çizmek, duvar yazıları, vb. (Karalamalar).

1. ScribbleSup: Anlamsal Segmentasyon için Karalama Denetimli Evrişimli Ağlar (CVPR 2016)

Hong Kong Çin Üniversitesinden Di Lin, Karalama notlarına dayanan zayıf denetimli bir öğrenme yöntemi önerdi. Karalama çok uygun bir işaretleme yöntemidir, bu nedenle yaygın olarak kullanılmaktadır. Aşağıdaki şekilde gösterildiği gibi, bir görüntünün işaretlemesini tamamlamak için yalnızca beş çizgi çizmeniz gerekir.

ScribbleSup iki adıma bölünmüştür: İlk adım, piksellerin kategori bilgilerini karalamalardan diğer etiketlenmemiş piksellere yayar ve tüm eğitim görüntülerinin etiketlemesini otomatik olarak tamamlar; ikinci adım, CNN'yi eğitmek için bu etiketli görüntüleri kullanır. İlk adımda, yöntem ilk olarak süper pikseller oluşturur ve ardından tüm süper pikselleri grafik kesme yöntemine göre işaretler.

Grafik kesiminin enerji işlevi:

Bu grafikte, her bir süper piksel, grafikteki bir düğümdür ve bitişik süper pikseller arasında bir bağlantı kenarı vardır. Bu enerji fonksiyonundaki tek terim, biri karalamadan, diğeri de CNN'nin süper piksel tahmininin olasılığından olmak üzere iki durumu içerir. Tüm optimizasyon süreci, aslında grafik kesim enerjisi fonksiyonunun ve CNN parametrelerinin ortak optimal değerini bulma sürecidir:

Yukarıdaki formülün optimizasyonu, toplamın optimal değerini değiştirerek elde edilir. Makalede, üç yineleme ile daha iyi sonuçların alınabileceği görülmüştür.

2. Zayıf Denetlenen Segmentasyon için Sınırlandırılmış Evrişimli Sinir Ağları (ICCV 2015)

UC Berkeley'den Deepak Pathak, zayıf denetimli öğrenme için görüntü düzeyinde etiketli bir eğitim verisi kullanır. Eğitim verileri yalnızca görüntünün belirli bir nesneyi içerdiğini, ancak konum bilgisine ve piksel bilgisine sahip olmadığını gösterir. Bu makaledeki yöntem, görüntü etiketlerini CNN çıktısının etiket dağıtımındaki kısıtlamalara dönüştürür, bu nedenle buna Sınırlı evrişimli sinir ağı (CCNN) denir.

Bu yöntem, eğitim sürecini doğrusal kısıtlamalara sahip bir optimizasyon süreci olarak görür:

Bunların arasında, CNN tarafından tahmin edilen kategori dağılımı olan örtük bir kategori dağılımı vardır. Amaç, KL ayrışmasını en aza indirmektir. Doğrusal kısıtlama, bir görüntüdeki ön plan kategorisi piksel sayısının beklenen değerinin üst veya alt sınırı (nesne boyutu), bir görüntüdeki bir kategorinin piksel sayısı 0 veya en azından gibi eğitim verileri üzerindeki işaretlerden gelir. 1 vb. İçin Amaç işlevi kayıp işlevine dönüştürülebilir ve ardından SGD tarafından eğitilebilir.

Deneyde, sınırlayıcı koşul olarak Görüntü etiketleri kullanılarak elde edilen segmentasyon sonuçlarının hala görece zayıf olduğu görülmüştür.PASCAL VOC 2012 test veri setinde elde edilen mIoU% 35,6 ve nesne boyutu sınırlaması% 45,1'e ulaşabilir. Sınırlama tekrar kullanılırsa Kutu sınırı% 54'e ulaşabilir. FCN-8'ler% 62,2'ye ulaşabilir, bu da zayıf denetimli öğrenmede iyi sonuçlar elde etmenin hala zor olduğunu gösterir.

3. Anlamsal Görüntü Segmentasyonu için DCNN'nin Zayıf ve Yarı Denetimli Öğrenimi

DeepLab temelinde, Google'dan George Papandreou ve UCLA'dan Liang-Chieh Chen, etiketlenmiş eğitim verileri olarak sınırlayıcı kutuların ve görüntü düzeyinde etiketlerin kullanımını daha da incelediler. Beklenti Maksimizasyon Algoritması (EM), etiketlenmemiş piksellerin kategorisini ve CNN'nin parametrelerini tahmin etmek için kullanılır.

Görüntü düzeyinde etiketli veriler için, görüntünün piksel değerini ve görüntü düzeyi etiketini gözlemleyebiliriz, ancak her pikselin etiketini bilmiyoruz, bu nedenle onu gizli bir değişken olarak ele alıyoruz. Aşağıdaki olasılık grafiği modunu kullanın:

Toplamı tahmin etmek için EM algoritmasını kullanın. E adımı, beklenen değeri sabitlemektir ve M adımı, 'yi hesaplamak için SGD'yi kullanmaktır.

Sınırlayıcı kutuyla işaretlenmiş eğitim görüntüsü için, bu yöntem ilk olarak eğitim görüntüsünü otomatik olarak bölümlere ayırmak için CRF kullanır ve ardından bölümlemeye dayalı tam denetimli öğrenme gerçekleştirir. Deneyler sonucunda, basitçe görüntü düzeyinde etiketleme kullanılarak elde edilen segmentasyon etkisinin zayıf olduğu, ancak sınırlayıcı kutunun eğitim verilerinin daha iyi sonuçlar elde etmek için kullanılabileceği ve VOC2012 test veri setinde% 62,2 mIoU elde edildiği bulunmuştur. Ek olarak, az sayıda tam olarak etiketlenmiş görüntü çok sayıda zayıf etiketlenmiş görüntü ile birleştirilirse, tam denetimli öğrenmeye (% 70,3) yakın bir bölümleme sonucu (% 69,0) elde edilebilir.

4. Çeşitli Zayıf Denetim Biçimleri Altında Bölümlere Ayırma Öğrenimi (CVPR 2015)

Wisconsin-Madison Üniversitesi'nden Jia Xu, çeşitli zayıf işaret türlerini işlemek için birleşik bir çerçeve önerdi: görüntü düzeyinde işaretler, sınırlayıcı kutular ve karalamalar gibi kısmi piksel işaretleri. Bu yöntem, tüm eğitim görüntülerini toplam süper piksellere böler ve her bir süper piksel için boyutlu bir özellik vektörü çıkarır. Her bir süper pikselin kategorisini bilmediğiniz için bu, denetimsiz öğrenmeye eşdeğerdir, bu nedenle bu yöntem, maksimum kenar boşluğu kümeleme yöntemini (maksimum kenar boşluğu kümeleme, MMC) kullanarak tüm süper pikselleri kümeler, bu işlem Optimize edilmiş hedef işlevi:

Bunların arasında bir özellik matrisi vardır ve her sütun kategorinin kümeleme özelliklerini temsil eder. İlk süper pikseli kategoriye bölmenin maliyetidir. Bu amaç fonksiyonu temelinde, farklı zayıf etiketleme yöntemlerine göre farklı kısıtlama koşulları verilebilir, bu nedenle bu yöntem, karşılık gelen kısıtlama koşulları altında maksimum aralık kümelemesini bulmaktır.

Bu yöntem, son teknoloji sonuçtan% 10 daha yüksek olan Siftflow veri setinde nispeten iyi sonuçlar elde etti.

Özet: Zayıf etiketlenmiş veri kümeleri üzerinde görüntü segmentasyon algoritmalarını eğitmek, büyük miktarda tam olarak etiketlenmiş veriye olan bağımlılığı azaltabilir ve çoğu uygulamada gerçek koşullar için daha uygun olacaktır. Zayıf işaretler, görüntü düzeyinde işaretler, kenarlıklar ve kısmi piksel işaretleri olabilir. Eğitim yöntemi genellikle kısıtlı koşullar altında bir optimizasyon yöntemi olarak kabul edilir. Ek olarak, EM algoritması CNN parametrelerinin ve piksel kategorilerinin ortak optimizasyonu için kullanılabilir.

Referanslar

1. Di Lin, Jifeng Dai, Jiaya Jia, Kaiming He ve Jian Sun. "ScribbleSup: Anlamsal Segmentasyon için Karalama Denetimli Evrişimli Ağlar". Bilgisayar Görüsü ve Örüntü Tanıma üzerine IEEE Konferansı (CVPR), 2016

2. Pathak, Deepak, Philipp Krahenbuhl ve Trevor Darrell. "Zayıf bir şekilde denetlenen bölümleme için kısıtlı evrişimli sinir ağları." IEEE Uluslararası Bilgisayar Görüşü Konferansı Bildirileri. 2015.

3. Papandreou, George, ve diğerleri. "Anlamsal görüntü bölümleme için bir DCNN'nin zayıf ve yarı denetimli öğrenimi." ArXiv ön baskı arXiv: 1502.02734 (2015).

4. Xu, Jia, Alexander G. Schwing ve Raquel Urtasun. "Çeşitli zayıf denetim biçimleri altında bölümlere ayırmayı öğrenmek." IEEE Bilgisayar Görüsü ve Örüntü Tanıma Konferansı Bildirileri. 2015.

Lei Feng net basın: orijinal yazar taigw, bu makale orijinal olarak yazarın Zhihu sütununda yer alıyordu.

Hengdong: Yoksulluğu azaltma üssü, akıllı tarım, haşere kontrolü için insansız hava araçları
önceki
Efsane çağının çağrısı "Assassin's Creed: Origins" DLC "Pharaoh's Curse"
Sonraki
Güven yelken ve güç balast taşıdır
Tao Piao Piao Röportajı Xu Lu: Pişmanlık duymayan gençlik kendin olmaktır
"Butik blog" LinCoding size IO bağlantı noktasının ne olduğunu söyler
Yaklaşan bu sert bilim kurgu filmi bir canlanmanın habercisi oldu
Denetimli öğrenme için en yaygın beş algoritma, kaç tanesini biliyorsunuz?
Yılın En İyi On Model Çalışanı Geçen yılki çekimler dışında, gerçekten hiçbir şey yapmadılar
Orta yaşlı ve yaşlı insanların uyanışı: dede ve teyzenin Alipay kırmızı zarflarını sırf lahana için sıraya koyması
TensorFlow'da sıfırdan RNN (tam kod) oluşturmayı öğretin!
"The Crew 2" çıkış tarihi onaylandı, her versiyonun ayrıntıları açıklandı
Kötü haber! Linkin Park'ın baş şarkıcısı Chester Bennington 41 yaşında intihar etti
"Super Bomberman R" Haziran ayında PS4 / Xbox One / PC'ye çıkacak
Na Ying, "Three Lives Three Worlds Ten Miles of Peach Blossom" filminin aynı isimli tema şarkısını söyledi.
To Top