Zhou Zongwei, Arizona Eyalet Üniversitesi: U-Net Çalışması Mevcut Segmentasyon Ağı İnovasyonu | AI Araştırma Enstitüsü 74 Konferans Salonu

Leifeng.com AI Araştırma Enstitüsü Basın: Klasik Kodlayıcı-Kod Çözücü yapısı, hedef bölümleme probleminde çok önemli bir rol sergilemektedir Bununla birlikte, bu tür nispeten sabit bir çerçeve, modelin alıcı alanın boyutu ile sınır bölümlemesinin doğruluğu arasında bir denge sağlamasını zorlaştırmaktadır. Bu açık sınıfta, konuşmacı bir vaka analizi olarak U-Net'i kullanır, mevcut segmentasyon ağı yeniliğini özetler ve hedeflenen diğer iyileştirmeleri tartışır.

Konuk paylaşma:

Profesör Jianming Liang'ın himayesinde, Arizona Eyalet Üniversitesi'nde biyoinformatik alanında doktora adayı olan Zhou Zongwei, ana araştırma yönü tıbbi görüntü analizi, derin öğrenme vb. Araştırma çalışmaları CVPR, DLMIA, EJNMMI Research'te yayınlandı.

Herkese açık sınıfın tekrar adresi:

Konuyu paylaş: U-Net-mevcut segmentasyon ağı yeniliğini inceleyin

Ana hatları paylaşın:

  • Klasik U-Net yapısını parçalayın ve kurucu unsurlarının gerekliliği, avantajları ve dezavantajları üzerine düşünün

  • U-Net yapısal inovasyonu için mevcut iyileştirme fikirlerini yorumlayın

  • Önerilen iyileştirme planımızı paylaşın-UNet ++

Lei Feng Network AI Araştırma Enstitüsü Paylaşılan içeriği aşağıdaki gibi düzenleyin:

Bilgisayar görüşü alanında, tam evrişimli ağ FCN şüphesiz en popüler görüntü bölümleme ağıdır, ancak tıbbi görüntü işleme alanına odaklandığında, U-Net ağı daha popüler bir seçim olacaktır. Şöyle söyleyelim, neredeyse tüm segmentasyon problemleri için, U-Net'i önce temel sonuçlara bakacak, sonra da "sihirli bir şekilde değiştireceğiz".

FCN ile karşılaştırıldığında, U-Net'in ilk özelliği tamamen simetrik olması, yani sol ve sağ tarafların çok benzer olması, FCN'nin kod çözücüsünün ise nispeten basit olması, yalnızca bir ters evrişim işlemi kullanması ve ardından evrişim yapısına ayak uyduramamasıdır. İkinci fark, bağlantı atlamadır, FCN toplama kullanır ve U-Net birleştirme kullanır. Hepsi "kodlama-kod çözme" yapısını kullanır - "kodlama-kod çözme" yapısının ilk başta görüntüleri bölümlemek için değil, görüntüleri sıkıştırmak ve gürültüyü gidermek için kullanıldığı vurgulanmalıdır.

Bu net ünlü yapısını kısaca inceledikten sonra, öncelikle topolojik yapısını çıkarıyoruz, böylece özünü analiz etmek daha kolay olacak ve birçok detayın müdahalesini ortadan kaldıracak.

Giriş bir resimdir ve çıktı, hedefin segmentasyon sonucudur. Basitleştirmeye devam etmek için, bir resim kodlanır veya aşağı örnekleme yapılır ve sonra kodu çözülür, yani yukarı örnekleme yapılır ve ardından bir bölümleme sonucu çıkarılır. Sonuç ile gerçek bölümleme arasındaki farka göre, bölümleme ağını eğitmek için geri yayılma kullanılır.

U-Net'in en heyecan verici bölümünün şu üç bölüm olduğunu söyleyebiliriz:

  • Altörnekleme

  • Üst örnekleme

  • bağlantıyı atla

Bu benim gözümde çoğu bölütleme ağının topolojisidir. Bu topoloji için çok genel bir soru şudur:

Bu üç yıllık topolojide gerçekten yanlış bir şey yok mu?

Son üç yılda U-Net 2500'den fazla alıntı aldı ve FCN yaklaşık 6.000 alıntı aldı. Ne gibi iyileştirmeler yapıyorsunuz? Bu klasik yapıyı geliştirecek olsaydın hangi noktalara dikkat ederdin?

İlk soru şu: Ne kadar derine uygundur?

Burada vurgulamak istediğim bir nokta, birçok makalenin, hangi evrişimin kullanılacağı, kaç katman kullanılacağı, nasıl alt örnekleme yapılacağı, ne kadar öğrenme oranı olduğu, hangi optimize edicinin kullandığı gibi birçok ayrıntı içeren önerilen ağ yapısını vermesidir. Bunların hepsi nispeten sezgisel parametrelerdir.Aslında, makalede verilen bu parametreler mutlaka en iyisi değildir, bu yüzden bunlara dikkat etmek anlamlı değildir.Bir ağ yapısı, gerçekten dikkat etmeyi hak ettiğimiz şey, tasarımının hangi bilgiyi aktardığıdır.

Tamam, geri dönelim ve ne kadar derin olması gerektiğini tartışmaya devam edelim. Aslında, bu çok esnektir.İlgili noktalardan biri özellik çıkarıcıdır.U-Net ve FCN neden başarılıdır? Bir ağ çerçevesi vermeye eşdeğer olduğu için Hangi özellik çıkarıcı kullanılır?

Ne kadar derin olduğu sorusuna gelince, genişletilmiş bir soru var, yani segmentasyon ağı için altörnekleme gerekli mi? Bu soruyu sormamızın nedeni, hem girdi hem de çıktının aynı boyutlu grafik olması nedeniyle neden altörnekleme ve sonra yukarı örnekleme zahmetine girelim?

Daha doğrudan cevap elbette altörneklemenin teorik önemi, onu kısaca okuyacağım. Görüntü çevirme, döndürme vb. Gibi girdi görüntüsünün bazı küçük bozukluklarına karşı sağlamlığı artırabilir, aşırı sığdırma riskini azaltabilir, hesaplama miktarını azaltabilir ve alıcı alanın boyutunu artırabilir. Yukarı örneklemenin en büyük etkisi, aslında soyut özellikleri orijinal görüntünün boyutuna geri döndürmek ve kodunu çözmek ve sonunda segmentasyon sonucunu elde etmektir.

Bu teorilerin açıklamaları mantıklıdır.Anladığıma göre, özellik çıkarma aşaması için, sığ yapı görüntünün sınırlar ve renkler gibi bazı basit özelliklerini yakalayabilirken, derin yapı geniş algılama alanı ve sonrasında Daha fazla evrişim işlemi vardır ve görüntünün bazı açıklanamayan soyut özellikleri yakalanabilir. Kısacası, sığ ve sığ odak ve derin avantajlar.

Yani bir sonraki adım anahtardır: Zihnimizdeki amaç çok açık, yani sığ ve derin özellikleri kullanmak! Ama bu U-Ağları eğitemezsiniz, bu çok fazla. Tamam, gelmek istiyorsanız, her biri farklı seviyelerde özellikleri yakalayabilen bu farklı U-Net derinliklerini nasıl kullanacaksınız?

Resmi yazmak benim için çok kolay.

1'den 4'e kadar katmanlardaki tüm U-Ağların birbirine bağlı olup olmadığına bir göz atalım. 1 katman U-Net, 2 katmanlı U-Net vb. Dahil olmak üzere bunların bir alt kümesine bakalım. Bu yapının avantajı, derin özelliklerinizden hangisi etkili olursa olsun, onu sadece sizin için kullanacağım ve ağın farklı derinlik özelliklerinin önemini öğrenmesine izin vereceğim. İkinci avantajı, bir özellik çıkarıcı paylaşmasıdır, yani bir grup U-Net'i eğitmeniz gerekmez, ancak yalnızca bir kodlayıcıyı eğitmeniz ve farklı özellik seviyeleri farklı kod çözücü yolları tarafından geri yüklenir. Bu kodlayıcı esnek bir şekilde çeşitli omurgalarla değiştirilebilir.

Bu ağ yapısının eğitilememesi üzücü çünkü geri yayılma sırasında kayıp fonksiyonunun hesaplandığı yerden bağlantısı kesildiği için bu kırmızı bölgeden hiçbir gradyan geçmeyecek.

Çözümle ilgili olarak, esas olarak iki tane düşündüm:

  • İlki, yokuşları zorlamak için derin denetim kullanmak, değil mi? Bu konuyu daha sonra açıklayacağım.

  • İkinci çözüm, yapıyı buna göre değiştirmektir:

Bu yapı, UC Berkeley ekibi tarafından önerildi ve bu yılki CVPR'de yayınlandı. "Deep Layer Aggregation" başlıklı sözlü bir makaledir. Şimdi yukarıdaki yapıyla karşılaştırdığımıza göre, bu yapının U-Net ile gelen uzun bağlantıyı zorla kaldırdığını bulmak zor değil. Bunun yerine, bir dizi kısa bağlantı.

U-Net'te uzun bağlantının gerekli olduğuna inanıyoruz.Giriş görüntüsünün birçok bilgisini birbirine bağlar ve altörneklemenin neden olduğu bilgi kaybının geri yüklenmesine yardımcı olur.

Bu nedenle benim önerim bir vermek UNet ++ 'mız olan kapsamlı uzun bağlantı ve kısa bağlantı şeması .

Bu ana yapı için yazıda bazı yorumlar verdik. Açıkça söylemek gerekirse orijinal içi boş U-Net'i dolduruyoruz.Avantajı, farklı seviyelerde özellikleri yakalayıp birleştirebilmesidir. Özellik süperpozisyonu yoluyla entegrasyon , Farklı özellik seviyeleri veya farklı boyutlarda alıcı alanlar, farklı boyutlardaki hedef nesnelere karşı farklı hassasiyete sahiptir. Örneğin, geniş alıcı alanların özellikleri büyük nesneleri kolayca tanımlayabilir, ancak gerçek bölümlemede Ortamda, büyük nesnelerin kenar bilgileri ve küçük nesnelerin kendileri, derin ağın tekrar tekrar altörneklenmesi ve yukarı örneklenmesi ile kolayca kaybolur Bu zamanda, yardımcı olmak için küçük özellikleri hissetmeniz gerekebilir.

Başka bir yorum şudur: Katmanlardan birinin özellik üst üste binme sürecine yatay olarak bakarsanız, geçen yıl çok popüler olan bir DenseNet'in yapısına benziyor.Çok tesadüf. Orijinal U-Net, yatay olarak bakıldığında Residual yapıya çok benziyor. İlginç bir şekilde, UNet ++ 'nın U-Net segmentasyon etkisinin iyileştirilmesi, DenseNet'in ResNet'in sınıflandırma etkisinin iyileştirilmesi ile aynı olabilir.Bu nedenle, yorumlamada, Dense Connection'ın özelliklerin yeniden kullanımı gibi bazı avantajlarına da değiniyoruz.

Bu yorumların hepsi çok sezgisel anlayışlardır.Aslında derin öğrenmede, belli bir yapının belirli bir yapıdan daha iyi olmasının nedenleri vardır veya bu operasyonu eklemeniz daha iyidir.Çoğu zaman içinde metafizik tadı vardır ve bir çok da vardır. Çalışmaları aynı zamanda derin ağların yorumlanabilirliğini de araştırıyor. UNet ++ 'nın ana yapısıyla ilgili olarak, onu tekrarlamak için zaman harcamak istemiyorum.

Bahsetmek istediğim bir sonraki bölüm çok ilginç. Bundan bahsederken, sadece en sağdaki kayıp kullanılırsa, bu yapının orta kısmının geri yayıldığında gradyan almayacağını söyleyerek bir ön haber bıraktım.

Daha önce de belirtildiği gibi, çok basit bir çözüm derin denetim, yani derin denetimdir. UNet ++, bu kadar dolu bir U-Net yapısıyla birleştirildiğinde, büyük avantajlardan birini getirecektir. Budama .

Bunun nedeni, test aşamasında, giriş görüntüsünün yalnızca ileriye doğru yayılacağından, bu parçanın atılmasının önceki çıktı üzerinde hiçbir etkisinin olmamasıdır.Eğitim aşamasında, hem ileri hem de geri yayılma olduğu için, Kesilen kısım, diğer kısımların ağırlığı güncellemesine yardımcı olacaktır. Derin denetim sürecinde, her bir alt ağın çıktısı aslında görüntü bölümlemenin sonucudur, bu nedenle küçük alt ağın çıktısı yeterince iyiyse, bu fazladan parçaları istediğimiz zaman kesebiliriz.

Burada iki soru sormak istiyorum:

  • Test sırasında neden L1, L2 ve L3 kesimiyle çalışmak yerine budama yapmamız gerekiyor?

  • Ne kadar kesileceğine nasıl karar verilir?

[Cevap lütfen videosuna tekrar bakın]

Bir dizi sonuca bakalım.

L1 ~ L4'ün ağ parametrelerine bir göz atalım.Fark çok fazla.L1 sadece 0.1M, L4 ise 9M.Yani, eğer L1'in sonucu teorik olarak tatmin ediciyse, model parametrelerin% 98.8'i kadar kırpılabilir. Ancak dört veri setimize göre, L1'in etkisi çok sığ olduğu için o kadar iyi değil. Ancak L2 ve L4 sonuçlarının birbirine çok yakın olduğunu gösteren üç veri kümesi var yani bu üç veri kümesi için test aşamasında 9M ağ kullanmamıza gerek yok ve yarım M ağ yeterli.

Başlangıçta sorduğum soruyu, ağın ne kadar derin ve uygun olması gerektiğini hatırlayarak, bu resim bir bakışta net mi? Ağın derinliği, veri setinin zorluğuyla ilgilidir.Dört veri seti arasında ikincisi, yani polip segmentasyonu en zor olanıdır. Segmentasyonun değerlendirme indeksini temsil eden ordinatı görebilirsiniz. Ne kadar büyükse o kadar iyidir Diğerleri oldukça yükseğe ulaşabilir, ancak yalnızca polip segmentasyonu yalnızca 30 civarındadır. Daha zor bir veri kümesi için, ağ ne kadar derin olursa, segmentasyon sonuçlarının sürekli olarak arttığı görülebilir. Çoğu basit bölütleme problemi için, aslında çok derin olması gerekmez Çok büyük ağlar çok iyi bir doğruluk sağlayabilir.

Apsis, test aşaması sırasında 10.000 görüntünün 12G TITAN X (Pascal) altında tek bir grafik kartıyla bölünmesi için gereken süreyi temsil eder. Farklı model boyutları için testler arasındaki zaman farkının çok fazla olduğunu görebiliriz. L2 ve L4'ü karşılaştırırsanız, üç kat daha kötü.

Testin hızı için bu resim daha net olacaktır. Farklı modeller kullanarak bir saniyede kaç görüntünün bölünebileceğini saydık. L4 yerine L2 kullanılırsa, hız gerçekten üç kat artırılabilir.

En çok budama uygulaması cep telefonunda ... Modelin parametrelerine göre L2 ile elde edilen etki L4'ünkine benzer ise modelin hafızası 18 kez saklanabiliyor. Yine de çok önemli bir sayı.

Budamanın bu kısmının orijinal U-Net'ten büyük bir değişiklik olduğunu düşünüyorum.Orijinal yapı çok sert ve farklı seviyelerdeki özellikleri iyi kullanmıyor.

Kısaca özetlemek gerekirse, UNet ++ 'nın ilk avantajı Artan doğruluk Bu, farklı seviyelerde özelliklerin bütünleştirilmesiyle sağlanmalıdır, ikincisi Derin denetimli esnek ağ yapısı , Kabul edilebilir bir doğruluk aralığı içinde parametre miktarını büyük ölçüde azaltmak için çok miktarda parametreye sahip derin ağa izin verir.

Son olarak, çalışmalarımızın ağ bağlantısını sizinle paylaşacağım:

Kağıt: https://arxiv.org/abs/1807.10165

Kod: https://github.com/MrGiovanni/Nested-UNet

Weibo: @MrGiovanni

Bugün paylaşımım için bu kadar, herkese teşekkür ederim!

Yukarıdakiler, bu sayıda davetliler tarafından paylaşılan tüm içeriklerdir. Daha fazla genel sınıf videosu için lütfen izlemek için Leifeng Net AI Araştırma Topluluğu'na (https://club.leiphone.com/) gidin. WeChat genel hesabını takip edin: AI Araştırma Enstitüsü (okweiwu), en son genel sınıf canlı yayın süresi önizlemesini alabilirsiniz.

Mart ayının ilk gününde Bai Baihe'ye mutlu yıllar!
önceki
Yeni bir mağaza açmak ve yeni bir telefon başlatmak: Xiaomi, MWC konferansına boşuna gitmedi
Sonraki
Yılın sonunda Büyük Şeytan olmalı! YEEZY BOOST 350 V2 "Mavi Ton" sürüm bilgisi açığa çıktı
2017 Volkswagen Lavida 180TSI'yi test etmek için her şey hazır
"Güzel görünümlü ve sağlam gövdeli" Xiaomi Mi 9 resmi olarak duyuruldu ve yetkili de bu sırları açıkladı
Akıllı saatler, bilgisayar korsanlarının çocukları izlemesine ve izlemesine olanak tanır
Cao Cao tarafından önerilen
Şubat ayında, anakara filmlerinin gişesi 11 milyar kırdı ve bu, küresel film tarihinde bir rekor kırdı!
Üniversiteye giriş sınav odasının fiyatı arttı ve iki gün boyunca iki bin yuan harcamak yaygındır.
adidas'ın yıl sonu katili! Çeşitli UltraBOOST 4.0 sürüm bilgileri açığa çıktı
Hayal gücü patlıyor! "Hellboy" Otoriter Ejderha Dönüşü, Açık Savaş Modu
Baidu, yetenek seçimini güçlendirmek için yapay zekayı kullanarak akıllı kampüs işe alımını başlattı
Infiniti'nin yeni Q60'ı resmi olarak listelendi ve 436.800'den 456.800'e satıldı.
Sorun çıkar, üniversite çimi bir gecede "kavun tarlası" olur
To Top