g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Bu 5 bilgisayarla görme teknolojisi dünya görüşünüzü yeniler

Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:

Dünyaya Bakış Açınızı Değiştirecek 5 Bilgisayarla Görme Tekniği

Yazar | James Le

Tercüme | jinlilei

Düzeltme | Soslu Armut Terbiyesi | Ananas Kız

Orijinal bağlantı:

https://heartbeat.fritz.ai/the-5-computer-vision-techniques-that-will-change-how-you-see-the-world-1ee19334354b

Bilgisayar görüşü şu anda derin öğrenme alanındaki en popüler araştırma alanlarından biridir. Bilgisayar bilimi (grafikler, algoritmalar, teori, sistemler, mimari), matematik (bilgi alma, makine öğrenimi), mühendislik (robotik, konuşma, doğal dil işleme, görüntü işleme) gibi birçok akademik konunun kesişme noktasında yer almaktadır, Fizik (Optik), Biyoloji (Nörobilim) ve Psikoloji (Bilişsel Bilim). Bilgisayar görüşü, görsel çevrenin ve bağlamının göreceli bir anlayışını temsil ettiğinden, birçok bilim adamı, bu alanın, alanlar arası ustalığı nedeniyle yapay zekanın yolunu açtığına inanıyor.

Peki bilgisayar görüşü nedir? Aşağıda bazı resmi ders kitabı tanımları verilmiştir:

"Görsellerden fiziksel nesnelerin açık ve anlamlı bir tanımını oluşturun" (Ballard & Brown, 1982)
"3D dünyanın özelliklerini bir veya daha fazla dijital görüntüden hesaplayın" (Trucco & Verri, 1998)
"Algılanan görüntülere dayalı olarak gerçek nesneler ve sahneler hakkında faydalı kararlar verin" (Sockman & Shapiro, 2001)

Neden bilgisayarla görü çalışmalı? En bariz cevap, bu araştırma alanından türetilen, hızla büyüyen faydalı uygulamalar koleksiyonudur. İşte bunlardan birkaçı:

Yüz tanıma: Snapchat ve Facebook, bir evrişim çekirdeği uygulamak ve sizi resimde tanımak için yüz algılama algoritmasını kullanır.
Görüntü alma: Google Görseller, ilgili görselleri aramak için içerik tabanlı sorgular kullanır. Algoritma, sorgu görüntüsündeki içeriği analiz eder ve en çok eşleşen içeriğe göre sonucu döndürür.
Oyunlar ve kontroller: Microsoft Kinect, stereo görüş kullanan oyunlarda iyi bir ticari üründür.
Gözetim: Gözetleme kameraları halka açık yerlerde her yerde bulunur ve şüpheli davranışları tespit etmek için kullanılırlar.
Biyometri: Parmak izi, iris ve yüz eşleştirme hala biyometride bazı yaygın yöntemlerdir.
Akıllı arabalar: Görüş, trafik işaretlerini ve sinyal ışıklarını ve diğer görsel özellikleri tespit etmek için hala ana bilgi kaynağıdır.

Yakın zamanda Stanford Üniversitesi'nde evrişimli sinir ağlarını kullanarak görsel tanıma üzerine mükemmel CS231n kursunu tamamladım. Görüntü sınıflandırma, konumlandırma ve algılama gibi görsel tanıma görevleri, bilgisayarla görmenin temel bileşenleridir. Sinir ağları ve derin öğrenme yöntemlerindeki en son gelişmeler, bu son teknoloji görsel tanıma sistemlerinin performansını büyük ölçüde geliştirdi. Bu kurs, bana en iyi bilgisayarla görme araştırmalarında derin öğrenme mimarilerini kullanmanın ayrıntılarını öğreten olağanüstü bir kaynaktır. Bu yazıda, öğrendiğim 5 ana bilgisayarla görme tekniğinin yanı sıra her tekniği kullanan temel derin öğrenme modellerini ve uygulamalarını paylaşmak istiyorum.

1 - Görüntü sınıflandırması

Görüntü sınıflandırmasının sorunu şudur: Tek bir kategori ile etiketlenmiş bir dizi görüntü verildiğinde, bu kategorileri yeni bir test setinde tahmin etmemiz ve tahminin doğruluğunu test etmemiz gerekir. Bakış açısı değişiklikleri, ölçek dönüşümleri, sınıf içi değişiklikler, görüntü deformasyonu, görüntü kapanması, koşullar ve karmaşık arka planlar dahil olmak üzere bu görev için birçok zorluk vardır.

Görüntüleri farklı kategorilere ayırabilen bir algoritmayı nasıl yazabiliriz? Bilgisayar görüşü araştırmacıları, bu sorunu çözmek için veri odaklı bir yaklaşım önerdiler. İlgili her bir görüntü kategorisini doğrudan kodda belirtmeye çalışmak yerine, bilgisayara her görüntü kategorisinin birçok örneğini sağlar ve ardından bu örneklere bakmak ve her kategorinin görsel görünümünü anlamak için öğrenme algoritmaları geliştirirler. Başka bir deyişle, önce açıklamalı görüntülerle bir eğitim seti toplarlar ve daha sonra bu verileri işlemek için bilgisayara aktarırlar.

Bu gerçeğin ışığında, tüm görüntü sınıflandırma süreci şu şekilde resmileştirilebilir:

Girişimiz, N resim içeren bir eğitim setidir ve her bir resim, K farklı kategoriyle açıklanmıştır.
Daha sonra, sınıflandırıcıyı her kategorinin neye benzediğini anlamak üzere eğitmek için bu eğitim setini kullanırız.
Son olarak, sınıflandırıcının etkisini, sınıflandırıcının daha önce görmediği yeni bir görüntü setini tahmin etmesine izin vererek değerlendiriyoruz. Daha sonra bu görüntülerin gerçek etiketlerini, sınıflandırıcı tarafından tahmin edilen etiketlerle karşılaştırıyoruz.

Evrişimli Sinir Ağları (CNN'ler), görüntü sınıflandırması için en popüler mimaridir. CNN'lerin tipik bir kullanım durumu, ağa görüntü göndermeniz ve ağın verileri sınıflandırmasıdır. CNN'ler genellikle giriş "tarayıcı" dan başlar, tüm eğitim verilerini aynı anda ayrıştırmak için tasarlanmamıştır. Örneğin, 100 × 100 piksellik bir görüntü girerseniz, 10.000 düğümlü bir katmana ihtiyacınız yoktur. Bunun yerine, 10 × 10 tarama giriş katmanı oluşturacaksınız ve görüntünün ilk 10 × 10 pikseli için bir görüntü sağlayabilirsiniz. Bu girişi geçtikten sonra, tarayıcıyı bir piksel sağa hareket ettirerek, sonraki 10 × 10 piksel girilebilir. Bu tekniğe sürgülü pencere denir.

Ardından, giriş verilerini normal katman yerine evrişimli katman üzerinden besleyin. Her düğüm yalnızca kendisine bitişik olan kısma odaklanır. Bu evrişimli katmanlar ayrıca, esas olarak girdinin kolayca ayrıştırılabilen faktörleri nedeniyle ağ derinleştikçe küçülme eğilimindedir. Evrişimli katmana ek olarak, genellikle bir özellik havuzu katmanına sahiptirler. Havuzlama, ayrıntıları filtrelemek için bir yöntemdir: ortak bir havuzlama tekniği maksimum havuzlamadır. 2 × 2 piksel kullanıyoruz ve en fazla sayıda belirli özniteliklere sahip pikselleri geçiriyoruz.

Şu anda çoğu görüntü sınıflandırma teknolojisi, yaklaşık 1,2 milyon yüksek çözünürlüklü eğitim görüntüsünden oluşan bir veri kümesi olan ImageNet üzerinde eğitilmektedir. Test görüntüsü ilk açıklamaları göstermez (segmentasyon veya etiket yok) ve algoritma, belirtilen görüntüde bulunan nesneler için etiketler oluşturmalıdır. Oxford, INRIA, XRCE ve diğer kurumların önde gelen bilgisayarla görme ekipleri, bu veri setini uygulamak için mevcut en iyi bilgisayarla görme yöntemlerini kullandı. Genel olarak, bilgisayar görüntü sistemleri karmaşık çok seviyeli sistemlerdir ve genellikle erken aşamalarda manuel ayar ve parametrelerin optimizasyonunu gerektirir.

İlk ImageNet yarışmasının şampiyonu Alex Krizhevsky (NIPS 2012), Yann LeCun tarafından oluşturulan derin bir evrişimli sinir ağıdır. Yapısı 7 gizli katman içerir ve bazı maksimum havuz katmanları içermez. İlk 5 katman evrişimli katmanlardır ve son 2 katman tamamen bağlantılı katmanlardır. Her gizli katmanın aktivasyon işlevi ReLU'dur. Bu eğitimler, mantıksal birimlerden daha hızlı ve anlamlıdır. Buna ek olarak, benzer birimler daha güçlü etkinleştirme değerlerine sahip olduğunda, gizli etkinlikleri bastırmak için rekabetçi normalleştirme de kullanır. Bu, yoğunluktaki değişime katkıda bulunur.

Donanım gereksinimleri açısından Alex, 2 Nvidia GTX 580 GPU'da (1000'den fazla hızlı küçük çekirdek) çok etkili bir evrişimli ağ uygulaması kullanıyor. GPU, matris matris çarpımı için çok uygundur ve çok yüksek bir bellek bant genişliğine sahiptir. Bu, ağı bir hafta içinde eğitmesine ve test sırasında 10 yamanın sonuçlarını hızlı bir şekilde birleştirmesine izin verdi. Devletle yeterince hızlı iletişim kurabilirsek, ağı birden çok çekirdeğe yayabiliriz. Çekirdekler ucuzladıkça ve veri setleri büyüdükçe, büyük sinir ağları eski bilgisayar görme sistemlerinden daha hızlı gelişecektir. AlexNet'ten bu yana, birçok yeni model omurga mimarisi olarak CNN'i kullandı ve ImageNet'te mükemmel sonuçlar elde etti: ZFNet (2013), GoogLeNet (2014), VGGNet (2014), ResNet (2015), DenseNet (2016) )Bekle.

2 - hedef tespiti

Bir görüntüde hedef tanımlama görevi genellikle sınırlayıcı kutunun çıktısını ve tek bir hedefin etiketini içerir. Bu, sınıflandırma / konum görevinden farklıdır, çünkü sınıflandırma ve konum sadece bir baskın hedefe değil birçok hedefe uygulanır. Yalnızca 2 hedef kategoriniz var, yani hedef sınırlayıcı kutu ve hedef olmayan sınırlayıcı kutu. Örneğin, araba algılamada, belirli bir görüntüdeki tüm arabaları algılamak için sınırlayıcı kutusunu kullanmanız gerekir.

Görüntüleri sınıflandırma ve yerleştirme şeklimiz gibi kayan pencere teknolojisini kullanırsak, görüntünün birçok farklı konumuna CNN uygulamamız gerekir. CNN, her bir pozisyonu bir hedef veya arka plan olarak sınıflandırdığı için, CNN'de birçok pozisyon ve farklı oranlar uygulamamız gerekir ki bu da hesaplama açısından çok pahalıdır!

Bu durumla başa çıkmak için, sinir ağı araştırmacıları, hedefler içerebilecek "blobby" görüntü bölgelerini bulduğumuz bölgeleri kullanmayı önerdiler. Bu alan nispeten hızlı işliyor. İlk ilgi çekici model R-CNN'dir (Bölge tabanlı Evrişimli Sinir Ağı). R-CNN'de, ilk olarak giriş görüntüsünü olası hedefler için seçici arama adı verilen bir algoritma kullanarak tararız ve yaklaşık 2.000 aday bölge oluştururuz. Ardından, her bölge kutusu temelinde CNN çalıştırıyoruz. Son olarak, her bir CNN'nin çıktısını alıp bölgeyi sınıflandırmak için SVM'ye giriyoruz ve hedefin sınırlayıcı kutusunu daraltmak için doğrusal regresyon kullanıyoruz.

Temel olarak, hedef tespitini bir görüntü sınıflandırma problemine dönüştürdük. Bununla birlikte, bazı sorunlar var - eğitim yavaş, çok fazla disk alanı gerektiriyor ve akıl yürütme yavaş.

R-CNN'nin doğrudan nesli, 2 geliştirme yoluyla algılama hızını artıran hızlı R-CNN'dir: 1) Aday bölgeden önce özellik çıkarma işlemi gerçekleştirin, bu nedenle tüm görüntü üzerinde yalnızca bir CNN çalıştırın ve 2) Bir softmax katmanıyla değiştirin SVM, böylece yeni bir model oluşturmak yerine sinir ağının tahminlerini genişletiyor.

Hızlı R-CNN, tüm görüntü için yalnızca bir CNN çalıştırdığı için hız açısından daha iyi performans gösterir. Bununla birlikte, seçici arama algoritmasının aday bölgeleri oluşturması hala çok zaman almaktadır.

Bu nedenle, daha hızlı bir R-CNN keşfedildi ve bu artık derin öğrenmeye dayalı nesne algılama için kanonik bir model oldu. Bölgeleri özelliklerden tahmin etmek için bir bölge oluşturma ağı (RPN) ekleyerek, yavaş seçici arama algoritmalarını hızlı sinir ağlarıyla değiştirir. RPN, tüm muhakeme sürecinin hesaplama gereksinimlerinin "nerede" azaltılacağına karar vermek için kullanılır. RPN, belirli bir alanda daha fazla işlemin gerekip gerekmediğini değerlendirmek için her konumu hızlı ve verimli bir şekilde tarar. Bunu, her bir konumdaki hedefin olasılığını temsil eden, her biri 2 puana sahip k sınırlayıcı kutu bölgelerinin çıktısını alarak yapar.

Aday bölgelerimizi edindikten sonra, bunları doğrudan temelde hızlı R-CNN olan içeriğe sağlayacağız. Bir havuz katmanı, bazı tam bağlantılı katmanlar ve son olarak bir softmax sınıflandırma katmanı ve sınırlayıcı kutu regresörü ekledik.

Sonuç olarak, daha hızlı olan R-CNN, daha iyi hız ve daha yüksek doğruluk sağlar. Gelecekteki modellerin algılama hızını iyileştirmek için çok çalışmasına rağmen, birkaç modelin daha hızlı R-CNN'yi daha yüksek bir avantajla geçebileceğini belirtmek gerekir. Başka bir deyişle, daha hızlı R-CNN, nesne algılama için en kolay veya en hızlı yöntem olmayabilir, ancak yine de en iyi performans gösteren yöntemlerden biridir.

Son yıllarda ana hedef tespit eğilimi daha hızlı ve daha etkili tespit sistemlerine kaymıştır. Bu, hesaplamaları tüm görüntü boyunca paylaşmanın bir yolu olarak Yalnızca Bir Kez Bakarsınız (YOLO), Tek Atış Çoklu Kutu Dedektörü (SSD) ve Bölge Tabanlı Tam Evrişimli Ağlar (R-FCN) gibi yöntemlerde görülür. Bu nedenle, bu yöntemler kendilerini 3 R-CNN teknolojisiyle ilişkili pahalı alt ağlardan ayırır. Bu eğilimlerin arkasındaki ana neden, ayrı algoritmaların kendi alt problemlerine tek başına odaklanmasına izin vermekten kaçınmaktır, çünkü bu genellikle eğitim süresini artırır ve ağ doğruluğunu azaltır.

3 - Hedef takibi

Hedef izleme, belirli bir sahnede belirli bir ilgi alanı olan bir veya daha fazla hedefi izlemeyi ifade eder. Geleneksel olarak, ilk hedef tespitinden sonra gözlemledikleri video ile gerçek dünya arasındaki etkileşimde kullanılır. Şimdi, Uber ve Tesla gibi şirketlerinki gibi otonom sürüş sistemleri için çok önemli.

Hedef izleme yöntemleri, gözlem modellerine göre iki kategoriye ayrılabilir: üretim yöntemleri ve ayırıcı yöntemler. Üretken yöntem, görünen özellikleri açıklamak ve PCA gibi hedefleri aramak için yeniden yapılandırma hatalarını en aza indirmek için üretken modeller kullanır. Ayırt edici yöntem, hedef ile arka plan arasında ayrım yapmak için kullanılabilir ve performansı daha sağlamdır ve yavaş yavaş ana izleme yöntemi haline gelir. Ayrımcılık yöntemine algılama ve izleme de denir ve derin öğrenme bu kategoriye girer. Tespit yoluyla takibi sağlamak için tüm çerçevelerde aday hedefleri tespit ediyor ve adaylardan istenen hedefleri belirlemek için derin öğrenmeyi kullanıyoruz. İki temel ağ modeli kullanılabilir: Stacked Autoencoder (SAE) ve Convolutional Neural Network (CNN).

SAE izleme görevlerini kullanan en popüler derin ağ, çevrimdışı ön eğitim ve çevrimiçi ince ayar ağları öneren derin öğrenme izleyicisidir. Süreç şuna benzer:

Çevrimdışı denetimsiz ön eğitim, genel hedef gösterimini elde etmek için büyük ölçekli doğal görüntü veri kümelerine sahip yığılmış gürültü giderici otomatik kodlayıcı kullanır. Giriş görüntüsüne parazit ekleyerek ve orijinal görüntüyü yeniden yapılandırarak, yığılmış gürültü azaltıcı otomatik kodlayıcı, daha sağlam özellik ifade yetenekleri elde edebilir.
Sınıflandırma ağını elde etmek için önceden eğitilmiş ağın kodlama kısmını sınıflandırıcıyla birleştirin ve ardından mevcut hedefi arka plandan ayırt edebilecek şekilde ağa ince ayar yapmak için ilk çerçeveden elde edilen pozitif ve negatif örnekleri kullanın. DLT, geçerli kare için aday yamalar oluşturmak üzere bir hareket modeli olarak parçacık filtrelerini kullanır. Sınıflandırma ağı, sınıflandırmalarının güvenilirliğini belirtmek için bu yamaların olasılık puanlarını verir ve ardından bu yamalar arasında en yüksek yamayı hedef olarak seçer.
Model güncellemesinde DLT, eşiği sınırlama yöntemini kullanır.

Görüntü sınıflandırması ve hedef tespitindeki üstünlüğü nedeniyle CNN, bilgisayarla görme ve görsel izleme için ana derinlik modeli haline geldi. Genel olarak konuşursak, büyük ölçekli bir CNN hem sınıflandırıcı hem de izleyici olarak eğitilebilir. İki temsili CNN tabanlı izleme algoritması, Tam Evrişimli Ağ İzleyicisi (FCNT) ve Çok alanlı CNN'dir (MD Net).

FCNT, önceden eğitilmiş bir ImageNet olan VGG modelinin özellik haritasını başarıyla analiz edip kullandı ve aşağıdaki gözlemleri üretti:

CNN özellik haritası, konumlandırma ve izleme için kullanılabilir.
Çoğu CNN özellik haritası, belirli bir hedefi arka planından ayırma görevi için gürültülü veya ilgisizdir.
Daha yüksek katman, nesne kategorisinin anlamsal kavramlarını yakalarken, alt katman, sınıf içi varyasyonu yakalamak için daha ayırt edici özellikleri kodlar.

Bu gözlemler nedeniyle FCNT, VGG ağının conv4-3 ve conv5-3 katmanlarında en uygun özellik haritalarını seçmek için bir özellik seçim ağı tasarladı. Daha sonra, gürültüye aşırı uydurmayı önlemek için, iki katmanın seçilen özellik haritaları için iki ek kanal (SNet ve GNet olarak adlandırılır) tasarladı. GNet, hedefin kategori bilgilerini yakalarken, SNet hedef konumu ilgilenilen bölgenin (ROI) merkezi olarak alır. Son olarak, SNet ve GNet aracılığıyla sınıflandırıcı, iki tahmin ısı haritası elde eder ve izleyici, bir müdahale olup olmadığına göre nihai izleme sonucunu oluşturmak için hangi ısı haritasının kullanılacağına karar verir. FCNT akışı aşağıda gösterilmektedir.

FCNT fikrinin tersine, MD Net, içindeki hareketli nesneleri izlemek için videonun tüm sekanslarını kullanır. Yukarıda bahsedilen ağ, izleme verilerinin eğitim gereksinimlerini azaltmak için alakasız görüntü verilerini kullanır Bu fikrin izlemeden bazı sapmaları vardır. Bu videodaki bir kategorinin hedefi, başka bir videonun arka planı olabilir, bu nedenle MD Net, her bir alandaki hedefi ve arka planı bağımsız olarak ayırt etmek için birden çok alan kavramını önerir. Alan, aynı türde hedef içeren bir grup videoyu temsil eder.

Aşağıda gösterildiği gibi, MD Net iki bölüme ayrılmıştır: paylaşılan katman ve belirli alan katmanının K dalı. Her dal, her bir alandaki hedefi ve arka planı ayırt etmek için softmax kaybına sahip bir ikili sınıflandırma katmanı içerir ve paylaşılan katman, genel temsili sağlamak için tüm alanlarla paylaşılır.

Son yıllarda, derin öğrenme araştırmacıları, görsel izleme görevlerinin özelliklerine uyum sağlamak için farklı yöntemler denediler. Birçok yönü araştırdılar: tekrarlayan sinir ağları ve derin inanç ağları gibi diğer ağ modellerini uygulamak, ağ yapılarını video işleme ve uçtan uca öğrenmeye uyum sağlayacak şekilde tasarlamak, süreçleri, yapıları ve parametreleri optimize etmek ve hatta derin öğrenmeyi geleneksel bilgisayarlarla birleştirmek Görsel yöntemler veya dil işleme ve konuşma tanıma gibi diğer alanlardaki yöntemlerin bir kombinasyonu.

4 - Anlamsal bölümleme

Bilgisayar görüşünün özü, tüm görüntüyü piksel gruplarına bölen ve daha sonra etiketlenip sınıflandırılabilen bölümleme sürecidir. Özellikle, anlamsal bölümleme, görüntüdeki her pikselin rolünü anlamsal olarak anlamaya çalışır (örneğin, bir araba, bir motosiklet veya başka bir sınıf türü mü?). Örneğin yukarıdaki resimde insanları, yolları, arabaları, ağaçları vb. Tanımlamanın yanı sıra her nesnenin sınırlarını da tasvir etmeliyiz. Bu nedenle, sınıflandırmanın aksine, modelden yoğun piksel piksel tahminler yapmamız gerekir.

Diğer bilgisayarla görme görevleri gibi, CNN de segmentasyon problemlerinde büyük başarı elde etti. Popüler başlangıç yöntemlerinden biri, her pikselin çevreleyen görüntüyü kullanarak sınıflara ayrıldığı kayan pencereler aracılığıyla yama sınıflandırmasıdır. Ancak bu, hesaplama açısından çok verimsizdir çünkü örtüşen yamalar arasında paylaşılan özellikleri yeniden kullanmıyoruz.

Bunun yerine çözüm, Berkeley'deki California Üniversitesi'nin, tamamen bağlantılı katmanlar olmadan yoğun tahmin için uçtan uca bir CNN mimarisini destekleyen Full Convolutional Network'dür (FCN). Bu, herhangi bir boyuttaki görüntü için segmentasyon haritalarının oluşturulmasına izin verir ve ayrıca yama sınıflandırma yöntemlerine kıyasla çok daha hızlıdır. Hemen hemen tüm sonraki semantik bölümleme yöntemleri bu paradigmayı benimsemiştir.

Ancak yine de bir sorun var: orijinal görüntü çözünürlüğünde evrişim çok pahalı olacaktır. Bu sorunu çözmek için FCN, ağ içinde aşağı örnekleme ve yukarı örnekleme kullanır. Aşağı örnekleme katmanına saçak evrişim denir ve yukarı örnekleme katmanına ters evrişim denir.

Yukarı örnekleme / aşağı örnekleme katmanı kullanılmasına rağmen, havuzlama sırasında bilgi kaybı nedeniyle FCN kaba bir bölümleme haritası oluşturacaktır. SegNet, maksimum havuzlama ve kodlama-kod çözücü çerçevesi kullanan FCN'den daha verimli bir bellek mimarisidir. SegNet'te, yukarı örnekleme / aşağı örneklemenin pürüzlülüğünü iyileştirmek için daha yüksek çözünürlüklü bir özellik haritasından bir kısayol / atlama bağlantısı tanıtıldı.

Anlamsal bölümleme üzerine yapılan son araştırmalar büyük ölçüde genişletilmiş evrişim, DeepLab ve RefineNet gibi tamamen evrişimli ağlara dayanmaktadır.

5 - örnek bölme

Semantik segmentasyona ek olarak, örnek segmentasyonu 5 farklı renkle 5 otomobilin işaretlenmesi gibi farklı örnek türlerini segmentlere ayırır. Sınıflandırmada genellikle odak olarak tek hedefe sahip bir görüntü vardır ve görev bu görüntünün ne olduğunu söylemektir. Ancak örneği bölmek için daha karmaşık görevler gerçekleştirmemiz gerekiyor. Karmaşık manzara noktalarının birden çok örtüşen nesneye ve farklı arka plana sahip olduğunu görüyoruz.Bu farklı nesneleri sınıflandırmanın yanı sıra aralarındaki sınırları, farklılıkları ve ilişkileri de belirlemeliyiz!

Şimdiye kadar, sınırlayıcı kutulara sahip görüntülerde farklı hedefleri etkili bir şekilde bulmak için CNN özelliklerini birçok ilginç şekilde nasıl kullanacağımızı gördük. Sadece sınırlayıcı kutu yerine her hedefin kesin piksellerini bulmak için bu teknikleri genişletebilir miyiz? Facebook AI'daki bu örnek segmentasyon problemini keşfetmek için Mask R-CNN adlı bir mimari kullanın.

Fast R-CNN ve Faster R-CNN'de olduğu gibi, Mask R-CNN'nin temel ilkesi basittir. Daha Hızlı R-CNN'nin hedef tespitte çok iyi çalıştığını düşünürsek, onu piksel seviyesinde segmentasyon için genişletebilir miyiz?

Maske R-CNN, bunu, belirli bir pikselin hedefin parçası olup olmadığını gösteren ikili bir maske çıkaran Daha Hızlı R-CNN'ye bir dal ekleyerek gerçekleştirir. Bu dal, CNN'nin özellik haritasına dayanan tamamen evrişimli bir ağdır. CNN özellik haritası girdi olarak verildiğinde, ağ, pikselin hedefe ait olduğu tüm konumlarda matrisi çıkarmak için 1'leri kullanır ve diğer yerlerde 0 çıktısı verir (buna ikili maske denir).

Ek olarak, orijinal Daha Hızlı R-CNN mimarisinde değişiklik yapılmadan çalıştırıldığında, RoIPool (ilgi alanı havuzlaması) tarafından seçilen özellik haritasının alanı orijinal görüntünün alanıyla biraz yanlış hizalanır. Görüntü bölütleme, sınırlayıcı kutulardan farklı olan piksel düzeyinde özgüllük gerektirdiğinden, bu doğal olarak yanlışlığa yol açar. Maske R-CNN, RoIPool'u RoIAlign (İlgi Bölgesi Hizalama) adı verilen bir yöntemi kullanarak daha doğru hizalamak için ayarlayarak bu sorunu çözer. Esasen, RoIAlign, yuvarlama hatalarını önlemek için çift doğrusal enterpolasyon kullanır ve bu da yanlış algılama ve segmentasyona neden olur.

Bu maskeler oluşturulduktan sonra, Mask R-CNN, bu tür doğru segmentasyon oluşturmak için bunları Faster R-CNN'deki sınıflandırma ve sınırlayıcı kutularla birleştirir:

sonuç olarak

Bu beş ana bilgisayar görüşü teknolojisi, bir bilgisayarın bir veya bir dizi görüntüden yararlı bilgileri çıkarmasına, analiz etmesine ve anlamasına yardımcı olabilir. Stil aktarımı, renklendirme, hareket tanıma, 3B nesneler, insan pozu tahmini gibi diğer birçok gelişmiş teknolojiden bahsetmedim. Aslında, bilgisayarla görmenin maliyeti derinlemesine araştırmak için çok yüksek ve sizi çevrimiçi kurslar, blog dersleri veya resmi belgeler aracılığıyla daha fazlasını keşfetmeye teşvik ediyorum. Yeni başlayanlar için CS231n kursunu şiddetle tavsiye ederim çünkü kendi sinir ağınızı nasıl uygulayacağınızı, eğiteceğinizi ve hata ayıklayacağınızı öğreneceksiniz. Bonus olarak, tüm sunum slaytlarını ve atama kılavuzlarını GitHub depomdan alabilirsiniz. Umarım dünyaya bakış açınızı değiştirmenize yardımcı olabilir!

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

Bağlantıya uzun basın ve [Bu 5 bilgisayar görme teknolojisi, dünya görüşünüzü yenilemek] için tıklayın veya tıklayın: Lei Feng Wang Lei Feng Wang Lei Feng Wang

AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak günceller, daha heyecan verici içerikler izleyin: