Süper tamamlandı! Bilgisayarla görme alanında derin öğrenme uygulamalarının listesi (ekli bağlantılar)

Kaynak: Zhihu

Yazar: Huang banyosu, baş bilim adamı Tekillik Araştırma Merkezi ve ABD arabası başkanı

Bu makale hakkında 7200 kelime, Önerilen Okuma 15 dakika.

Bu, bilgisayarla görme alanında derin öğrenmenin ultra tam uygulamasının bir önizlemesidir ~

Kısa bir incelemede, 2006 Geoffrey Hinton gazetesi "ateşi" tutuşturdu ve şimdi birçok insan "soğuk su" dökmeye başladı, çünkü esasen AI baloncuğu çok büyük ve derin öğrenme tüm hastalıklar için bir çare değil.

Bilgisayarla görü, derin öğrenmenin çığır açtığı ilk alan değil. Geleneksel yöntemleri alt üst eden herkesi gerçekten şaşırtan uygulama alanı konuşma tanımadır. Bunu yapan şirket, o zamanlar Google değil, Microsoft'du. Bilgisayarla görme uygulaması derin öğrenmenin başarı noktasına 2012 ImageNet yarışması adı verilir.Kullanılan model Hinton'un RBM ve DBN yerine CNN'dir.Hinton öğrencileri tarafından onun adını taşıyan AlexNet'tir.

(Not: Bu arada, 2010 ImageNet şampiyonu, Yu Kai / Lin Yuanqing liderliğindeki NEC ve UIUC Tom Huang'ın ortak bir ekibiydi. O sırada kullanılan yöntem seyrek kodlama + SVM'ye dayanıyordu.)

Tabii ki, CNN üzerinde çalışan uzman Yann LeCun'dur ve Xiao Zha daha sonra onu AI araştırmasının başı olması için FB'ye gönderdi. İlk CNN modeli, orijinal olarak görüntü dijital tanıma için kullanılan LeNet adlı kendisi tarafından geliştirildi. CNN'nin 2 boyutlu sinyal işleme görevleri için çok uygun olduğunu ve RNN'nin zaman alanındaki bir genişleme olduğunu söylemeliyim.

Artık CNN, bilgisayarla görme uygulamalarında çok başarılı olduğu için, geleneksel makine öğrenimi yöntemleri temelde terk edilmiş durumda. En büyük nedenlerden biri, görüntü verilerinin özellik tasarımının, yani özellik tanımının her zaman bilgisayar görmesi için bir baş ağrısı olmasıdır.Derin öğrenmenin atılımından 10 yıldan fazla önce, en başarılı görüntü özelliği tasarımı (el yapımı özellik) SIFT'ti ve ünlü Görsel kelime çantası, bir VQ yöntemi. Daha sonra herkes CNN modelini SIFT ile karşılaştırdı ve yapının oldukça benzer olduğunu gördü ve sonrasında RNN ve CRF'nin birbirine çok benzediğini söyleyen makaleler çıktı.

CNN, AlexNet'ten bu yana yeni modeller geliştirdi ve altı ayda bir yeni keşifler yapılıyor. İşte rastgele bir liste, ZFNet (MatNet olarak da adlandırılır), VGGNet, NIN, GoogleNet (Inception), Highway Network, ResNet, DenseNet, SE-Net (Squeeze and Excitation Net), temelde ImageNet'te ilk ünlü olanlardır.

Kısaca özetlemek için:

  • AlexNet ilk derin CNN olmalıdır;
  • ZFNet, öğrenme sürecini izlemek için DeconvNet ve görselleştirme teknolojisini kullanır;
  • VGGNet, hesaplama karmaşıklığını azaltmak için büyük filtreler 5X5 ve 7X7'nin yerine küçük filtre 3X3'ü kullanır;
  • GoogleNet, bir model oluşturmak için Inception'ın temel modülünü tanımlamak için NIN fikrini teşvik eder (çok ölçekli dönüşüm ve farklı boyutlardaki filtrelerin bir kombinasyonunu, yani 1X1, 3X3, 5X5 kullanarak);
  • Karayolu Ağları, RNN'deki LSTM'nin yürüme birimini ödünç alır;
  • ResNet devrim niteliğinde bir çalışmadır ve performansı artırmak ve hesaplama karmaşıklığını azaltmak için büyük derinlikli modeller eğitebilen Karayolu Ağlarının atlama bağlantı fikrinden yararlanmaktadır;
  • Inception-V3 / 4, 5X5 ve 7X7 büyük filtrelerini 1X7 ve 1X5 ile değiştirir. 1X1 filtre daha önce karakteristik darboğaz olarak kullanılır, böylece evrişim işlemi çapraz kanal ile ilgili bir işlem haline gelir;
  • DenseNet, temelde kaybolan gradyan problemini çapraz katman bağlantıları yoluyla çözer;
  • SE-Net, özellik seçimi için tasarlanmıştır ve geçit mekanizması hala benimsenmiştir;
  • Bir süre önce popüler olan Dikkat mekanizması da nesneye duyarlı bağlam modelini uygulamak için LSTM'den ödünç aldı.
  • ......

Birçok başarılı model, aşağıdakiler gibi belirli uygulama alanlarında da ortaya çıkmıştır:

  • Tespit problemleri için R-CNN, hızlı RCNN, daha hızlı RCNN, SSD, YOLO, RetinaNet, CornerNet vb.
  • Segmentasyon problemlerini çözmek için FCN, DeepLab, Parsenet, Segnet, Mask R-CNN, RefineNet, PSPNet, U-Net vb.
  • Lidar nokta bulutu verilerini işleyen VoxelNet, PointNet, BirdNet, LMNet, RT3D, PIXOR, YOLO3D vb.
  • Lidar ve görüntünün birleşimini gerçekleştiren PointFusion, RoarNet, PointRCNN, AVOD vb.
  • Görüntü işleme için DeHazeNet, SRCNN (süper çözünürlük), DeepContour, DeepEdge vb.
  • 2.5 MatchNet, DeepFlow, FlowNet, vb. D Vision,
  • PoseNet, VINet, Perspektif Trafo Ağı, SfMNet, CNN-SLAM, SurfaceNet, 3D-R2N2, MVSNet vb. 3 boyutlu rekonstrüksiyonu,
  • Ve model sıkıştırmasını ve modernize etmeyi çözen MobileNet, ShuffleNet, EffNet, SqueezeNet,
  • ......

Aşağıda belirli uygulamalar hakkında ayrıntılı olarak konuşalım.

Görüntü / video işleme

Görüntü / video işleme hakkında konuşmama izin verin (bilgisayar görüşünün en alt katmanı, düşük düzey değil).

Görüntü işleme ve video işleme, bir zamanlar birçok endüstriyel ürünün temelini oluşturuyordu. Artık TV'ler, cep telefonları, kameralar / kameralar vb. Ayrılmaz. Teknoloji yavaş yavaş olgunlaştı (geleneksel yöntemler) ve deneyim daha önemli hale geldi. Çip entegrasyonu gittikçe artıyor ve temelde daha az insan araştırmaya gidiyor. Klasik ISP, A3, hemen temin edilebilir.Elbette, iyi yapılmazlarsa, başkalarıyla rekabet etmek zordur ve maliyet düşürülemez.

Bu, tipik bir görüntüleme sürecinin akış şemasıdır:

Klasik ISP akış şeması aşağıdaki gibidir:

Görüntü işleme temelde belirli varsayımlar altında sinyal yeniden yapılandırmasına dayanır. Bu yeniden yapılandırma, bizim 3 boyutlu yeniden yapılandırma dediğimiz şey değil, gürültü giderme ve enterpolasyon gibi sinyalin orijinal bilgilerinin geri yüklenmesini ifade eder. Bunun kendisi ters bir sorundur, bu nedenle çözülemeyen hiçbir kısıtlama veya varsayım yoktur. Örneğin, gürültüden arındırma için en yaygın varsayım Gauss gürültüsüdür. Enterpolasyon aslında yüksek frekanslı sinyalleri geri yüklemektir. Kenar sürekliliği ve gri ölçek korelasyonu varsayılabilir. TV (toplam varyasyon) vb.

Geçmişteki en başarılı yöntem temelde sinyal işlemedir ve makine öğrenimi de kullanılmıştır.Sinyal işlemenin kısıtlamaları, seyrek kodlama / sözlük öğrenme, MRF / CRF vb. Gibi Bayes kurallarının önceden bilgisi haline gelmiştir ve artık geleneksel makineden öğrenilmektedir. Derin öğrenmeye yöntem geçişi de normaldir.

1. Gürültü giderme / sıyrılma / çapak alma / gölge giderme

İlk olarak, kodlayıcı-kod çözücü ağının AR-CNN modelini verin (AR = Artefakt Azaltma):

Bu, görüntü işleme için genel bir model çerçevesidir:

2. Gelişmiş / Süper Çözünürlük (SR)

İkili filtre, iyi bilinen bir görüntü filtresidir. İşte CNN modelinden esinlenilen bir görüntü iyileştirme örneği:

Daha önce bahsedildiği gibi, enterpolasyonun amacı kayıp yüksek frekans bilgisini kurtarmaktır.Burada, SR için bir model görüntünün yüksek frekanslı bileşenlerini öğrenmektedir:

3. Onarım / geri yükleme / renklendirme

Yama için GAN fikrine dayalı Kodlayıcı-Kod Çözücü Ağ modeli:

Gri tonlamalı görüntü renklendirme için model çerçevesi (8 bit gri tonlama alanı 24 bit RGB alanına genişletildi):

Görüntü ön işleme

Bilgisayarla görmenin (2-D) ön işlemesi de vardır.

Bilgisayar görüşü, özellik noktaları, kenarlar ve konturlar dahil olmak üzere özellik çıkarma gibi görüntü ön işlemesini gerektirir. Geçmişte, izleme ve 3B yeniden yapılandırma için önce özellikleri çıkarmamız gerekiyordu. Önceki başarılı özellik noktaları SIFT / SURF / FAST ve benzerleridir, artık CNN tarafından oluşturulan özellik haritası ile tanımlanabilirler.

Kenarların ve dış hatların çıkarılması çok zor bir iştir. Ayrıntılar çok güçlü görüntü çizgileriyle maskelenebilir. Dokunun kendisi zayıf bir kenar dağıtım modudur. Hiyerarşik temsil, yaygın olarak bilinen bir yöntemdir Alanı ölçeklendirin. Geçmişte, mobil terminalde görsel bir platform olarak çalışırken, bazen özellik bozulması nedeniyle bazı görüntü işleme işlevlerinin kapatılması gerekiyordu. Şimdi, doğal bir özellik tanımlama mekanizması olan CNN, görüntü ön işlemesi için iyi bir araç sağlar.Görüntü işleme ile görsel ön işlemeyi bir araya getirebilir.

1. Özellik çıkarma

LIFT (Öğrenilmiş Değişmez Özellik Dönüşümü) modeli SIFT'i taklit etmektedir:

2. Kenar / kontur çıkarma

Kontur algılama için bir kodlayıcı-kod çözücü ağ modeli:

3. Özellik eşleştirme

İşte eşleşen bir MatchNet modeli:

2.5-D bilgisayar görüşü

2.5-D bilgisayarla görme kısmından bahsedelim (hepsi 3-D değil).

Paralaks veya 2-B hareketi içeren bölüme genellikle 2,5-D uzay denir. Bu bölüm önceki 2-D problemi ile aynıdır Bir yeniden yapılandırma görevi olarak, aynı zamanda TV ve GraphCut gibi optimal çözümleri çözmek için kısıtlama koşulları gerektiren ters bir problemdir. Bir süre için (özellikle Marr döneminde), bilgisayarla görmenin işi, optimizasyon problemlerini kısıtlamalar altında çözmektir.

Daha sonra, rastgele olasılık ve Bayes tahmini popüler hale geldi ve kısıtlamalar ön bilgi haline geldi.Bilgisayar görme çemberinde P (Olasılık) ve B (Bayes) yoksa, yayınlamaktan utanıyorum. SVM, Boosting, Grafik Model, Rastgele Orman, BP (İnanç Yayılımı), CRF (Koşullu Rastgele Alan), Gauss Karışımı, MCMC, Seyrek Kodlama bir zamanlar bilgisayar görüşünün sevgilileriydi, şimdi CNN'de parlama sırası :).

Derin öğrenmenin oldukça "şiddetli" olduğu söylenebilir. Geçmişte analiz edilen kısıtlamalar ve önceki bilgiler burada bir kenara atılır. Görüntü verileri olduğu sürece, geleneksel makine öğrenme yöntemleriyle birleştirilebilir.

1. Hareket / optik akış tahmini

Geleneksel yöntemler, CNN'nin küresel yöntemin yerini aldığı yerel yöntemleri ve küresel yöntemleri içerir.

İşte bir optik akış tahmini modeli:

2. Eşitsizlik / derinlik haritası tahmini

Derinlik haritası tahmini ve hareket tahmini benzer problemlerdir, tek fark, monoküler derinlik haritasını tahmin edebilir, ancak hareket edemez.

İşte bir dürbün tahmini derinlik haritası modeli:

Ve bu, derinlik haritasının monoküler tahmini için bir modeldir: Akıllıca olan şey, derinlik haritası tahmininin denetimsiz öğrenimi için dürbün verilerini kullanmaktır.

Başka bir monoküler derinlik tahmin modeli: ayrıca denetimsiz öğrenme için binoküler geometrik kısıtlamaları kullanır.

3. Video interlacing / interpolasyon çerçevesi;

Deinterlacing ve Framerate upconversion klasik video işleme problemleridir.Sony ve Samsung gibi TV üreticileri bu alanda çok çaba sarf ettiler. Ünlü NXP (Philips spin-off'tan) bu modülde harika bir algoritmaya sahipti. Daha az para.

Temel geleneksel yöntemlerin tümü, genellikle MEMC olarak bilinen hareket kestirimi ve telafi yöntemlerini kullanır, bu yüzden bunu 2.5-D olarak sınıflandırıyorum. Önceki hareket tahmini derin öğrenme ile çözüldü ve şimdi bu iki problem de doğal olarak.

İlk önce MEMC için bir modele bakın:

Bu, Deinterlacing için bir modeldir:

Bu, Nvidianın Framerate Upconversion modelidir:

Çerçeve enterpolasyonu için optik akış yöntemini kullandığından ve akış tahmin modelini eklediğinden: bir kum saati (kum saati) modelidir.

4. Yeni perspektif görüntü oluşturma

Monoküler tahmin derinlik haritasını sunduğumuzda, yeni perspektifler oluşturmak için ters çarpıtma yöntemini kullanmanın örneklerini gördük IBR alanında Derinlik Görüntü Tabanlı İşleme (DIBR) adı verilen bir dal var.

Önceki soruya benzer şekilde, yapay görüntüler oluşturmak için derin görüntü öğrenmenin kullanılması da 2,5-D uzaya aittir. TV alanında, bu yöntem 3-D TV endüstrisinde tek lensli videodan otomatik olarak stereoskopik lens programları oluşturmak için kullanılmıştır. Daha önce de makine öğrenimini kullandım. YouTube, 2D-3D içerik hizmetleri sağlamak için derinlik haritası tahmini yapmak için görsel arama yöntemini kullandı, ancak performans iyi değildi. Görünüşe göre artık herkes buna pek hevesli değil.

Bu, yeni bir bakış açısı oluşturan bir model:

Ve bu, tek çekim videodan stereo video oluşturmak için bir model:

Bazı kodlama / kod çözme de temel olarak hareket veya benzer dönüşümü kullanır, ancak performans burada göz ardı edilen geleneksel yöntem kadar iyi değildir.

3 boyutlu bilgisayar görüşü

Çoklu görüntü (MVS) / hareket (SFM) rekonstrüksiyonuna dayanan 3-D hakkında konuşalım, ikincisi aynı zamanda SLAM olarak da adlandırılır.

Bu bölüm klasik bilgisayar görme problemidir: 3 boyutlu yeniden yapılandırma.

Temel olarak, iki yola ayrılabilir: biri çoklu-görüntülü rekonstrüksiyon, diğeri ise hareket rekonstrüksiyonudur. İlki, binoküler eşleştirmenin ilerletilmesi olan çoklu çerçeve eşleştirmesi olan klasik bir MVS yöntemine (çoklu görüntü stereo) sahiptir, bu nedenle çözmek için CNN kullanmak mantıklıdır. O yıl Superbowl'da CMU tarafından sergilenen üç boyutlu yeniden yapılanma ve perspektif dönüştürme, bu yola dayalı bir sansasyondu, ancak sonunda ticarileştirilmedi (teknoloji aktarıldı).

İkincisi robotik alanında SLAM olur.Filtreleme yöntemi ve anahtar çerçeve yöntemi vardır.İkincisi yüksek hassasiyete sahiptir. BA (Demet Ayarlama) seyrek özellik noktaları temelinde kullanılabilir. PTAM, ORB-SLAM1 / 2 gibi iyi bilinen yöntemler, LSD-SLAM, KinectFusion (RGB-D), LOAM ve Velodyne SLAM (LiDAR), vb. Artık SLAM, AR endüstrisinde bir darboğaz haline geldiğine göre, MagicLeap ve HoloLens'e bakın. Her zaman düzlem algılama temelinde bir sanal nesne kuramazsınız.Sanal ile gerçek arasındaki gerçek kombinasyon, sıradan bir gerçek ortamdadır.

Nokta eşleştirme, kareler arası hareket tahmini ve Döngü Kapatma algılamasının hepsinin CNN modeliyle çözülebileceğini hayal edin, ardından SLAM / SFM / VO, CNN'nin keşif alanına girecektir.

1. Kalibrasyon

Kalibrasyon, klasik bir bilgisayar görüşü problemidir.Kameranın görüş sisteminin bir sensör olarak ilk görevi, gözlem verileri ile 3 boyutlu dünya koordinat sistemi, yani kalibrasyon arasındaki ilişkiyi belirlemektir. Kamera kalibrasyonu, biri dahili parametreler ve diğeri harici parametreler olmak üzere iki kısım parametre belirlemelidir. Derinlik telemetre gibi çoklu sensörlere sahip görüntü sistemleri için eskiden Kinect RGB-D vardı ve şimdi Velodyne lidar var Aralarındaki koordinat sistemi ilişkisi kalibrasyonun görevidir.

Harici parametre kalibrasyonunun yardımı, lidarın nokta bulutu, RGB-D'nin derinlik haritası ve kameranın görüntü piksel seti gibi verileri kalibre etmektir.NN modelini veriler aracılığıyla eğitmek için kullanılabilecek en iyi eşleşen standarda sahip olmaları gerekir. gerçekleştirmek. Kalibrasyon parametreleri, NN modelinin regresyon çıktısının sonuçlarıdır.

İşte lidar ve kamera kalibrasyonunun bir sistem blok şeması:

CalibNet yapısı görünümü modeli:

2. Görsel Odometri (VO)

VO, SLAM'ın bir parçasıdır, sadece kendi hareketini ve duruş değişikliklerini tahmin eder. VO, Tesla'nın Autopilot2.0'ın eski başkanı David Nister tarafından kuruldu. Eskiden Essential Matrix'in "5 noktalı algoritmasını" iki görüntü çerçevesiyle hesaplamakla ünlüydü. Şimdi ise Nvidia'nın otopilotunun başı ve şirketin başkan yardımcısı.

Eylemsiz navigasyon verileriyle birleştirilmiş bir VIO (Görsel-Eylemsiz Odometri) NN modeli:

Bu, ünlü AR girişimi MagicLeap tarafından önerilen VO modelidir: özellik çıkarma ve eşleştirme (Homografi) olmak üzere iki bölümden oluşur.

Bu arada, lidar verileri için bir CNN Odometry modeli ekleyin:

3. SLAM (Mono, Stereo, RGB-D, LiDAR) / SFM

Hareket kurtarma yapısı, arka planın hareket etmemesi öncülüne dayanmaktadır Bilgisayar görüşü meslektaşları SFM terimini sever, robot meslektaşları ise SLAM olarak adlandırır. SLAM, mühendislik çözümlerine daha fazla önem veriyor ve SFM teoride büyük katkı sağlıyor.

İlk önce tek kameralı SFM sisteminin blok şemasına bakın:

NN modeli SFM-Net iki bölümden oluşur: Hareket ve Yapı:

Ekte bir SLAM modeli CNN-SLAM bulunmaktadır: esas olarak monoküler derinlik haritası tahmini için bir CNN modülü eklenmiştir.

Bu, CNN kullanan Lidar tabanlı bir yerelleştirme yöntemidir: yalnızca nokta bulutu verileri gerekli değildir, aynı zamanda yansıma değeri gri tonlamalı görüntü de girilir.

Görüntü piksel hareketi optik akıştır ve 3-D sahne hareketine sahne akışı denir.Lidar nokta bulutu verisi varsa, ikinci tahmin ICP aracılığıyla gerçekleştirilebilir. İşte bir CNN model uygulama yöntemi olan FlowNet3D, PointNet'in Uzantısı:

4. MVS

Geleneksel MVS yöntemi iki türe ayrılabilir: bölge büyütme ve derinlik-füzyon: İlki ünlü PMVS'ye ve ikincisi KinectFusion'a sahiptir.MVS yöntemini çözmek için CNN modeli buna dayanmaktadır.

Öncelikle MVS görevi için RNN'de LSTM'ye dayalı bir 3D-R2N2 modeline bakın:

Sistem blok şeması aşağıdaki gibidir:

UIUC / Facebook işbirliğinin DeepMVS modeli:

Bu onların sistem blok şemasıdır:

Şimdi gördüğünüz şey, Berkeley'deki Malik grubu tarafından önerilen LSM (Öğrenilmiş Stereo Makinesi) modelidir:

Aşağıda, Hong Kong'dan Profesör Quan Long tarafından yakın zamanda önerilen MVSNet modeli yer almaktadır:

Çevre anlayışı

Temel kısım, yüksek seviyeli bilgisayar görüşüdür.

Bu bölüm, derin öğrenmenin bilgisayar vizyonunun dokunduğu ve güçlü gücünü gösteren ilk bölümüdür. Herkesin dikkat ettiği ve peşinden koştuğu çok fazla mükemmel çalışma var ve çok sayıda analiz ve özet makale var, bu yüzden burada çok fazla tekrar etmeyeceğim, kısaca gözden geçir.

1. Anlamsal / Örnek Segmentasyonu

CNN'nin semantik bölümleme için en erken başarılı uygulaması, Berkeley'deki araştırmacılar tarafından önerilen FCN (Tam Evrişim Ağı) olmalıdır. Pixel2pixel öğrenme yöntemidir. Çeşitli evrim modellerinden sonra, artık Kodlayıcı-Kod Çözücü Ağı olarak sınıflandırılabilirler.

İşte otonom sürüş için gerçek zamanlı anlamsal segmentasyon algoritmasını özetleyen CVPR tarafından geçen yıl bir makalede verilen bir blok diyagram.

Bunların arasında, Kodlayıcı kısmı özellikle MobileNet ve ShuffleNet kullanır.

Örnek bölümleme, hedef algılamayı birleştiren özel bir anlamsal bölümlemedir. Hedef tespiti olduğu söylenebilir ve temsili çalışması, He Kaiming'in FB'ye gittikten sonra ilk başyapıtı olması gereken Mask R-CNN'dir.

Bu, hedef algılama algoritması SSD'sini kullanan bir örnek segmentasyon modelidir.

Aşağıda, hedef algılama algoritması Faster-RCNN'den geliştirilen örnek bir segmentasyon modeli MaskLab verilmiştir. Makale geçen yıl CVPR18'de yayınlandı.

Bu, Maskeyi nasıl düzelttiğini gösteren şematik bir diyagramdır:

Bu, 3 boyutlu nokta bulutuna dayalı anlamsal bir segmentasyon NN modelidir:

2. Algılama / tanıma (özel örnek: insan yüzü)

Hedef tespiti konusunda öncü çalışma Berkeley'deki Malik grubu, yani Bölge Önerisini geleneksel yöntemden ödünç alan iki aşamalı R-CNN (Bölge bazlı CNN) tarafından üretilmelidir. Bundan sonra, hızlı RCNN ve daha hızlı RCNN sürekli olarak geliştirildi.Her seferinde gerçekten "parlayan yıldızlar" olan yeni fikirler ortaya çıkıyor.

Tek adımlı çalışma SSD (Tek Atış Algılama) ve YOLO (Sadece Bir Kez Bakarsınız) ile ünlüdür. Bu dönemde He Kaiming, tek aşamalı ve iki aşamalı yöntemlerin ilgili avantajları ve dezavantajları için bir Odak Kaybı başlattı.Yapılan yeni yönteme RetinaNet adı verildi. Daha sonra, YOLO3 temelde düşük doğruluğun zayıflığını çözdü.

Burada algoritma geliştirmenin bir taslağını çizdim (aslında, densebox, deepbox, R-FCN, FPN, vb. Gibi dahil edilmeyen bazı yöntemler var).

ImageNet'in kendisi 1.000'den fazla nesne tanıma yarışmasıdır ve genellikle ilk 5'in sonuçları açıklanır (en erken doğruluk oranının ne kadar düşük olduğuna bakın). CNN'in ImageNet'teki geliştirme geçmişi, görüntü tanımada yaklaşık 5 yıllık geçmişidir.

Tanıma veya segmentasyon olsun, lidar nokta bulutu verilerinin işlenmesi PointNet ve geliştirilmiş bir CNN modeline sahiptir.

Nokta bulutlarına dayalı bir hedef tanıma örneği, Apple araştırmacıları tarafından yayınlanan VoxelNet modelidir:

Nokta bulutu ve RGB görüntüsünü birleştiren bir hedef algılama CNN modelinin bir örneği aşağıdaki gibidir:

Burada, bu arada, yüz tanıma, çünkü yüzün bireysel özelliklerini ayırt etmektir, bu nedenle bu konu ince taneli tanıma olarak değerlendirilmelidir. Bu, hepsi alt bölümlere ayrılmış bir hayvanın cinsini bir köpek ya da bir at gibi yargılamaya devam etmek gibidir.

Yüz tanımanın yüz doğrulama ve yüz tanıma olarak ikiye ayrıldığını lütfen unutmayın; ilki, iki kişinin aynı kişi olup olmadığını, bire bir eşleştirmeyi ifade eder ve ikincisi, bir kişinin bir grup insan içinde olup olmadığını belirlemek içindir. Bunlardan biri, 1'e çok amplifikatör. Makinelerin yüz tanıma özelliğinin insanlara göre daha iyi olduğu sık sık bildirilmiştir.Hepsi birincisine atıfta bulunuyorsa, onbinlerce insanın yüz veritabanını bir makine gibi kim tanıyabilir? Ayrıca Çin Kamu Güvenliği Bakanlığı'nın verileri 100 milyon mertebesinde.

Eksiksiz bir yüz tanıma sisteminin yüz algılama ve yüz hizalamayı (yüz hizalama) tamamlaması gerekir ve ikincisi, CNN modeline dayalı olabilen yüz işaretlerinin algılanmasını gerektirir. FB'nin DeepFace modelini örnek olarak alın ve bir yüz tanıma sisteminin blok diyagramını verin:

Bu, kısa süre önce önerilen yüz algılama modelidir: Seçici İyileştirme Ağı

Ve işte yüzdeki yer işaretleri kalibrasyonuna dayalı bir model:

Bu arada, Questyle Technology'nin Pyramid CNN modeli ve SenseTime'ın DeepID2 modeli (4 DeepID sürümü yayınlandı) sırayla gösterilmektedir.

3. İzleme (özel örnek: insan duruşu / iskeleti)

Hedef takibi, yinelemeli bir tahmin problemidir.Önceki görüntü çerçevesindeki hedefin bilgisine göre, mevcut hedefin konumu ve hatta boyutu / postürü hesaplanır. Bir süre için, izleme ve algılama entegre hale geldi, sözde algılama yoluyla izleme, izleme de bir hedef bölümleme (ön plan ve arka plan) / tanıma problemini görebilir.

İzleme, kısa vadeli (kısa vadeli) bir mahalle tespitidir, genel tespit ise uzun vadeli (uzun vadeli) geniş aralıklı bir tespittir. İzlemenin zorluğu, hedefin (kısmen veya tamamen) tıkanmasında yatar, arka plan karmaşıktır (benzer hedefler mevcuttur), hızlı (hızlı) ve ani (çevik) hareket vb. Örneğin bir insan yüzünü takip ederken, 90 derece yan yüze çevirirken bu problemler ortaya çıkacaktır.

İzleme yöntemi, ayırt edilmesi gereken bir noktaya, çoklu hedefli (MOT) veya tek hedefli (SOT) izleyiciye sahiptir. Tek hedef, hedefler arasındaki girişimi ve eşleşmeyi dikkate almazken, çok hedefli izleme, hedeflerin ortaya çıkması, kaybolması ve karşılıklı etkileşimi ve sınırlandırılmasını dikkate alır.Her hedefi izlemenin benzersizliğini sağlamak için algoritma tasarımının öncülüydü.

İzleme hedefleri çeşitlidir, genellikle sert gövde veya yumuşak gövde, tek sert gövde veya insan vücudu veya parmak hareketi gibi eklemli (eklemli) iskelet modelinin belirlenmesi gerekir. İzleme, görüntü tabanlı veya lidar nokta bulutu olabilir. İlki, daha zor olan görüntüdeki hedefin boyutundaki ve tutumundaki değişiklikleri de dikkate alır.

Yukarıdaki özelliklere bağlı olarak izleme CNN veya RNN modelleri ile çözülebilir.İzleme hedefinin kendisinin açıklaması NN modelinin avantajıdır.İster algılama, bölümleme veya tanıma olsun, sorun değildir. Hareket özelliklerinin açıklaması RNN modeline referans olarak da kullanılabilir, ancak şimdiye kadar görülen sonuçlar geleneksel yöntemlerden çok daha iyi değildir.

İlk önce tek hedef izleme için bir CNN modeline bakın.

Burada gösterilen model, R-CNN algılama modelinin uzantısına dayalı tek bir hedef izleme yöntemidir:

Çok hedefli izleme modeline bir örnek:

Aşağıda, RNN'ye dayalı çok hedefli bir izleme modeli verilmiştir:

RGB görüntülere ve 3 boyutlu nokta bulutlarına dayalı bir hedef izleme NN modelini tamamlayın:

Bu arada, insan duruşu ve iskelet takibinden bahsedelim. Geçmişte, geleneksel yöntemler insan vücudu duruş tahmininde çok fazla çaba harcadı ancak etkisi iyi değildi.Kuyruk modeli, resimsel yapı, örtük şekil modeli, deforme olabilen model gibi parçaya dayalı hedef modeller önerildi.

Yakın zamanda CMU, insan vücudunun duruşunu ve iskeletini tahmin etmek için çok hızlı olan Kısmi İlişki Alanlarına (PAF) dayalı bir yöntem önerdi. PAF, görüntü piksellerini insan vücudunun çeşitli uzuvlarıyla ilişkilendirmek için kullanılan parametrik olmayan bir açıklama modelidir.Şekilde gösterildiği gibi mimarisine bakın.Her uzvun korelasyonunu ve konumunu birlikte öğrenmek için iki dallı bir CNN yapısı kullanır.

Aşağıdaki, Bipartie eşleştirme algoritmasının şematik bir diyagramıdır.

Bu çok hedefli hızlı poz takibinin gerçekleştirilmesi, insan davranışını anlamak için çok önemli bir araçtır.

Dört ana uygulama

Son olarak, bilgisayar görüşünün itici alanı hakkında konuşun.

Burada, bu alanlarda derin öğrenmenin teşviki hakkında konuşmak için 4 bilgisayarla görme uygulaması seçtim.CNN veya RNN "ateşlenmeden" önce, bu uygulamalar zaten vardı, ancak tanıma ve sınıflandırma görevlerindeki performansları sınırlı. Otonom sürüş uygulamasından başka bir makalede bahsedildi, bu yüzden burada görmezden gelin.

1. İçerik alma

CBIR (Content-based Image Retrieval) iki grup insandan oluşur: Biri bilgisayar bilimi ve bu sorunu bir veritabanı olarak ele alır; diğeri elektronik bir süreçtir ve bunun bir görüntü eşleştirme sorunu olduğunu düşünür. Başlangıçta herkes bu problemin anlamsal boşluğu için baş ağrısıydı.Renk, doku, kontur ve hatta düzen gibi bazı özellikler gerçekten iyi değildi.

Daha sonra SIFT ile Information Retrieval, Bag of Words, artı ters indeksleme, TF-IDF (terim sıklığı-ters belge frekansı), karma ve diğer teknolojileri kullandım ve her yıl çok daha iyi hale geldi. kağıt. Derin öğrenme, esas olarak özellik açıklaması rolünü oynayarak gelir.

Bu, CNN kullanan bir CBIR çerçevesidir:

Bu, CBIR için görüntü eşleştirme tarafından kullanılan CNN modelini gösterir:

2. Artırılmış gerçeklik

Başlangıçta AR yapmak kolay değildi, VR sorunundan bahsetmiyorum bile, esas olarak yüksek gerçek zamanlı gereksinimler nedeniyle ve doğruluk, tanıma veya hareket / duruş tahmininde iyi değil. Artık bilgisayar donanımı geliştiğinden, hesaplama hızı arttı ve derin öğrenme tanımayı kolaylaştırdı.Son zamanlarda, ister tutum tahmini ister özellik eşleştirme (konumlandırma) olsun, giderek daha popüler hale geldi, daha kolay hale geldi. Umarım bu sefer toplum üzerinde gerçek bir etkisi olur ve tüm bu AR hayallerini gerçekleştirir.

Bu çerçeve, Google Glass'ın AR uygulama platformudur ve CNN'e dayalı olarak birkaç modül uygulanabilir:

Aşağıda, kamera hareketinin kodlayıcı-kod çözücü ağı çerçevesi verilmiştir: Biri yinelemeli üç model seri olarak bağlanmıştır.

Aşağıdaki model, doğrudan AR'de yeniden yerelleştirme olarak kullanılabilen özellik çıkarma ve açıklamanın rolünü gösterir.

3. İçerik ek açıklaması / açıklaması

Altyazı ekleme, bilgisayar görüşü ve NLP'nin bir kombinasyonudur. Bunu bir "geri alma" görevi veya "çeviri" işi olarak düşünebilirsiniz. Derin öğrenme, bir dil modeli oluşturmaya ve açıklamalar üretmek için örnek oluşturmaya yardımcı olmaktır.

4. İçerik Soruları ve Cevapları (QA)

QA aynı zamanda bilgisayar görüşü ve NLP'nin bir kombinasyonudur ve özü, görüntü açıklaması ile dil tanımı arasında bir köprü kurmaktır. Bazı insanlar QA'nın Turing Testi için iyi bir sorun olduğunu söylüyor. Burada derinlemesine öğrenme, görüntünün tanımını, sorunun bileşimini ve modları arasındaki etkileşimi anlamaya yardımcı olmak içindir.

Bazı CNN uygulamalarının modeli daha da iyileştirmesi gerekir ve performans tatmin edici değildir. Bununla birlikte, herkes derin öğrenmenin geldiğini görmekten mutludur ve derinlemesine araştırma ile performans daha iyi ve daha iyi hale gelecektir.

Orijinal bağlantı:

https://zhuanlan.zhihu.com/p/55747295

Editör: Wang Jing redaksiyon: Lin Yilin
- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Çin'deki ilk büyük çaplı tam yüz koruma makinesi "Xinkuang No. 1" bugün piyasaya sürüldü
önceki
"BBC" den "CBD" ye Juventus, savunmadan daha fazlasını yükseltti
Sonraki
Yarım ülke Japon ürünlerini boykot ediyor, Koreliler bu sefer gerçekten hareket mi ediyor?
Liu Yunpeng: Büyük veri beni hayata yakınlaştırıyor
Anlaşılması gereken bir makale: geometrik tolerans nedir?
China Lian Chuan Zhi Bei: 137.331 barbekü restoranının verilerine göre, favoriniz var mı?
Masa TenisiT2 Diamond Tournament Malezya: Ma Long ilk tura yükseldi
Sinir ağınızın çalışmamasının 37 nedeni (bağlantıyla)
"Mona Lisa" nın bronz bir heykelini CNC işlerken bu Çinli yaptı
! ACL belgeleri yalnızca, AI okuduğunu anlama düzeyini kör tahmin düzeyine düşüren bir "Not" a güvenir
Zhu Siyu: Büyük verinin yararlanıcısı ve yayıcısı olun
ArXiv'in en sıcak derin öğrenme çerçevesi: Önce TensorFlow, PyTorch'un statüsü yükseliyor
Wuhan Şehri'nin ilk büyük ölçekli viyadük tünel ışıklarının değiştirilmesi | Galeri
Gece Okuması | En iyi aşk yol boyunca sana sahip olmaktır
To Top