g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ECCV18: Google Princeton, ilk uçtan uca stereo dürbün sistemi derin öğrenme çözümünü öneriyor

Xinzhiyuan Raporu

Kaynak: arxiv

Derleyici: Xiao Qin, Daming

Xin Zhiyuan Rehberi Bu makale, ECCV 2018 bilgisayarla görme konferansının kabul belgesinde yer alan en ilgili makalelerden biridir.Google Princeton Üniversitesi'nden araştırmacılar, birçok zorlu senaryoda aktif binoküler stereo görüntüleme sistemi için ilk derin öğrenme çözümünü önerdi. En gelişmiş sonuçları gösterin.

Kağıt adresi:

https://arxiv.org/pdf/1807.06009.pdf

Derinlik sensörleri, rijit olmayan yeniden yapılandırma, hareket tanıma ve parametre izleme gibi birçok zor sorun için ek 3B bilgi sağlar ve böylece bilgisayar görüşüne yenilik getirir. Pek çok tür derinlik sensörü teknolojisi olmasına rağmen, hepsinin bariz sınırlamaları vardır. Örneğin, Uçuş Süresi sistemleri hareket yapaylıklarına ve çok yollu girişimlere karşı hassastır ve yapılandırılmış ışık, ortam ışığına ve çoklu cihaz girişimine karşı hassastır. Dokusu olmayan alanlarda, pahalı küresel optimizasyon teknikleri gereklidir, özellikle geleneksel öğrenmeyen yöntemlerde, pasif stereo elde etmek zordur.

Aktif stereo Olası bir çözüm sunar: bir çift kızılötesi stereo kamera kullanın, sözde rastgele bir model kullanın ve sahneyi desenli bir kızılötesi ışık kaynağıyla doku haline getirin (Şekil 1'de gösterildiği gibi). Algılama dalga boyunu rasyonel bir şekilde seçerek kamera, aktif aydınlatma ve pasif ışığın kombinasyonunu yakalar, yapılandırılmış ışığın kalitesini iyileştirir ve iç ve dış sahnelerde güçlü bir çözüm sunar. Bu teknoloji onlarca yıl önce önerilmiş olmasına rağmen, ancak son zamanlarda ticari ürünlerde ortaya çıkmıştır. Bu nedenle, aktif binoküler stereo görüntülerden derinlik çıkarmak için nispeten az sayıda önceki çalışma vardır ve büyük ölçekli yer gerçeği eğitim verileri henüz elde edilmemiştir.

Şekil 1: ActiveStereoNet (ASN), düzgün, ayrıntılı ve ölçülmemiş sonuçlar üretmek için bir çift düzeltilmiş kızılötesi görüntü elde etmek için Intel Realsense D D435 kamera kullanır.

Aktif binoküler stereo görüntüleme sisteminde birçok problem çözülmelidir. Bazı problemler, tüm dürbün sistemi problemlerinde ortaktır, örneğin, tıkalı piksellerin eşleştirilmesinden kaçınılmalıdır, bu da aşırı düzleşmeye, kalınlaşmış kenarlara ve / veya konturların kenarlarının yakınında uçan piksellere yol açabilir. Bununla birlikte, diğer bazı problemler aktif dürbün sistemine özgüdür, örneğin, çok Yüksek çözünürlüklü görüntü Projektör tarafından üretilen yüksek frekanslı modellerle eşleşmek için; Yerel minimum Ayrıca yakın ve uzak yüzeylerdeki izdüşüm desenleri arasındaki farkı da telafi etmelidir. Parlaklık farkı . Ayrıca, yer gerçeği derinliğine sahip büyük aktif dürbün veri setlerinin denetimini kabul edemez, çünkü Uygun veri yok .

Bu yazıda, ActiveStereoNet , Bu aktif stereo sistemlerin ilkidir (aktif stereo sistemler) Derin öğrenme çözümleri . Temel gerçeğin olmaması nedeniyle, yöntemimiz tamamen kendi kendine denetlenir, ancak kesin derinlik üretir, alt piksel doğruluğu pikselin 1 / 30'udur; yaygın aşırı yumuşatma sorunundan muzdarip olmaz, kenarları korur ve açıkça işler. Oklüzyon.

Yeni bir Yeniden yapılandırma hatası (yeniden yapılandırma kaybı) , Gürültüye ve örülmemiş yamalara karşı daha sağlamdır ve ışıklandırmadaki değişikliklere karşı değişmeden kalır. Önerdiğimiz kayıp, pencere tabanlı maliyet toplama ve uyarlanabilir destek ağırlıklandırma şeması aracılığıyla optimize edilir. Bu maliyet toplama, sınırları korur ve ağın çekici sonuçlar elde etmesini sağlamanın anahtarı olan kayıp işlevini yumuşatır.

Son olarak, geçersiz bölgeleri tahmin etme görevinin (ör. Tıkanma), bulanıklığı azaltmak için esas olan kesin doğruluk olmadan nasıl gerçekleştirilebileceğini gösteriyoruz. Gerçek veriler ve sentetik veriler üzerinde çok sayıda nicel ve nitel değerlendirme yaptık, bu da teknolojinin birçok zorlu senaryoda son teknoloji sonuçlar elde ettiğini kanıtladı.

Şekil 2: ActiveStereoNet mimarisi

ActiveStereoNet'in mimarisi Şekil 2'de gösterilmektedir. İlk eşitsizlik tahminini çıkarmak için düşük çözünürlüklü bir maliyet hacminin inşa edildiği iki aşamalı bir ağ kullanıyoruz. Nihai eşitsizlik haritasını tahmin etmek için çift doğrusal yukarı örneklemeden sonra bir artık ağ kullanılır. En alttaki Geçersiz Kılma Ağı da güven haritasını tahmin etmek için uçtan uca eğitilmiştir.

Şekil 3: Parlaklık kaybı (sol), LCN kaybı (orta) ve önerilen ağırlıklı LCN kaybı (sağda) karşılaştırması.

Önerdiğimiz kayıp, tıkanmaya karşı daha sağlamdır, pikselin parlaklığına bağlı değildir ve düşük dokulu alanlardan etkilenmez.

Deneyler ve sonuçlar

ActiveStereoNet'i (ASN) değerlendirmek için bir dizi deney gerçekleştirdik. Derinlik tahmininin doğruluğunu analiz etmeye ve önceki sonuçlarla karşılaştırmaya ek olarak, amaçlanan kaybın her bir bileşeninin sonuçları nasıl etkilediğini incelemek için ablasyon çalışmalarının sonuçlarını da sağlıyoruz. Ek materyalde, pasif (RGB) stereoda önerdiğimiz kendi kendini denetleyen kayıp yöntemimizin uygulanabilirliğini de değerlendirdik. Şema daha yüksek genelleme yeteneği gösterdi ve birçok kıyaslamada etkileyici sonuçlar elde etti. sonucu.

Binoküler stereo eşleştirme değerlendirmesi

Bu bölümde, gerçek veriler üzerindeki deneylerde yöntemimizi en gelişmiş stereo algoritmalarıyla niteliksel ve niceliksel olarak karşılaştırmak için geleneksel binoküler stereo eşleştirme göstergelerini (titreşim ve sapma gibi) kullanıyoruz.

Titreme ve sapma

Bir stereo sistemin temel standardının b olduğu, odak uzunluğunun f ve alt piksel paralaks doğruluğunun is olduğu varsayıldığında, paralaks doğruluğunun derinlik hatası e, derinliğin karesiyle orantılıdır Z. Eşitsizlik hatasının derinlik üzerindeki etkisi değişken olduğundan, bazı basit değerlendirme ölçütleri (ortalama eşitsizlik hatası gibi) tahmini derinliğin kalitesini etkili bir şekilde yansıtamaz. Yöntemimiz önce derinlik tahminindeki hatayı işaretler ve ardından eşitsizlikte karşılık gelen hatayı hesaplar.

ASN'nin alt piksel doğruluğunu değerlendirmek için düz bir duvarın önünde kamera tarafından kaydedilen 100 kare görüntü kaydettik.Kamera ile duvar arasındaki mesafe 500 mm ile 3500 mm arasında değişiyor ve 100 kare var ve ardından kamera 50 derecelik bir açıyla bakıyor. Eğimli yüzeydeki görüntüyü değerlendirmek için duvarda 100 kare daha kaydedildi. Bu örnekte, elde edilen sonuçları, yüksek sağlamlıklı düzlem uydurma ile elde edilen "temel gerçek" ile karşılaştırıyoruz.

Şekil 5. En son teknolojinin kantitatif değerlendirmesi.

Metodumuzun veri sapması bir büyüklük sırasına göre azaltılır, alt piksel doğruluğu 0,03 pikseldir ve titreşim çok düşüktür (metne bakınız). Duvardan 3000 mm uzaklık olduğunda da çeşitli senaryolar altında beklenen nokta bulutunu gösteriyoruz. Uzun mesafeye (3 metre) rağmen, sonuçlarımızın diğer yöntemlere göre daha az gürültülü olduğunu lütfen unutmayın.

Doğruluğu ifade etmek için, sapmayı tahmin edilen derinlik ile gerçek değer arasındaki ortalama hata l1 olarak hesaplarız. Şekil 5, kullandığımız yöntemin derinlik sapmasını ve sensör çıktısını, mevcut en iyi yerel stereo yöntemini (PatchMatch, HashMatch) ve kullandığımız en gelişmiş denetimsiz eğitim modelini ve Nokta bulutunun yüzey normal rengini görselleştirdi. Sistemimizin duvardan tüm mesafelerde performansı diğer yöntemlere göre önemli ölçüde daha iyidir ve derinlik arttıkça hatası önemli ölçüde artmaz. Sistemimizin ilgili alt piksel eşitsizliği doğruluğu 1/30 pikseldir ve yukarıdaki denklem kullanılarak eğri uydurularak elde edilir (ayrıca Şekil 5'te verilmiştir). Bu, diğer yöntemlerden daha doğru olan bir büyüklük sırasıdır (0,2 pikselden yüksek değil).

Gürültüyü göstermek için titreşimi derinlik hatasının standart sapması olarak hesaplarız. Şekil 5, yöntemimizin diğer yöntemlere kıyasla hemen hemen her derinlikte en düşük titreşimi sağladığını göstermektedir.

Mevcut en iyi teknoloji ile karşılaştırma

Zor senaryolarda ASN'nin daha nitel bir değerlendirmesi Şekil 6'da gösterilmektedir. PatchMatch ve HashMatch gibi yerel yöntemlerin, aktif ve pasif ışığın karışık aydınlatma sahnelerini işleyemediği ve bu nedenle tamamlanmamış fark görüntüleri üreteceği (eksik pikseller siyah olarak görüntülenir) görülebilir. Yarı küresel şema kullanan sensör çıkışı, bu tür veriler için daha uygundur, ancak yine de görüntü gürültüsüne karşı hassastır (dördüncü sütundaki gürültü sonuçlarına dikkat edin). Buna karşılık, yöntemimiz tam bir eşitsizlik haritası oluşturabilir ve net sınırları koruyabilir.

Şekil 6. Mevcut en iyi teknolojinin nitel değerlendirmesi. Yöntemimiz ayrıntılı eşitsizlik haritaları oluşturabilir. Mevcut son teknoloji yöntemler, işlenmemiş alanlardan etkilenmektedir. Sensörün yarı küresel şeması daha gürültülü ve çıktı çok düzgün.

Gerçek sekansların daha fazla örneği, yüzey normalleriyle renklendirilmiş bir nokta bulutu gösterdiğimiz Şekil 8'de (sağda) gösterilmektedir. Çıktımız tüm ayrıntıları korur ve çok düşük gürültüye sahiptir. Buna karşılık, kendi kendini denetleyen yöntemler kullanılarak eğitilen ağımız aşırı derecede düzgün çıktılar üretti.

Şekil 8: Sentetik veriler ve gerçek veriler üzerinde değerlendirme

Sonuçlarımızda doku çoğaltma sorunu da yok, bunun nedeni muhtemelen doğrudan piksel yoğunluğundan öğrenmek yerine eşleştirme işlevini açıkça modellemek için maliyet hacmini kullanmamızdır. Eğitim verileri esas olarak ofis ortamından alınmış olsa da, ASN'nin oturma odası, oyun odası, yemek odası ve insanlar, kanepeler, bitkiler gibi çeşitli hedefler gibi çeşitli test senaryolarını iyi kapsadığını görüyoruz. Tablolar vb. Detaylar şekilde gösterilmiştir.

Tartışma, sınırlamalar ve gelecekteki talimatlar

Bu yazımızda, aktif binoküler stereo görüntüleme sistemleri için ilk derin öğrenme yöntemi olan ActiveStereoNet'i (ASN) tanıttık. Kendi kendini denetleyen ayarlarda aktif stereo sorununu çözmek için yüksek frekans modu, aydınlatma efektleri ve piksel tıkanması ile başa çıkmak için yeni bir kayıp işlevi tasarladık. Yöntemimiz, diğer aktif stereo eşleştirme yöntemlerinden daha büyük bir büyüklük sırası olan 0,03 piksellik alt piksel doğruluğu ile çok doğru yeniden yapılandırma gerçekleştirebilir. Diğer yöntemlerle karşılaştırıldığında, ASN çok düzgün ayrıntılar üretmez ve net kenarları olan ve başıboş pikseller içermeyen eksiksiz bir derinlik haritası oluşturabilir. Bir yan ürün olarak arıza ağı, kapatma işlemi gerektiren gelişmiş uygulamalar için kullanılabilecek bir paralaks güven haritası elde etmek için kullanılabilir. Çok sayıda deney, NVidia Titan X grafik kartını ve farklı zorlu senaryolarda görevleri işlemek için en gelişmiş yöntemleri kullanarak kare başına ortalama çalışma süresinin 15 ms olduğunu göstermiştir.

Sınırlamalar ve gelecekteki talimatlar

Yöntemimiz ikna edici sonuçlar verse de, maliyetin düşük çözünürlüğü nedeniyle şeffaf nesnelerde ve ince yapılarda hala sorunlar var. Gelecekteki çalışmalarda, anlamsal bölümleme gibi daha gelişmiş görevlerin uygulama durumlarını ele almak için çözümler önereceğiz.

Xinzhiyuan AI WORLD 2018 [Erken Kayıt Bileti] satışa çıktı!

Xinzhiyuan, AI WORLD 2018 konferansını 20 Eylül'de Pekin'deki Ulusal Kongre Merkezi'nde gerçekleştirecek ve makine öğrenimi vaftiz babası, CMU profesörü Tom Mitchell, Mikes Tekmark, Zhou Zhihua, Tao Dacheng, Chen Yiran ve diğer AI liderlerini makine zekasına dikkat etmeye davet edecek. Ve insan kaderi.

Konferans resmi web sitesi:

Şu andan 19 Ağustos'a kadar Xinzhiyuan, küresel yapay zeka liderleriyle iletişim kurmak ve küresel yapay zeka endüstrisinin sıçrama gelişimine tanık olmak için sınırlı sayıda erken kayıt bileti satacak.