Google gerçek zamanlı uçtan uca binoküler sistem derin öğrenme ağı stereonet

önsöz

Binoküler eşleştirme, ortamdaki üç boyutlu derinlik bilgisini elde edebilir ve ardından robotlar, insansız araçlar ve VR gibi gerçek sahnelerdeki uygulamalar için güçlü bilgiler sağlayabilir.Yüksek güvenlik doğrulamalı yüz ödeme alanında, üç boyutlu yüz doğrulama da kademeli olarak yapılmaktadır. Düşük güvenlikli iki boyutlu yüz doğrulamayı değiştirin. Son yıllarda, derin öğrenme binoküler sistem eşleştirmesi çok iyi bir ilerleme kaydetti ve birçok gelişmiş ağ performansı, geleneksel yöntemleri aştı. Bununla birlikte, derin öğrenme dürbün sistemi eşleştirmesi hala birçok pratik problemle karşı karşıyadır ve bunlardan biri gerçek zamanlı olarak çıkarsama yapamamaktır. Bu, pratikte binoküler eşleştirme ağının uygulanmasını ciddi şekilde kısıtlar. Son zamanlarda, bir Google araştırmacısı, gerçek zamanlı bir uçtan uca binoküler sistem derin öğrenme küçük ağ stereonetini önerdi ve çıkarım hızı, önceki yöntemin çok ötesine geçerek 60FPS'ye ulaştı.

Github adresi:

https://github.com/meteorshowers/StereoNet

arka plan analizi

Stereo görüntüden derinlik tahminini elde etmek için, tipik bir stereo eşleştirme algoritması dört adım içerir: eşleştirme maliyet hesaplama, maliyet toplama, optimizasyon ve uyumsuzluk iyileştirme. Mevcut son araştırma, eşleşen maliyeti doğru bir şekilde hesaplamak için CNN'lerin nasıl kullanılacağına ve eşitsizlik haritasını optimize etmek için yarı küresel eşleştirmenin (SGM) nasıl kullanılacağına odaklanmaktadır.

Geleneksel eşleştirme algoritması daha klasik yoğun eşleştirme algoritmasıdır SGM algoritması, yarı küresel stereo eşleştirme algoritması Yarı Küresel Eşleştirme, SGM, 20051 yılında akademisyen Hirschmüller tarafından önerildi, önerinin arka planı bir yandan yüksek verimli yerel algoritmanın yerel tabanlı olmasıdır. Pencere eşitsizliğinin aynı olduğu varsayımı çoğu durumda doğru değildir, bu da zayıf eşleştirme etkilerine neden olur; Öte yandan, küresel algoritma iki boyutlu bitişik piksel eşitsizliği (pürüzsüzlük kısıtlamaları gibi) arasındaki kısıtlamalar yoluyla daha iyi eşleştirme etkileri elde eder, ancak Bellek kullanımı büyük ve hız yavaş. İkisinin avantajlarını birleştirmek ve ikisinin eksikliklerinden kaçınmak için, SGM algoritması hala küresel çerçeveyi kullanıyor, ancak enerji fonksiyonunu en aza indirme adımını hesaplarken küresel algoritmadaki iki boyutlu küçültmeyi değiştirmek için yüksek verimli tek boyutlu bir yol toplama yöntemi kullanıyor. Algoritma, iki boyutlu optimuma yaklaşmak için tek boyutlu optimali kullanır ve ortaya çıkan eşitsizlik haritası, etki açısından global algoritmadan çok farklı değildir, ancak algoritmanın verimliliği büyük ölçüde geliştirilir.

Zbontar ve LeCun, bir çift 9 * 9 karo kullanarak eşleştirme maliyetini hesaplamak için derin bir Siyam ağı tasarladı ve ağ, döşemeler arasındaki benzerliği tahmin etmeyi öğrenmek için eğitildi. Yöntemleri, eşleştirme sonuçlarını iyileştirmek için maliyet toplama, SGM ve diğer paralaks optimizasyon yöntemlerini içeren klasik stereo eşleştirme sürecini de kullanır. Stereo derinlik tahminini iyileştirmek için daha fazla araştırma kullanılır Luo ve diğerleri, eşleştirme maliyet hesaplamasını çok etiketli bir sınıflandırma problemine dönüştüren daha hızlı bir Siyam ağı önerdiler. Shaked ve Wolf, eşleştirme maliyetini hesaplamak için yüksek hızlı bir ağ (karayolu ağı) ve eşitsizlik haritasının daha fazla optimizasyonunu kolaylaştıran eşitsizlik güven puanını tahmin etmek için küresel bir eşitsizlik ağı önerdi. Son zamanlarda, bazı yüksek performanslı binoküler sinir ağları ortaya çıktı, ancak video bellekleri ve çalışma hızları, pratik uygulamaların saha gereksinimlerinden çok uzaktır.Buna dayanarak, ECCV2018'de stereonet'in ortaya çıkışı, dürbün sisteminin çalışma hızını büyük ölçüde iyileştirir.

yazar hakkında

Bu çalışma, Google araştırmacısı Sameh Khamis tarafından ECCV18'de yayınlanan bir çalışmadır. Dr. Sameh Khamis Maryland Üniversitesi'nden, Maryland Üniversitesi Bilgisayar Bölümü Dekanı Profesör Larry S. Davis'in vesayeti altında mezun oldu.

Ağ yapısı analizi

Yukarıdaki şekil ağ mimarisini gösterir.Mavi kutudan önceki kısım kaba taneli derinlik tahminidir.Bu kısım önce Kodlayıcının yapısı aracılığıyla görüntü özelliklerini çıkarır ve ardından ilgili Maliyet Hacmini sol ve sağ resimlerin özelliklerinden alır ve ardından kullanır 3D evrişim işlemi 1/8 çözünürlüklü bir derinlik haritası elde eder.

Kaba taneli derinlik tahmini

Özellik çıkarma: Sol ve sağ görüntülerin ağırlıklarını paylaşan Siyam Ağı, sırasıyla sol ve sağ görüntülerin özelliklerini çıkarır ve alt örnekleme için K 55 evrişimli katmanları kullanır (K genellikle 3 veya 4 alır) Alt örnekleme sürecinde, evrişimin çıktı kanalı Sayı 32'de kalır ve sonra 6 artık blok (Artık Blok) vardır, her biri evrişime bağlı artık blok, parti normalizasyonu (Parti Normalleştirme), düzeltilmiş doğrusal birim (Leakey ReLU) ve diğer işlemler; sonuncusu düzenleme olmadan , Etkinleştirme katmanı olmadan evrişimli katman ve son olarak çıktı 32 kanal özellik haritası elde edin.

Maliyet Hacmi Eşleştirme: önce iki görüntü arasındaki korelasyonu karşılaştırın, iki özellik haritasını karşılaştırın ve maliyet hacmini elde etmek için temel olarak iki özellik haritası arasındaki farkı kullanın ve ardından toplu iş düzenleme ve etkinleştirme katmanı ile üç boyutlu evrişimi kullanın İşlemden sonra, nihayet her piksel için tek kanallı bir paralaks elde edilir.

Türetilebilir Arg Min: WTA stratejisini kullanarak maliyet hacmi ürününden nihai derinlik haritasını elde etmek için bu işlevi kullanın.

Hiyerarşik paralaks optimizasyonu - kenar yapısının yukarı örneklemesini düşünün

Kaba taneli derinlik tahmininden sonra, 1/8 çözünürlüklü derinlik haritası, çift doğrusal enterpolasyonun yukarı örnekleme stratejisi aracılığıyla doğrudan tam çözünürlüğe yükseltilir ve orijinal giriş RGB görüntüsü aynı boyuta kopyalanır. Ters evrişimin düşük performans gibi bazı dezavantajları vardır, bu nedenle bunun yerine çift doğrusal yukarı örnekleme ve evrişim işlemleri kullanılır. İlk olarak, derinlik haritası ve RGB görüntüsü birleştirilir (Birleştir) ve sonuçta ortaya çıkan birleştirilmiş tensör, 32 kanallı bir temsil tensörü elde etmek için 33 evrişim işleminden geçer ve ardından her biri 6 kalıntı bloğun (Artık Blok) işleminden geçer. Kalan blok, evrişim, parti normalizasyonu (Parti Normalizasyonu) ve düzeltilmiş doğrusal birim (Leakey ReLU) gibi işlemlerden kaynaklanmaktadır; ağı genişletmek için, her artık blokta bir genişletilmiş evrişim işlemi kullanılır ve son olarak Son tek kanallı derinlik haritasını elde etmek için 33'ün evrişimi.

Eşitsizlik haritasının çok düzeyli optimizasyon sürecindeki her bir ara sonuç aşağıda verilmiştir.Çok düzeyli optimizasyondan sonra ağ sonucunun önemli ölçüde iyileştirildiği görülmektedir.

Performans karşılaştırması

Stereonet'in üstün performansla gerçek zamanlı çıkarım yapabildiği görülebilir. Şu anda en gelişmiş gerçek zamanlı binoküler eşleştirme ağlarından biridir ve binoküler eşleştirme sistemlerinin uygulanması için sağlam bir temel oluşturur.

Tekrarlama kılavuzu:

avantaj:

Mobilenet, squeezenet vb. Gibi küçük ağlar alanındaki en son gelişim başarılarından dersler çıkarmak. Görüntü özelliği çıkarma bölümünde, altörnekleme için üç ardışık 5 * 5 büyük evrişim çekirdeği kullanılır, özellik haritası boyutunu orijinal görüntü boyutunun sekizde birine düşürür, ağ hesaplama yükünü büyük ölçüde azaltır ve sızdıran relu, vb. Operasyon, böylece stereonetin özellik çıkarma işlemi, minimum hesaplama yükü ile zengin görüntü özelliklerini çıkarabilir. İyileştirme aşamasında, keskin kenarlı ince bir eşitsizlik haritası elde etmek için eşitsizlik haritasının pürüzlü kenarlarını kademeli olarak iyileştirmek için yenilikçi bir şekilde artık kenar kurtarma modülü inşa edildi. Eğitim sürecinde, derin denetim fikri de benimsenir ve ağın her bir iyileştirme aşamasında yan çıktı çekilir ve gradyan ana taşıyıcıyı güçlendirmek için birden fazla kayıp entegre edilir.

Makaledeki iyileştirme yapısı, ağı gerçekleştirmek için önemli bir süreçtir ve aynı zamanda makalenin en önemli noktasıdır.Bunun için, yukarıdaki anlatım sürecinde, kod açıklamasını birleştirmek için özel olarak bir bölüm çıkarılmıştır.

yetersiz:

Son olarak, rgb görüntüsü eşitsizlik haritasını optimize etmek için kullanılır, bu da modelin genelleme kabiliyetinde özellikle ciddi bir soruna yol açar.Bu aynı zamanda diğer binoküler modellerde daha sonra çözülmesi gereken ciddi bir sorundur.

Kod:

Ticari nedenlerden dolayı, proje kodu açık kaynak değildir. Şu anda, bazı araştırmacılar ilgili araştırmayı tam olarak yeniden üretmiştir. Kod adresi Github'dur:

https://github.com/meteorshowers/StereoNet

Şu anda, yinelenen kod, kağıttaki rapor indeksinden biraz daha iyidir ve hız 30-50FPS hızında çıkarılabilir.

Pytorch hızlandırma hakkında derinlemesine araştırma yapan öğrenciler, hızı daha da artırmak için yinelenen yazarla iletişime geçebilirler.

Referanslar:

ECCV 2018

CVPR 2018

SIGGRAPH 2009

https://dl.acm.org/citation.cfm?id=1531330

CVPR 2005

TPAMI

https://core.ac.uk/download/pdf/11134866.pdf

Bu makale SIGAI tarafından orjinaldir

Yeniden yazdırmanız gerekirse, lütfen bu abonelik numarasına bir mesaj gönderin

Tam metin PDF, adresinde bulunabilir.

Orijinal metin WeChat Resmi Hesabı-SIGAI'de (SIGAICN) yayınlandı

Oğlan, 3 yaşındayken komşu bir köyde Tibet çoban köpeği tarafından ısırıldı. Şimdi normal bir yaşam sürmesi bekleniyor.
önceki
ABD medyası, Boeing için yabancı netizenleri "aklamaya" çalışıyor: Çin karşılık veriyor
Sonraki
Poop kürek memurları, köpeğin anoreksisinin nedenini buldunuz mu?
Hangi köpek türlerinin sıcak çarpmasına yatkın olduğunu biliyor musunuz? Kürek memurları dikkat ediyor ~
AI Geliştirme] Derin öğrenmeye dayalı çok hedefli video izlemenin uygulanması
Bilgisayarla görme teknolojisinin kişisel ilgisinin en son gelişimi
Dil modelinden Bert'in kararsızlığını ve GPT'nin ısrarını görmek için
PCB-RPP ve SGGNN Modellerinde Yüz Tanıma-Tartışmanın Yaya Tanıma
En kısa yolu bulmak için grafik sinir ağını (GNN) kullanın
Odak analizi | yalnız Zhou Hongyi, salıncak 360
Sıcak yaz aylarında köpekleri nasıl düzgün bir şekilde soğutabilirim?
Köpeğin vücudunun garip davranışları olduğunda, boktan kürek memurunu görmezden gelmeyin ~
AAAI 2019 Gaussian Transformer: doğal dil çıkarımı için hafif bir yöntem
Kediler size sevgi gösterdiklerinde genellikle ne yaparlar?
To Top