Tek bir hareket kamerası, hareketli nesnelerin derinliğini tahmin eder, Google yeni sorunlara meydan okur

Lei Feng.com AI teknolojisi yorumu: İnsan görsel sisteminin alışkın olduğumuz ama aslında son derece güçlü bir işlevi var, yani karşılık gelen üç boyutlu dünya, düzlem görüntüsünden çıkarılabilir. Aynı anda hareket eden birden fazla nesnenin bulunduğu karmaşık bir ortamda bile, insanlar bu nesnelerin geometrik şekilleri ve derinlik ilişkileri hakkında makul tahminler yapabilir.

Bununla birlikte, benzer şeyler bilgisayarla görü açısından önemli bir zorluk teşkil etmektedir.Kamera ve fotoğrafı çekilen nesne sabitken tüm durumları kararlı bir şekilde çözmek mümkün değildir ve kamera ve nesneler uzayda serbestçe hareket ettiğinde daha da zordur. Doğru sonucu alın. Bunun nedeni, geleneksel 3B yeniden yapılandırma algoritmalarının trigonometrik hesaplamalara dayanması ve aynı nesnenin aynı anda en az iki farklı açıdan gözlemlenebildiğini ve 3B modelin yakalanan görüntüler arasındaki farkla (paralaks) çözüldüğünü varsaymak gerekir. Böyle bir önermeyi karşılamak için, ya bir çoklu kamera dizisi gereklidir ya da fotoğrafı çekilecek nesne, tek bir kameranın uzayda hareket etmesine ve gözlemlemesine izin verecek şekilde tamamen sabit tutulmalıdır. Ardından, yalnızca tek bir kamera olması durumunda, hareketli nesneler ya derinlik hesaplamasında göz ardı edilir veya doğru sonuç hesaplanamaz.

Google'ın yeni araştırması "Donmuş İnsanları İzleyerek Hareket Eden İnsanların Derinliklerini Öğrenmek" adlı yeni araştırmasında, tek bir kamera + kamera ve hareketli durumdaki nesnelerin derinlik tahminini çözmek için yeni bir derin öğrenmeye dayalı yöntem önerdiler. Her videoda iyi sonuçlar. Bu yöntemde, insan pozlarının ve ortak nesne şekillerinin önceden öğrenilmesi, görüntülerin doğrudan nirengi hesaplamasının yerini alır. Leifeng.com AI Technology Review aşağıdaki gibi tanıtıldı.

3D rekonstrüksiyon / derinlik tahminini "öğrenmek" için makine öğrenimi yöntemlerini kullanmanın yeni bir şey olmadığını belirtmekte fayda var, ancak bu Google çalışması özellikle hem kameranın hem de nesnenin hareket ettiği ve odak noktasının varoluş olduğu sahnelere odaklanıyor. Konu bir kişi, sonuçta kişinin derinlik tahmini AR ve 3D video özel efektlerinde kullanılabilir.

Eğitim verilerini akıllıca bulun

Bu tür yöntemlerin çoğu gibi, Google da bu modeli denetimli bir yöntemle eğitmeyi seçti. Daha sonra, hareketli bir kamera tarafından çekilen ve doğru bir derinlik haritasına sahip doğal bir sahne videosu bulmaları gerekir. Bu türden çok sayıda video bulmak kolay değil. Video oluşturma yöntemini seçerseniz, bu çok gerçekçi bir modelleme gerektirir ve çeşitli sahneler, ışıklandırma ve karmaşıklığın bir kombinasyonu altında doğal karakter eylemleri sunar; bu sadece çok zor değil, aynı zamanda gerçek sahneyi genellemek ister. Hala belli bir zorluk derecesi var. Başka bir yöntem de gerçek dünyada böyle bir video çekmektir.Kameranın RGBD'yi (renkli görüntü + derinlik haritası) desteklemesi gerekir.Microsoft'un Kinect'i yaygın olarak kullanılan düşük maliyetli bir çözümdür; ancak bu çözümle ilgili sorun, bu tür kameraların genellikle yalnızca uygulanabilir olmasıdır. İç mekan ortamında ve 3 boyutlu yeniden yapılandırma sürecinde genellikle kendine has sorunları vardır ve istenen doğruluğu elde etmek zordur.

Esprili araştırmacılar videoları YouTube'da kullanmayı düşündüler. YouTube'daki devasa videolar arasında çeşitli temalar, sahneler ve çekim teknikleri vardır. Bir tür video bu görev için son derece yararlıdır: videodaki kişi, zaman içinde gibi davranır, pozisyonunu ve duruşunu sabit tutar ve ardından bir kamera uzayda hareket eder , Tüm sahneyi aldı. Sahnenin tamamındaki nesneler sabitlendiğinden, üç boyutlu sahnenin tamamını doğru bir şekilde geri yüklemek için geleneksel nirengi tabanlı yöntem kullanılabilir ve yüksek hassasiyetli bir derinlik haritası elde edilebilir. Google araştırmacıları, çeşitli farklı gerçek sahnelerde poz veren farklı sayıda insan da dahil olmak üzere bu tür yaklaşık 2.000 video topladı.

Hareket eden insanlar için mesafeyi tahmin edin

Yukarıda bahsedilen "zamanlı" video, hareket eden bir kamera + sabit bir nesne için eğitim verileri sağlar, ancak araştırmanın nihai amacı, kamera ve nesnenin aynı anda hareket ettiği durumu çözmektir. Bu farkın üstesinden gelmek için, Google araştırmacılarının ağın girişini yapılandırması gerekir.

Basit bir çözüm, videodaki her kare için derinlik haritasını ayrı ayrı çıkarmaktır (yani, modelin girdisi tek bir karedir). "Sabit zamanlı" video ile eğitilen model, tek bir görüntü karesinin derinlik tahmininde en iyi performansı elde edebilse de, Google araştırmacıları, modelin performansını daha da iyileştirmek için birden çok bilgi çerçevesi de kullanabileceklerine inanıyor. Örneğin, aynı sabit nesne için, kameranın hareketi, derinlik tahmini için çok yararlı ipuçları (paralaks) sağlayabilen, farklı perspektiflere sahip iki kare oluşturur. Bu bilgiyi kullanmak için araştırmacılar, her giriş çerçevesi ile başka bir çerçeve arasındaki iki boyutlu optik akışı (iki çerçeve arasındaki piksel kayması) hesapladı. Optik akış, hem sahnenin derinliğine hem de kameranın göreceli konumuna bağlıdır, ancak kameranın konumu bilinmediğinden, ikisi arasındaki bağımlılık, ilk derinlik haritasını elde etmek için optik akış alanından ortadan kaldırılabilir. Bu şekilde elde edilen derinlik haritası yalnızca sahnenin statik kısmı için etkilidir.Ayrıca, hareketli insanlarla da ilgilenmek için, araştırmacılar insanları ilk derinlik haritasından maskelemek için bir karakter segmentasyon ağı eklediler. Daha sonra ağın girişi şu üç bölümden oluşur: RGB renkli görüntü, kişi maskeleme ve paralaks ile hesaplanan maskeleme ile derinlik haritası.

Bu tür girdiler için, ağın görevi, insan alanının derinlik haritasını tamamlamak ve tüm resmin derinlik haritasında bazı iyileştirmeler yapmaktır. İnsan vücudu nispeten sabit bir şekle ve boyuta sahip olduğundan, ağ bu öncelikleri eğitim verilerinden kolayca öğrenebilir ve daha doğru bir derinlik tahmini verebilir. Eğitim tamamlandıktan sonra model, kamera ve karakter hareketlerinde keyfi değişikliklerle doğal çekim videoları işleyebiliyor.

Diğer mevcut mükemmel yöntemlerle karşılaştırma aşağıda gösterilmiştir.

Derinlik haritası aracılığıyla 3B video efektini gerçekleştirin

Doğru bir derinlik haritası elde ettikten sonra, basit ve yaygın bir kullanım yöntemi, aşağıdaki şekilde gösterildiği gibi alan derinliği ve sanal odak efektleri elde etmektir.

Diğer kullanımlar için, aşağıdaki şekilde gösterildiği gibi, bir "3B görüntüyü" sentezlemek için küçük bir perspektif dönüşümü gerçekleştirmek üzere derinlik haritasıyla birleştirilmiş orijinal görüntüyü kullanabilirsiniz; görüntüye doğru derinlik ve boyutta 3B öğeler eklemek bile zor değildir.

Kağıt adresi: https://arxiv.org/abs/1904.11111

ai.googleblog.com, Leifeng.com AI teknolojisi inceleme derlemesi aracılığıyla

Otoyolların il sınırlarında ücretli geçiş istasyonlarını iptal edin, bilmeniz gerekenler
önceki
Günlük hayatta yaygın olarak kullanılan iki çeşit sos kendin yapsa da o kadar lezzetlidir ki
Sonraki
Güveni yeniden kazanın ve özel girişim finansmanı anketine yeniden başlayın
20 yıllık barbekü ustası size kuzu kebaplarını ve kebaplarını nasıl marine edeceğinizi öğretir, bu çeşniyi eklemeyin
MediaTek 5G SoC, güç veya hile yapmak için acele ediyor?
Asya Medeniyeti Diyaloğu Konferansı açılmak üzere! Mekana ilk bakış
Zhuhai'deki tüm dersler askıya alındı! Yağmur fırtınası kırmızı uyarısı etkili! Meteorolojik Gözlemevi: Şiddetli yağmur devam edecek
Ağır! Apple'ın büyük hamlesi: tarihteki en güçlü Mac piyasaya sürüldü ve iPadOS harika
Expo'da sadece çiçekler ve bahçeler değil, aynı zamanda "bilimsel çay kokusu" ve şiir var!
Tenis Fransız Açık: Wang Qiang'ın ilk tanıtım turu
9 WeChat en son pratik ipuçları: Gizlilik takibini engelleyin, sohbet yakınlığını kontrol edin ve reklamları kapatın
2019'da cep telefonu alırken iyi bir seçim yapın.Netizenler 6G depolamadan mı yoksa 8G'den mi şikayet etsin? Net bir şekilde analiz etmenize yardımcı olur
OPPO Xiaomi, ekran altı kamera çözümünü duyurdu: Gelecekteki cep telefonu böyle görünmeli
9.7 puan siyah ekran mobil oyun oyuncuları birkaç kez çıkmak istiyor! Gerçekte, kör insanlar bu seçeneğe sahip değildir ...
To Top