Lei Feng.com AI teknolojisi yorumu: İnsan görsel sisteminin alışkın olduğumuz ama aslında son derece güçlü bir işlevi var, yani karşılık gelen üç boyutlu dünya, düzlem görüntüsünden çıkarılabilir. Aynı anda hareket eden birden fazla nesnenin bulunduğu karmaşık bir ortamda bile, insanlar bu nesnelerin geometrik şekilleri ve derinlik ilişkileri hakkında makul tahminler yapabilir.
Bununla birlikte, benzer şeyler bilgisayarla görü açısından önemli bir zorluk teşkil etmektedir.Kamera ve fotoğrafı çekilen nesne sabitken tüm durumları kararlı bir şekilde çözmek mümkün değildir ve kamera ve nesneler uzayda serbestçe hareket ettiğinde daha da zordur. Doğru sonucu alın. Bunun nedeni, geleneksel 3B yeniden yapılandırma algoritmalarının trigonometrik hesaplamalara dayanması ve aynı nesnenin aynı anda en az iki farklı açıdan gözlemlenebildiğini ve 3B modelin yakalanan görüntüler arasındaki farkla (paralaks) çözüldüğünü varsaymak gerekir. Böyle bir önermeyi karşılamak için, ya bir çoklu kamera dizisi gereklidir ya da fotoğrafı çekilecek nesne, tek bir kameranın uzayda hareket etmesine ve gözlemlemesine izin verecek şekilde tamamen sabit tutulmalıdır. Ardından, yalnızca tek bir kamera olması durumunda, hareketli nesneler ya derinlik hesaplamasında göz ardı edilir veya doğru sonuç hesaplanamaz.
Google'ın yeni araştırması "Donmuş İnsanları İzleyerek Hareket Eden İnsanların Derinliklerini Öğrenmek" adlı yeni araştırmasında, tek bir kamera + kamera ve hareketli durumdaki nesnelerin derinlik tahminini çözmek için yeni bir derin öğrenmeye dayalı yöntem önerdiler. Her videoda iyi sonuçlar. Bu yöntemde, insan pozlarının ve ortak nesne şekillerinin önceden öğrenilmesi, görüntülerin doğrudan nirengi hesaplamasının yerini alır. Leifeng.com AI Technology Review aşağıdaki gibi tanıtıldı.
3D rekonstrüksiyon / derinlik tahminini "öğrenmek" için makine öğrenimi yöntemlerini kullanmanın yeni bir şey olmadığını belirtmekte fayda var, ancak bu Google çalışması özellikle hem kameranın hem de nesnenin hareket ettiği ve odak noktasının varoluş olduğu sahnelere odaklanıyor. Konu bir kişi, sonuçta kişinin derinlik tahmini AR ve 3D video özel efektlerinde kullanılabilir.
Bu tür yöntemlerin çoğu gibi, Google da bu modeli denetimli bir yöntemle eğitmeyi seçti. Daha sonra, hareketli bir kamera tarafından çekilen ve doğru bir derinlik haritasına sahip doğal bir sahne videosu bulmaları gerekir. Bu türden çok sayıda video bulmak kolay değil. Video oluşturma yöntemini seçerseniz, bu çok gerçekçi bir modelleme gerektirir ve çeşitli sahneler, ışıklandırma ve karmaşıklığın bir kombinasyonu altında doğal karakter eylemleri sunar; bu sadece çok zor değil, aynı zamanda gerçek sahneyi genellemek ister. Hala belli bir zorluk derecesi var. Başka bir yöntem de gerçek dünyada böyle bir video çekmektir.Kameranın RGBD'yi (renkli görüntü + derinlik haritası) desteklemesi gerekir.Microsoft'un Kinect'i yaygın olarak kullanılan düşük maliyetli bir çözümdür; ancak bu çözümle ilgili sorun, bu tür kameraların genellikle yalnızca uygulanabilir olmasıdır. İç mekan ortamında ve 3 boyutlu yeniden yapılandırma sürecinde genellikle kendine has sorunları vardır ve istenen doğruluğu elde etmek zordur.
Esprili araştırmacılar videoları YouTube'da kullanmayı düşündüler. YouTube'daki devasa videolar arasında çeşitli temalar, sahneler ve çekim teknikleri vardır. Bir tür video bu görev için son derece yararlıdır: videodaki kişi, zaman içinde gibi davranır, pozisyonunu ve duruşunu sabit tutar ve ardından bir kamera uzayda hareket eder , Tüm sahneyi aldı. Sahnenin tamamındaki nesneler sabitlendiğinden, üç boyutlu sahnenin tamamını doğru bir şekilde geri yüklemek için geleneksel nirengi tabanlı yöntem kullanılabilir ve yüksek hassasiyetli bir derinlik haritası elde edilebilir. Google araştırmacıları, çeşitli farklı gerçek sahnelerde poz veren farklı sayıda insan da dahil olmak üzere bu tür yaklaşık 2.000 video topladı.
Yukarıda bahsedilen "zamanlı" video, hareket eden bir kamera + sabit bir nesne için eğitim verileri sağlar, ancak araştırmanın nihai amacı, kamera ve nesnenin aynı anda hareket ettiği durumu çözmektir. Bu farkın üstesinden gelmek için, Google araştırmacılarının ağın girişini yapılandırması gerekir.
Basit bir çözüm, videodaki her kare için derinlik haritasını ayrı ayrı çıkarmaktır (yani, modelin girdisi tek bir karedir). "Sabit zamanlı" video ile eğitilen model, tek bir görüntü karesinin derinlik tahmininde en iyi performansı elde edebilse de, Google araştırmacıları, modelin performansını daha da iyileştirmek için birden çok bilgi çerçevesi de kullanabileceklerine inanıyor. Örneğin, aynı sabit nesne için, kameranın hareketi, derinlik tahmini için çok yararlı ipuçları (paralaks) sağlayabilen, farklı perspektiflere sahip iki kare oluşturur. Bu bilgiyi kullanmak için araştırmacılar, her giriş çerçevesi ile başka bir çerçeve arasındaki iki boyutlu optik akışı (iki çerçeve arasındaki piksel kayması) hesapladı. Optik akış, hem sahnenin derinliğine hem de kameranın göreceli konumuna bağlıdır, ancak kameranın konumu bilinmediğinden, ikisi arasındaki bağımlılık, ilk derinlik haritasını elde etmek için optik akış alanından ortadan kaldırılabilir. Bu şekilde elde edilen derinlik haritası yalnızca sahnenin statik kısmı için etkilidir.Ayrıca, hareketli insanlarla da ilgilenmek için, araştırmacılar insanları ilk derinlik haritasından maskelemek için bir karakter segmentasyon ağı eklediler. Daha sonra ağın girişi şu üç bölümden oluşur: RGB renkli görüntü, kişi maskeleme ve paralaks ile hesaplanan maskeleme ile derinlik haritası.
Bu tür girdiler için, ağın görevi, insan alanının derinlik haritasını tamamlamak ve tüm resmin derinlik haritasında bazı iyileştirmeler yapmaktır. İnsan vücudu nispeten sabit bir şekle ve boyuta sahip olduğundan, ağ bu öncelikleri eğitim verilerinden kolayca öğrenebilir ve daha doğru bir derinlik tahmini verebilir. Eğitim tamamlandıktan sonra model, kamera ve karakter hareketlerinde keyfi değişikliklerle doğal çekim videoları işleyebiliyor.
Diğer mevcut mükemmel yöntemlerle karşılaştırma aşağıda gösterilmiştir.
Doğru bir derinlik haritası elde ettikten sonra, basit ve yaygın bir kullanım yöntemi, aşağıdaki şekilde gösterildiği gibi alan derinliği ve sanal odak efektleri elde etmektir.
Diğer kullanımlar için, aşağıdaki şekilde gösterildiği gibi, bir "3B görüntüyü" sentezlemek için küçük bir perspektif dönüşümü gerçekleştirmek üzere derinlik haritasıyla birleştirilmiş orijinal görüntüyü kullanabilirsiniz; görüntüye doğru derinlik ve boyutta 3B öğeler eklemek bile zor değildir.
Kağıt adresi: https://arxiv.org/abs/1904.11111
ai.googleblog.com, Leifeng.com AI teknolojisi inceleme derlemesi aracılığıyla