Sektör | Tek bir hareketli kamera, hareketli nesnelerin derinliğini tahmin ediyor, Google yeni sorunlara meydan okuyor

"

Google'ın yeni araştırması, hareketli bir durumda tek bir kamera + kamera ve nesnelerin derinlik tahminini çözmek için yeni bir derin öğrenme tabanlı yöntem öneriyor.

Metin | Yang Xiaofan

"

AI Technology Review Press: İnsan görsel sisteminin alışkın olduğumuz ama aslında son derece güçlü bir işlevi vardır, yani karşılık gelen üç boyutlu dünyanın görünümü, düzlem görüntüden çıkarılabilir. Aynı anda hareket eden birden fazla nesnenin bulunduğu karmaşık bir ortamda bile, insanlar bu nesnelerin geometrik şekilleri ve derinlik ilişkileri hakkında makul tahminler yapabilirler.

Bununla birlikte, benzer şeyler bilgisayarla görü açısından önemli bir zorluk teşkil etmektedir.Kamera ve fotoğrafı çekilen nesne sabitken tüm durumları kararlı bir şekilde çözmek mümkün değildir ve kamera ve nesneler uzayda serbestçe hareket ettiğinde daha da zordur. Doğru sonucu alın.

Bunun nedeni, geleneksel 3B yeniden yapılandırma algoritmalarının trigonometrik hesaplamalara dayanması ve aynı nesnenin aynı anda en az iki farklı açıdan gözlemlenebildiğini ve 3B modelin yakalanan görüntüler arasındaki farkla (paralaks) çözüldüğünü varsaymak gerekir. Böyle bir önermeyi karşılamak için, ya bir çoklu kamera dizisi gereklidir ya da fotoğrafı çekilecek nesne, tek bir kameranın uzayda hareket etmesine ve gözlemlemesine izin verecek şekilde tamamen sabit tutulmalıdır. Daha sonra, yalnızca tek bir kamera olması durumunda, hareketli nesneler ya derinlik hesaplamasında göz ardı edilir ya da doğru sonuç hesaplanamaz.

Google'ın yeni araştırması "Donmuş İnsanları İzleyerek Hareket Eden İnsanların Derinliklerini Öğrenmek" adlı yeni araştırmasında, tek bir kamera + kamera ve hareketli durumdaki nesnelerin derinlik tahminini çözmek için yeni bir derin öğrenmeye dayalı yöntem önerdiler. Her videoda iyi sonuçlar. Bu yöntemde, insan pozlarının ve ortak nesne şekillerinin önceden öğrenilmesi, görüntülerin doğrudan nirengi hesaplamasının yerini alır. AI Technology Review aşağıdaki gibi tanıtıldı.

3D rekonstrüksiyon / derinlik tahminini "öğrenmek" için makine öğrenimi yöntemlerini kullanmanın yeni bir şey olmadığını belirtmekte fayda var, ancak bu Google çalışması özellikle hem kameranın hem de nesnenin hareket ettiği ve odak noktasının Konu bir kişi, sonuçta kişinin derinlik tahmini AR ve 3D video özel efektlerinde kullanılabilir.

Eğitim verilerini akıllıca bulun

Bu tür yöntemlerin çoğu gibi, Google da bu modeli denetimli bir yöntemle eğitmeyi seçti. Daha sonra, hareketli bir kamera tarafından çekilen ve doğru bir derinlik haritasına sahip doğal bir sahne videosu bulmaları gerekir. Bu türden çok sayıda video bulmak kolay değil. Video oluşturma yöntemini seçerseniz, bu çok gerçekçi bir modelleme gerektirir ve çeşitli sahneler, ışıklandırma ve karmaşıklığın bir kombinasyonu altında doğal karakter eylemleri sunar; bu sadece çok zor değil, aynı zamanda gerçek sahneyi genellemek ister. Hala belli bir zorluk derecesi var. Başka bir yöntem de gerçek dünyada böyle bir video çekmektir.Kameranın RGBD'yi (renkli görüntü + derinlik haritası) desteklemesi gerekir.Microsoft'un Kinect'i yaygın olarak kullanılan düşük maliyetli bir çözümdür; ancak bu çözümle ilgili sorun, bu tür kameraların genellikle yalnızca uygulanabilir olmasıdır. İç ortamda ve 3 boyutlu yeniden yapılandırma sürecinde genellikle kendine has sorunları vardır ve istenen doğruluğu elde etmek zordur.

Esprili araştırmacılar videoları YouTube'da kullanmayı düşündüler. YouTube'daki devasa videolar arasında çeşitli temalar, sahneler ve çekim teknikleri vardır. Bir tür video bu görev için son derece yararlıdır: videodaki kişi, zaman içinde gibi davranır, pozisyonunu ve duruşunu sabit tutar ve ardından bir kamera uzayda hareket eder , Tüm sahneyi aldı. Sahnenin tamamındaki nesneler sabitlendiğinden, üç boyutlu sahnenin tamamını doğru bir şekilde geri yüklemek için geleneksel nirengi tabanlı yöntem kullanılabilir ve yüksek hassasiyetli bir derinlik haritası elde edilebilir. Google araştırmacıları, çeşitli farklı gerçek sahnelerde poz veren farklı sayıda insan da dahil olmak üzere bu tür yaklaşık 2.000 video topladı.

Hareket eden insanlar için mesafeyi tahmin edin

Yukarıda bahsedilen "zamanlı" video, hareket eden bir kamera + sabit bir nesne için eğitim verileri sağlar, ancak araştırmanın nihai amacı, kamera ve nesnenin aynı anda hareket ettiği durumu çözmektir. Bu farkın üstesinden gelmek için, Google araştırmacılarının ağın girişini yapılandırması gerekir.

Videodaki her kare için derinlik haritasını ayrı ayrı çıkarmak basit bir çözümdür (yani, modelin girdisi tek bir karedir). "Sabit zamanlı" video ile eğitilen model, tek bir görüntü karesinin derinlik tahmininde en iyi performansı elde edebilse de, Google araştırmacıları, modelin performansını daha da iyileştirmek için birden çok bilgi çerçevesi de kullanabileceklerine inanıyor. Örneğin, aynı sabit nesne için, kameranın hareketi, derinlik tahmini için çok yararlı ipuçları (paralaks) sağlayabilen, farklı perspektiflere sahip iki kare oluşturur. Bu bilgiyi kullanmak için araştırmacılar, her bir giriş çerçevesi ile başka bir çerçeve arasındaki iki boyutlu optik akışı (iki çerçeve arasındaki piksel kayması) hesapladı. Optik akış, hem sahnenin derinliğine hem de kameranın göreceli konumuna bağlıdır, ancak kameranın konumu bilinmediğinden, ikisi arasındaki bağımlılık, ilk derinlik haritasını elde etmek için optik akış alanından ortadan kaldırılabilir. Bu şekilde elde edilen derinlik haritası yalnızca sahnenin statik kısmı için etkilidir.Ayrıca, hareketli insanlarla da ilgilenmek için, araştırmacılar insanları ilk derinlik haritasından maskelemek için bir karakter segmentasyon ağı eklediler. Daha sonra ağın girişi şu üç bölümden oluşur: RGB renkli görüntü, kişi maskeleme ve paralaks ile hesaplanan maskelemeli derinlik haritası.

Bu tür girdiler için, ağın görevi, insan alanının derinlik haritasını tamamlamak ve tüm resmin derinlik haritasında bazı iyileştirmeler yapmaktır. İnsan vücudu nispeten sabit bir şekle ve boyuta sahip olduğundan, ağ bu önceleri eğitim verilerinden kolayca öğrenebilir ve daha doğru bir derinlik tahmini verebilir. Eğitim tamamlandıktan sonra model, kamera ve karakter hareketlerinde keyfi değişikliklerle doğal çekim videoları işleyebiliyor.

Diğer mevcut mükemmel yöntemlerle karşılaştırma aşağıda gösterilmiştir.

Derinlik haritası aracılığıyla 3B video efektini gerçekleştirin

Doğru bir derinlik haritası aldıktan sonra, basit ve yaygın bir kullanım yöntemi, aşağıdaki şekilde gösterildiği gibi alan derinliği ve sanal odak efektleri elde etmektir.

Diğer kullanımlar için, aşağıdaki şekilde gösterildiği gibi, bir "3B görüntüyü" sentezlemek için küçük bir perspektif dönüşümü gerçekleştirmek üzere derinlik haritasıyla birleştirilmiş orijinal görüntüyü kullanabilirsiniz; görüntüye doğru derinlik ve boyuta sahip 3B öğeler eklemek bile zor değildir.

Kağıt adresi: https://arxiv.org/abs/1904.11111

ai.googleblog.com aracılığıyla, AI teknolojisi inceleme derlemesi

2019 Küresel Yapay Zeka ve Robotik Zirvesi

Çin Bilgisayar Derneği'nin ev sahipliği yaptığı ve Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019) düzenlenecek 12-14 Temmuz 2019 Shenzhen'de düzenlendi.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Bugün, kupon kodu 1.000 yuan olan sınırlı sayıda 3 bilet var.Orijinal bilet fiyatı 1999 yuan ve şu anki fiyat sadece 999 yuan. Stoklar tükenirken sadece 3 bilet var. (Kullanmak için aşağıdaki bağlantılardan herhangi birini açın, ilk önce hizmet alır)

https://gair.leiphone.com/gair/coupon/s/5cf4e5cf8e919

https://gair.leiphone.com/gair/coupon/s/5cf4e5cf8e64f

https://gair.leiphone.com/gair/coupon/s/5cf4e5cf8e3f8

Tıklamak Orijinali okuyun , ICLR 2019 Facebook ve Google'ın seçili makalelerine genel bir bakış için bu makaleye göz atın

Xuanzang'ın Kutsal Yazıları-Heilongjiang Güzel Sanatlar Yayınevi 2012, Wang Hongli Tarafından Boyanmış
önceki
Cengiz Han-Heilongjiang Güzel Sanatlar Yayınevi 2012 Wang Hongli Tarafından Boyanmış
Sonraki
Academia | Büyük, nadir ve açık görsel tanıma kategorilerini aynı anda nasıl ele alabilirim? Berkeley AI Enstitüsü açık bir uzun kuyruk tanıma yöntemi öneriyor
20. Yüzyılda Korsanlar [2. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 2]
Netizenler 3 gün boyunca OnePlus 7 Pro'yu kullandı ve Apple iPhone'un gerçekten takıldığını hissetti!
20. Yüzyılda Korsanlar [2. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 1]
20. Yüzyılda Korsanlar [1. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 2]
Makine öğrenimi modellerindeki hataları bulmak çok mu zor? DeepMind üç iyi yöntem sundu
Kang Dexin çöktü, Xingquan, Shanghai Investment ve League of Nations, kaçmadan bir süre "gök gürültüsüne bastı"
20. Yüzyılda Korsanlar [1. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 1]
Qin ve Chu Hanedanlığı'ndaki Büyük Geyik Savaşı - Changjiang Edebiyat ve Sanat Yayınevi 1983, Yuan Yixian ve He Sheng tarafından boyanmıştır.
Çin'deki 90'lar sonrası nesil Buffettin pahalı öğle yemeğini fotoğrafladı. Kim o?
Qin ve Chu Hanedanlığı'ndaki Büyük Geyik Savaşı - Changjiang Edebiyat ve Sanat Yayınevi, 1983, Yuan Yixian ve He Sheng tarafından boyanmış
Uber Yapay Zeka Araştırma Enstitüsü, ICLR 2019'un en iyi kağıt "piyango hipotezi" ni derinden yıkıyor!
To Top