2D görüntülerden 3D hedef tespiti nasıl yapılır, bilgisayarla görme araştırmaları için her zaman bir zorluk olmuştur.
12 Mart'ta Google AI, resmi blogunda MediaPipe Objectron adlı bir algoritma çerçevesi yayınladı.Bu algoritma çerçevesini kullanarak, bir cep telefonu olduğu sürece, 3D nesnelerin konumu, boyutu ve yönü gerçek zamanlı olarak 2D videolardan tanınabilir. . Bu teknoloji, robotların, kendi kendine giden arabaların, görüntü alımının ve artırılmış gerçekliğin bir dizi uygulamayı gerçekleştirmesine yardımcı olabilir.
Ayrı olarak açıklamak gerekirse, MediaPipe, ağırlıklı olarak farklı algı verileri biçimlerini oluşturmak ve işlemek için kullanılan açık kaynak kodlu bir çapraz platform çerçevesidir; Objectron ise MediaPipe'da uygulanır ve mobil cihazlarda nesneye yönelik 3D sınırlayıcı kutuları gerçek zamanlı olarak hesaplayabilir.
Bilgisayar görüşü alanında, 3D hedefleri izlemek, özellikle akıllı telefonlar gibi sınırlı bilgi işlem kaynaklarında zor bir sorundur. Veri eksikliği ve nesnelerin çeşitli görünümlerini ve şekillerini yalnızca 2B görüntüler mevcutken çözme ihtiyacı nedeniyle durum daha da zorlaşır.
Bu sorunu çözmek için Google Objectron ekibi, 2B videolardaki nesneler için 3B sınırlayıcı kutuları işaretlemede kullanılabilecek bir dizi araç geliştirdi. 3B sınırlayıcı kutularla, nesnelerin pozu ve boyutu kolayca hesaplanabilir. Açıklayıcı, 3B görünümde bir 3B sınırlayıcı kutu çizebilir ve 2B video çerçevesindeki projeksiyonu görüntüleyerek konumunu doğrulayabilir. Statik nesneler için, hedef nesneye yalnızca tek bir çerçevede açıklama eklemeleri gerekir.
Sağda: 3B dünyada 3B sınırlayıcı kutuyu işaretleyen yüzey ve nokta bulutu algılama. Sol: Açıklamalı 3B sınırlayıcı kutunun izdüşümü, açıklamayı doğrulamak için video karesinin üzerine yerleştirilir.
Ekip, yapay zeka modeli tahminlerinin doğruluğunu artırmak için gerçek dünya eğitim verilerini desteklemek amacıyla, AR Sentetik Veri Üretimi (artırılmış gerçeklik sentetik veri üretimi) adı verilen yeni bir yöntem de geliştirdi. Artırılmış gerçeklik (AR) oturumu verileriyle sahneye sanal nesneler yerleştirerek, kamerayı uçağı algılamak ve hedef nesnenin olası konumunu oluşturmak için aydınlatmayı tahmin etmek ve sahneye uyan aydınlatma üretmek için kullanmanıza olanak tanır. Bu yöntem, sahnenin geometrisine saygı duyan ve gerçek arka plana sorunsuz bir şekilde uyum sağlayan işleme nesneleri içeren yüksek kaliteli sentetik veriler üretebilir.
Ağın örnek sonuçları: sol, tahmini sınırlayıcı kutuyla orijinal 2B görüntüdür; ortadaki Gauss dağılımıyla nesne algılamadır; sağ, tahmin edilen bölümleme maskesidir.
Yukarıdaki iki yöntem sayesinde Google, algılama doğruluğunu% 10 artırmak için gerçek dünya verilerini ve artırılmış gerçeklik sentetik verilerini birleştirdi.
Artırılmış gerçeklik sentetik veri üretimine bir örnek: sanal beyaz-kahverengi tahıl kutusu, gerçek mavi kitabın yanında gerçek sahneye dönüştürülür.
Doğruluktaki iyileştirme bir yönüdür Google, Objectron modelinin mevcut sürümünün mobil cihazlarda gerçek zamanlı olarak çalışacak kadar "hafif" olduğunu söyledi. LG V60 ThinQ, Samsung Galaxy S20 + ve Sony Xperia 1 II cep telefonlarındaki Adreno 650 mobil grafik çipi ile, temelde gerçek zamanlı algılama olmak üzere saniyede yaklaşık 26 kare görüntü işleyebilir.
Ardından Google ekibi şunları söyledi: "Çözümlerimizi daha fazla araştırmacı ve geliştiriciyle paylaşmanın yeni uygulama durumlarına ve yeni araştırma çalışmalarına ilham vereceğini umuyoruz. Modeli gelecekte daha fazla kategoriye genişletmeyi planlıyoruz. Ve ekipman performansını daha da iyileştirin. "