Hâlâ 2B nesne tespiti yapıyor musunuz? Google zaten 3D oynamaya başladı

Nesne algılama, bilgisayar görüşü alanındaki en kapsamlı araştırma konularından biridir. 2B nesne algılaması endüstride nispeten olgunlaşmış olsa da, 3B nesne algılamayı başarmak hala zordur.

Bir yandan mevcut 3B verileri çok azdır, diğer yandan tek bir kategori altındaki nesnelerin görünümü ve şekli çok çeşitlidir.

Mevcut koşullar altında, mevcut 2D görüntü verilerine dayalı olarak 3D inceleme nasıl yapılır?

Birkaç gün önce Google, günlük nesneler için-MediaPipe Objectron için mobil gerçek zamanlı bir 3D nesne algılama ardışık düzenini yayınladı.

Ardışık düzen, 2B görüntülerdeki nesneleri algılayabilir ve ardından bir makine öğrenimi modeli aracılığıyla nesnelerin pozunu ve boyutunu tahmin edebilir ve ardından modeli Google tarafından yeni geliştirilen 3B veri kümesine göre eğitebilir.

Bunların arasında MediaPipe, farklı modların algı verilerini işlemek için ardışık düzenler oluşturmak için kullanılan açık kaynaklı bir çapraz platform çerçevesidir; Objectron ise, mobil cihazlarda gerçek zamanlı olarak algılama nesneleri için 3B sınırları hesaplayabilen MediaPipe'da uygulanır.

(Lei Feng Ağı)

Tek bir görüntüde 3B nesne algılama. MediaPipe Objectron, mobil cihazlarda günlük nesnelerin konumunu, yönünü ve boyutunu gerçek zamanlı olarak belirler.

Gerçek dünyadaki 3B eğitim verilerini alın

Lidar gibi 3B yakalama sensörlerine dayanan otonom araç araştırmalarının artan popülaritesiyle, şu anda büyük miktarda sokak manzarası 3B verisi var, ancak daha ince taneli günlük nesneler için gerçek 3B ek açıklamalar içeren veri kümesi son derece sınırlı.

Bu sorunu çözmek için Google, mobil artırılmış gerçeklik oturum verilerini kullanarak yeni bir veri hattı geliştirdi. ARCore ve ARKit gibi araçların ortaya çıkmasıyla, yüz milyonlarca akıllı telefon artık bir AR oturumu sırasında kamera pozları, seyrek 3B nokta bulutları, tahmini aydınlatma ve uçaklar dahil olmak üzere ek bilgileri yakalayabilen AR özelliklerine sahip. Gerçek verileri etiketlemek için, Google ayrıca AR oturumu verileriyle kullanılabilen ve etiketleyicilerin nesneleri 3B sınırlarla hızlı bir şekilde etiketlemesine olanak tanıyan yeni bir etiketleme aracı geliştirdi.

Araç, bir 3B çerçevenin sola yerleştirildiği ve 3B nokta bulutu, kamera konumu ve algılanan düzlem görünümünün sağda gösterildiği 2B video karelerini görüntülemek için bölünmüş bir ekran görünümü kullanır. Açıklayıcı, 3B kenarlığı 3B görünümde çizer ve 2B video karesindeki projeksiyonunu görüntüleyerek konumunu doğrular.

Statik nesneler için, nesneyi yalnızca tek bir çerçevede işaretlemek ve ardından konumunu tüm karelere iletmek için AR diyalog verilerindeki gerçek kamera duruş bilgisini kullanmak ve böylece tüm sürecin verimliliğini artırmak gerekir.

(Lei Feng Ağı)

3B nesne tespiti için gerçek dünya veri açıklaması. Sağ: 3B dünyada 3B sınırı işaretlemek için tespit edilen düzlemi ve nokta bulutunu kullanın. Sol: Etiketli 3D çerçevenin izdüşümü, video çerçevesinin üstüne yerleştirilerek etiketin doğrulanmasını kolaylaştırır.

AR sentetik veri üretimi

Tahminlerin doğruluğunu iyileştirme açısından, şu anda yaygın olarak kullanılan bir yöntem, gerçek dünya verilerini desteklemek için sentetik verileri kullanmaktır. Bununla birlikte, bu yaklaşım genellikle düşük kaliteli ve gerçekçi olmayan veriler üretir ve gerçek işleme durumunda çok sayıda deneme ve hesaplama maliyeti gerekir.

Google tarafından önerilen, AR Sentetik Veri Üretimi (AR Sentetik Veri Üretimi) adı verilen yeni yöntem, sanal nesneleri mevcut AR oturumu verilerinin sahnesine yerleştirir ve kamera pozlarını, algılanan uçakları ve tahmini aydınlatma koşullarını kullanarak fiziksel dünyayı oluşturabilir. Var olabilir ve ışık koşullarının sahneye uygun olduğu yerlerde.

Bu yöntem, yüksek kaliteli sentetik veriler üretebilir ve oluşturulan nesneler yalnızca sahne geometrisine uymakla kalmaz, aynı zamanda gerçek sahneye sorunsuz bir şekilde eşleşebilir ve buna uyum sağlayabilir. Gerçek dünya verilerini ve AR sentetik verilerini birleştirerek, doğruluk yaklaşık% 10 oranında iyileştirilebilir.

(Lei Feng Ağı)

AR sentetik veri oluşturma örneği. Sanal beyaz-kahverengi tahıl kutusu, gerçek bir mavi kitabın yanında gerçek sahneye dönüştürülür.

3D hedef tespiti için bir makine öğrenimi ardışık düzeni

Google, RGB görüntülerden nesnelerin pozunu ve fiziksel boyutunu tahmin edebilen tek aşamalı bir model oluşturdu. Spesifik olarak, modelin omurgası MobileNetv2 tabanlı bir kodek mimarisi içerir ve algılama ve gerileme yoluyla hedefin şeklini birlikte tahmin etmek için çok görevli bir öğrenme yöntemi kullanır. Şekil tahmini, veri ek açıklamasının kalitesine bağlıdır.Verilerde şekil ek açıklaması yoksa, bu seçenek işaretlenmeyebilir.

Algılama görevi için etiketli sınırlayıcı kutu kullanılır ve Gauss uydurma kullanılır. Bunların arasında merkez kutunun ortasındadır ve standart sapma kutunun boyutuyla orantılıdır. Tespit edilen hedef, bu olasılık dağılımını tahmin etmektir ve olasılık dağılımının tepe noktası, hedefin merkez konumunu belirtir.

Sınırlayıcı kutunun son 3B koordinatlarını elde etmek için Google, hedefin boyutunu bilmeden hedefin 3B sınırlayıcı kutusunu geri yükleyebilen gelişmiş bir poz tahmin algoritması (EPnP) kullanır. 3B sınırlayıcı kutu olduğu sürece, Hedefin pozu ve boyutu kolayca hesaplanabilir.

Aşağıdaki şekil, modelin ağ mimarisini ve sonradan işlenmesini göstermektedir.Modelin gerçek zamanlı olarak mobil cihazlarda kolaylıkla çalıştırılabileceği doğrulanmıştır.Örneğin, Adreno 650 mobil GPU'da 26FPS'dir.

Açıklama: 3B hedef algılama ağ yapısı ve işlem sonrası

(Lei Feng Ağı)

Açıklama: Ağ örnek sonuçları: solda, tahmini sınırlayıcı kutuyla birlikte orijinal 2B görüntü ve ortada, Gauss dağılımına dayalı hedef algılama. Sağda tahmin edilen segmentasyon maskesi var.

MediaPipe üzerinde algılama ve izleme

Model gerçekten uygulandığında, mobil cihaz tarafından yakalanan her kare için olduğundan ve bu çerçevelerin 3B sınırlayıcı kutusu bulanıklaşabilir, model bozulabilir. Bu sorunu çözmek için Google, önceki 2D hedef tespit çözümünü, yani önceki tespit + izleme çerçevesini kullanarak ödünç aldı.

Bu çözüm, modelin ağı her çerçevede çalıştırma ihtiyacını azaltabilir ve ardışık düzeni mobil cihazlarda gerçek zamanlı olarak güncel tutarken tekrarlanan kullanıma olanak tanır. Ek olarak, tahminlerin zaman içinde tutarlı olmasını sağlamak için hedef nitelikler çerçeveler arasında tutulabilir. Titreşimi azaltın Mobil cihazların iş hattını iyileştirmek için, model çıkarımı yalnızca birkaç çerçevede bir çalıştırılır.

Ek olarak, kullanılan tahmin yöntemi, gerçek zamanlı hareket izleme ve hareket statik izlemenin bir kombinasyonudur.Yeni bir tahmin yapıldığında, algılama sonucu ve izleme sonucu birleştirilir. Araştırmacıları ve geliştiricileri Google'ın ardışık düzen modellemesini kullanmaya teşvik etmek için, MediaPipe Objectron üzerinde cihaz tabanlı gerçek zamanlı bir 3D hedef algılama ardışık düzeni yayınlayacak. İçerik, uçtan uca demo mobil uygulamalarını ve iki tür eğitim modelini içerir. Bu iki tür eğitim modu Ayakkabılar ve sandalyeler.

Proje açık kaynaklıdır, Github adresi ve blogu aşağıya eklenmiştir:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

3. salgın raporu: Çin, Kaliforniya, salgın şiddetli, Pekin ve Şangay geri dönenleri kilit ülkelerden izole edecek
önceki
Bilgi grafiğinin sınırlarını takip etmek için bu yeterlidir. Philip S. Yu ekibi yetkili bir özet yayınladı ve altı ana açık sorun çözülecek
Sonraki
COVID-19 ve influenzayı ayırt etmek için derin öğrenme nasıl kullanılır? İlk taramadan kritik hastalık tahminine kadar beş çalışma
Birleşik öğrenmedeki en son araştırma trendleri
Today Paper | Belirsizlik ölçümü; kenar algılama derinlik tahmini; binoküler derinlik tahmini; uyarlanabilir derinlik stereo eşleştirme, vb.
Sinir ağı yapısı arama serisi (1): Makineye otonom tasarım modeli "yeteneği" verir, yapı aramanın kökeni hakkında bir makale özeti
Canlı yayın | Luo Yonghao'nun mallarla birlikte ikinci canlı yayını, Hubei için portakal satışı
Douyin, Kuaishou, Taobao ve Tencent Live'ın trafik mantığı nedir? Süper Görüntü
Jinan, sahte KDV faturası düzenleyen üç özel girişim personelini "muaf tuttu"
Mou Zhongzhong'un "efsanevi en zengin adam" mahkumu ve Hubei'nin eski en zengin adamı, üç kez hapishanede kaldı ve şimdi tekrar aranıyor.
Tüm alıcılar "kamu paylaşımını iptal etmek" istiyor, uzmanlar şunları söylüyor: iptal etmemelisiniz, acı çekenler sizsiniz
322 gün sonra Huang Guangyu hapisten çıktı! "Gizlice" 3 büyük "düzen" ve karısı bir keresinde öyle demişti
Yoğun bir bahar günü
Sanya, Hainan: Bilimsel araştırma sağlamak için birden fazla önlem alın
To Top