Durmadan dönüp zıplamanız önemli değil, 3D poz tahminini mükemmel bir şekilde sunabilirsiniz | Kod açık kaynak

İçbükey tapınaktan on üç balık ve koyun Qubit Raporu | Genel Hesap QbitAI

Yapay zekanın "sol elinizle bir ejderha ve sağ elinizle bir gökkuşağı çizmek" için tahminleri kullanmasına izin vermek, yapay zekanın insan davranışını anlaması için çok önemlidir.

Bunu yapmak için, insan vücudu hareket verileri zorunludur, ancak gerçekte, gerçek 3B hareket verileri kıt bir kaynaktır.

Şimdi, Max Planck Akıllı Sistemler Enstitüsü'nden bir çalışma, gerçek 3B etiketleri olmadan gerçek zamanlı videolarda insan hareketleri için makul kinematik tahminler yapmak için rakip bir öğrenme çerçevesi kullanıyor.

Tıpkı bunun gibi koşmak ve zıplamak şunlara ayak uydurabilir:

Ve öncekilerle karşılaştırıldığında buna BELİRLİ BİR HİS Yöntem daha anlaşılır, kolun kaç derece kaldırılacağının hesaplanması bile net.

Peki, VIBE bunu nasıl yapıyor?

Tartışmalı öğrenme çerçevesi

Temel yenilik, rakip bir öğrenme çerçevesinin benimsenmesinde yatmaktadır.

Bir yandan, zamansal (zamansal) üretim ağı, video dizisindeki her kare için SMPL insan vücudu modelinin parametrelerini tahmin etmek için kullanılır.

Not: SMPL, yani Max Planck tarafından önerilen bir insan vücudu modelleme yöntemi olan A Skinned Multi-Person Linear Model.

Özellikle, giriş olarak tek kişilik bir video verildiğinde, her karenin özelliklerini çıkarmak için önceden eğitilmiş bir CNN kullanılır.

İki yönlü geçitli döngü birimlerinden oluşan bir zaman kodlayıcıyı eğitin ve geçmiş ve gelecekteki çerçevelerdeki bilgileri içeren gizli değişkenlerin çıktılarını alın.

Ardından, SMPL insan modelinin parametrelerini geriletmek için bu özellikleri kullanın.

Öte yandan, hareket ayırıcı, SMPL formatında çok sayıda insan hareketine erişebilir.

Jeneratör tarafından üretilen numuneyi alın ve BÜYÜK Örneği, gerçek eylemleri ve "yanlış" eylemleri ayırt etmek için eğitilen ayırıcının girdisi olarak kullanılır.

AMASS, 40 saatlik hareket verisi, 344 konu ve 11.000'den fazla eylem içeren büyük bir açık kaynaklı 3B hareket yakalama veri kümesidir. (Makalenin sonundaki proje adresine bakınız)

Döngüsel ağ, girdiyi sıralı olarak işlerken gizli durumunu güncelleyeceğinden, son gizli durum dizideki bilgilerin özetini tutacaktır. Araştırmacılar, son sunumda en önemli çerçevenin rolünü güçlendirmek için ayırıcıda bir öz-dikkat mekanizması geliştirdiler.

Birden fazla performans göstergesi SOTA'ya ulaşır

Eski kurallar, önce veri kümesine bakalım.

Eğitim veri seti için 2B ve 3B veri setlerinin bir karışımı kullanılır. PennAction ile PoseTrack Tek kesin 2D video veri seti ve 3D veri seti MPI-INF3DHP ile İnsan3.6M . Ek olarak, AMASS aynı zamanda gerçek numuneler elde etmek için rakip eğitim için de kullanılır.

Değerlendirme ve karşılaştırma açısından, kullanılan veri setleri esas olarak 3DPW , MPI-INF3DHP ile İnsan3.6M .

Ardından, eğitimden sonra, yukarıdaki üç veri setinde, en gelişmiş yöntemlerin sonuçları Tablo 1'de gösterildiği gibi karşılaştırılır:

Tablo 1: 3DPW, MPI-INF-3DHP ve H36M veri setlerinde en gelişmiş yöntemlerin sonuçlarının karşılaştırması

Araştırmacılar, VIBE'yi bu üç veri setinde diğer son teknoloji, çerçeve ve zaman tabanlı modellerle karşılaştırdı.

VIBE'nin, performans açısından diğer modelleri geride bırakarak, 3DPW ve MPI-INF-3DHP iki veri setinde nispeten iyi performans gösterdiğini görmek zor değil.

H36M veri setinde sonuç, mevcut optimum değere nispeten yakındır.

Ek olarak Tablo 1'de bir hızlanma hatası da yer almaktadır Sayısal değerden VIBE'nin çerçeve tabanlı HMR yöntemine göre daha küçük bir hataya sahip olduğu yani sonucun daha düzgün olduğu görülmektedir.

Bununla birlikte, zaman tabanlı modelle karşılaştırıldığında, hızlanma hatası nispeten yüksektir, ancak burada bir sorun vardır. Zaman tabanlı model, aşağıda gösterildiği gibi hızlı hareketli videoların doğruluğunu azaltacak daha "radikal" bir düzeltme yöntemi kullanır. Gösterildi.

Üst: VIBE; Alt: Zamana dayalı HMR.

VIBE modeli doğru küresel dönüşü geri yükleyebilir.Bu, öncekiler tarafından önerilen yöntemlerde ciddi bir problemdir.Ayrıca Tablo 1'deki MPJPE ve PVE göstergelerinin daha iyi olmasının nedeni de budur.

Buna ek olarak, deney aynı zamanda Hareket ayırıcı DM , Ayrıca Tablo 2'de gösterildiği gibi modelin performansı üzerinde daha büyük bir etkiye sahiptir.

Tablo 2: Hareket ayırıcı DM'nin ablasyon deneyi

Birkaç öz-ilgi konfigürasyonu da denendi ve VIBE yöntemi statik birleştirme yöntemi ile karşılaştırıldı Sonuçlar Tablo 3'te gösterildi.

Tablo 3: Öz dikkatin ablasyon deneyi

GitHub açık kaynaktır, Demo ile hızlıca başlayın

Diao Botian'ın deneysel etkisine ek olarak, bir başka heyecan verici haber de kağıt kodunun açık kaynak olması!

Araştırmacılar uygulama sürecinde Pytorch kullandılar.Deneysel ekipmanın hem CPU hem de GPU çıkarımını desteklemesi gerekir. Hız, RTX2080Ti'de saniyede 30 kareye kadar çıkar ve SOTA sonuçları 3DPW ve MPI-INF-3DHP veri setlerinde elde edilir.

Hazırlık da çok basit. İlk olarak, bu projeyi klonlamak için şunu girin:

git klon https://github.com/mkocabas/VIBE.git

Gereksinimleri yüklemek için pip veya conda kullanın:

# pip bash install_pip.sh # conda bash install_conda.sh

Ardından, bu GitHub projesinde, veri kümesini indirin ve çalıştırın:

bash ready_data.sh

Ardından hazırlanan demo kodunu çalıştırabilirsiniz (herhangi bir videoda VIBE çalıştırabilirsiniz):

# Yerel bir videoda çalıştırın python demo.py --vid_file sample_video.mp4 --output_folder çıktı / --display # Bir YouTube videosunda yayınlayın python demo.py --vid_file https://www.youtube.com/watch?v=wPZP8Bwxplo --output_folder output / --display

Elbette yukarıdaki deneyler için gerekli ekipman ve ortama sahip değilseniz Google Colab'ı kullanabilirsiniz. Benzer şekilde, araştırmacılar demoyu çalıştırmanız için Colab'ın "hızlı yolunu" hazırladılar. Aşağıdaki bağlantıya tıklayabilirsiniz:

https://colab.research.google.com/drive/1dFfwxZ52MN86FA6uFNypMEdFShd2euQA

Öyleyse acele et ve dene!

Portal

Kağıt adresi: https://arxiv.org/abs/1912.05656

GitHub adresi: https://github.com/mkocabas/VIBE

AMASS veri seti: https://amass.is.tue.mpg.de/

- Bitiş -

Qubit QbitAI · Toutiao İmzalı

Bize dikkat edin ve en son teknolojideki en son gelişmeleri alın

Ben bir bisiklet tutkunuyum, Google tarafından konum bilgilerine ihanet ettiğimden şüpheleniliyordum ve masum olduğumu kanıtlamak için çok para ödedim
önceki
ICLR 2020 telekonferansı benimseyecek ve Afrika'da yapılan ilk toplantı aynen böyle olabilir
Sonraki
Bir model 12 çeşit AI dolandırıcılığını yendi ve çeşitli GAN'lar ve Deepfake'ler öldürüldü
Changsha Kütüphanesi yavaş yavaş yeniden açıldı
Erken Okuma 3714 A -LEVEL TURIST Cazibe Maddeleri Yabancı İşlere Devam Etti
Batılı halkın salgın önleme "kafası karışık" davranışı: tuvalet kağıdı istifleme takıntılı
Kia Motors'un Mart ayında küresel satışları bir önceki yıla göre% 6,4 azaldı
Her dakika Tesla'yı öldürün, Ferrari bile artık sorun değil.Bu Ford sadece 3,5 saniyede 100 kilometre hıza ulaşıyor
Roewe Ei5 lityum demir fosfat modeli açığa çıktı, 416 kilometrelik kapsamlı pil ömrü
Wuhan'ın en büyük araç üreticisi, düzenli bir şekilde üretime devam etmeye başladı ve üretim istikrarlı bir şekilde toparlandı.
Yüz Değeri Kontrolü Müjdesi / Gelecek Yıl Çin'e Girin! Nissan'ın yeni X-Trail görünüşünü değiştirdi
Enerji tasarrufu ve emisyon azaltma trendine hizmet eden BMW, çeşitli modellerde 48V hafif hibritler taşımayı planlıyor
146.800 yuan'dan başlayan ve 460 km'den fazla pil ömrü ile bu yerli saf elektrikli SUV aynı zamanda yerleşik ara bağlantı işlevini de güçlendiriyor.
Sekizinci nesil golf, büyük potansiyel boş çubuk kasa paylaşımı ile hala değiştirilmelidir.
To Top