İçbükey tapınaktan on üç balık ve koyun Qubit Raporu | Genel Hesap QbitAI
Yapay zekanın "sol elinizle bir ejderha ve sağ elinizle bir gökkuşağı çizmek" için tahminleri kullanmasına izin vermek, yapay zekanın insan davranışını anlaması için çok önemlidir.
Bunu yapmak için, insan vücudu hareket verileri zorunludur, ancak gerçekte, gerçek 3B hareket verileri kıt bir kaynaktır.
Şimdi, Max Planck Akıllı Sistemler Enstitüsü'nden bir çalışma, gerçek 3B etiketleri olmadan gerçek zamanlı videolarda insan hareketleri için makul kinematik tahminler yapmak için rakip bir öğrenme çerçevesi kullanıyor.
Tıpkı bunun gibi koşmak ve zıplamak şunlara ayak uydurabilir:
Ve öncekilerle karşılaştırıldığında buna BELİRLİ BİR HİS Yöntem daha anlaşılır, kolun kaç derece kaldırılacağının hesaplanması bile net.
Peki, VIBE bunu nasıl yapıyor?
Temel yenilik, rakip bir öğrenme çerçevesinin benimsenmesinde yatmaktadır.
Bir yandan, zamansal (zamansal) üretim ağı, video dizisindeki her kare için SMPL insan vücudu modelinin parametrelerini tahmin etmek için kullanılır.
Not: SMPL, yani Max Planck tarafından önerilen bir insan vücudu modelleme yöntemi olan A Skinned Multi-Person Linear Model.
Özellikle, giriş olarak tek kişilik bir video verildiğinde, her karenin özelliklerini çıkarmak için önceden eğitilmiş bir CNN kullanılır.
İki yönlü geçitli döngü birimlerinden oluşan bir zaman kodlayıcıyı eğitin ve geçmiş ve gelecekteki çerçevelerdeki bilgileri içeren gizli değişkenlerin çıktılarını alın.
Ardından, SMPL insan modelinin parametrelerini geriletmek için bu özellikleri kullanın.
Öte yandan, hareket ayırıcı, SMPL formatında çok sayıda insan hareketine erişebilir.
Jeneratör tarafından üretilen numuneyi alın ve BÜYÜK Örneği, gerçek eylemleri ve "yanlış" eylemleri ayırt etmek için eğitilen ayırıcının girdisi olarak kullanılır.
AMASS, 40 saatlik hareket verisi, 344 konu ve 11.000'den fazla eylem içeren büyük bir açık kaynaklı 3B hareket yakalama veri kümesidir. (Makalenin sonundaki proje adresine bakınız)
Döngüsel ağ, girdiyi sıralı olarak işlerken gizli durumunu güncelleyeceğinden, son gizli durum dizideki bilgilerin özetini tutacaktır. Araştırmacılar, son sunumda en önemli çerçevenin rolünü güçlendirmek için ayırıcıda bir öz-dikkat mekanizması geliştirdiler.
Eski kurallar, önce veri kümesine bakalım.
Eğitim veri seti için 2B ve 3B veri setlerinin bir karışımı kullanılır. PennAction ile PoseTrack Tek kesin 2D video veri seti ve 3D veri seti MPI-INF3DHP ile İnsan3.6M . Ek olarak, AMASS aynı zamanda gerçek numuneler elde etmek için rakip eğitim için de kullanılır.
Değerlendirme ve karşılaştırma açısından, kullanılan veri setleri esas olarak 3DPW , MPI-INF3DHP ile İnsan3.6M .
Ardından, eğitimden sonra, yukarıdaki üç veri setinde, en gelişmiş yöntemlerin sonuçları Tablo 1'de gösterildiği gibi karşılaştırılır:
Tablo 1: 3DPW, MPI-INF-3DHP ve H36M veri setlerinde en gelişmiş yöntemlerin sonuçlarının karşılaştırması
Araştırmacılar, VIBE'yi bu üç veri setinde diğer son teknoloji, çerçeve ve zaman tabanlı modellerle karşılaştırdı.
VIBE'nin, performans açısından diğer modelleri geride bırakarak, 3DPW ve MPI-INF-3DHP iki veri setinde nispeten iyi performans gösterdiğini görmek zor değil.
H36M veri setinde sonuç, mevcut optimum değere nispeten yakındır.
Ek olarak Tablo 1'de bir hızlanma hatası da yer almaktadır Sayısal değerden VIBE'nin çerçeve tabanlı HMR yöntemine göre daha küçük bir hataya sahip olduğu yani sonucun daha düzgün olduğu görülmektedir.
Bununla birlikte, zaman tabanlı modelle karşılaştırıldığında, hızlanma hatası nispeten yüksektir, ancak burada bir sorun vardır. Zaman tabanlı model, aşağıda gösterildiği gibi hızlı hareketli videoların doğruluğunu azaltacak daha "radikal" bir düzeltme yöntemi kullanır. Gösterildi.
Üst: VIBE; Alt: Zamana dayalı HMR.
VIBE modeli doğru küresel dönüşü geri yükleyebilir.Bu, öncekiler tarafından önerilen yöntemlerde ciddi bir problemdir.Ayrıca Tablo 1'deki MPJPE ve PVE göstergelerinin daha iyi olmasının nedeni de budur.
Buna ek olarak, deney aynı zamanda Hareket ayırıcı DM , Ayrıca Tablo 2'de gösterildiği gibi modelin performansı üzerinde daha büyük bir etkiye sahiptir.
Tablo 2: Hareket ayırıcı DM'nin ablasyon deneyi
Birkaç öz-ilgi konfigürasyonu da denendi ve VIBE yöntemi statik birleştirme yöntemi ile karşılaştırıldı Sonuçlar Tablo 3'te gösterildi.
Tablo 3: Öz dikkatin ablasyon deneyi
Diao Botian'ın deneysel etkisine ek olarak, bir başka heyecan verici haber de kağıt kodunun açık kaynak olması!
Araştırmacılar uygulama sürecinde Pytorch kullandılar.Deneysel ekipmanın hem CPU hem de GPU çıkarımını desteklemesi gerekir. Hız, RTX2080Ti'de saniyede 30 kareye kadar çıkar ve SOTA sonuçları 3DPW ve MPI-INF-3DHP veri setlerinde elde edilir.
Hazırlık da çok basit. İlk olarak, bu projeyi klonlamak için şunu girin:
git klon https://github.com/mkocabas/VIBE.gitGereksinimleri yüklemek için pip veya conda kullanın:
# pip bash install_pip.sh # conda bash install_conda.shArdından, bu GitHub projesinde, veri kümesini indirin ve çalıştırın:
bash ready_data.shArdından hazırlanan demo kodunu çalıştırabilirsiniz (herhangi bir videoda VIBE çalıştırabilirsiniz):
# Yerel bir videoda çalıştırın python demo.py --vid_file sample_video.mp4 --output_folder çıktı / --display # Bir YouTube videosunda yayınlayın python demo.py --vid_file https://www.youtube.com/watch?v=wPZP8Bwxplo --output_folder output / --displayElbette yukarıdaki deneyler için gerekli ekipman ve ortama sahip değilseniz Google Colab'ı kullanabilirsiniz. Benzer şekilde, araştırmacılar demoyu çalıştırmanız için Colab'ın "hızlı yolunu" hazırladılar. Aşağıdaki bağlantıya tıklayabilirsiniz:
https://colab.research.google.com/drive/1dFfwxZ52MN86FA6uFNypMEdFShd2euQA
Öyleyse acele et ve dene!
Kağıt adresi: https://arxiv.org/abs/1912.05656
GitHub adresi: https://github.com/mkocabas/VIBE
AMASS veri seti: https://amass.is.tue.mpg.de/
- Bitiş -
Qubit QbitAI · Toutiao İmzalı
Bize dikkat edin ve en son teknolojideki en son gelişmeleri alın