Bu makale, CVPR 2020 tarafından seçilen "MetaFuse: İnsan Duruşu Tahmini için Önceden Eğitilmiş Bir Füzyon Modeli" makalesinin bir yorumudur.
Yazar | PKU CVDA
Düzenle | Kong'un Sonu
Kağıt adresi: https://arxiv.org/abs/2003.13239
1
Giriş İnsan vücudunun kilit noktalarının 3 boyutlu koordinatlarını çoklu görüntülerden tahmin edin , Bilgisayarla görmede önemli bir görevdir. Birçok iş süreci şu şekildedir: önce her kamera perspektifinden 2B koordinatları tahmin edin ve ardından karşılık gelen 3B koordinatları hesaplamak için üçgenleme gibi yöntemleri kullanın. Bu tür bir yöntemin nihai sonucunun kalitesi genellikle 2B koordinatların doğruluğuna bağlıdır. Bununla birlikte, tıkanma gibi sorunlar varsa, tahmin edilen 2D koordinatlarda büyük bir hata olacaktır. 2B koordinatları tahmin etme sürecinde, bilgileri birden çok perspektiften birleştirmek, tıkanma gibi sorunları etkili bir şekilde çözebilir. Bununla birlikte, mevcut yöntemde, füzyon modelinin parametreleri, yeni bir ortama genellenmesi zor olan belirli bir kamera çiftine bağlıdır. Bu soruna yanıt olarak, bu makale orijinali değiştirmeyi önermektedir. Füzyon modeli ayrıştırma (1) tüm kameralar tarafından paylaşılan ortak bir modeldir (2) belirli bir kamera için hafif bir dönüşüm matrisidir. Ve kullan Meta öğrenme Algoritma, modelin genelleme yeteneğini en üst düzeye çıkarmak için büyük ölçekli çoklu kamera verileri üzerinde önceden eğitilmiştir. Birden fazla herkese açık veri kümesinde yapılan deneyler kanıtlanmıştır Model (MetaFuse), yalnızca birkaç örnekle yeni ortamda etkili bir şekilde taşınabilir .
Şekil 1: MetaFuse şematiği
2 Ön bilgi: çoklu görünüm bilgi füzyonu
Şekil 2: Çok görüntülü bilgi füzyonunun geometrik yorumu
İlk olarak, çoklu görüntü bilgi füzyonunun temel bilgilerini tanıtın. Epipolar Geometri'ye göre, kamera 1'deki bir piksel
, Başka bir kamera 2'de, karşılık gelen piksel düz bir çizgi I (Epipolar Çizgi) üzerine konumlandırılmalıdır. Bu nedenle, I hattına karşılık gelen özellik bilgisini bu noktaya birleştirebiliriz.
içinde. Spesifik formül aşağıdaki gibidir:
j, i, kamera 2'deki j pikseli ile kamera 1'deki i pikseli arasındaki farkı temsil eden bir skalerdir. Alaka düzeyi , Değerinin nasıl belirleneceği, füzyon sürecindeki en kritik konudur. Önerilen NaiveFuse modelinde, tam bağlantılı katman (FCL) yöntemi doğrudan Bir kamera çifti arasında bilgi füzyonu . Şekil 3'te gösterildiği gibi, 1. görünümdeki evrişimli ağ tarafından tahmin edilen Isı Haritası, tek boyutlu bir vektöre uzatılır ve daha sonra, tamamen bağlı katman dönüştürüldükten sonra, son görünüm 2 tahminini elde etmek için 2. görünümün ilk Isı Haritasına eklenir. Füzyon modülü (FCL), evrişimli ağlarla çalışabilir ve uçtan uca eğitim için denetim olarak gerçek etiketleri kullanabilir.
Şekil 3: NaiveFuse modeli
Bununla birlikte, tamamen bağlı katman, bir görüntüleme açısındaki tüm pikselleri başka bir görüntüleme açısındaki tüm piksellere bağlar. Parametreleri, pozisyona karşı oldukça hassastır. Biraz değiştiğinde kamera duruşu büyük ölçüde değişebilir . Bu nedenle, bu yöntemin farklı çok kameralı ortamlara taşınması zordur. Ek olarak, tam bağlı katmanın parametre sayısı nispeten büyüktür (genellikle 642 × 642), bu da az miktarda veriyle eğitim durumunda mevcut Aşırı uyum gösterme riskleri.
3
Bu makalenin yöntemi Bu makalenin ana katkısı İki yön var. Birincisi, daha kompakt ve aktarılabilir bir model oluşturmak için orijinal NaiveFuse modelini iki parçaya ayırmaktır. İkincisi, çok sayıda kamera çifti içeren verilerde eğitim için bir meta öğrenme algoritması kullanmaktır.Amaç, küçük miktarda veri ince ayarından sonra modelin bilinmeyen bir çoklu kamera ortamına aktarılmasına izin vermektir (İnce Ayar). Şekil 2'de gösterildiği gibi biliniyorsa
Karşılık gelen çizgi segmenti I görünüm 2. Perspektif 2'yi perspektif 3'e geçirdiğinizde, çizgi segmentini I uygun şekilde ayarlayabilirsiniz. Afin dönüşümü , Karşılık gelen epipolar çizgiyi görüş açısında alın 3. Bundan esinlenerek, perspektifi birleştirmek için kullanılan genel bir füzyon modeli base olduğunu varsayalım. Tek piksel Ve 2. görünümde Tüm pikseller . Daha sonra, görünüm l'deki diğer pikseller için, karşılık gelen füzyon ağırlığı, base üzerinde afin dönüşüm gerçekleştirilerek elde edilebilir. Hesaplama süreci aşağıdaki gibidir, burada T afin dönüşümü ve i, 1. görünümde (2 × 3 iki boyutlu matris) piksel i'ye karşılık gelen afin dönüşüm parametrelerini belirtir. Ve i, 1. görünümdeki i pikseli ve 2. görünümdeki tüm pikselleri birbirine bağlar ve boyut, H × W olan Isı Haritası ile aynıdır. Afin dönüşümün gerçekleştirilmesi, Uzaysal Transformatör Ağına atıfta bulunur.
Farklı kamera çiftleri için, gerekli füzyon modelini elde etmek için base üzerinde afin dönüşüm de gerçekleştirilebilir. Bu süreç aslında orijinal modeli (1) tüm kamera çiftleri tarafından paylaşılan ortak bir model temeline; (2) belirli kamera çiftleri ve belirli piksel konumları için hafif bir dönüşüm matrisine ayrıştırır. NaiveFuse modelinden farklı olarak, genel model kamera pozu değiştiğinde daha kararlıdır.
Ayrıca bu makale, daha iyi başlatma modellerini öğrenmek için Modelden bağımsız Meta-öğrenme (MAML) meta-öğrenme çerçevesini kullanır. Meta-Öğrenmenin temel amacı, modelin yeni görevlere hızla adapte olabilmesi için farklı görevlerden oluşan bir dağıtımda öğrenmektir. Bu makalede, bir görev, bir kamera çiftinin bilgi füzyonuyla ilgilidir. Eğitim süreci boyunca, verilerin Meta-Eğitimi için çok sayıda farklı kamera kullanılır. Amaç, yeni kamera çiftine daha hızlı taşınabilen daha iyi başlangıç parametrelerini eğitmektir.
Şekil 4: MetaFuse eğitim süreci
Bu yazıda önerilen MetaFuse yöntemi, genel eğitim süreci Şekil 4'te gösterilmektedir. İlk adım, evrişimli ağ (CNN) bölümünü eğitmek için tüm verileri kullanmaktır. İkinci adım, evrişimli ağ parametrelerini düzeltmek ve base ve 'nin optimum başlangıç değerlerini elde etmek için Meta-Eğitimi kullanmaktır. Test aşamasında yeni bir ortamla (kamera çifti) karşılaşıldığında, afin dönüşüm parametresini ince ayar yapmak için yalnızca az sayıda etiketli örnek gereklidir.
4 Deney ve analiz veri seti
Deneysel eğitim seti, eğitim için 20 kamera verisinin seçildiği CMU Panoptik Veri Kümesidir (Meta-Eğitim). Test veri seti H36M (İnsan3.6M), Toplam Yakalama veri seti vb. H36M gibi veri setlerinde, ince ayar için yalnızca küçük miktarda etiketlenmiş veri kullanılır (50 ~ 500).
Karşılaştırma yöntemi
Karşılaştırma için kullanılan temel yöntemler şunları içerir:
Füzyon yok, perspektifler arasında bilgi füzyonu yok;
Full Fusion, NaiveFuse eğitimi için tüm hedef verileri kullanın;
NaiveFuse'u eğitmek için az miktarda veri kullanın;
AffineFuse, parametre ayrıştırmadan sonra modeli eğitmek için geleneksel gradyan iniş yöntemini kullanır ve ince ayar yapmak için az miktarda veri kullanır;
MetaFuse, modeli parametre ayrıştırma işleminden sonra eğitmek için meta öğrenmeyi kullanır ve ince ayar yapmak için az miktarda veri kullanır.
Deneysel sonuçlar
H36M veri setinin 2D algılama sonuçları Şekil 5'te gösterilmektedir; burada apsis, ince ayar için kullanılan örnek sayısını temsil eder ve ordinat, eklem algılama oranını (Eklem Tespit Oranı) temsil eder. NaiveFuse'un örnek boyutu küçük olduğunda ve aşırı uyum meydana geldiğinde zayıf bir etkiye sahip olduğu görülebilir. AffineFuse'un performansı, parametre ayrıştırmanın etkinliğini doğrulayarak NaiveFuse'u geride bıraktı. Bu makalede önerilen MetaFuse, farklı miktarlarda diğer yöntemleri geride bırakarak, meta-öğrenme algoritmasının modelin genelleme performansını daha da artırabileceğini doğrular.
Şekil 5: H36M veri setinin 2D sonuçları
H36M ve Toplam Yakalama veri setlerinde, elde edilen 3D sonuçlar sırasıyla Tablo 1 ve Tablo 2'de gösterilmektedir. 3B poz tahmininin doğruluğu, gerçek 3B koordinatların ve tahmin edilen koordinatların Eklem Başına Ortalama Konum Hatası (MPJPE) ile ölçülür.
Tablo 1: H36M veri setinin 3D sonuçları
Tablo 2: Total Capture veri setinin 3D sonuçları
Şekil 6, çoklu-görüntülü bilgi birleştirme sürecini görselleştirir.
Şekil 6: Bilgi füzyon sürecinin görselleştirilmesi
5 Özet
Bu makale, yeni bir test ortamında yalnızca birkaç örnekle eğitilebilen çok görünümlü bir bilgi füzyon modeli olan MetaFuse'u önermektedir. Bu yöntem, herhangi bir mevcut 2D insan pozu tahmin modeliyle birleştirilebilir ve herhangi bir çok kameralı ortama taşınabilir. Birden fazla genel veri setindeki deneysel sonuçlar, modelin genelleme yeteneğini doğrular.
Referanslar
Haibo Qiu, Chunyu Wang, Jingdong Wang, Naiyan Wang ve Wenjun Zeng. 3B insan pozu tahmini için çapraz görünüm füzyonu. ICCV'de, sayfa 43424351, 2019.
Max Jaderberg, Karen Simonyan, Andrew Zisserman ve diğerleri. Mekansal transformatör ağları. NIPS'de, sayfalar 20172025, 2015.
Chelsea Finn, Pieter Abbeel ve Sergey Levine. Derin ağların hızlı adaptasyonu için model agnostik meta-öğrenme. ICML, sayfa 1126-1135. JMLR. Org, 2017