AI Technology Review Press : Bu makalenin yazarı, Sydney Teknoloji Üniversitesi'nde bir doktora öğrencisi olan Xuanyi Dong, CVPR 2018 tarafından kabul edilen Kayda Göre Denetleme: Yüz Dönüm Noktası Dedektörlerinin Hassasiyetini İyileştirmek için Denetimsiz Bir Yaklaşım adlı makaleye dayalı olarak AI Technology Review için özel bir yorum yazısı yazdı.
Kayda Göre Denetim (SBR), herhangi bir görüntü tabanlı anahtar nokta dedektörünü denetimsiz bir şekilde geliştirebilen, yüz anahtar nokta dedektörlerini eğitmeye yönelik bir algoritma çerçevesidir. SBR, mevcut bir yüz anahtar noktası algılayıcısını iyileştirmek için videodaki nesnelerin daha yumuşak hareketinden yararlanır. Diğer yüz kilit noktası algılama algoritmalarıyla karşılaştırıldığında, SBR, herhangi bir ek manuel açıklama bilgisi kullanmadan dedektörün performansını artırabilir. Aşağıdaki şekil, SBR çerçevesinin şematik bir diyagramıdır.
SBR tarafından kullanılan eğitim verileri, etiketli görüntü verileri ve etiketlenmemiş video verileridir. Eğitim süreci sırasında SBR, dedektörü (sinir ağı) optimize etmek için videodan denetimli bilgileri denetimsiz bir şekilde çıkarabilir. Test aşamasında, SBR kullanılarak eğitilen model, görüntü veya video verilerinde daha yüksek doğruluk elde edebilir ve videodaki algılama sonucunu daha kararlı hale getirebilir.
SBR eğitim süreci iki kayıp işlevi içerir. Biri dedektör kaybı işlevi, diğeri ise zamanlama kaydı kaybı işlevidir. İkisi, yüz anahtar noktası algılayıcısını daha sağlam hale getirmek için birbirini tamamlayabilir. Dedektör kaybı işlevi, model algılama sonuçları ve manuel açıklamalar üzerinde hareket eder ve optimizasyon, modelin algılama sonuçlarını ve manuel açıklamaları etiketli verilere mümkün olduğunca yakın hale getirir. Zamanlama kaydı kaybı işlevi, ardışık çerçevelerde anahtar nokta algılama sonuçlarının zamanlama tutarlılığını optimize etmektir. Spesifik olarak, t-1 ve t görüntülerinin iki ardışık çerçevesini girin, aynı yüz anahtar noktası dedektöründen geçtikten sonra, t-1 çerçevesinin algılama sonucunu ve t-inci çerçevenin algılama sonucunu alabiliriz. 1 karenin algılama sonucu, Lucas-Kanade algoritması aracılığıyla t-inci çerçeveye izlenir ve zamanlama kayıt kaybı işlevi, t-inci çerçevedeki izleme sonucunu, algılama sonucuyla mümkün olduğunca tutarlı hale getirmektir. Lucas-Kanade algoritmasının eğitim gerektirmemesi ve kapalı bir çözüme sahip olması nedeniyle Lucas-Kanade algoritmasını türetilebilir bir modül olarak yazıp CNN'e yerleştirdiğimizi belirtmekte fayda var. Eğitim sırasında, dedektör kaybı işlevi, manuel açıklama yoluyla anahtar nokta dedektörlerini öğrenmek için yüz görünümü bilgilerini kullanır; zamanlama kayıt kaybı işlevi, Lucas-Kanade modülünü yerleştirerek zamanlama tutarlılığını sağlar. Gradyan, algılama sonuçlarının bitişik çerçevelerde tutarlı olmasını sağlamak için Lucas-Kanade modülü aracılığıyla algılama modeline geçirilebilir.
(Farklı dedektörler için, dedektör kaybı işlevi farklı olabilir. Örneğin, daha klasik CPM ve Kum Saati, dedektörü optimize etmek için ortalama kare hatası kullanır ve bazı yöntemler L2 kaybı optimizasyonunu kullanır. SBR, kullanılabilen genel bir algoritmadır. Çeşitli yüz anahtar nokta dedektörlerinin performansını iyileştirmek için.)
Şu anda eğitim CNN modelleri çok sayıda etiketli veri gerektirir. Bununla birlikte, büyük miktarda veriyi etiketlemek çok fazla insan kaynağı gerektirir ve manuel etiketleme genellikle yanlıştır. Aşağıdaki şekilde gösterildiği gibi, 16 anahtar noktanın pozisyonları iki ağzın resimlerinde işaretlenmiştir. Bir renk, bir anahtar noktayı temsil eder. Dokuz açıklayıcının açıklama sonuçlarını veriyoruz ve anahtar noktalar için her bir açıklayıcının konumlandırma varyansını bulabiliriz. Büyük. Bu açıklama hatalarının, eğitim ve test modelleri üzerinde büyük etkisi vardır. Bu nedenle, CNN modelini eğitmek için manuel açıklama gerektirmeyen bir tür denetim bilgisi kullanıp kullanamayacağımızı merak ediyoruz. Bu amaçla, videodaki bitişik kareler arasındaki zamanlama tutarlılığını denetim bilgisi olarak kullanan gözetimin kayıt olmasını öneriyoruz.
Yüz kilit noktası tespiti için şu anda iki ana değerlendirme göstergesi vardır: NME (Normalleştirilmiş Ortalama Hata) ve AUC (Eğri Altındaki Alan). Bu iki değerlendirme göstergesi, tespit sonucu ile manuel etiketleme arasındaki boşluğun iyi bir ölçüsü olabilir, ancak videodaki modelin performansını iyi yansıtamaz. Genel yüz anahtar noktası algılayıcısı tarafından tahmin edilen anahtar nokta koordinatları videoda güçlü titreme gösterecektir, ancak SBR ile eğitilmiş yüz anahtar noktası algılayıcısının sonucu videoda çok kararlıdır. Bu iyileştirmeler şu anda çok iyi değil Bununla birlikte, SBR'nin etkisi, tanıtım videosunda açıkça yansıtılabilir.
SBR'nin özü, Lucas-Kanade izleme modülüne dayanan zamanlama kaydı kaybı işlevidir, bu nedenle izleme sonuçlarının kalitesi, SBR'nin etkisini doğrudan etkiler. Aynı zamanda, dedektör tarafından tahmin edilen koordinatlar, Lucas-Kanade izleme modülünün başlangıç koordinatlarıdır ve izleme, yalnızca başlangıç koordinatları kabaca doğru olduğunda anlamlıdır. Bu nedenle kullanım sırasında dikkat edilmesi gereken iki nokta vardır, (1) Dedektör açıklamalı görüntü ile başlatıldığında SBR eğitimini kullanmaya başlar. (2) Etiketlenmemiş videoları seçerken, Lucas-Kanade izleme modülünün başarılı bir şekilde izleyebilmesini sağlamak için video çözünürlüğüne / yüz boyutuna / kapanmasına ve diğer koşullara dikkat etmeniz gerekir.
PyTorch Uygulaması: https://github.com/facebookresearch/supervision-by-registration
Facebook Araştırma Blogu: https://research.fb.com/publications/supervision-by-registration-an-unsupervised-approach-to-improve-the-precision-of-facial-landmark-detector
Demo Videosu: https://drive.google.com/file/d/19tLhPBb2f8S70jFk_WTUYKaJxVEsQGwX/view
Kağıt adresi: