Tsinghua doktora öğrencisi Sun Yifan: Giriş ve yayaların yeniden tanımlanmasına ilişkin makalenin son gelişmesi

Leifeng.com AI Teknolojisi İnceleme Basın : Bilgisayarla görme alanında araştırma söz konusu olduğunda, insanlar önce yüz tanımayı düşünebilirler, ancak aslında daha pratik bir araştırma uygulaması var - yaya tanıma. Yayaların yeniden tanımlanması, görüntülerde veya videolarda belirli yayaları bilgisayarla görme teknolojisini kullanarak bulma görevidir.Görüş açılarındaki büyük değişiklikler ve karmaşık yaya eklem hareketleri gibi pek çok zorlukla karşı karşıya kalır. Bu çok zorlu bir konudur. Bu makale, bazı temel bilgileri ve yayaların yeniden tanımlanmasına ilişkin en son araştırma ilerlemelerini tanıtmaya odaklanacaktır.

2017'de, yayaların yeniden tanımlanmasına ilişkin araştırmalar hızlı ilerleme kaydetti. Örneğin, halka açık veri seti Market-1501'de, ilk seçimin doğru oranı 2016'da ECCV'de% 65,9'dan 2017'de ICCV'de% 80 + 'a yükseldi ve arXiv'in bazı yeni makaleleri bu göstergeyi yaklaşık% 95'e yeniledi. . Tsinghua Üniversitesi Bilgi Biliş ve Akıllı Sistemler Enstitüsü'nden Sun Yifan, ICCV 2017'de "Yaya Erişimi için SVDNet" başlıklı bir spot ışıklı kağıt yazdı. Bu makale, tamamen bağlantılı katman ağırlık matrisini bir dizi projeksiyon tabanı veya özellik alanındaki bir dizi şablon olarak yorumlar ve derin özellik öğrenme sürecini optimize etmek için tekil değer ayrıştırmasını (SVD) birleştirir, önemli performans iyileştirmeleri elde eder ve bunun çok ilginç olduğunu ortaya çıkarır. Mekanizma olgusu. Aşağıdaki içerik, Sun Yifan'ın Leifeng.com GAIR konferans salonunda canlı paylaşımına dayanarak derlenmiştir. Video oynatma adresi:

Sun Yifan, Tsinghua Üniversitesi Elektronik Bölümü'nde doktora adayıdır.Ana araştırma yönleri bilgisayarla görme, yaya tanıma ve derin öğrenme uygulamalarıdır.

Konuyu paylaş : Yayaların yeniden tanımlanmasına ilişkin makalenin tanıtımı ve son gelişmeler

İçerik paylaşın

Herkese merhaba, ben Tsinghua Üniversitesi Bilgi Biliş ve Akıllı Sistemler Enstitüsü'nden Sun Yifan. Bu paylaşım, esas olarak aşağıdaki üç yöndedir:

  • Yaya yeniden tanımlama görevine giriş;

  • Yaya Erişimi için SVDNet kağıt açıklaması;

  • Yayaların yeniden tanımlanması ve sonraki sıcak noktaların tahmin edilmesinde son gelişmelerin tanıtılması (en son belgeler ile birlikte);

Özgeçmiş söz konusu olduğunda, insanların aklına ilk gelen şey yüz tanımadır.Kişi yeniden tanımanın yeni ortaya çıkan bir araştırma yönü olarak uygulanması son yıllarda çok büyük ilgi gördü. Yayalar neden yeniden tanımlanmalı?

Akademik araştırma perspektifinden bakıldığında, en büyük üç konferansta yer alan yayaların yeniden tanımlanmasına ilişkin yazıların sayısı 2008'den bu yana her geçen yıl artmaktadır.

Endüstri açısından, ister Hikvision gibi eski bilgisayar vizyonu şirketleri, ister yeni tek boynuzlu at face ++, SenseTime ve BAT ve Huawei gibi bazı teknoloji devleri olsun, yaya tanıma konusunda çok endişeliler. Belli miktarda teknoloji, algoritma, veri ve yetenek biriktirmişlerdir.

Politika perspektifinden, yayaların yeniden tanımlanması da belirli bir ilgi görmüştür. Kamu Güvenliği Bakanlığı güvenli şehir kavramını başlattı ve daha fazla ön araştırma konusu yayınladı ve ilgili endüstri standartları da formüle ediliyor.

2017, yaya yeniden tanımlamanın en büyük atılımı yaptığı yıl oldu. ICCV 2017'de yayaların yeniden kimliklendirilmesiyle ilgili kabul edilmiş 16 belge vardır. Öne çıkan iki makale var ve bugün bunlardan birine odaklanacağım.

Yaya tanıma görevini kısaca tanıtmama izin verin, umarım bilgisayar görüşünün diğer alanlarındaki insanlar da yaya tanıma araştırmalarına katılabilirler.

Yayaların yeniden tanımlanması, öncelikle bir bilgisayarla görme görevidir ve karakteristik özelliği, ilgilenilen bir kişi verildiğinde, Yaya Yeniden Kimliği yeniden tanımlamanın kişiyi başka zamanlarda, başka yerlerde ve diğer kameralarda tekrar belirtmesi gerektiğidir. Eğitim seti ve test seti için en büyük özelliklerinden biri, kimlik üzerinde herhangi bir çakışma olmamasıdır. Bu, görüntü sınıflandırmasından çok farklıdır Tüm görüntü sınıflandırma sınıfları eğitim aşamasında görülebilir ve öğrenilebilir.

Yüz tanıma ile yaya yeniden algılama arasındaki en büyük fark, yaya yeniden tanımanın işbirlikçi olmayan bir durumda çalışmasıdır; bu, toplanan yayaların bazı eylemleri yapmak için sizinle işbirliği yapmasına gerek olmadığı anlamına gelir. Yüz tanıma ilk olarak işbirlikçi bir durumda çalışırken, teknolojinin gelişmesine rağmen, yüz doğrulama yarı işbirlikçi olabilir, ancak çoğu durumda tamamen işbirliğine dayalı değildir. Yaya görüntülerini etiketlemek nispeten zor olduğundan, elde edilen eğitim verileri nispeten küçüktür ve diğer nedenlerden dolayı mevcut yüz tanıma doğruluk oranı daha yüksektir.

Yaya yeniden kimliklendirme uygulama alanları

Örneğin, çapraz görünüm şüpheli takibi yayaların yeniden tanımlanması yoluyla yapılabilir. Gözetim senaryolarında kimlik doğrulama etkisi elde etmek için yüz tanıma ile birleştirilebilir. İş dünyasında, örneğin fiziksel perakendede, aynı müşterinin bir ürüne olan ilgisi değerlendirilebilir.

Yayaların yeniden tanımlanması için standart prosedür

İlk olarak bir ilk video verildikten sonra yaya algılama başlatılır ve tespit edilen tüm yayalar galeri adı verilen aday bir kitaplığa dönüştürülür. Ardından galerideki tüm görsellerin özelliklerini çıkarın ve sorgulanacak belirli bir yayadan sonra sorgulayın.Özellikleri çıkarmak, mesafeleri aday kitaplığındaki özelliklerle karşılaştırmak ve son olarak arama sonuçlarını döndürmek için aynı yöntemi kullanın. Yaya algılama, genellikle aşağıdaki özellik karşılaştırmasına odaklanan nispeten bağımsız bir bağlantıdır.

Makalede SVDnet'in çalışması

Öncelikle, CNN'in ne öğrendiğini anlamaya çalışmak için çok çalıştım? Derin öğrenme sürecini optimize etmek için geleneksel veri araçlarını tekil değer ayrıştırmasını kullanıyorum ki bu da çok farklı.

Bu yazının motivasyonu hakkında.

Yaya tanıma için yaygın olarak kullanılan derin öğrenme yöntemlerinin genellikle üç adımı vardır. Önce eğitim setinde bir sınıflandırma ağı eğitin ve ardından ağ birleştikten sonra, özellik ifadesi olarak tamamen bağlı katmanının çıktısını kullanın. Son olarak, tüm görüntü özellikleri için, benzerliklerini değerlendirmek için onun Öklid mesafesini hesaplayın.

Bu yazıda SVDNet'i önerdik.Amaç, bu özellik ifade katmanında bir ortogonal ağırlık matrisi öğrenmektir.

SVDNet yapısı şekilde gösterilmiştir

Aynı zamanda, genel görüntü sınıflandırması için bir derin öğrenme ağına dayanmaktadır.Bu genel ağlarla hemen hemen aynıdır.Aradaki fark, özellik ifade katmanının geleneksel tam bağlantının yerini almak için ortogonal ağırlık matrisine sahip bir Eigenlaye kullanmasıdır.

İlgili sürece gitmek için SVD'yi kullanın

SVD ilintisizleştirme süreciyle, gevşeme yineleme yöntemi adı verilen ek bir eğitim adımı tasarlanır. Yoğun eğitim sırasında performans geliştirilir ve gevşeme eğitimi sırasında performans değişmeden kalır veya hatta biraz azalır. Ancak genel eğilim yukarı doğru.

Gerginlik eğitimi aşamasının ve gevşeme eğitimi aşamasının özellikleri

SVDNet performansı

Çalışmamız şimdi onu görüntü sınıflandırma görevlerine genişletti.

SVDNet ile ilgili olarak da daha detaylı bir tartışma hazırladım.Kaynak kodunu görmek için github'ıma gidebilirsiniz.W'yi değiştirirken, basit bir değiştirme değil, aslında tekil değer ayrıştırma değerleriyle ilgili bir yeniden sıralama işlemidir. Çözümün bazı özellikleri birbiriyle ilgili, github'da bir açıklamam var.

Pek çok kişi hala yumuşak bir terim kullanırsak benzer sonuçlar elde edip edemeyeceğimizi soruyor. Bu deneyi de yaptık ve performans artışı nispeten küçük. Sadece ortogonalitenin kendisi değil, ortogonal etkinin nasıl elde edileceği de SVDNet için eşit derecede önemlidir.

Ek olarak, daha aydınlatıcı olduğunu düşündüğüm şey, SVD'nin ağırlık matrisini ortogonalleştirmesidir ve özellik ifadesinin kendisini ilişkilendirmek için hangi ilişkiye sahip olduğunu düşünmeye değer. İşte bunu yapan iki makale, okumanızı tavsiye ederim. (Makalenin başlığı yukarıdaki resimde yer almaktadır)

ArXiv'deki son gelişmeler

ArXiv ile ilgili halihazırda çok yüksek olan (hatta insan standartlarını aşan) mevcut seviyenin nasıl iyileştirilebileceğine dair bazı yeni çalışmalar var Örneğin, market-1501'de, ilk seçimin doğruluk oranı% 90 ila% 95'e ulaştı. İşte üç makale: Ortak bazı yönleri var. Hepsi bileşen düzeyinde özellikleri çıkarmak için parça modelini kullanıyor, ancak parçanın nasıl üretileceğine ilişkin stratejileri tamamen farklı. İlgilenen öğrenciler bulabilir ve bakabilir.

Gelecek hedefler ve zorluklar

Güçlü bir denetim senaryosunda böylesine yüksek bir Re-ID seviyesine ulaştıktan sonra, aslında Re-ID'nin pratik uygulamasında çözülmesi gereken birçok sorun var.

Deneysel modelin bazı veri setlerinde çok iyi performans gösterdiğini göreceğiz, ancak daha zor olan başka bir veri setiyle değiştirildiğinde performans önemli ölçüde düşecektir. Gerçek ve karmaşık bir dış ortam karşısında, kullanıldığında etki genellikle daha kötüdür.

Ek olarak, model bir veri seti üzerinde eğitilip başka bir veri seti üzerinde test edildiğinde, performansta izin verilmeyen çok önemli bir düşüş olacaktır. Gerçek uygulamada, her kamera tarafından toplanan verileri belirli bir dereceye kadar kalibre etmemiz imkansızdır.Umarım ondan fazla kameranın eğitim sonuçlarından sonra, kalibrasyon verileri olmadan birçok kameraya genellenebilir, böylece konuşlandırabiliriz Çok pratik bir sistem.

Son olarak, iki açık soru ortaya atıyorum ve herkesle düşünüyorum:

  • SVDNet, tek başına metrik kayıp (kontrast \ üçlü) ile birlikte kullanılabilir mi?

  • Yaya tanıma, yüz tanımadan birçok deneyim ve uygulama öğrendi. Yaya yeniden tanıma araştırmasında bazı yeni yöntemlerin yüz tanımaya uygulanması mümkün müdür?

Yukarıdakilerin hepsi benim paylaşımım.

Video oynatma adresi:

Leifeng.comun GAIR konferans salonu tarafından üretilen en yeni ücretsiz canlı dersi izlemek için AI teknolojisi incelemelerini takip etmeye hoş geldiniz.

Utanç verici "Thor 3" aslında bir büyüme hikayesi anlatıyor
önceki
En uygun taşınabilir kablosuz hoparlör nasıl seçilir
Sonraki
"Bihai Tutkusu" kaldırılıp indirilebilir, alçakta sürüş ve yüksekte yürümek daha kahramanca
Başka bir yıldız "sarhoş araba kullanıyor" mu? Ancak netizenlerin yorumları tek taraflı görünüyor ve karakter her şeyin önüne geçiyor
The Verge: 2018 Google I / O Geliştirici Konferansı'nda izlenecek 8 şey
Yarım yıllık çekim ve yarım yıllık seyahat, Zhao Hantang "Yedi Yedi Gün" filmini yaşadı.
130.000 yuan ortak girişim aile arabası nasıl seçilir?
Ma Yili yine hamile mi? Makaledeki ifade karı-koca ilişkisine işaret ediyor mu?
İngiliz polisinin yüz tanıma sistemi endişe verici derecede yüksek bir hata oranına sahip
"Meet the Lord of the Palace" ateşli bir şekilde hit oluyor ve şüphesiz bir sonraki çevrimiçi dizi de hit olacak!
En güzel "Prenses Yang", insanların düşündüğü şeydir, o 53 yaşında hala güzeldir!
Söylenti: Yeni nesil Xbox 7nm işlem çipi kullanacak, 4K60 kareleri hedefleyecek
Kış yaklaşıyor, Kasım ayında sinema filmleri ateş yakabilir mi?
Hala Wu Zhenyu'nun şişman oğlu mu? Sonunda bir babaya benziyor!
To Top