Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:
NeuroNuggets: CVPR 2018 İnceleniyor, Bölüm II
Yazar | Sergey Nikolenko, Aleksey Artamonov
Tercüme | Lao Zhao Düzeltme | Sos Tavası Armut
Bitirme | ananas kız
Orijinal bağlantı:
https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-ii-4759fd95f65c
NeuroNuggets: CVPR 2018 incelemesi, ikinci bölüm
Bugün, bilgisayarla görü üzerine dünyanın en büyük konferansı olan son CVPR (Bilgisayar Görme ve Örüntü Tanıma) konferans serisini başlatmaya devam ediyoruz. Nöromasyon, DeepGlobe seminerine başarıyla katıldı ve şimdi ana konferansın makalelerine bakıyoruz. CVPR incelememizin ilk bölümünde, bilgisayarla görü için üretken karşıt ağlar (GAN) hakkındaki en ilginç makaleleri kısaca gözden geçirdik. Bu sefer, insanlarımıza bilgisayar vizyonu uygulama işine girdik: videolarda insan bedenlerini ve diğer nesneleri izleme, pozları tahmin etme ve hatta tam 3B vücut şekillerini vb. Yine, makaleler için belirli bir sıra yoktur ve yorumlarımız çok kısadır, bu nedenle makalenin tamamını okumanızı kesinlikle öneririz.
İnsanlar: kişi tanıma, izleme ve poz tahmini
İnsanlar, diğer nesneleri tanımaktan ziyade, diğer insanları tanımada ve tanımada çok iyidir. Özellikle, beynin fusiform girus adı verilen özel bir kısmının yüz tanımadan sorumlu nöronlar içerdiğine inanılıyor ve bu nöronların diğer şeyleri tanıyanlardan farklı olduğu düşünülüyor. Ters yüzlerle ilgili fantezilerin geldiği yer burasıdır (Thatcher etkisi) ve bir kişinin insan yüzlerini tanıma yeteneğini kaybettiği özel bir tür bilişsel bozukluk, afazi bile vardır ... ama yine de Masaları, sandalyeleri, kedileri veya İngilizce harfleri iyi tanımlayın. Elbette bu çok net değil ve belirli bir "bireysel yüz nöronu" olmayabilir, ancak yüz kesinlikle farklıdır. Genel olarak insanlar (şekilleri, sınırları, vücut kısımları) zihnimizde ve beynimizde çok özel bir yere sahiptir: beynimizin "temel şekli" üçgenler, daireler, dikdörtgenler ... ve insan vücudunun ana hatlarını içerebilir. .
İnsan bilişi, insanoğlunun temel sorunudur, bu nedenle her zaman bilgisayar görüşü olmuştur. 2014 gibi erken bir tarihte (uzun zaman önce derin öğrenmede), Facebook yüz tanımada insanüstü bir performans elde ettiğini iddia etti ve çağdaş eleştirilerden bağımsız olarak, temelde yüz tanımanın gerçekten iyi bir çözüm olduğunu düşünebiliriz. Bununla birlikte, hala birçok görev var; örneğin, yaş ve cinsiyet tahmini ve insan pozu tahmini üzerine makaleler yayınladık. CVPR 2018'de, insanlarla ilgili makalelerin çoğu ya 3 boyutlu pozlar bulmak ya da video akışlarında insanları izlemekle ilgiliydi, bugün odaklandığımız şey bu. Daha iyi ölçmek için, nesne takibi üzerine bazı makaleleri de inceledik, bu makaleler doğrudan insanlarla ilgili değil (ama insanlar kesinlikle en ilginç konulardan biri).
R. Girdhar ve diğerleri, "Algılama ve İzleme: Videoda Etkili Poz Tahmini"
2017 yılında ortaya çıkan en umut verici segmentasyon yöntemlerinden biri olan segmentasyonu gerçekleştirmek için Mask R-CNN'i kullandık. Geçen yıl, temel Mask R-CNN'nin çeşitli uzantıları ve modifikasyonları ortaya çıktı.Carnegie Mellon, Facebook ve Dartmouth'un işbirliği bir başka öneride bulundu: yazar, uzay-zamansal evrişimi kullanan bir 3D Mask R-CNN mimarisi önerdi. Kısa filmdeki özellikleri çıkarmak ve jestleri doğrudan tanımak. Daha sonra, ilk adım olarak 3D Maske R-CNN ile iki aşamalı algoritmanın (ve bağlamanın ikinci adımı olarak temel nokta tahmini ile ikili eşleştirmenin) poz tahmini ve insan izlemede önceki teknik yöntemlerini yendiğini göstermeye devam ettiler. Aşağıda, gelecekte kesinlikle daha fazla uygulama bulacak olan 3D Mask R-CNN mimarisi yer almaktadır:
M. Saquib Sarfraz ve diğerleri.Genişletilmiş etki alanları kullanarak hassas jestlere gömülü kişilerin yeniden tanımlanması
Kişinin yeniden tanımlanması, bilgisayar görüşünde zorlu bir sorundur: Yukarıda gösterildiği gibi, kamera görünümündeki ve duruştaki değişiklikler iki resmi tamamen farklı hale getirebilir (biz insanlar hala aynı kişi olduklarını hemen görsek de). Bu sorun genellikle, sorgu görüntüsü ile depolanan görüntü arasındaki yakınlık ölçüsünü belirli bir gömme alanından türeten alma tabanlı bir yöntemle çözülür. Alman araştırmacılar tarafından yapılan bu çalışma, duruş bilgilerini doğrudan gömme işlemine dahil eden ve böylece yeniden tanıma sonuçlarını iyileştiren yeni bir yöntem önermektedir. Bu kısa bir genel bakış şemasıdır, ancak yerleştirmeye nasıl poz ekleyeceğinizi öğrenmek için bu makalenin tamamını okumanızı öneririz:
G. Pavlakos ve diğerleri. 3B insan pozunu ve şeklini tek bir renkli görüntüden tahmin etmeyi öğrenmek
Poz tahmini bilinen bir sorundur; bu makaleyi daha önce yazmıştık ve bu makalede bahsetmiştik. Bununla birlikte, tam bir 3D insan şekli oluşturmak başka bir konudur. Bu çalışma çok ümit verici ve çok şaşırtıcı bir sonuç sunuyor: Poz tahmini, insan kontur segmentasyonu ve ağ oluşturmayı birleştiren uçtan uca bir evrişim yapısı aracılığıyla doğrudan insan vücudunun 3B ağını oluşturuyorlar (yukarıya bakın) Şekil). Buradaki temel fikir, insan vücudunun şekli için iyi bir öngörü sağlayan istatistiksel bir vücut şekli modeli olan SMPL'nin kullanımına dayanmaktadır. Bu nedenle, bu yöntem tek bir renkli görüntüden insan vücudunun 3B ağını oluşturmayı başarır. Standart UP-3D veri kümesindeki bazı çok zorlu durumlar da dahil olmak üzere bazı açıklayıcı sonuçlar şunlardır:
Z. Zhu ve ark., Uzamsal-zamansal dikkat ile uçtan uca akışla ilgili izleme
Diskriminant korelasyon filtresi (DCF), nesne izleme için mevcut bir teknoloji öğrenme tekniğidir. Buradaki fikir, izlemek istediğiniz nesneye karşılık gelen görüntü penceresinin dönüşümü, genellikle sadece bir evrişim olan bir filtre öğrenmek ve ardından bunu videodaki tüm karelere uygulamaktır. Sinir ağlarında sıklıkla olduğu gibi, DCF yeni bir fikir olmaktan çok uzaktır, 1980'de ufuk açan bir makaleye kadar uzanır, ancak 2010'a kadar neredeyse unutulmuşlardı; MOSSE izleyicileri canlanmaya başladı ve şimdi DCF tüm öfke. Ancak klasik DCF, gerçek video akışını kullanmaz ve her kareyi ayrı ayrı işler. Bu çalışmada Çinli araştırmacılar, farklı zaman dilimlerine katılabilen bir uzay-zamansal dikkat mekanizmasını içeren bir yapı önerdiler; büyük ölçüde iyileştirilmiş sonuçlar bildirdiler. Aşağıdakiler modellerinin genel akışıdır:
C. Suni ve diğerleri, ortak ayrımcılık ve güvenilirlik öğrenimi yoluyla izleme ile ilgili
Önceki makale gibi, bu makale de videodaki nesneleri izlemeye odaklanıyor (bu şu anda çok sıcak bir konudur) ve önceki makale gibi izleme için ilgili filtreleri kullanıyor. Bununla birlikte, öncekinin tam aksine, bu makale derin sinir ağlarını kullanmıyor. Buradaki temel fikir, modele güvenilirlik bilgisini açıkça dahil etmektir, yani, öğrenme filtresinin güvenilirliğini simüle eden amaç işlevine bir terim eklemektir. Yazar, izleme sürecini önemli ölçüde iyileştirdiğini bildiriyor ve genellikle çok makul görünen bir öğrenme güvenilirliği grafiği gösteriyor:
İlginiz için teşekkür ederim. Bir dahaki sefere bize katılın - CVPR 2018'den daha ilginç makaleler ... ve tıpkı bir göz atma gibi, ICLR 2019 için son tarih geçti ve gönderilen makaleler, hangilerinin kabul edilebilir olduğunu bilmiyor olsak da zaten çevrimiçiydi. Onları birkaç aydır izliyoruz.
Sergey NikolenkoChief Araştırma Görevlisi, Nöromasyon
Aleksey ArtamonovKıdemli Araştırmacı, Nöromasyon
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?
Bağlantıya uzun basın ve [CVPR2018 Özet: İkinci Bölüm] 'ü açmak için tıklayın:
CVPR 2018 Özet serisinde daha fazla makale görüntülemek için lütfen tıklayın:
CVPR 2018 Özet: Birinci Bölüm
AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak güncelliyor ve daha heyecan verici içerikler izliyor: Lei Feng Wang Lei Feng Wang Lei Feng Wang