CVPR 2018 Özet: İkinci Bölüm

Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:

NeuroNuggets: CVPR 2018 İnceleniyor, Bölüm II

Yazar | Sergey Nikolenko, Aleksey Artamonov

Tercüme | Lao Zhao Düzeltme | Sos Tavası Armut

Bitirme | ananas kız

Orijinal bağlantı:

https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-ii-4759fd95f65c

NeuroNuggets: CVPR 2018 incelemesi, ikinci bölüm

Bugün, bilgisayarla görü üzerine dünyanın en büyük konferansı olan son CVPR (Bilgisayar Görme ve Örüntü Tanıma) konferans serisini başlatmaya devam ediyoruz. Nöromasyon, DeepGlobe seminerine başarıyla katıldı ve şimdi ana konferansın makalelerine bakıyoruz. CVPR incelememizin ilk bölümünde, bilgisayarla görü için üretken karşıt ağlar (GAN) hakkındaki en ilginç makaleleri kısaca gözden geçirdik. Bu sefer, insanlarımıza bilgisayar vizyonu uygulama işine girdik: videolarda insan bedenlerini ve diğer nesneleri izleme, pozları tahmin etme ve hatta tam 3B vücut şekillerini vb. Yine, makaleler için belirli bir sıra yoktur ve yorumlarımız çok kısadır, bu nedenle makalenin tamamını okumanızı kesinlikle öneririz.

İnsanlar: kişi tanıma, izleme ve poz tahmini

İnsanlar, diğer nesneleri tanımaktan ziyade, diğer insanları tanımada ve tanımada çok iyidir. Özellikle, beynin fusiform girus adı verilen özel bir kısmının yüz tanımadan sorumlu nöronlar içerdiğine inanılıyor ve bu nöronların diğer şeyleri tanıyanlardan farklı olduğu düşünülüyor. Ters yüzlerle ilgili fantezilerin geldiği yer burasıdır (Thatcher etkisi) ve bir kişinin insan yüzlerini tanıma yeteneğini kaybettiği özel bir tür bilişsel bozukluk, afazi bile vardır ... ama yine de Masaları, sandalyeleri, kedileri veya İngilizce harfleri iyi tanımlayın. Elbette bu çok net değil ve belirli bir "bireysel yüz nöronu" olmayabilir, ancak yüz kesinlikle farklıdır. Genel olarak insanlar (şekilleri, sınırları, vücut kısımları) zihnimizde ve beynimizde çok özel bir yere sahiptir: beynimizin "temel şekli" üçgenler, daireler, dikdörtgenler ... ve insan vücudunun ana hatlarını içerebilir. .

İnsan bilişi, insanoğlunun temel sorunudur, bu nedenle her zaman bilgisayar görüşü olmuştur. 2014 gibi erken bir tarihte (uzun zaman önce derin öğrenmede), Facebook yüz tanımada insanüstü bir performans elde ettiğini iddia etti ve çağdaş eleştirilerden bağımsız olarak, temelde yüz tanımanın gerçekten iyi bir çözüm olduğunu düşünebiliriz. Bununla birlikte, hala birçok görev var; örneğin, yaş ve cinsiyet tahmini ve insan pozu tahmini üzerine makaleler yayınladık. CVPR 2018'de, insanlarla ilgili makalelerin çoğu ya 3 boyutlu pozlar bulmak ya da video akışlarında insanları izlemekle ilgiliydi, bugün odaklandığımız şey bu. Daha iyi ölçmek için, nesne takibi üzerine bazı makaleleri de inceledik, bu makaleler doğrudan insanlarla ilgili değil (ama insanlar kesinlikle en ilginç konulardan biri).

Algılama ve izleme: tutum tahmini ile iki aşamalı izleme

R. Girdhar ve diğerleri, "Algılama ve İzleme: Videoda Etkili Poz Tahmini"

2017 yılında ortaya çıkan en umut verici segmentasyon yöntemlerinden biri olan segmentasyonu gerçekleştirmek için Mask R-CNN'i kullandık. Geçen yıl, temel Mask R-CNN'nin çeşitli uzantıları ve modifikasyonları ortaya çıktı.Carnegie Mellon, Facebook ve Dartmouth'un işbirliği bir başka öneride bulundu: yazar, uzay-zamansal evrişimi kullanan bir 3D Mask R-CNN mimarisi önerdi. Kısa filmdeki özellikleri çıkarmak ve jestleri doğrudan tanımak. Daha sonra, ilk adım olarak 3D Maske R-CNN ile iki aşamalı algoritmanın (ve bağlamanın ikinci adımı olarak temel nokta tahmini ile ikili eşleştirmenin) poz tahmini ve insan izlemede önceki teknik yöntemlerini yendiğini göstermeye devam ettiler. Aşağıda, gelecekte kesinlikle daha fazla uygulama bulacak olan 3D Mask R-CNN mimarisi yer almaktadır:

İnsanların yeniden tanımlanması için hassas hareket yerleştirme

M. Saquib Sarfraz ve diğerleri.Genişletilmiş etki alanları kullanarak hassas jestlere gömülü kişilerin yeniden tanımlanması

Kişinin yeniden tanımlanması, bilgisayar görüşünde zorlu bir sorundur: Yukarıda gösterildiği gibi, kamera görünümündeki ve duruştaki değişiklikler iki resmi tamamen farklı hale getirebilir (biz insanlar hala aynı kişi olduklarını hemen görsek de). Bu sorun genellikle, sorgu görüntüsü ile depolanan görüntü arasındaki yakınlık ölçüsünü belirli bir gömme alanından türeten alma tabanlı bir yöntemle çözülür. Alman araştırmacılar tarafından yapılan bu çalışma, duruş bilgilerini doğrudan gömme işlemine dahil eden ve böylece yeniden tanıma sonuçlarını iyileştiren yeni bir yöntem önermektedir. Bu kısa bir genel bakış şemasıdır, ancak yerleştirmeye nasıl poz ekleyeceğinizi öğrenmek için bu makalenin tamamını okumanızı öneririz:

Tek bir görüntünün 3B pozu: 2B poz ve 2B anahattan oluşturulmuş 3B kafes

G. Pavlakos ve diğerleri. 3B insan pozunu ve şeklini tek bir renkli görüntüden tahmin etmeyi öğrenmek

Poz tahmini bilinen bir sorundur; bu makaleyi daha önce yazmıştık ve bu makalede bahsetmiştik. Bununla birlikte, tam bir 3D insan şekli oluşturmak başka bir konudur. Bu çalışma çok ümit verici ve çok şaşırtıcı bir sonuç sunuyor: Poz tahmini, insan kontur segmentasyonu ve ağ oluşturmayı birleştiren uçtan uca bir evrişim yapısı aracılığıyla doğrudan insan vücudunun 3B ağını oluşturuyorlar (yukarıya bakın) Şekil). Buradaki temel fikir, insan vücudunun şekli için iyi bir öngörü sağlayan istatistiksel bir vücut şekli modeli olan SMPL'nin kullanımına dayanmaktadır. Bu nedenle, bu yöntem tek bir renkli görüntüden insan vücudunun 3B ağını oluşturmayı başarır. Standart UP-3D veri kümesindeki bazı çok zorlu durumlar da dahil olmak üzere bazı açıklayıcı sonuçlar şunlardır:

FlowTrack: Videoyu izleyin ve ilgili izlemeyi takip edin

Z. Zhu ve ark., Uzamsal-zamansal dikkat ile uçtan uca akışla ilgili izleme

Diskriminant korelasyon filtresi (DCF), nesne izleme için mevcut bir teknoloji öğrenme tekniğidir. Buradaki fikir, izlemek istediğiniz nesneye karşılık gelen görüntü penceresinin dönüşümü, genellikle sadece bir evrişim olan bir filtre öğrenmek ve ardından bunu videodaki tüm karelere uygulamaktır. Sinir ağlarında sıklıkla olduğu gibi, DCF yeni bir fikir olmaktan çok uzaktır, 1980'de ufuk açan bir makaleye kadar uzanır, ancak 2010'a kadar neredeyse unutulmuşlardı; MOSSE izleyicileri canlanmaya başladı ve şimdi DCF tüm öfke. Ancak klasik DCF, gerçek video akışını kullanmaz ve her kareyi ayrı ayrı işler. Bu çalışmada Çinli araştırmacılar, farklı zaman dilimlerine katılabilen bir uzay-zamansal dikkat mekanizmasını içeren bir yapı önerdiler; büyük ölçüde iyileştirilmiş sonuçlar bildirdiler. Aşağıdakiler modellerinin genel akışıdır:

Klasiklere dön: ilgili izleme

C. Suni ve diğerleri, ortak ayrımcılık ve güvenilirlik öğrenimi yoluyla izleme ile ilgili

Önceki makale gibi, bu makale de videodaki nesneleri izlemeye odaklanıyor (bu şu anda çok sıcak bir konudur) ve önceki makale gibi izleme için ilgili filtreleri kullanıyor. Bununla birlikte, öncekinin tam aksine, bu makale derin sinir ağlarını kullanmıyor. Buradaki temel fikir, modele güvenilirlik bilgisini açıkça dahil etmektir, yani, öğrenme filtresinin güvenilirliğini simüle eden amaç işlevine bir terim eklemektir. Yazar, izleme sürecini önemli ölçüde iyileştirdiğini bildiriyor ve genellikle çok makul görünen bir öğrenme güvenilirliği grafiği gösteriyor:

Bu tüm makaleler, arkadaşlar.

İlginiz için teşekkür ederim. Bir dahaki sefere bize katılın - CVPR 2018'den daha ilginç makaleler ... ve tıpkı bir göz atma gibi, ICLR 2019 için son tarih geçti ve gönderilen makaleler, hangilerinin kabul edilebilir olduğunu bilmiyor olsak da zaten çevrimiçiydi. Onları birkaç aydır izliyoruz.

Sergey NikolenkoChief Araştırma Görevlisi, Nöromasyon

Aleksey ArtamonovKıdemli Araştırmacı, Nöromasyon

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

Bağlantıya uzun basın ve [CVPR2018 Özet: İkinci Bölüm] 'ü açmak için tıklayın:

CVPR 2018 Özet serisinde daha fazla makale görüntülemek için lütfen tıklayın:

  • CVPR 2018 Özet: Birinci Bölüm

AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak güncelliyor ve daha heyecan verici içerikler izliyor: Lei Feng Wang Lei Feng Wang Lei Feng Wang

Ürün düzeyinde bir hedef tespit sistemi oluşturmak için SKIL ve YOLO'yu kullanın

Eğitim modelinizin hızını nasıl büyük ölçüde artırabilirsiniz?

Vicdan tavsiyesi: 20 haftalık bir bilgisayar bilimi deneyimi gönderisi (kaynaklarla birlikte)

Veri bilimcilerin anlaması gereken beş temel istatistiksel kavram: istatistiksel özellikler, olasılık dağılımı, boyutluluk azaltma, yüksek hızda örnekleme / yetersiz örnekleme, Bayes istatistikleri

Büyük veri çağı ve hassas işletim ve bakım
önceki
Linux işletim ve bakım mühendislerinin hakim olması gereken sunucu performans parametreleri
Sonraki
ChinaJoy'un Showgirl sevimli skr kişisi, bu "takım elbise haydutu" beklenmedik bir şekilde dikkatleri çekti ve popüler oldu!
Milli Eğitim Bakanlığı: 2017 derece özel değerlendirmesinin sonuçları açıklandı, düzeltme için 7 son tarih
ZTE Tianji Axon10 Pro gerçek makine başlamak için, Huawei P30 da böyle mi görünüyor?
Milli Eğitim Bakanlığı çocukların üzerindeki yükü azaltmak için harekete geçti, ancak bazı ebeveynler mutlu değil ...
2018-2019'da Çin'in doğrudan satış bankalarının zorlukları, zorlukları ve atılımları
LOL: Yolda bir avantaj elde ettikten sonra mantıksız olan kahramanlar, kan almalarına izin vermezler.
Bugün WESG'nin üçüncü günü, program burada
Ev sekreterinin deneme notları: 360 S7 süpürme robotu güzel kokuyor mu?
Öğretmen tedavisi, çifte birinci sınıf yetenek tanıtımı ... Bu senenin iki seansı, en sıcak eğitim önerileri, sesler burada
CVPR 2018 Özet: Birinci Bölüm
Panik! Supreme x Nike SB yepyeni ortak Air Force 2 resmi olarak yayınlandı!
En iyi beş açık kaynaklı java performans izleme aracı
To Top