Beş yıl içinde bilgisayar görüşü nasıl görünecek? CV Pioneers ile hayal edin (Bölüm 1) | CVPR2019

AI Technology Review Press : Bilgisayarla görme araştırmacıları için, mevcut teknolojik seviyeye dayalı olarak, iyileştirme için atılımlar bulmak bilimsel araştırmanın ana temasıdır. Geçtiğimiz birkaç yılda, bilgisayar görüşü alanındaki mevcut sorunlar, genellikle araştırmacıların çabalarıyla daha iyi ve daha iyi çözüldü ve giderek daha fazla yeni sorun herkesin vizyonuna yansıdı. Bununla birlikte, küresel bilgisayar vizyonu araştırmacılarının toplayıp tartışacakları büyük bir toplantı olan CVPR'de, kısa vadeli araştırmalara doğrudan rehberlik etmeyebilecek ve fikir birliği oluşturması o kadar kolay olmayan bir sorun doğal olarak herkesin aklına geldi: beş ila on yıl sonra Gelecekte, bilgisayarla görme araştırması neye benzeyecek? Derin öğrenme, şu anda kullanılmakta olan diğer yöntemlerin neredeyse tamamen yerini mi alıyor yoksa yeni bir devrim mi beklemeliyiz? CVPR 2019'daki ilk "5 Yıl Sonra Bilgisayarla Görme-CVPR Çalıştayı", sadece deneyimli araştırmacıların görüş alışverişinde bulunmalarına izin vermekle kalmayıp, aynı zamanda bu alandaki genç akademisyenler için fikir ve ufuklarını genişletmek için herkesi bu konuyu bir araya getirdi.

5 Yıl Sonra Bilgisayarla Görme Çalıştayı'nın üç organizatörü UC Berkeley, FAIR ve UIUC'tandı.Davetli konuşmacılar arasında Ross Girshick, Jitendra Malik, Alexei Efros ve bilgisayar görüşü alanındaki diğer tanınmış isimler yer aldı. Seminer öğlen ara verildikten sonra başladı; başlamadan beş dakika önce konferans salonu tamamen doluydu. Planın başlangıcında, yaklaşık 400 kişi kapasiteli konferans salonunun her iki yanındaki koridorlar ve koridorlar, Facebook He Kaiming ve Ross grubunun düzenlediği Görsel Tanıma ve Ötesi öğretim konferansları kadar kalabalıktı. Tüm alanın genel yönü için endişe. (Bu CVPR'de 9000'den fazla katılımcı sayısına kıyasla büyük bir sayı olmasa da)

AI Science and Technology Review, her bir akademisyenin konuşmasının ana içeriğini aşağıdaki gibi çıkarır.

Birinci konuşma

İlk konuşmacı INRIA Fransa'nın araştırma direktörü Cordelia Schmid'ti.

Cordelia Schmid, bir IEEE Üyesi.Araştırma alanları görüntü ve video tanımlama, nesne ve kategori tanıma ve makine öğrenimidir.Uzun süredir IEEE PAMI ve IJCV'nin editörüdür.Şimdi IJCV'nin genel yayın yönetmeni ve CVPR2015'in başkanıdır.

Cordelia Schmid'in konuşmasının başlığı "Görsel Dünyanın Otomatik Anlayışı 5 Yılda".

Makine öğrenimi araştırmalarının yeni ilerlemesi ve çeşitli büyük ölçekli veri kümeleri sayesinde, bugünün makine algısı pek çok tatmin edici sonuç üretti ve modellerin nasıl tasarlanacağına dair yeni fikirlere sahip. Ancak mevcut veri setinin aslında yeni görevdeki performansı sınırlayacak bazı sorunları var.

Veriler açısından, mevcut manuel etiketleme verilerinin birçok sorunu vardır.Örneğin, ele alınabilecek kategori ve örnek sayısı çok sınırlıdır.Yeni kategoriler veya kavramların eklenmesi gerektiğinde etiketleri yeniden etiketlemek veya yükseltmek zordur. Kategorilerde uzun bir kuyruk olgusu vardır ve bazı bilgiler zordur. İşaretli (akış, üç boyutlu şekil gibi).

İnsan hareketi tanıma görevi için, Cordelia Schmid, veri problemine yönelik çözümünü, iyi aktarılabilirliğe ve birçok farklı not seviyesine sahip sentetik bir 3D insan hareketi veri seti olan SURREAL Veri Kümesi'ni tanıttı.

Genel olarak konuşursak, bilgisayar vizyonunun geleceğinin şu üç geliştirme yönüne sahip olduğuna inanıyor: Veri setinde manuel olarak açıklama eklenmiş, oluşturulmuş ve zayıf şekilde denetlenen üç tür veri olacaktır; Daha iyi video anlayışı; Ve çok modlu temsil, dünya ile daha fazla etkileşim.

Video öğrenme konusu için mevcut büyük problem, video veri setinin ölçeğinin ideal olmamasıdır.Örneğin, UCF-101 ve J-HMDB veri setlerinin çeşitliliği, süresi ve çözünürlüğü çok sınırlıdır. Yeni veri kümeleri türleri, kahramandan daha fazla eylem gerektirir ve ayrıca daha zengin ve daha çeşitlidir. Video öğrenmenin hedefleri arasında zamanlama bağımlılığı (zamanlama ilişkisi) ve eylem tahmini bulunur. Bunun için yeni bir model tasarımına da ihtiyaç var.Grup tarafından video hareket algılama konulu bir makale CVPR 2019 tarafından kabul edildi.

Görüntülerin algılanmasına ek olarak, bilgisayarla görü araştırmasının daha fazla takviyesi olabilir.Örneğin, görsel sistem robotlar ve pekiştirmeli öğrenme ile birlikte dünyayla etkileşime girebilir; ses ve metin verilerinin eklenmesi de daha iyi görsel anlayış getirebilir.

Spesifik yöntem multimodal denetimdir En son Video-Bert, video ve diyalog arasındaki yazışmayı öğrenebilir; pekiştirmeli öğrenme ile birleştirilmiş taklit öğrenme, gerçek çevre eğitimine geçiş için sanal ortam eğitimi de bilgisayarla görme alanına girmeye değer bir yöntemdir.

Özet: Cordelia Schmid'in bilgisayar vizyonunun gelecekteki gelişim trendine ilişkin tahmini, mekansal ve zamansal bilgileri hesaba katması gereken yeni modellerin tasarlanması gerektiğidir; zayıf bir şekilde denetlenen eğitim iyi sonuçlar üretebilirse, bir sonraki adım kendi kendini denetleyen öğrenmedir; Yüksek kaliteli insan algılama ve video nesnesi algılama veri setleri çok önemlidir; metin ve sesi birleştiren modlar arası entegrasyon; dünya ile etkileşim içinde öğrenme.

2. Ders

Bir sonraki konuşmacı, UC Berkeley Elektrik Mühendisliği ve Bilgisayar Bölümü'nde profesör olan Alexei Efros'tur.Ayrıca bilgisayarla görme alanında, özellikle en yakın komşu yöntemiyle tanınan bir öncüdür. Konuşması esprili ve hoştu ve aynı zamanda birçok izleyici tarafından yankılandı.

İlk önce böyle bir PPT gösterdi - bilgisayarla görü için gelecek beş yıllık plan. Sonra hemen bunun bir şaka olduğunu, akademik araştırmanın Sovyet Beş Yıllık Planı gibi nasıl yapılabileceğini açıkladı. Derhal akademik bir konu hakkında bir şaka yaptı: Bir öğrenci öğretmenine "hangi konu gerçekten önemli" diye sordu ve öğretmen "Tabii ki şu anda yapıyor!" (Belki de herhangi bir konuya adanmış olmadığını ima ederek). İnsanlar gerçekten uzağı görebilir)

Yani gerçek konuşmasının başlığı: "Pişmanlık duymadan önümüzdeki beş yıl." Beş yılı önceden tahmin etmek zordur ama pişmanlık duymamak için elinizden geleni yapabilirsiniz. Ayrıca akademik tecrübem hakkında bazı düşüncelerim hakkında konuşma fırsatı buldum.

Pişmanlık nereden geliyor? Vladlen Koltun'un "her makale bir engeldir" sözüne sahiptir, çünkü kötü bir makale hayatınız boyunca akademik itibarınızı etkileyebilir, daha etkili şeyler yapamamak için zaman kaybedebilir veya daha da kötüsü olabilir. Tüm alanı yanlış yöne yönlendirin. Ve bu suçu uzun süre taşıyacak. Ama sadece güvenliği önemsemezsiniz, akademik araştırma yapmak bazı riskler almaktır.

Alexei Efros, akademik kariyerinde iki büyük pişmanlık olduğunu söyledi: grafik modelleri bu yönde denenmemeli ve birçok başka araştırmacı da hendeğe getirildi ve evrişim ağları daha erken ve daha fazla çalışılmalıdır. Erken kullanın. İlginç bir hikayeden bahsetti. Yann LeCun daha önce Berkeley'de bir konuşma yaptı ve CNN'i tanıttı. LeCun konuştuğunda, nasıl olduğunu açıklama ihtiyacı hissetmedi. Sadece buna ve buna ihtiyacın olduğunu söyledi. Bağlayın onları. O zaman sorun değil. Ayrıca yerinde eğitim ve tahmini göstermek için bir bilgisayar getirdi (o sırada diğer yöntemler bu kadar çabuk tamamlanamadı). Bu, o zamanlar grafik modeller yapanların yaptıklarından tamamen farklıydı, ancak daha sonra herkes CNN'i kabul etmedi.

Ve tüm pişmanlık verici "meta pişmanlıklar", alandaki araştırmacıların algoritmaları incelemek için çok fazla zaman ve enerji harcamasıdır. Özellikler hakkında daha az araştırma var ve veriler üzerinde daha az araştırma var, ancak aslında etkileri tersine çevrildi - verilerin getirdiği iyileştirme en önemlisidir.

Yüz tanımanın günümüzde artık bir sorun olmadığını göstermek için bir örnek verdi, ancak o zamanlar, 1998 ve 1999'da bazı insanlar mükemmel sonuçlar elde etmek için basit yöntemler kullandılar, ancak yüz tanıma problemini "çözen" algoritma bu alanda tanındı. Yeterince zor görünen algoritmadır Haar özelliği artı 2011'de basamaklı gelişme ne kadar, piksel özelliklerini ve Naive Bayes'i daha önce kullanmak zor değil, Naive Bayesian çok naif , Basit, nasıl çığır açan sonuçların temsilcisi olabilir?

Diğer bir örnek de, 2008'de görüntülerin coğrafi konumunu belirlemek için en yakın komşu algoritmasını kullanmasıdır. Tesadüfen, Google 2016'da aynı sorunu incelemek için derin öğrenmeyi de kullandı. Geç kalan biri olarak Google daha fazla veri üretti, dolayısıyla sonuç daha iyiydi.

Ancak ilginç olan, deneysel verilerde, aynı miktarda veri altında, eski yöntemlerinin Google'ın yeni yönteminden daha iyi çalışmasıdır. Öyleyse kilit nokta hala verilerdir, ancak herkes kendi algoritmalarını önermeye ve tanıtmaya isteklidir.

Bu nedenle, bilimsel araştırma yapan kişilerde bu tür bir narsisizm vardır: Aksine, sonuçları kendi yaratıcılığımıza atfetmeye daha istekliyiz.

Önümüzdeki 5 yıl içinde bilgisayarla görme alanının gelişme eğilimi ile ilgili olarak, Alexei Efros daha sonra kendi görüşlerini, daha özel olarak gelecekteki araştırmalarda engel ve pişmanlık oluşturabilecek şeyler hakkındaki görüşlerini verdi. Bununla birlikte, görüşlerinin tartışmalı olduğunu ve birinin yanlış olduğunu kanıtlaması iyi olur dedi:

1, Tartışmalı saldırılar ve sağlamlık sorunları Bunun bir sorun olmaması gerektiğine inanıyor ve bundan kaçınmak için çok fazla enerji harcamaya gerek yok, hatta bundan asla kaçınılamayabilir. Çarpışan örnekler orijinal olarak doğal veri manifoldundan gelen veriler olmadığından, karar sınırının doğal veri manifolduna bölünmesi mümkündür, bu nedenle bu matematiksel bir problem değil, insan algısı problemidir. Onun önerisi, insan görsel davranışlarını bilgisayarlara benzer hale getirdiğimiz sürece. Başka bir deyişle, rakip örnek, sorunun kendisi değil, yalnızca insanların ve bilgisayarların farklı algılama özelliklerinin bir tezahürüdür; Bir hastalığı tedavi etmek istiyorsanız, sadece ağrı kesiciler almayın (algısal özellikleri incelemek için, rakip örneği ortadan kaldırma arzusuna odaklanmayın. );

2, Kısa vadede vizyonun dil ile birleştirilemeyeceğine inanıyor , Soyutlamanın derecesi çok değişiyor. Alexei Efros, alaycı bir şekilde, son on yıllardaki CVPR makalelerinin defalarca böyle bir dramayı sahnelemiş olabileceğini söyledi: her yıl yeni vizyon + dil veri setlerini getiren makaleler olacak ve ardından ikinci yılda, yalnızca en son veri setini kullanmaları gerekiyor. Komşu algoritma veya herhangi bir temel yöntem, diğer tüm yöntemleri yenebilir. Bunun, şu anda sahip olduğumuz yöntemlerin bu iki yöntemin bilgilerini etkili bir şekilde çıkarmak ve birleştirmek için gerçekten çok zayıf olması nedeniyle olduğunu söyledi. "Bir farenin görsel yeteneğine ulaşmadık, öyleyse neden Homo erectus'un yaptığını yapmayı düşünüyoruz"

3. Yorumlanabilirlik için gereksinimlerimiz çok katı , Bazı problemlerin basit, düşük boyutlu açıklamaları yoktur, ancak karmaşıktır ve bunları çözmek için yeterli veri gerektirir. Fenomenleri, psikolojiyi, genetiği, ekonomiyi ve diğer disiplinleri tanımlamak için genellikle basit ve net formüller kullanan bilim ve mühendislik ile karşılaştırıldığında artık formülleri basitçe kullanamazlar. Dolayısıyla şu anda çok fazla veriye güvenmeliyiz ve basit bir çözüm aramaya gerek yok.

Ayrıca bir örnek verdi: Bir duman bulutunun davranışı bir formülle tanımlanabilir, ancak bir ağacın büyüme davranışı, uzun bir süre boyunca sıcaklık, ışık, su, iklim ve diğer birçok karmaşık faktörün sürekli değişiminden etkilenir. O zaman basitçe açıklanamaz.

4. Veri kümesini yeniden düşünmek . Deneyler yaparken ve makaleler yayınlarken bir veri seti kullanmanız gerekse de, kalbimizde, veri setinin tüm dünyaya eşit olmadığını, sadece oldukça sabit, iki boyutlu bir profil olduğunu hatırlamalıyız. Bu nedenle modelin gereğinden fazla uydurma / aldatma davranışı bir sorun olarak görülmemelidir.Aynı örnek veya hatta aynı veri seti (çok yönlü eğitim) defalarca görüntülenmiştir, elbette bu tür sonuçlar ortaya çıkacaktır. Sonuçta, sınırlı ek açıklamalar ve veri kümeleri kullanmamalısınız.

Sonuç: Hayatın amacı gelecekte kaçırılabilecek şeyleri arttırmaksa, kendi beş yıllık planı pişmanlıkları azaltmak ve gelecekte kaçırılabilecek şeyleri arttırmaktır.Örneğin, memnun olmadığı kağıtları yayınlamayarak başlayabilir.

(Makalenin uzunluğu ile sınırlı, Ross Girshick, Jitendra Malik ve diğer konuşmacıların devam konuşmaları bir sonraki makalede sunulacak, bu yüzden bizi izlemeye devam edin)

AI Teknoloji İncelemesi Canlı Raporu

Son

2019 Küresel Yapay Zeka ve Robotik Zirvesi

12-14 Temmuz 2019 , Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen ve Shenzhen Yapay Zeka ve Robotik Enstitüsü tarafından ortaklaşa düzenlenen Çin Bilgisayar Federasyonu (CCF) sponsorluğunda 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019 olarak kısaltılmıştır) Shenzhen'de resmen açılacak.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun CVPR 2019'un harika anlarını gözden geçirin

Hong Kong: Her yer arasında bir boş zaman anı bulun | Bir gün
önceki
Huidong, Sichuan: Jinsha Nehri Kültür Turizmi Festivali'nin turizm geliri 57,86 milyon yuan
Sonraki
İki buçuk yıl / 30.000 fotoğraf / bazı kelimeler
Sanayi ekonomisi ilk çeyrekte hafif bir genişlemeyi sürdürdü ve en büyük zorluk hala kapasite fazlasıydı
Dinamik | AI çipinden hedef tespit tahtasına, "Xi'an Jiaotong University" DAC FPGA pistinde ikinciliği nasıl kazandı?
Wang Zixuan baskılı gömlek havaalanında göründü, gülüyor ve sokak stili hakkında konuşuyor
Kablolama gerekmez, uzun pil ömrü: Xiaobai akıllı kamera pil sürümü (değerlendirme)
"Ailemdeki Çocuk" Dövüş Sanatları Xing Fei ile çıkıyor, eski kız arkadaşı Chen Xiaojun, Xiaotong'da kucaklaşmak için kamp yapıyordu.
Academia | BERT ve GPT'nin ötesinde, Microsoft Research Asia yeni bir MASS modeli açıyor
190614 Stüdyo sıcak bar yüzme havuzu güzellik fotoğrafı, sıcak yaz havalı güzel kız en baştan çıkarıcı
Ben genç bir dijital meraklıyım ve bu benim 2019 "El Kesme Listem"
WF-1000XM3 hakkında Sony mühendisleri bize şunu söyledi
"TWICE" "Hisse" 190614 Jeongyeon da yola çıktı! Bu öğleden sonra Incheon Havaalanı'ndan Tayland'a hareket
ABD'nin Çin'deki vergi artışına karşı çıkmak için, oyun endüstrisindeki üç dev, on yıllardır güçlerini birleştirdi.
To Top