Lei Feng.com'a göre: 26 Eylül'de robotik alanındaki en önemli akademik konferans olan IROS 2017 ikinci güne girdi. Sabah, tanınmış Çinli bir bilgisayar görme uzmanı ve Stanford Doçenti Li Feifei, Vancouver Kongre Merkezi'nde bulunan tüm uzmanlara ve akademisyenlere bir saatlik özel bir rapor verdi.
Guide2Research sıralamasına göre IROS bilgisayarla görme alanında dördüncü akademik konferanstır ve ilk üçü CVPR, ICCV ve ECCV'dir. Bilgisayar görüşü, robotların gelişim tarihinde çok önemli bir rol oynamaktadır. İlgili "algı" da yıllar içinde IROS konferanslarının önemli bir içeriğidir. Robot araştırma sürecinde, gittikçe daha fazla bilim insanı bilgisayarların farkına varmıştır. Tüm robotik endüstrisinin gelişimi için vizyonun önemi. Lei Feng.com, son yıllarda bilgisayarla görme alanında derin öğrenmenin atılımı ile robotik alanında bilgisayarla görmenin uygulanmasının da yeni bir döneme gireceğine inanıyor.Bu, Profesör Li Feifei'nin IROS'a bu yıl IROS konferansında bir rapor vermesi için davet ediyor. sebep.
Li Feifei'nin açılış töreninde söylediği gibi, IROS'a ilk kez katılıyor, ancak robotik araştırma yapan arkadaşlarıyla iletişim kurmayı, gözünde robotlar için bilgisayar vizyonunun ne anlama geldiğini paylaşmayı ve ImageNet'ten sonra Stanford araştırmasıyla tanıştırmayı umuyor. Ekip, diğer araştırma projeleri üzerinde çalışıyor ve bu projeler, gelecekteki robotların çevremizi algılaması ve anlayışı için özellikle önemlidir.
Li Feifei, konuşmadan bir gün önce Twitter'da "Robotik araştırması yapan arkadaşlarımın (bilgisayar) vizyonunun robotiklerin öldürücü uygulaması olduğuna ikna etmeyi umuyorum." Dedi.
Alan kısıtlamaları nedeniyle rapor iki bölüme ayrılmıştır. Üst kısım aşağıdaki gibidir. Lei Feng.com, isteğini değiştirmeden silme işlemini gerçekleştirdi.
Li Feifei IROS 2017'de
Li Feifei: Sizlerle son görsel çalışmalarımı paylaşacağım ve bilgisayar görüşü ve görsel zekanın tarihsel arka planı hakkında konuşacağım. Bunlar hala devam eden çalışmalardır ve ücretsiz tartışmalara açığız.
Arkadaşım robot konferans konuşmasına robotun en az bir resmini koymamı önerdi. Bir favori seçtim:
İşte soru geliyor: Bu çocuk tablosunda neden robotların gözleri var?
Bence evrimle bir ilgisi var. Zeki bir hayvan veya zeki bir vücut olmasına bakılmaksızın, gözler / görme / görme en temel şeylerdir (çocuklar da bilinçaltında öyle düşünüyorlar). 540 milyon yıl önceki Kambriyen dönemine geri dönelim - Kambriyen patlamasından önce, yeryüzünde hepsi suda yaşayan ve pasif olarak yiyecek elde eden pek çok canlı türü yoktu. Ancak yaklaşık 540 milyon yıl önce, çok garip bir şey oldu (aşağıdaki şekilde gösterildiği gibi): Sadece 10 milyon yıl içinde, birbiri ardına çeşitli yeni türler ortaya çıktı. kaçmak".
Bunun arkasındaki sebep nedir?
Yakın zamanda, Avustralyalı bir bilim adamı, Kambriyen patlamasını vizyona bağlayan çok etkili bir teori ortaya attı. Kambriyen'de, ilk trilobitler, biraz ışık yakalayabilen en ilkel Deco kamera gibi çok ilkel bir görüş sistemi geliştirdiler. Ancak bu her şeyi değiştirdi: "görebildiklerinde" hayvanlar kendi inisiyatifleriyle avlanmaya başladılar. O andan itibaren, avcı ve av, yüz milyonlarca yıl süren bir "iz gizleme" oyununa başladı ve davranışları gittikçe daha karmaşık hale geldi. Bu noktadan sonra, dünyadaki hemen hemen tüm hayvanlar bir tür görsel sistem geliştirdiler. Bugün, 540 milyon yıl sonra, insanlar için gözler en önemli algılayıcımız haline geldi ve beynin yarısından fazlası görsel işlevlere katılacak.
Yeryüzündeki canlıların daha yüksek bir zeka düzeyine evrim sürecinde, görme gerçekten çok önemli bir itici güçtür.
Bu büyülü algı sistemi bugün bahsetmek istediğim konu. Bu aynı zamanda makineler arayışımızdır - makinelerin insanların görsel zekasına sahip olmasına izin verin.
Daha sonra, insan görsel sisteminin şaşırtıcılığı hakkında kısa bir hikaye anlatacağım.
1960'larda Hollywood'da, çok önemli bir tarihi film olan "The Pawnbroker" doğdu (Holokost'u hayatta kalanların bakış açısından II. Dünya Savaşı'nda gösteren ilk Amerikan filmi). Filmin içine video klipler eklemek için yepyeni bir teknolojinin doğuşuyla yönetmen Sidney Lumet, izleyicinin içeriği kavrayabilmesi için eklenen resmin ne kadar süre gösterilmesi gerektiğiyle ilgili ilginç bir deney yaptı.
Resmin süresini on saniyeden birkaç saniyeye ve nihayet saniyenin üçte birine kadar kısaltmaya devam etti - bunun oldukça iyi bir zaman olduğunu gördü, izleyicinin resmi net ve tam olarak görmesi için yeterli.
Psikologlar ve bilişsel bilimciler bundan ilham aldılar ve başka bir deney daha gerçekleştirdiler: katılımcılara her kare yalnızca 100 mikrosaniye gösteren ardışık çoklu çerçeveler göstermek için. Bunlar arasında bir fotoğrafta sadece bir kişi vardır ve katılımcılardan bu kişiyi bulmaları istenir.
Ve gerçekten herkes öğrenebilir. Bu inanılmaz. 100 mikrosaniyede, görme sistemimiz onu daha önce hiç görmemiş insanları tespit edebilir.
1996'da nöropsikolog Simon J. Thorpe, karmaşık görüntüleri sınıflandıran insan beyninin hızını gözlemlemek için beyin dalgalarını kullanarak Nature'da bir çalışma yayınladı. Sadece 150 mikrosaniye içinde beynin, resimdeki nesnenin bir hayvan olup olmadığına karar vermek için ayırt edici bir sinyal göndereceğini buldu.
Daha sonra Harvard insan vizyonu uzmanı Jeremy Wolfe, bir kişinin ne gördüğünü ve belirli bir resmi ne ölçüde anladığını ölçmek zor olsa da, sezgisinin bize resimdeki nesnelerin bizim gözlemimiz olması gerektiğini söylediğini yazdı. Nesnelerden biri.
Açık görünüyor ama bize nesnelerin tanınmasının görmenin en temel parçalarından biri olduğunu ve bilgisayarla görmenin de uzun yıllardır bu alanda araştırmalar yaptığını hatırlatıyor. 2010'dan 2017'ye kadar ImageNet Challenge'ın nesne tanıma hata oranı düşüyor. 2015 yılına kadar, hata oranı insan seviyelerine ulaştı veya hatta daha düşüktü.
Hedef tanımanın fethedilmiş bir alan olduğunu söyleyemem. Birçoğu robotlarla yakından ilgili olan birçok kilit konu henüz incelenmemiştir. Örneğin, 3B kontur anlayışı, hedef yerel anlayış, malzeme ve dokuların anlaşılması vb. Bu alanlardaki araştırmalar çok aktif ve ayrıca bunları yapmanın ImageNet sınıflandırma görevi mücadelesini organize etmekten daha ilginç olduğunu düşünüyorum.
Daha sonra, nesnelerin envanter listesini listelemek gibi temel araştırmalar yerine bazı yeni ve keşifsel çalışmaları paylaşmak istiyorum. Jeremy Wolfe'un makalesine geri dönelim, devam etti: "Nesneler arasındaki ilişki, esas olarak yazılmalıdır."
İki resim olduğunu varsayalım: bir bardak sütü bir bardağa dökün; yanında bir bardak sütle bir karton süt dökün (havaya dökün). İkisi aynı şey değil. İki resimdeki nesneler aynı, ancak aralarındaki ilişki farklı.
Resmin nesnelerinin listesi tek başına içeriğini tam olarak aktaramaz. İşte başka bir örnek:
Her iki fotoğraf da insanlara ve alpakalara ait, ancak olanlar tamamen farklı. Elbette geçmişte bu alanda uzamsal ilişkiler, davranışsal ilişkiler, olasılık ilişkileri gibi birçok çalışma yapıldı, bu yüzden bunları tek tek detaylandırmayacağım. Bu görevler temelde küçük bir kapalı ortamda geliştirilir ve test edilir ve yalnızca bir düzine veya iki düzine ilişki keşfedilmiştir. Ve görsel ilişkiler çalışmalarını daha büyük bir ölçeğe taşımayı umuyoruz.
Çalışmamız görsel anlatım ve kaldıraç modelinin birleşimine dayanmaktadır.Görüntü uzayının gömülmesini ve nesne ilişkisinin doğal dil tanımlamasını akıllı bir şekilde birleştirerek, nesne ile nesne arasındaki ilişkinin çoğalmasından kaynaklanan hesaplama yükünü ortadan kaldırmaktadır. .
Yukarıdaki görüntü, görselleştirme sonuçlarının kalitesini göstermektedir. Bu fotoğraf göz önüne alındığında, algoritmamız mekansal ilişkileri, karşılaştırma ilişkilerini, asimetrik uzamsal ilişkileri, fiil ilişkilerini, davranış ilişkilerini ve edat ilişkilerini bulabilir.
Daha ilginç olan ise, algoritmamızın sıfır vuruşlu (sıfır örnek öğrenme) nesne ilişkisi tanımayı gerçekleştirebilmesidir. Örneğin, eğitim algoritmasının yanında yangın musluğu bulunan bir sandalyede oturan birinin resmini kullanın. Ardından, yangın musluğunun üzerinde tek başına oturarak başka bir fotoğraf çekin. Algoritma bu resmi görmemiş olsa da, "yangın musluğunun üzerinde oturan bir kişi" olduğunu ifade edebilir.
Benzer şekilde, eğitim setinde sadece "ata binen insanlar" ve "şapkalı insanlar" resimleri olmasına rağmen, algoritma "şapkalı bir atı" tanıyabilir. Elbette bu algoritma mükemmel değil. Örneğin, iki benzer nesne (iki kişi gibi) kısmen birbiriyle örtüştüğünde, algoritmanın yargı hataları yapması muhtemeldir. Aşağıdaki şekilde gösterildiği gibi, algoritma yanlışlıkla soldaki kişinin bir uçan daire fırlattığına inanmaktadır:
Bu, bilgisayar görüşü altında hızla gelişen bir alandır. Ekibimizin ECCV 2016 makalesinin ardından, bu yıl bazıları modelimize yakın olan birçok ilgili makale yayınlandı. Bu alanın gelişmesini görmekten çok memnunum.
(Devam etmek için, bu Feifei'nin IROS raporunun ilk yarısıdır, lütfen Görsel Genom Veri Kümesi hakkında daha fazla bilgi için bizi izlemeye devam edin)