Aynı hedefe giden farklı yollar mı yoksa gözden kayboluyor mu? MIT nörobilim profesörü James DiCarlo sinir ağlarının insan sinirleri aracılığıyla nasıl anlaşılacağı hakkında konuşuyor

Lei Feng.com'un yapay zeka teknolojisi inceleme notu: En iyi uluslararası bilgisayar görüşü ve örüntü tanıma konferansı olan CVPR 2017, 21-26 Temmuz tarihleri arasında ABD'nin Hawaii kentinde düzenlendi. Basın ekibimiz de size birinci elden raporlar getirmek için Hawaii'ye gitti.

Genel Konuşma: Primat Görsel Anlayışının Tersine Mühendislik

25 Temmuz'da yerel saatle Profesör James DiCarlo " The Science of Natural Intelligence (NI): Reverse Engineering Primat Görsel Algılama "(The Science of Natural Intelligence: Reverse Engineering of Primat Görsel Anlayış) Bütün konuşma. Leifeng.com AI Technology Review tarafından canlı konuşmanın özünden bir alıntı aşağıdaki gibidir:

James DiCarlo, MIT'de nörobilim profesörü ve MIT Beyin ve Bilişsel Bilimler Okulu'nun dekanıdır. O bir Alfred Sloan Üyesi, biyomedikal bilimlerde Pew Scholar ve nörobilim alanında bir Macbeth Scholar. Araştırma hedefi, beyindeki primat görsel zekasının oluşum mekanizmasını anlamak için hesaplama yöntemlerini kullanmaktır.

Konuşma metni

Profesör DiCarlo ilk olarak organizatöre kendisini konuşmaya davet ettiği için teşekkür etti. Nörobilim topluluğundan geliyor ve CV topluluğundaki bu toplantı da bu fırsatı iki araştırma alanı arasında bir köprü görevi görmek için kullanmak istiyor.

Genel araştırma içeriği ve yöntemleri

Profesörün araştırma içeriği, nasıl çalıştığını ve hesaplama yoluyla nasıl simüle edileceğini inceleyen insan beynidir; CV alanının araştırma amacı, insan beyninin performansını gerçekleştiren bir sistem kurmaya çalışmaktır. Bu nedenle, profesörün görüşüne göre, CV topluluğundaki insanların da nörobilim araştırmalarından yararlanabileceğini umuyorum.

En ideal durum PPT'deki sarı renktir CV dünyasındaki insanlar araştırmalarını bir sistem kurmaya çalışan ileri mühendislik olarak görüyorlar, ancak beynin kendisinin ve bilişsel bilimin sınırlamalarını karşılaması gerekiyor. Nörobilim topluluğundaki insanlar ise tam tersi, beyni iyi inşa edilmiş bir sistem olarak görüyor, beynin sınırlamaları ve ilkelerini inceliyor, beyin yapısının tersine mühendisliğini taklit etmeye çalışıyor ve süreçte kullanılan mekanizmaları ve örnekleri yavaş yavaş doğruluyor. Böylelikle sinirbilim ve sinir ağı araştırmaları birbirleri olarak değerlendirilebilir ve bu tür araştırma sonuçları beyin-bilgisayar etkileşimi için daha fazla olasılık getirecektir.

İnsan beyni, görsel girdiye dayalı olarak nesnelerin kategorisini, konumunu, duruşunu ve diğer bilgilerini anlayabilir. İnsanlar nesneler hakkında güçlü bir bilişe sahiptir ve zahmetsizdir.İnsan bilişi üzerine uzun zaman önce pek çok araştırma sonucu olmuştur.Örneğin, insan nesnelerin algısı, görme alanının merkezinde yaklaşık 10 derece aralığında yoğunlaşmıştır ve ardından insan gözü Birden fazla fotoğraf çekmek için hareket ederek resmin tamamını gözlemleyin ve ardından belleğe bağlayın. İnsan görsel sisteminin bu özelliğine "Çekirdek nesne algısı" diyorlar. Profesörün araştırmasının amacı, kategori tanımaya odaklanan nesne algılama görevidir.

Profesör, merkezi nesnenin algısının tersine mühendisliğini üç adıma ayırır:

  • Yapılacak ilk şey, araştırma nesnesinin sahadaki performansını tanımlamak ve manipüle etmektir.Özellikle biyolojik beyne kıyasla mevcut sistemin eksikliklerine dikkat etmek gerekir;

  • Daha sonra, sistemdeki performans üzerinde önemli bir etkisi olacak bileşenleri ölçün Örneğin, bazı biyolojik özellikleri ölçmesi gerekir.Ölçerken, hangi belirli göstergeleri ölçeceğinizi dikkatlice seçmelisiniz;

  • Son olarak, yukarıdaki kısıtlamalar altında ileri mühendislik gerçekleştirilir, bir model oluşturulur ve veriler model ile organize edilir. Bir model için, yalnızca verileri yorumlayıp elde edebilmesi değil, aynı zamanda yeni verileri tahmin edebilmesi de gerekir. Bu şekilde modelleme en kritik adımdır.

Modeli bu üç adım arasındaki etkileşim üzerinden kurduktan sonra, modelin uygulama alanını genişletmeyi deneyebilirsiniz.

Profesörün bugün konuşmak istediği şey, uçtan uca bir primat merkezi nesne algılama sistemi modeli oluşturmadaki ilerlemesini özetlemek için bu üç adıma güvenmektir.

Görsel davranış testi ve veri özellikleri

Profesör, araştırmada test ederken, farklı bakış açılarına sahip nesneleri ilgisiz bir arka plana yerleştirerek oluşturulan görüntüleri kullandı. Bu seçimin nedeni, araştırmasına başladığında çağdaş CV sisteminin ilgisiz geçmişten kolaylıkla rahatsız olması, ancak insanların etkilenmemesi, diğer yandan CV sisteminin daha fazla jest ve Değişikliklerin tanınması daha zordur, ancak insanlar da perspektifin bağımsızlığını yansıtan çok iyi performans gösterir, bu nedenle bu tür görüntülerin insan görsel sisteminin özelliklerini daha iyi gösterebileceğine inanır.

Profesörün testinde insanlar ve maymunlar kullanıldı

Tanıma testleri yapmak için maymunları eğitmek kolaydır. Profesör, çeşitli nesnelerin farklı karmaşıklık düzeylerine göre düzenlendiği insan ve maymun testlerine dayanan böyle bir tanıma kalıbı matrisi çizdi. Her ızgaranın anlamı, bu kategorideki nesneleri başka bir kategorideki nesnelerden doğru şekilde ayırt etme oranıdır. Renk ne kadar kırmızılaşırsa, tanıma doğruluğu o kadar düşük olur; mavi ne kadar fazlaysa, tanıma doğruluğu o kadar yüksek olur.

Yanlış tanıma örüntü matrisine göre, insan performansı temelde insan olmayan primatlarla aynıdır ve bu sadece genel doğruluk oranında değil, aynı zamanda hangi şeylerin karıştırılacağı açısından da yansıtılır. Bu şekilde, hayvanlar üzerinde sinir seviyesinde test ve manipülasyon yapılabilir ve elde edilen verilerin türü ve miktarı büyük ölçüde iyileştirilebilir. Bu temelde, bilgi işleme mekanizması sistematik olarak incelenebilir.

İnsan / primat beyninin görsel korteksi üzerine pek çok araştırma sonucu elde edildi ve insanlar bunun dört bölgeye ayrılabileceğini biliyordu: V1, V2, V4 ve IT. Resimde tüm görsel sistemin iş akış şeması bu şekildedir.Retinadaki hücreler piksel olarak kabul edilirse, dış görsel uyaran önce retina kromatogramını oluşturur, ardından retina seviyesindeki LGN'den sonra serebral korteksin V1'ine geçer. V2, V4, IT alanı, her alanda milyonlarca hücre vardır; daha sonra her alan ve retina farklı özelliklere karşılık gelen farklı alanı oluşturur ve giriş sinyalinin temsil alanı da yavaş yavaş değişir ve insanlar buna göre bölünür Bu nedenle, görüş sistemini derin katmanlı bir ağ olarak kabul edin. BT alanı sonda olduğundan ve en yüksek soyutlamaya sahip olduğundan, BT alanı ile retina arasındaki uygunluk da en zayıf olanıdır ve nesne tanıma görevindeki farklı nesne türlerine yanıt modeli de en net olanıdır.

Öte yandan, mevcut araştırmalar, V1'den başlayan bölgelerin hem ileriye dönük hem de geri bildirime sahip olduğunu göstermiştir ki bu profesör daha sonra bahsedecektir.

Bugün BT alanının sinyal özelliklerinden bahsedeceğim. Araştırmadan sonra, insanlar BT alanının aslında üç katman karakteristik ağa sahip olduğunu buldular, ancak bugün profesör bir katmana göre bir konuşma yapacak.

Profesörün testine göre, görüntüyü gözlere sunmaktan BT'nin bir yanıt oluşturmasına kadar yaklaşık 100 milisaniyelik bir gecikme var. Yanıtı ölçme yöntemleri, çok kanallı elektrotları maymun beyninin farklı bölgelerine yerleştirmektir.Sinir uyarısını ölçen elektrot, şekilde test sonucunda parlak bir nokta olarak gösterilir ve birçok parlak nokta, kar tanesi benzeri bir ölçüm sonucu oluşturur. BT'de dört görüntünün ve üç farklı alanın ölçüm sonuçları sayesinde, BT'nin yanıt gecikmesinin yaklaşık 100 milisaniye olduğu açıkça görülmektedir. Ayrıca, BT'deki farklı alanların aynı kategorideki görüntülere farklı yanıtları olduğunu da yansıtır.

Profesör, çok sayıda görüntüyü test ettikten sonra, BT'nin farklı görüntü türlerine genel tepki yoğunluğunun farklı olduğunu buldu (diğer sinirbilimciler ayrıca belirli bir konumun sinir tepkisinin nasıl değiştiğini de inceledi). Yanıt modu için, her BT hücresi farklıdır ve yanıt her seferinde tam olarak aynı değildir; sinirsel yanıt önceki PPT'de kar taneleri olarak çizilirse, o zaman aynı kar taneleri asla görünmeyecektir.

Bu süreçte, bazı insanlar farklı bölgelerdeki sinirlerin farklı türdeki nesnelere farklı tepki güçlerine sahip olup olmadığını incelemeye çalıştılar ve daha sonra "yüzü algılayan sinir hücrelerinin" genel olarak insan yüzlerine daha yüksek yanıt verdiğini, ancak farklı tür nesnelere farklı yanıtları olduğunu buldular. Yüz görüntülerinin tepkisi farklıdır ve diğer kategorilere tepkisiz değildir. Bu nedenle bu hücreler, tanınan nesnelerin türlerine göre kesin olarak ayırt edilememiş, karmaşık özellikleri de araştırmada ortaya konmuştur.

BT özelliklerine ilişkin araştırma

Bu araştırma sonuçlarını aldıktan sonra, profesörün araştırma ekibi şu sorularla uğraşmaya başladı: Sinir hücrelerinin tepki özelliklerine göre testteki yanlış tanıma davranışı nasıl açıklanır? Organizmalar tarafından sergilenen dış davranışlar, BT'nin sinirsel tepki modelinden etkilenmelidir, peki bu ilişki nasıl bulunur? IT alanında 10 milyon çıkış siniri var Bu 10 milyon sinir hücresinden sinyaller nasıl okunur?

Aşağıda kullanılan yöntemler CV topluluğundakilere aşina olmalıdır. İlk olarak, BT'deki hücrelerin tepkisi vektörleştirilir ve n hücrenin yanıt sinyalleri ölçülür.Her giriş fotoğrafı için, n hücrenin tepki modeli ölçülebilir ve n boyutlu özellik uzayında vektör gösterimi elde edilir; bu n boyutlu uzayın temeli Sayısı, bulunan özelliklerin sayısıdır. Daha sonra, yüz resimleri / yüzü olmayan resimler içeren farklı görüntüler için yanıt modellerini ölçün ve özellik uzayındaki noktalar için doğrusal bir sınıflandırıcı bulmayı deneyebilirsiniz.

Burada profesör, elektrotların hayvan beyinlerine cerrahi olarak yerleştirilmesinden bir kez daha bahsetti. Farklı alanlardaki çoklu elektrotlar aracılığıyla, her elektrot 96 kanal (96 pin) sinyal toplayabilir ve BT ve diğer parçalar için çok yüksek boyutlu bir veri alanı oluşturmak için çok sayıda deney kullanılır. Elde edilen veri miktarı da önceki tek elektrot çağına kıyasla büyük ölçüde iyileştirildi.

Bu yöntemle, bölgenin IT'deki görüntüye tepkisine göre çok yüksek boyutlu bir tepki vektörü oluşturulabilir.Şekilde gösterildiği gibi, 100-1000 sinir hücresi özelliği üzerinde ölçülen yaklaşık 8 vektör görüntülere çizilmiştir. (Uzun çubuk), yeşil yüksek yanıt, siyah düşük yanıt anlamına gelir. 2000 tür görüntünün vektörlerini ölçtüler.Daha fazla türü test etmemelerinin nedeni, çok yüksek bir sinyal-gürültü oranı elde etmek için benzer özelliklere sahip yaklaşık 50 tekrarlı ölçüm yapmalarıdır.

Bu şekilde, elde edilen yüksek kaliteli sinir hücresi tepki modelleri, BT'nin hayvan davranış kararlarını etkileyebileceğine dair güçlü kanıtlar haline gelebilir. BT sinir hücresinin yanıt vektörüne dayalı olarak yanlış tanıma davranışını tahmin etmek için doğrusal kod çözücü yöntemini kullanmak, davranışı doğrudan ölçerek elde edilen sonuçla çok tutarlıdır. Aynı yöntem retina seviyesindeki yanıt için böyle bir tahmin sonucunu elde edemez (bu aynı zamanda BT hücre yanıtının kategori korelasyonunu da gösterir).

Profesörün ilginç bir keşfi var: İnsan performansına ulaşmak için çok fazla BT sinir hücresi özelliğini ölçmek gerekli değildir, yaklaşık 500 yeterlidir. Çağdaş bilgisayar görüşü modelindeki her özelliğin modelin performansına katkısı çok daha küçüktür ve birçok özellik benzer insan performansına ulaşabilir. Bu durum, hayvanların görsel kavrama yeteneğinin düşük boyutlu bir özellik seti ile desteklenebileceğini ve hesaplama modelinin bu şekilde taklit edilebileceğini göstermektedir. BT, yaklaşık 10 milyon çıkış sinir hücresi içerir, ancak iletilen özellik boyutlarının sayısı 1.000'den azdır.

Öte yandan, BT sinir hücrelerinin tepkisi n boyutlu bir uzayda olduğu için, bu n boyutlu uzaydaki baz sayısını, yani BT'deki kategoriyi temsil etmek için kullanılan özellik setinin boyutunu bulabilir misiniz? Nöral yanıt modelini incelemek için doğrusal regresyon kullandılar, bir özellik seti elde ettiler, nöral yanıt vektörünü temsil etmek için özellik setini kullandılar ve son olarak tanıma davranışını tahmin etmeye çalışmak için bu temsil modunu kullandılar.Sonuç, özellik setinin boyutu 500'e ulaştığında özellik setinin doğru olabilmesidir. Öngörülen. Bu bulgu şaşırtıcı ve aynı sayı farklı yöntemlerle elde edildi. Bu aynı zamanda çeşitli nesne tanıma görevlerini desteklemek için BT'nin temel olduğunu destekler. Resimdeki birkaç kişi, profesörün araştırma grubundaki birkaç yıldır onunla birlikte çalışan öğrencilerdir.

Özetle, BT'nin özellik alanı, biyometrinin potansiyel temelidir ve basit doğrusal sınıflandırma, çoğu veya tüm nesne tanıma zorluklarının üstesinden gelmek için kullanılır. BT sinir grubu, neredeyse ters eğitim olmaksızın birçok nesneyle ilgili görevi tamamlamak için kullanılabilen, nispeten sabit bir temel özellikler kümesidir.

BT hücrelerinin özelliklerini anladıktan sonra daha pratik ve derinlemesine bir soru gelir: BT sinir hücrelerinin özellikleri sadece 500 ile nasıl oluşur? Retina sinyalinden yavaş yavaş nasıl soyutlanırlar? Bu hesaplama yöntemleri insan büyümesi sürecinde nereden geldi? Bu konuları net bir şekilde inceleyebilirseniz, profesör ekibinin hedeflerine çok yardımcı olacaktır. Amaçları, herhangi bir resim ve herhangi bir orta sebum katmanı için karşılık gelen sinir grubunun yanıt modelini doğru bir şekilde tahmin edebilen bir kodlayıcı modeli oluşturmanın bir yolunu bulmaktır. Şu anki sorun, sistemin temel sorunudur.

BT'nin özelliklerini açıklayabilen bir hesaplama ağı nasıl oluşturulur?

O zamanki tüm araştırma sonuçlarında, V1 seviyesi etrafındaki sinir hücresi fonksiyonları iyi açıklanmış ve modellenmiştir.Hepsi sadece ileri beslemeyi dikkate alan modeller olsa da, V1'in tepkisini açıklamak için kullanılabilirler. % Uyumluluk; ancak, çeşitli hesaplama modelleri BT'deki yanıtın yaklaştırılması için iyi değildir, en fazla% 20'dir. Yani o zamanki modeller çok kötü performans gösterdi.

Profesör daha sonra araştırma sürecinde ortaya çıkan primat görsel sistemini taklit eden bazı modeller tanıttı.Çeşitli yöntemlerle, giriş görüntüsünden bir özellik vektörü oluşturuldu ve sonunda (nesne kategorisini alabilen) doğrusal bir sınıflandırıcı var. Beyin bilimi araştırmalarının mevcut sonuçlarına göre, herkes beynin mühendisliği ve sınırlamaları hakkında bir miktar anlayışa sahiptir, bu nedenle bu modellerde, beyin gibi uzamsal yerel filtreler, evrişimler, kritik doğrusal olmayanlıklar, doğrusal olmayan havuzlar, düzenlilik vb. , Modelin çıktısını işlemek için bu yöntemleri kullanın. En eski sinir ağı 1980'de Fukushima tarafından önerildi ve ardından Tomaso Poggio, David Cox, Nicolas Pinto ve diğerleri tarafından sürekli araştırma ve iyileştirmeden sonra, profesör ve öğrencileri tarafından tamamlanan HMO modeline geldi.

Pek çok bilgisayarla görme insanına aşina olan evrişimler, özellik filtreleri vb. Dahil olmak üzere insan görsel sisteminin 4 seviyesini taklit eden derin bir sinir ağı modelidir. Diğer sinirbilimciler genellikle tam nöronal indirgeme simülasyonları yaparlar ve yaptıkları şey, bilinen sınırlamalar altında daha verimli mimarilere sahip yapay modeller bulmaktır. Bu taklit insan BT'sine dayanarak, HMO, insanlara benzer bir doğru hız performansı elde etti.

Daha sonra, modeldeki BT'ye karşılık gelen parçanın karakteristik temsilini gerçek sinirlerin BT tepkisi ile karşılaştırdılar. Her şeyden önce, tanıma doğruluk oranı insan performansına benzer.

Daha sonra, belirli bir bölgeye BT sinir hücrelerinin spesifik darbelerinin takılması için, önceki modellere kıyasla değişikliklerin yalnızca% 20'si açıklanabilir ve HMO'nun takılma derecesi, yaklaşık% 50 oranında büyük ölçüde iyileştirilmiştir. Bu da modeldeki gizli katmanın açıklama derecesinin de çok yüksek olduğunu göstermektedir.

Sinirbilimciler tarafından tasarlanan bir model olarak artık bir kara kutu değil, iç işlevleri insan beynininkilere karşılık geliyor. Sadece BT değil, V4 görsel korteks tahmini de yeni bir zirveye ulaştı. Şekildeki veriler, ağın daha önce gördüğü kategorilerden değil, model genellemesinin sonucudur, "tahmin".

Profesör böyle bir resim gösterdi.Evrişimli sinir ağı araştırması sürecinde, ağın kendisinin nesne tanıma yeteneği önemli bir performans göstergesidir.Aslında, tanıma yeteneği ne kadar güçlüyse, BT yanıtının yorumlama yeteneği o kadar iyidir; HMO Bu modelin performansı gelişirken, BT performansını açıklama yeteneği de yeni bir zirveye ulaştı (2012'de).

Şu andaki gelişme daha ilginç.Beynin ve bilişsel bilimin araştırma hedefleri ve bilgisayar vizyonunun araştırma hedefleri farklı olsa da, birleşmeye başladılar ve hepsi mümkün olan en yüksek performansa sahip modeller oluşturmaya çalışıyorlar.

2013 yılına gelindiğinde, o zamanlar popüler olan derin sinir ağı AlexNet'in tanıma performansı ve BT sinir hücresi tepkilerini yorumlama yeteneği, HMO'larını aştı. Profesör şu anda yürekten minnettarlığını da ifade etti: Derin sinir ağlarının teknolojik gelişimi ve kurulan mükemmel modeller, sinirbilimcilerin insan beyninin ilkelerini daha iyi anlamalarına yardımcı oldu.

Sinir ağlarından yeni sapma

Ancak sinirbilimciler, insan tanıma modellerini daha iyi ve daha iyi anlayabileceklerini umarak daha iyi ve daha iyi performansa sahip sinir ağı modellerini bekleyebilir mi? Aslında işe yaramıyor. Profesörün kendi laboratuvarındaki model turuncu. Model ilerledikçe tanıma performansı ve yorumlama performansı iyileştirildi; ancak makine öğrenimindeki son modeller, sınıflandırma performansı gibi yalnızca görüntü sınıflandırma performansının iyileştirilmesine odaklanıyor Oranın artmasıyla BT hücrelerinin tepkisini açıklama yeteneği azalır.

Ancak genel olarak, iki alan, sinir işlemenin her aşamasında iyi çalışan bir öngörücü modele ortaklaşa ulaştı. Davranış modeline tekrar bakıldığında, derin CNN aslında insanlara çok benziyor, ancak genel ve köşe doğruluğu daha yüksek; Şekildeki Inception v3 sonuçlarına ek olarak, diğer CNN'lerin performansı da çok benzer.

İlkeleri incelemeye ve analiz etmeye devam etmek için, AMT kitle kaynak kullanımı ve maymunları daha fazla veri toplamak için kullandılar, böylece çok ince taneli veriler gözlemlenebilir ve doğru veya doğru tanınmayan her görüntü için davranıştan Açı analizi.

Çok ince bir ayrıntı düzeyinde, maymunların ve insanların performansı hala çok yakındır. Ancak görüntüler arasındaki performansın kararlılığı / özellik seti açısından CNN, insanlardan ve maymunlardan çok farklı.

Profesör, modelde bazı yapıların eksik olduğuna inanıyor. Modelde yalnızca ileri beslemenin modellenmesi ve hiçbir geribildirimin modellenmemesi olabilir, bu da primatlarda CNN modelinde gözlemlenmeyen bazı davranışlara yol açar.

Son araştırmada, bilgisayarla görme görüntü veri seti yardımıyla MS Coco da testte kullanıldı.Görüntüleri test sonuçlarına göre iki kategoriye ayırdılar.Birincisi, bilgisayarla görme sisteminin primat seviyesine ulaşmasıdır (CV çözülmüş ), diğeri ise performansın elde edilememesi ve ardından nedeni bulmaya çalışmak için beyindeki BT'nin tepki vektörünü ölçmektir.

Daha sonra, bilgisayarla görme performansı insan düzeyine ulaşmayan (kırmızı noktalar) görüntülerde, BT'deki yanıt süresinin ortalama olarak yaklaşık 30 ms'lik (insan düzeyindeki görüntülere kıyasla mavi noktalara kıyasla) gözle görülür bir gecikme olduğunu buldular. Bu 30 ms içinde, insan beyninin sahip olduğu ancak CNN ağının çalışmadığı yapıların, çoklu geri bildirim gibi çalışmadığını düşünüyorlar.

Buradaki bir başka ilginç bulgu da, BT sinir hücresi popülasyonları için ileri beslemeli CNN ağının yorumlama yeteneğinin, BT'nin yanıt oluşturmasının daha kısa sürdüğü görüntüde daha güçlü ve BT'nin yanıt oluşturmasının daha uzun sürdüğü bir görüntüde daha güçlü olmasıdır. Zayıf; resimdeki eğri. Bu, geri bildirim ihtiyacı ve model yapısındaki döngü yapısı açısından her iki araştırma alanı için yeni zorluklar ortaya çıkarmaktadır.

Bununla birlikte, profesör, bunun amacının CV topluluğundaki kişilerin bu kadar basit geri bildirim eklemelerini gerektirmek olmadığını, ancak bu tür bulgular gelecekteki araştırmalar için incelenmesi gereken bir dizi konuyu ortaya koyduğunu söyledi.

Profesör konuşmanın genel bir özetini yaptı: CV çevreleri ve sinirbilim çevreleri, merkezi nesne algılama mekanizmasının anlaşılmasına büyük katkılarda bulundu. Profesör, gelecekteki araştırmaların yönü ile ilgili olarak, yeni yapılar, yeni araştırma araçları ve görsel sistemin inşası hakkında da sorular yöneltti.

Dersin sonunda profesör, önceki araştırmacılara, öğrencilerine ve meslektaşlarına, sponsorlara ve deneye beyinleriyle katkıda bulunan maymunlara teşekkür etti. Orada bulunan herkese, sadece onu davet ettikleri için değil, aynı zamanda CV endüstrisinin sonuçları araştırmalarına büyük ilham verdiği için özel teşekkürler.

Soru-Cevap oturumu

Soru: Makine öğrenimi alanında, daha önce hiç görülmemiş nesneleri tanımak için eğitilmiş bir ağın son birkaç katmanını eğitebilen bir transfer öğrenme yöntemi vardır. İnsan görsel sistemi, daha önce hiç görmediği nesneleri tanımak için nasıl eğitilir? BT'ye yeni özellikler eklenecek mi?

Cevap: BT özellik setinin kaç parçasının doğduğu ve kaçının eğitildiği henüz belli değil. Ancak yetişkin hayvan testleri için yeni bir kategori öğrenmek yaklaşık bir gün sürer. 20 ila 30 yeni kategori öğrendikten ve ardından test ettikten sonra, BT'nin özellik alanı aynıdır.Önceki iletim sürecinde değiştiğine ve yeni kategorinin orijinal özellik alanında yeni bir konuma yerleştirildiğine inanıyoruz.

Soru: 100'den fazla katmana sahip mevcut sinir ağları hakkında ne düşünüyorsunuz? İnsan sinir ağlarıyla karşılaştırılabilir mi?

C: Daha önce bahsettiğim gibi, daha derin ağlar test görevlerinde daha iyi ve daha iyi performans gösteriyor, ancak BT hücre yanıtlarının yorumlanması gittikçe azalıyor. Model yapısı sınırlandırılmamışsa, ancak görev sürekli olarak optimize edilmişse, bu farklılaşma eğilimi gerçekten oluşacaktır. Bununla birlikte, aslında, primat görüşünün dört bölgesinin her biri birçok katmandan oluşuyor olabilir ve biz de her katmanı CNN'deki her katmana eşlemeye çalışıyoruz. Sizinle bu konuda ortak bir tahminim var, ama şimdi onu da inceliyoruz, tam olarak net değil.

Soru: Görsellerde, CV tarafından tanınması zor olan, onları tanımayı zorlaştıran herhangi bir özel özellik var mı?

Cevap: Bu resimlerdeki değişkenler üzerinde de regresyon kontrolleri yaptık Şimdiye kadar herhangi bir neden bulamadık ve bu görüntülerin özelliklerini bulamadık.

Soru: Farklı katmanlar için örnekleme süresi ne kadardır? Primat görsel katmanı ile katman arasındaki sinyal iletim gecikmesi ne kadardır?

Cevap: Eğrinin değişimini göstermek için, ilk gösterimin BT özellik alanı 100 ms'dir ve BT'nin sinyal gecikmesi 10 ms sonradır. O halde katmanlar arasında sabit bir gecikme yoktur, sinirbilimciler aslında herhangi bir sinir hücresinin herhangi bir nabzının anlamlı olduğunu düşünebilirler.Çalışmamızda sadece BT'nin davranışı ölçülür ve görüntü verilir. BT oluşturma davranışındaki gecikme de onlarca ila 200 ms arasındadır. V1 ile V2 ve V4 arasındaki zamana gelince, tamamen farklı bir büyüklükte olabilir, ancak bunu özel olarak çalışmadığımız için sadece bu kadarını söyleyebiliriz.

Soru: BT'nin ne tür bilgileri geri bildireceğini düşünüyorsunuz? Saf varsayım

C: Benim için bu soru, ileri besleme akışında hangi bilgilerin bulunduğunu sormak gibi, ki bu insan dilinde tarif etmek zor. Sanırım rolleri daha derin ağı bir döngü aracılığıyla daha küçük bir alanda kapsüllemek olabilir Gördüklerime dayanarak sanırım bu şekilde. Ancak tüm döngülerin ve geri bildirimlerin hesaplama ve muhakeme için kullanıldığından emin değilim. Ayrıca öğrenmek ve öğrenme döngüsünü sürdürmek için de kullanılabilirler. Bu 30 ms'den uzun sürebilir. Açıkça bilmek istiyorsak, aralarındaki sinyallerdeki farkı doğru bir şekilde ölçmek için hücre türleri arasında ayrım yapmak için güncellenmiş araçlara ihtiyacımız var. Bu aynı zamanda araştırmamızın da sınır parçasıdır. Sanırım küçük bir alanda bir öğrenme döngüsü ve daha derin bir ağ var. Tamamen spekülatif, bana bu şansı verdiğin için teşekkürler

Soru: Ayrıntılı sınıflandırma görevleri üzerine herhangi bir araştırma var mı? Örneğin, köpekleri ve kedileri kategorize etmek yerine, ancak daha ayrıntılı bir köpek ve kedi kategorisi yerine, insanlar bu alanlarda iyi performans gösteriyor.

Cevap: Ölçtüğümüz BT'nin kısa vadeli geri bildiriminde, ayrıntılı kategoriler arasındaki farkı göremiyoruz. İnce taneli görevlerde, insanların ayırt edebilmek için daha ayrıntılı bilgi toplamaya devam etmesi gerekir ve sonraki bilgiler şu anda sinir hücrelerinin seviyesinden ayırt edilemez.

Soru: Sinir hücreleri "evrişimi" nasıl tamamlar?

C: Aslında, beyin böyle çalışmadığı için "evrişimli sinir ağının" yazılamayacağını sık sık söylüyorum. Ancak bir ders kitabını açtığınızda, görsel alanın farklı bölümlerinin Gabor fonksiyonları hakkında benzer varsayımlara sahip olduğunu görebilirsiniz. Bazı insanlar bunun sadece bir evrişim işlemi olmadığını söyleyecektir, ancak sorulması gereken, Gabor fonksiyonunun neden evrişim rolünü oynadığıdır. İnşa ettiğimiz evrişimli sinir ağının ayrı bir evrişim katmanı ve evrişim operatörü var.Beynin aksine beynin aynı anda nasıl kıvrılacağını öğrenmeye çalıştığı söylenebilir. Bence beynin bu tür işlevleri öğrenmesi gerekiyor ve öğrendikten sonra istatistiksel özellikler evrişimli ağınkine benziyor, böylece iki farklı şekilde öğrenebilir ve sonunda benzer bir filtre elde edebilir. Yani bence, beynin özel bir evrişim tabakası olması değil, evrişim etkisine nihayet ulaşılmış olmasıdır. Umarım ne demek istediğimi anlayabilirsin.

(Bitiş)

Yakın gelecekte birçok üst düzey akademik konferans olacak ve çok sayıda harika akademik araştırma dersleri olacak. İlgilenen okuyucular, lütfen Leifeng.com'un AI Teknoloji İncelemesine dikkat etmeye devam edin.

Dashi Johnson, Noel Baba rolünde "Entertainment Weekly" de yer aldı ve Happy Camp ile de eğlendi
önceki
Doktorların sözleri neden bu kadar karalanmış? Bir temel olduğu ortaya çıktı
Sonraki
Yılbaşı gününde hassas bıçak tekniğine nasıl hakim olacağınızı öğretin
Şangay Otomobil Fuarı'ndaki ilk akıllı araba tedarik zinciri zirvesi, Bosch, Tencent ve Visteon'un da aralarında bulunduğu 11 ağır konuk tarafından duyuruluyor.
"Star Wars 8" resmi olarak 5 Ocak'ta başlıyor! Uzay bilimi kurgu, geleceğin ana yaratımı olan yeni yılın dev sistemini başlatıyor
Huawei Wang Yinfeng: Akıllı ve tamamen bağlı, PC'nin geleceğinin anahtarıdır
"Wild of the Wild" Bağlantısı ve motosiklet, "Mario Racing 8 Deluxe Edition" a katıldı
StarVR Çin'de görücüye çıktı 5K + 210 derece görüş alanına sahip bir kaskın deneyimi nedir? | ChianJoy 2017
"İkinci Nesil Peri", size "canavar grubundan çıkmayı" öğretmek için "transeksüel işe gidiş geliş" posterini ortaya çıkarıyor
Gerçek ya da sahte? ! "Yeni EVA Theatrical Edition" ın dördüncü bölümü 2020 baharında çıkacak!
Chongqing Hayvanat Bahçesi havalı bir sıcak tutma modu açtı, ikimiz de kıskanç olduğumuz "mutlu şişko ev" haline geldiler.
Açık alanda unutulan Maserati'nin içi boş kaldı. 90'lardan sonra üç şüpheli tutuklandı: kendi arabalarına takmak istediler, ancak uymazlarsa sattılar
Kriket sisteminin geri adım atan uyarlanabilir dinamik kayma modu kontrolü
2018 küresel kurumsal Ar-Ge yatırım sıralaması açıklandı: Listedeki bu Çinli şirket harika
To Top