MIT araştırması, sinir ağı oluşumunun kavramsal sürecini "görür". Sinir ağlarının tümü kara kutular değildir

Xinzhiyuan Derlemesi

Sinir ağları güçlü ve çok yönlüdür, ancak ölümcül bir kusurları vardır: bir kez eğitildiklerinde, tasarımcının bile nasıl çalıştığını bilmesinin yolu yoktur. Evet, sözde kara kutu.

İki yıl önce, MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) ekibinden bir grup bilgisayarlı görme araştırmacısı, sinir ağlarının kara kutusunu "soymanın" bir yolunu önerdi. Bu yöntem bazı ilginç bilgiler sağlar, ancak gerekli verilerin önceden manuel olarak etiketlenmesi gerekir, bu da zaman alıcıdır ve yoğun emek gerektirir.

Bu yılki bilgisayarla görme konferansı CVPR'de MIT CSAIL araştırmacıları aynı sistemin tam otomatik bir sürümünü yayınlayacak. Tüm sürecin otomatikleştirilmesi önemlidir, çünkü sonuçların insanlar tarafından değil, makineler tarafından üretildiği anlamına gelir.Bu, sinir ağlarının kara kutusunun kilidini açmada önemli bir adımdır.

Önceki bir araştırma makalesinde, CSAIL araştırma grubu, bir görevi tamamlayabilen bir sinir ağını analiz etti. Yeni makalede yazar, ResNet, VGG-16, GoogLeNet ve AlexNet olmak üzere 4 tür sinir ağını analiz etti. Bu 4 tür sinir ağı, sahneleri ve nesneleri tanıma, gri görüntüleri renklendirme ve Yap boz u çöz.

Araştırmacılar ayrıca bu ağlar üzerinde çeşitli deneyler yaptılar ve elde edilen sonuçlar yalnızca bilgisayarla görme ve hesaplamalı fotoğraf algoritmalarını incelemek için yararlı olmakla kalmıyor, aynı zamanda insan beyninin organizasyonu için ilham veriyor.

Yukarıdaki şekil, VGG-16, GoogLeNet ve ResNet'te, seçilen birimlerin konumları sınıflandırmak için eğitilebileceğini göstermektedir (Places-365 veri kümesinden). Pek çok bağımsız birim, belirli üst düzey kavramlara (nesne bölümleme) yanıt verir ve bu üst düzey kavramlara, eğitim veri setindeki (sahne sınıflandırması) ağ tarafından dokunulmaz.

Düğüm davranışını doğru bir şekilde karakterize etmek için otomatik analiz

Nöronların insan beynindeki bağlanma şekline benzer şekilde, sinir ağları da çok sayıda düğümden oluşur. Komşu düğümler tarafından iletilen bilgiyi aldıktan sonra, ağ düğümü sinyali "iletir", yani bir yanıt üretir veya hiçbir şey yapmaz. Farklı düğümler tarafından iletilen sinyalin gücü de farklıdır.

Eski ve yeni makalelerde, MIT araştırmacıları bilgisayarla görme görevlerini gerçekleştirmek için sinir ağlarını eğitiyorlar.Tasarıma göre tek bir düğümün farklı girdilere tepkisi tespit edilebiliyor. Daha sonra araştırmacılar, nöronların yanıt vermesini en üst düzeye çıkaran 10 girdi görüntüsü seçtiler.

Makalenin ilk yazarlarından biri ve MIT'de elektrik mühendisliği alanında yüksek lisans öğrencisi olan David Bau şunları söyledi: "Yeşil, dönen dokular, ahşap malzemeler, insan yüzü, bisiklet tekerlekleri veya karlı dağ tepeleri gibi 1.100 görsel kavramı katalogladık." İnsanlar birkaç veri kümesi geliştirdi ve bunları görsel bir kavram veri kümesinde birleştirdi. Bu veri kümesinin birçok etiketi var. Her etiket için hangi pikselin hangi pikselde bu etikete karşılık geldiğini biliyoruz. "

Araştırmacılar ayrıca, hangi görüntü piksellerinin belirli bir ağ düğümünün en güçlü yanıtına karşılık geldiğini bilirler. Sinir ağı katman katman oluşur. Veriler önce en alt katmana beslenir ve ardından işlendikten sonra bir sonraki katmana aktarılır ve bu şekilde devam eder. Görsel verileri işlerken, girdi görüntüsü küçük parçalara bölünür ve her parça ayrı bir giriş düğümüne beslenir.

Ağdaki yüksek seviyeli düğümlerin güçlü reaksiyonu için araştırmacılar, karşılık gelen belirli görüntü pikselini tanımlamak için tetikleme modunu izleyebilir. Araştırmacılar tarafından geliştirilen sistem, böyle bir piksele karşılık gelen etiketi hızlı bir şekilde tanımlayabildiğinden, düğümün davranışını doğru bir şekilde karakterize edebilir.

Araştırmacılar, veritabanındaki görsel kavramları bir hiyerarşi içinde düzenler. Bunların arasında her seviye, renklerden başlayarak dokulara, malzemelere, parçalara, nesnelere ve sahnelere kadar aşağıdaki seviyelerin kavramlarını birleştirir. Genel olarak, sinir ağının alt katmanları daha basit görsel özelliklere (renk ve doku gibi) yanıt verir ve daha yüksek katmanlar daha karmaşık özelliklere yanıt verir.

Buna ek olarak, hiyerarşik yapı, araştırmacıların farklı görsel özelliklere sahip görevleri gerçekleştirirken eğitimli ağın odağını ölçmelerine de olanak tanır. Örneğin, siyah beyaz görüntüleri renklendiren bir ağ, doku tanıma için düğümlerin çoğunu kullanır. Birden çok video karesindeki nesneleri izlemek için kullanılan başka bir ağ, sahne tanıma için daha yüksek bir düğüm yüzdesi kullanır.

Neden yorumlanabilir birimler çalışmalı? Sinir ağı oluşum sürecini "görmek"

Bu yorumlanabilir birimler çok ilginç çünkü varlıkları derin sinir ağlarının tamamen kara kutu yapıları olmadığını gösteriyor. Bununla birlikte, bu yorumlanabilir birimlerin sözde "çözülmüş temsil" in varlığını kanıtlayıp kanıtlayamayacağı açık değildir.

Araştırmacılar, makaledeki aşağıdaki 3 soruyu cevaplamaya kararlıdır:

  • Çözülmüş temsil nedir? Faktörleri nasıl ölçülür ve tespit edilir?

  • Yorumlanabilir gizli birim, özellik uzayında özel bir tutarlılık yansıtıyor mu? Yoksa yorumlanabilirlik (kimera) yok mu?

  • Mevcut son teknoloji eğitim yöntemlerinde hangi koşullar sunumda karışıklığa neden oluyor?

  • Araştırmacılar, CNN'nin yorumlanabilirliğini ölçmek için genel bir Ağ Diseksiyonu çerçevesi (aşağıya bakınız) önerdiler. Ayrıca CNN eğitim teknolojisinin yorumlanabilirlik üzerindeki etkisini analiz ettiler ve farklı temsil seviyelerinin farklı anlam kategorilerini ortaya çıkardığını ve farklı eğitim teknolojilerinin gizli birimler tarafından öğrenilen temsilin yorumlanabilirliği üzerinde önemli bir etkisi olduğunu buldular.

    Ağın yorumlanabilirliğinin ResNet> VGG> GoogLeNet> AlexNet olduğu ve eğitim görevinde veri setinin sonuçlarının da farklı olduğu, Places365> Places205> ImageNet olduğu bulunmuştur.

    Kendi kendine denetlenen görevlerde, farklı görevler için yorumlanabilirlik de farklıdır.

    Sadece bu da değil, Ağ Çözme aynı zamanda araştırmacıların eğitim sırasında ağ "kavramsallaşma" sürecini "görmelerine" izin verir.

    Yukarıdaki animasyon, ilk başta "köpekleri" tanımlamak için kullanılan sinir ağının "şelaleleri" tanımlamak için kullanılan sinir ağı haline geldiğini göstermektedir.

    CNN'de "büyükanne hücreleri" var mı? Tek bir nöron yanıtı kavramı, bir nöron kombinasyonundan çok daha fazlasıdır

    Araştırmacılar tarafından yapılan deneyler arasında, sinirbilimde uzun süredir devam eden bir tartışmaya bir cevap daha var. Önceki çalışmalar, beyindeki tek bir nöronun belirli uyaranlara yanıt verdiğini göstermiştir. Bu hipoteze başlangıçta Büyükanne Nöron Hipotezi adı verildi ve daha sonra "Jennifer Aniston Nöron Hipotezi" olarak da anıldı. O zamanlar Jennifer Aniston nöron hipotezini öneren bilim adamları, deneylerindeki bazı hastaların yalnızca bazı Hollywood ünlülerinin yüzlerine yanıt veriyor gibi görünen nöronlara sahip olduğunu keşfettiler.

    Birçok sinirbilimci bu hipoteze katılmıyor. Beyindeki ayırt edici algıyı belirlemekten tek bir nöron yerine farklı nöronların kombinasyonunun sorumlu olduğuna inanıyorlar. Bu nedenle sözde Jennifer Aniston nöronu, birçok nörondan yalnızca biridir ve Jennifer Aniston'ın yüzünün görüntüsüne yanıt veren nöronun bir parçasıdır. Nöronların bu kısmı, diğer birçok nöron kombinasyonunun bir parçası olabilir, ancak bu kombinasyonlar henüz gözlemlenmemiştir.

    MIT araştırmacıları tarafından önerilen yeni analiz tekniği tamamen otomatik olduğundan, sinir ağında benzer şeylerin olup olmadığını test edebilir. Araştırmacılar, belirli görsel kavramlara yanıt veren ayrı ağ düğümlerini tanımlamanın yanı sıra rastgele seçilen düğüm kombinasyonlarını da değerlendirdiler. Ancak, düğüm kombinasyonu seçiminin görsel konseptinin tek bir düğümden çok daha az olduğu ortaya çıktı - yaklaşık% 80.

    Bau şöyle dedi: "Bana göre, bu, sinir ağının aslında bir büyükannenin nöronunun bir yaklaşımını elde etmeye çalıştığını gösteriyor. Nöronlar, büyükanne kavramını her yerde görmek istemiyor, ancak bu kavramı bir nörona atıyor. Bu yapının bu yönü, çoğu insan bunun o kadar basit olduğuna inanmıyor. "

    Tez "Ağ Anatomisi: Kantifiye Derinlik Görsel Temsilinin Yorumlanabilirliği"

    Özet

    Tek bir gizli birim ile bir dizi anlamsal kavram arasındaki tutarlılık derecesini değerlendirerek CNN'in potansiyel temsillerinin yorumlanabilirliğini nicelleştiren Network Dissection adlı genel bir çerçeve öneriyoruz. Herhangi bir CNN modeli verildiğinde, önerdiğimiz yöntem, ara evrişimli katmanın her bir gizli biriminin anlamını değerlendirmek için çok sayıda görsel kavram içeren bir veri seti kullanır. Anlamsal birimlere nesneler, parçalar, sahneler, dokular, malzemeler ve renkler dahil bir dizi farklı etiket verilir. Önerilen yöntemi, bir birimin yorumlanabilirliğinin, birimin rastgele doğrusal kombinasyonuna eşdeğer olduğu hipotezini test etmek için kullandık. Ardından, farklı denetlenen ve kendi kendine denetlenen görevleri çözmek için eğitilmiş çeşitli ağların potansiyel temsillerini karşılaştırmak için yöntemimizi uygularız. Eğitim yinelemelerinin etkilerini daha ayrıntılı analiz ediyoruz, farklı başlatmalarla eğitilen ağları karşılaştırıyoruz, ağ derinliği ve genişliğinin etkilerini inceliyoruz ve derin görsel sunumların yorumlanabilirliği üzerindeki bırakma ve toplu normalizasyonun etkilerini ölçüyoruz. Önerilen yöntemin CNN modelinin özelliklerini ve ilgili eğitim yöntemlerini ortaya çıkarabileceğini gösteriyoruz.

    Kağıt adresi:

    Xinzhiyuan'ın işe alım bilgilerini görüntülemek için orijinal metni okumak için tıklayın

    Xu Jiayin'in küçük hedefi: Evergrande, Çin Süper Ligi AFC Şampiyonlar Ligi'nde iki şampiyonluk kazandı! Sigara içmek, içki içmek ve uyuşturucular atılır!
    önceki
    30 gün daha 4 gün tatil! Bütün ülkenin halkı Guangxi'yi tekrar kıskanacak!
    Sonraki
    Kişilik testi! Dört araba ve dört kişilik, hangi araba seçeceğiniz kişiliğinizi ortaya çıkaracak?
    Bakalım Çinli askerler karda ne kadar iyi oynuyor, eşsiz!
    Wang Yuquan'ın karakol konferanstaki tam konuşması: Gelecekte 10 büyük teknolojik trend + 2 büyük paradigma kayması
    Netizenler tarafından seçilen ilk on eriğin kendine has değerleri var! Kendi icadımın bu cümlesini eklemeliyim!
    Zhou Guoping: Mutluluk tüm davranışların nihai amacıdır, diğerleri araç
    Kırağı hayatınızda bir kez görmeye gitmelisiniz, bir peri ülkesi kadar güzel!
    Hangisi daha iyi, burulma kirişi mi yoksa çok bağlantılı süspansiyon mu? Kompakt arabalar neden burulma kirişlerini kullanmayı sever?
    Gizli adalarda oynamak, Avrupa'daki petrol hendek ülkelerine giriş yapmak ve varışta vize almak için yurt içi tur fiyatını kullanın
    Bugün kıdemlilikten bahsedelim: 5 orta boy SUV sıralaması? İlk kim ve beşinci kim?
    "Decryption Quantum" AlphaGo'dan esinlenen yapay sinir ağı, kuantum sistemindeki bir atılımı temsil ediyor
    Messinin kariyerindeki 50. hat trick'i! Hayranlar: Messi, tüm insanlık için bir futbol cevheri!
    Jingdezhen'de kar yağıyor! Büyük bir kar sahnesi dalgası canlandırıcı! Bazı şeylerin dikkat edilmesi gerekir!
    To Top