Xinzhiyuan Derlemesi
Yazılı sembollerin kullanılması, insan kültürünün gelişiminde büyük bir başarıdır. Ancak, soyut harf temsilinin vizyonda nasıl öğrenildiği hala çözülmemiş bir sorundur. Araştırmacılar, dün Nature.com'da yayınlanan, denetimsiz derin öğrenme ve doğal görüntü özelliklerinin geri dönüştürülmesinden ortaya çıkan mektup algısı başlıklı bir araştırma raporunda, derin sinir ağlarına dayalı büyük ölçekli bir harf tanıma hesaplama modeli önerdiler. Olasılıksal üretken model, görsel girdiye uyar ve tamamen denetimsiz bir şekilde daha karmaşık bir iç temsil hiyerarşisi geliştirir.
Yazılı sembolleri öğrenmenin, nesne tanıma için önceden var olan nöron devrelerini kısmen yeniden kullandığına dair bir hipotez vardır ve modelin erken işleme aşaması, doğal görüntülerden öğrenilen genel alan genel görsel özelliklerini kullanır ve Alana özgü özellikler, basılı harflere maruz kalan yukarı akış nöronlarında ortaya çıkar. Araştırmalar göstermiştir ki, gürültü azaltılmış görüntüler için bile, bu yüksek seviyeli temsiller harf tanıma ile kolayca eşleştirilebilir ve bu da insan gözlemcilere benzer harf tanımanın kapsamlı ampirik sonuçlarının doğru bir simülasyonuyla sonuçlanır. Araştırmacının modeli, doğal görsel ilkelleri yeniden kullanarak, sembol yazmayı öğrenmenin yalnızca sınırlı, alana özgü ayarlamalar gerektirdiğini göstermektedir; bu, harf şekillerinin kültürel olarak doğal çevrenin istatistiksel yapısına uyacak şekilde seçildiği varsayımını destekler.
Şekil 1a, araştırmacı tarafından önerilen modelin genel mimarisini göstermektedir. Ağın alt katmanı, görüntü pikseli gri seviyesinin aktivasyon kodu olarak algısal sinyali alır. Retina ve talamusta ortaya çıkan düşük seviyeli görsel işleme, görüntüdeki yerel uzamsal ilişkiyi yakalayan ve kontrast normalizasyonunun bir adımı haline gelen biyolojiden esinlenen bir beyazlatma algoritmasıyla simüle edilir.
Şekil 1, derin öğrenme mimarisi ve doğal görüntüler ile basılı mektup verilerinin bir örneğidir. a, Derin öğrenme mimarisi. Her kutu, ağdaki bir nöron katmanını temsil eder. Beyazlatma aşamasına karşılık gelen yön oku ileri beslemeli işleme yol açarken, yönlendirilmemiş bağlantı denetimsiz üretken öğrenme tarafından kullanılan iki yönlü işlemi gösterir. Doğrusal okuma katmanına karşılık gelen yön oku, denetimli öğrenmeye yol açar. Harf işlemede yer alan ilgili beyin ağı sağ tarafta gösterilir (LGN, dorsolateral genikulat çekirdek; V1, birincil görsel korteks; V2, ikincil görsel korteks; V4, dış striatal görsel korteks; OTS, temporal oksipital Hendek); b, sağda görüntülenen çok sayıda küçük yama (40 × 40 piksel) içeren doğal bir görüntü; c, araştırmacının veri setinde birden çok yazı tipi, stil, boyut ve konumsal ilişki kullanılarak oluşturulmuş basılı harflerin bir örneği yapmak.
Araştırmacılar, erken kortikal görmede (V1 ve V2'de) ortaya çıkan işlem türünü taklit eden ilk iç katmanda (örtük) nöronlarda kodlanmış H1 gizli özellikler setini çağırırlar.
Şekil 2, yeni ortaya çıkan nöron alıcı alanları, temsil seçimini ve modeldeki harf tanıma doğruluğunu göstermektedir. a. H1 katmanındaki nöron örneklerinin alıcı alanında, gri ölçek bağlantı gücünü yansıtır (siyah: güçlü, engelleyici bağlantı; beyaz: güçlü, heyecan verici bağlantı); b, H2 katmanındaki örtük nöron örneklerinin alıcı alanı; c Ve d, H1 katmanındaki (c) ve H2 katmanındaki (d) farklı uyaranlar için ortalama geri bildirim (aktivasyon normu); e, gürültü seviyesinin bir fonksiyonu olarak farklı karakterizasyon katmanlarının okumalarının doğruluğu (yani, Gauss gürültüsünün standart sapması); f, gürültüsüz uyaran örneği ve gürültülü karşılık gelen sürüm, performans öncekinin yaklaşık% 50'sidir.
Şekil 3, insan psikofizik araştırmalarının bir simülasyonudur. a, model karışıklık matrisi ile çeşitli ampirik karışıklık matrisleri arasındaki Pearson korelasyonu (her ikisi de P < 0,001). Tüm deneyim matrisleri arasındaki ortalama çapraz korelasyonun 0.56 olduğuna dikkat edin; b, H2 temsili hiyerarşik kümeleme ile elde edilen dendrogram, ağın dahili temsilinde harfler arasındaki görsel benzerliğin korunduğunu gösterir. Bağlantı sütununun yüksekliği Öklid mesafesini temsil eder (daha küçük çubuklar daha büyük benzerliği gösterir); c, her bir yazı tipinin ortalama çevresel karmaşıklığı ile gürültü ile bozulmuş uyaranın karşılık gelen ortalama harf tanıma doğruluğu arasındaki negatif korelasyon; d, En az karışıklıktan (üstte) en büyük karışıklığa (altta) kadar ortalama harf karışıklığına göre düzenlenmiş tüm yazı tiplerinin bir listesi.
Şekil 4, algılama kanalındaki ara harf tanımanın uzamsal frekans analizidir. a, b, Gauss gürültüsü (kök ortalama kare kontrastı = 0.2) ve arka plan (parlaklık = 0.2) üzerine bindirilmiş düşük geçişli (a) ve yüksek geçişli (b) filtrelenmiş harflerin örnekleri; c, filtre türüne göre H2 okumaya duyarlı Derece kontrast fonksiyonu, her harfin frekansı 0,8 ila 6,6 arasında değişir (her iki eksen de logaritmiktir). Araştırmacı, modülasyon gürültüsü yerine giriş sinyalini doğrudan filtrelediği için, alçak geçiren filtrelemeye ve yüksek geçiren filtrelemeye karşılık gelen eğrilerin, alçak geçiren ve yüksek geçiren gürültüye karşılık gelen eğrilere zıt olduğuna dikkat edin.
Kağıt doi: 10.1038 / s41562-017-0186-2
İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~