Makine öğrenimi, insan görsel tanıma öğreniminden nasıl öğrenir? Bebeklerin ve küçük çocukların görsel öğrenmesiyle başlayalım

Leifeng.com AI Teknolojisi Yorumu: Yüksek doğruluklu bir nesne sınıflandırma modeli elde etmek için büyük ölçekli açıklamalı bir görüntü veritabanının derin bir sinir ağına beslenmesi gerektiğinde, birçok araştırmacı daha derin bir problemi düşünmeye başladı: insan görsel tanıma öğrenme süreci Neye benziyor? Ve insan görme sistemi ile bilgisayarla görme sistemi arasında çeşitli farklılıklar olduğu için, bu farklı kaynakları inceleyebilir miyiz? Bu bize yeni aydınlanma getirebilir mi?

"Psikoloji-Bilişsel Bilimde Sınırlar" dergisindeki bir makale, insan çocuklarının görsel öğrenme sürecine ilişkin araştırmaları tanıttı. İnsan küçük çocuklarının, az sayıda nesnenin ve az sayıda yüzün tekrar tekrar çoklu bakış açısıyla gözlemlenmesi yoluyla istikrarlı ve evrensel nesne tanıma yeteneği geliştirmesi derin öğrenmeden çok farklıdır. Leifeng.com AI Technology Review'in tam metni aşağıdaki gibi derlenmiştir.

Görsel öğrenme hem algoritmalara hem de eğitim materyallerine dayanır. Bu makale, bebeklerin ve küçük çocukların benmerkezci görüşlerinin doğal istatistiksel özelliklerini ele almaktadır. İnsan görsel hedef tanıma için bu doğal eğitim setleri, eğitim veri girişinden makine görme sistemine çok farklıdır. Her şeyi ortalama olarak deneyimleyerek öğrenmeyle karşılaştırıldığında, çocukların deneyimlerinin dağılımı önyargılıdır: defalarca gerçekleşen birçok şey vardır. Genel görüş büyük ölçüde değişmiş olsa da, bireyin olaylara ilişkin algısı belirli bir sırayla deneyimlenir - her an değişen yavaş ve pürüzsüz vizyondan sahne içeriğinin düzenli geçişine kadar. İnanıyoruz, Bebeklerin ve küçük çocukların açık, düzenli ve önyargılı görsel deneyimi, insan öğrenenlerin her yerde görülebilen varlıklar ve nadiren görülen varlıklar da dahil olmak üzere her şeyi tanımak için bir yöntem geliştirmesini sağlayan bir tür eğitim verisidir. . İnsan ve makine öğrenimi araştırmacıları, gerçek dünya istatistiklerinden öğrenme verilerini birleştiriyor ve bu iki disipline ilerleme sağlaması muhtemel görünüyor.

Giriş

Öğrenme, insan bilişinin temel özelliği ve yapay zekanın uzun vadeli hedefidir. İnsanlar ve yapay zeka alanında yeni içgörüler üretme noktasındayız (Cadieu vd., 2014; Kriegeskorte, 2015; Marblestone vd., 2016). Bu içgörüler, insan bilişini ve insan sinirbilimini açıkça bütünleştirecektir. Makine öğrenimindeki gelişmelerle bağlantılı olarak, daha hızlı ortaya çıkacaktır. "Düşünce yazıları" makine öğrenimi araştırmacılarını insanlar gibi öğrenen makineler inşa etmek için insanlardan ve sinirlerden ilham almaya çağırdı (örn. Kriegeskorte, 2015; Marblestone ve diğerleri, 2016) ve insan bilişi ve sinirbilimi araştırmaları için çağrıda bulundu İnsanlar, makine öğrenimi algoritmalarını biliş, görme ve sinir mekanizmaları hakkında hipotez olarak kullanır (Yamins ve DiCarlo, 2016). Ortaya çıkan bu ilginin itici güçlerinden biri, derin öğrenme ağlarının çok zor öğrenme problemlerini çözmedeki büyük başarısıdır. Bu sorunlar önceden çözülemiyordu (örneğin, Silver ve diğerleri, 2016). Nöral algılayıcılar ve bağlantısal ağlar soyağacında, derin öğrenme ağı orijinal duyusal bilgiyi girdi olarak alır ve çok katmanlı hiyerarşik bir organizasyon yapısı kullanır.Her katmanın çıktısı, özellik çıkarma ve oluşturmak için bir sonraki katmanın girdisi olarak kullanılır ve Basamaklı dönüşümler. Bu ağların özellikle başarılı olduğu uygulamalardan biri makine görüdür. Bu evrişimli derin öğrenme ağlarının (CNN'ler) hiyerarşik yapısı ve mekansal yakınsaması, yalnızca en gelişmiş görüntü tanıma teknolojisini üretmekle kalmaz, aynı zamanda insan görsel sistemi korteksine benzeyen özellik çıkarmanın hiyerarşik organizasyonu yoluyla bu işlevi gerçekleştirir. İşlev (Cadieu ve diğerleri, 2014).

İnsan bilişi açısından, başa takılan kameralardaki ve başa takılan göz izleme teknolojilerindeki en son gelişmeler, doğal öğrenme ortamlarında heyecan verici keşifler yapmıştır. İnsanın günlük görsel ortamının yapısı ve yasaları - özellikle bebeklerin ve çocukların görsel çevresi - en gelişmiş makine görüşünde kullanılan eğitim setlerine hiç benzemez. Makine öğrenimi için eğitim görüntüleri, yetişkinler tarafından çekilen ve organize edilen fotoğraflardır. Bu nedenle, olgun sistemlerde "yararlı görünme" eğilimindedirler ve bu gelişmeyi yönlendiren senaryoyu değil, algısal gelişimin sonucunu yansıtırlar. (Örneğin, Fathi vd., 2011; Foulsham vd., 2011; Smith vd., 2015). Gerçek dünyanın algı deneyimi kamera tarafından çerçevelenmez, bedenin dünyadaki faaliyetleriyle bağlantılıdır. Bu nedenle, öğrencinin görsel çevreye bakış açısı, anlık pozisyona, uzamsal yönelime, duruşa ve baş ve göz hareketlerine bağlı olarak oldukça seçicidir (bkz.Smith vd., 2015., 2015, incelenmeyi bekliyor). Şekil 1, egosantrik görünümün seçiciliğini göstermektedir: ortamdaki her şey bebeğin görüşünde değildir; bebek başını çevirmediği sürece kediyi, pencereyi, saati veya ayakta durmayı göremez. İnsan yüzü. Algılayıcının duruşu, konumu, hareketi, ilgisi ve sosyal etkileşimi, görsel bilginin bakış açısını sistematik olarak önyargılı hale getirir.

Şekil 1 Benmerkezci görmenin seçiciliği. Gölgenin gösterdiği görüş alanı bebeğin kafasınınkine karşılık gelir.

Bireyler büyüdükçe, farklı görsel deneyim türlerine yönelik önyargılar olacaktır. Sonuç olarak, tüm bu duruş, pozisyon, hareket, ilgi muazzam değişikliklere uğradı. Özellikle yaşamın ilk iki yılında, her yeni duyusal başarı - dönme, gerilme, emekleme, yürüme (ve daha fazlası) - yeni görsel deneyim kategorilerine kapı açacaktır. Bu nedenle, insan görsel sisteminin geliştirilmesi toplu işleme yoluyla değil, bir dizi sistematik ve düzenli görsel deneyim kursları yoluyla yapılır. , Bu kurs bebeğin kendi duyu-motor gelişimi ile tasarlanmıştır. Benmerkezci görsel sistem, araştırmacılara, gelişimi kısıtlanan görsel çevrenin özelliklerine doğrudan erişim sağlar. Burada, gerçek dünya görsel öğrenme veri kümelerindeki yeni keşiflerin makine öğrenimi ile olası ilişkisini ele alıyoruz.

Çağdaş bilgisayar vizyonunun başarısı göz önüne alındığında, makine öğrenenlerinin çocukların bunu nasıl yaptığını neden önemsemeleri gerektiği sorulabilir Yapay zekanın ilk günlerinde öncü bir figür olan Schank, "Tıpkı bir çocuğun yaptığı gibi öğrenilebilen bir program geliştirmeyi umuyoruz ..." (Schank, 1972) yazmıştır. Bu, otonom yapay zeka için hala uygun bir hedef gibi görünüyor. Son zamanlarda, büyük bir makine öğrenimi konferansında Malik (2016, özel iletişim, bkz. Agrawal ve diğerleri, 2016) makine öğreniminde bir sonraki büyük ilerlemeye hazırlanmak isteyen genç öğrencilere şunları söyledi: "Gelişim psikolojisini ciddiye almak, Sonra bu bilgiyi yeni ve daha iyi algoritmalar oluşturmak için kullanın. Bunun ışığında, makine öğrenicilerinin çocukların öğrenme ortamındaki yasalara neden dikkat etmesi gerektiğini açıklayan bir örnekle başlıyoruz: İki yaşındaki bir çocuğun görsel öğrenmedeki yeteneğinin çağdaş bilgisayar vizyonunda eşsiz olduğuna dair pek çok kanıt var. (Bkz. Ritter ve diğerleri, 2017).

İki yaşında bir çocuk ne yapabilir

İnsanlar, farklı koşullar altında çok sayıda kategorideki çok sayıda nesne örneğini tanıyabilir (Kourtzi ve DiCarlo, 2006; Gauthier ve Tarr, 201). Tüm bu örnekleri ve kategorileri tanımak görsel eğitim gerektirir; insanlar bu kategorilerin örneklerini görsel olarak tanımadan önce köpekleri, arabaları ve tost makinelerini görmüş olmalıdır (örneğin, Gauthier ve diğerleri, 2000; Malt ve Majid, 2013; Kovack-Lesh ve diğerleri, 2014). Bu, hem insan hem de bilgisayar görme algoritmaları için geçerlidir. Ancak çocukların mevcut gelişim yörüngesi ve algoritması çok farklı. Çocuklar için erken öğrenme yavaştır ve hatalarla doludur (örneğin, MacNamara, 1982; Mervis ve diğerleri, 1992). Gerçekten de, 1-2 yaşındaki çocukların görsel nesne tanıma görevlerindeki performansı, en iyi performans gösteren bilgisayar görme algoritmalarından daha kötü olabilir, çünkü 1-2 yaşındaki çocuklar, kategori yargılamalarında aşırı ve yetersiz soyutlama özelliklerine sahiptir. Bazen bilinen nesneler görsel olarak kalabalık sahnelerde hiç tanınamaz (Farzin vd., 2010). Ancak iki yaşından sonra işler farklılaşır. Bu noktada, çocuklar tüm kategoriyi tek bir örnekten çıkarabilirler. Yeni bir kategori örneği ve adı verildiğinde, iki yaşındaki bir çocuk, adı hemen bir yetişkin olarak genelleştirecektir. Örneğin, iki yaşındaki bir çocuk ilk traktörle karşılaşırsa - örneğin, tarlada çalışan yeşil bir John Deere traktörü - ve adını duyduğunda, çocuk her türlü şeyi tanıyacaktır. Bu tür traktörler - kırmızı Massey-Ferguson'lar, antika traktörler, çim biçme makineleri - ancak ekskavatörler veya kamyonlar değil. Bu fenomen " Şekil önyargısı "Çocukların doğal kategorili öğrenmelerinde gözlemlenen" tek örnekli "öğrenmeye bir örnektir. Bu, laboratuvarda çoğaltılmış ve kapsamlı bir şekilde incelenmiştir (örneğin, Rosch ve diğerleri, 1976; Landau ve diğerleri, 1988; Samuelson ve Smith, 2005).

Araştırmacılar artık "şekil önyargısına" ve onun gelişimine çok aşinalar. İşte bazı ilgili araştırma sonuçları. Şekil önyargısının ortaya çıkması, çocukların nesne adı kelime dağarcığının hızlı büyümesiyle çakışmaktadır. Bu tür bir önyargı, algılanan şeylerin şekli ile ilgilidir.Bu tür bir önyargı, çocuklar bilinen nesneleri ilişki yapısının ana bölümünden tanıdıklarında ortaya çıkacaktır (Gershkoff-Stowe ve Smith, 2004). Şekil önyargısının kendisi, bir dizi ilk nesne adını yavaşça öğrenerek öğrenilir (50 ila 150 öğrenilmiş kategori içerebileceği tahmin edilmektedir, Gershkoff-Stowe ve Smith, 2004). Fiziksel oyunlar bağlamında, şekle dayalı nesne kategorisi tanıma için erken yoğun eğitim 1-2 yaşındaki çocukların normal çocuklardan daha erken şekil önyargılı görünmesine neden olacak ve bu çocukların kelime dağarcığı daha erken gelişecektir (Samuelson , 2002; Smith ve diğerleri, 2002; Yoshida ve Smith, 2005; Perry ve diğerleri, 2010). Şekil önyargısı yalnızca çocukların nesne adlarını öğrenmesiyle değil, aynı zamanda nesnelerin manipülasyonuyla da ilgilidir (Smith, 2005; James ve diğerleri, 2014a) ve çocukların nesneleri üç boyutlu şekillerin soyut temsillerinden tanıma yetenekleri giderek artarken ( Smith, 2003, 2013; Yee vd., 2012). Dil öğrenmede zorluk çeken çocuklar - geç konuşanlar, özel dil bozukluğu olan çocuklar ve otizmli çocuklar - güçlü şekil önyargısı geliştirmezler (Jones, 2003; Jones ve Smith, 2005; Tek ve diğerleri, 2008; Collisson ve diğerleri, 2015; Potrzeba ve diğerleri, 2015). Kısacası, tipik bir büyüyen çocuk, bir dizi nesne kategorisi adını yavaşça öğrenirken, bir nesnenin şeklini belirli bir şekilde sezgisel olarak nasıl temsil edeceğini öğrenecektir. Bu yaklaşım, yeni bir nesne kategorisinin sınırını tahmin etmelerine izin verirken, yalnızca yeni kategorinin bir örneğini sağlar. En gelişmiş makine görüşü farklı şekilde çalışır. Hiçbir makine öğrenimi yöntemi öğrenmenin doğasını değiştiremez; tam tersine öğrenilmesi gereken her kategori çok fazla eğitim ve örnek gerektirir.

Fark ne? Tüm öğrenme, öğrenme mekanizmasına ve eğitim verilerine bağlıdır. Yeni yürümeye başlayan çocuklar, görsel sınıflandırmanın çok başarılı öğrenicileridir; bu nedenle, iç algoritmaları, bu kurallar ne olursa olsun, günlük deneyim kurallarını kullanabilmelidir. Bu nedenle, bebeklerin günlük görsel ortamını ve gelişimle nasıl değiştiklerini anlamak, yalnızca ilgili eğitim verilerinin ortaya çıkmasına yardımcı olmakla kalmaz, aynı zamanda iç öğrenme mekanizmaları hakkında da bilgi sağlar.

Gelişim ve değişimin görsel ortamı

Bebeğin baş kamerasından elde edilen veriler üzerinde yapılan araştırmalar, insan görsel öğreniminin eğitim setinin büyüme sürecinde büyük değişikliklere uğradığını açıkça gösteriyor. Şekil 2, baş kamera tarafından yakalanan örnek bir görüntüyü gösterir. Bir örnek, bebeğin etrafındakilere benmerkezci bakış açısını içerir. Bebeklerin günlük yaşamlarında topladıkları çok sayıda baş kamera görüntüsünün analizi (Jayaraman ve diğerleri, 2015, 2017; Fausy ve diğerleri, 2016) insanların her zaman bebeğin kafa kamera görüntülerinde göründüğünü göstermektedir. Bu oran iki yaşındaki çocuklar için aynıdır. Bu şaşırtıcı değil çünkü bebekler yalnız bırakılamaz. Ancak kafa kamera görüntülerinde daha büyük ve küçük bebeklerin belirli vücut kısımları farklıdır. 3 aylıktan küçük bebekler için insan yüzü her yerdedir Saatlik görsel deneyimde insan yüzü 15 dakikadan fazla yer kaplar. Ayrıca bu yüzler her zaman küçük bebeklere yakındır (kafa kamerasından 2 fit uzaklıkta) ve iki gözü gösterir. Bununla birlikte, bebek 1. yaş gününe yaklaştığında, kafa kamerası tarafından kaydedilen yüz görüntüleri zaten nadirdir.Uyandığında her saat, sadece yaklaşık 6 dakika yüz görünümü vardır. Tersine, 1-2 yaş arası çocuklar başkalarının ellerini görebilirler (Fausey ve diğerleri, 2016). Bu eller esas olarak (görüntüdeki ellerin% 85'inden fazlası) bazı nesnelere dokunacak ve onları manipüle edecektir. Bebeğin önündeki görsel sahnenin içeriğindeki bu değişiklik, onların duyu-motor yeteneklerindeki değişiklik, ebeveynlerin karşılık gelen davranışları ve bebeğin ilgisindeki değişim tarafından yönlendirilir. Birbirine bağlı tüm bu güçlerin eylemi altında, görsel öğrenme için veriler nihayet üretilir. Bu veriler, birçok panoramik ve yakın yüzden nesnelere etki eden birçok ele dönüşecektir. Bu sekansın - erken yüzler, sonraki nesneler - insan görsel nesne tanımanın nasıl ve neden bu şekilde geliştiğiyle ilgili olduğundan kesinlikle şüpheleniyoruz.

Şekil 2 Bir kafa kamerası örneği, farklı yaşlardaki üç bebeğin görüntülerini yakalar.

Yüz işlemenin konfigürasyonunda, "uyku etkisi" erken yoğun yüz görsel deneyiminin önemini yansıtır. Maurer ve diğerleri (2007) uyku etkisini, gelişimin sonraki aşamalarında ortaya çıkan kalıcı bir kayıp olarak tanımlamıştır, ancak bu yetersiz erken deneyimden kaynaklanmaktadır. Bir örnek, 2 ila 6 aylık bebeklerde konjenital katarakt nedeniyle erken görme girdisinin kaybını içerir. Bir dizi görsel gelişim göstergesine göre (keskinlik ve kontrast duyarlılığı dahil), bu bebekler kataraktın çıkarılmasından sonra akranlarına yetişmeye başladı ve tipik bir görsel gelişim izini gösteriyor. Ancak yaşlandıkça, bu bireyler, insan görsel yüz işlemenin olgun özelliklerinden biri olan yapılandırıcı yüz işleme konusunda kalıcı bir eksiklik gösterirler. Konfigürasyon işleme, bireysel karakteristik bilgileri bastıran benzer bir gestalt temsiline dayalı olarak tek tek yüzleri ayırt etme ve tanıma sürecini ifade eder. Bu, insan görsel işlemenin 5-7 yaşına kadar ortaya çıkmaya başlamayan bir yönüdür (Mondloch ve diğerleri, 2002). Maurer ve diğerleri (2007), erken deneyimin yüz işleme yeteneklerinin daha sonraki gelişimi için bir sinir matrisi koruduğunu ve / veya kurduğunu varsaydılar (ayrıca bkz. Byrge ve diğerleri, 2014). Bebeklerin ve küçük çocukların yoğun yakın mesafeli, tam görünüm yüz deneyiminin, konjenital kataraktlı bebeklerin erken deneyimlerinin eksik kısmı olduğunu düşünüyoruz. Bu deneyimler bebeğin değişen tercihleri ve duyu-motor becerileriyle ilgili olduğundan, bebeğin kataraktı sonradan çıkarıldığında, bu deneyimler sosyal partnerlerinin getirdiği deneyimlerle yer değiştirmeyecektir. Çünkü o zamana kadar bebeğin kendi davranışı ve özerkliği çok farklı sosyal etkileşimler üretecektir. Bu nedenle, hipoteze göre, serebral kortikal devreleri kurmak veya sürdürmek için erken yoğun yüz deneyimi gerekli olabilir ve serebral korteks devreleri, daha sonra ortaya çıkan özel yüz işlemeyi destekler.

Erken yüz deneyiminin, yalnızca belirli bir alanın sonucu olan alana özgü bir deneyim olan yüz işleme için önemli olması mümkündür. Ancak, başka bir bakış açısı ortaya koymak için nedenimiz var. İnsan görsel korteksi, gördüğümüz dünyayı bir dizi hiyerarşik özellik çıkarma ve dönüştürme sistemi aracılığıyla inşa eder (örneğin, Hochstein ve Ahissar, 2002). Tüm girdiler aynı alt katmandan geçirilir ve ayarlanır ve tüm yüksek sunum katmanları - yüzler, nesneler, harfler - ve alt katman etkinliklerinde hesaplanır. Bu şekilde, hem insan yüzlerinin öğrenilmesi hem de yüz olmayan nesne kategorilerinin öğrenilmesi aynı temelde yatan doğruluk, ayarlama ve etkinleştirme moduna dayanır. Daha düşük bir düzeydeki basit görsel tanıma, görsel süreçte daha yüksek bir düzeyde geniş kapsamlı evrenselliğe sahiptir (örneğin, Ahissar ve Hochstein, 1997). İnsan bebeklerinden alınan baş kamera görüntüleri, ilk ayarlama ve geliştirmenin daha düşük seviyelerinin, gözleri kapalı birçok yüzü içeren görsel sahnelerle gerçekleştirildiğini gösteriyor. Bu nedenle, çocukların daha sonra öğrenmesi ve yüz olmayan nesnelerin özelliklerini çıkarması, en azından belirli bir dereceye kadar, yakın plan yüzlerin düşük seviyeli görsel özelliklerine yoğun bir şekilde odaklanan daha düşük seviyeli erken ayarlama ile oluşturulur.

Maurer ve diğerleri (2007) "uyku etkisi" terimini kullansa da Eksik Ancak erken görsel deneyimin, sonraki gelişmeler için hem olumsuz hem de olumlu anlamları vardır. Bireyin erken deneyimindeki yapısal düzenlilik, potansiyel gizli yetenekler yaratabilecek hiyerarşik sinir sistemini eğitecek ve ayarlayacaktır ve bu yetenekler gelecekteki öğrenmede hayati bir rol oynayacaktır. İnsan gelişimiyle ilgili araştırmalar, geçmiş öğrenmenin gelecekteki öğrenim üzerinde ne kadar geniş kapsamlı etkileri olduğunu gösteren birçok açıklanamaz örnek sağlar. Örneğin, nokta dizisi görsel tanımanın doğruluğu gelecekteki matematik performansını tahmin edebilir (Halberda ve diğerleri, 2008) ve çocukların şekil önyargısı harfleri öğrenme yeteneklerini tahmin edebilir (Augustine ve diğerleri, 2015; bkz. Zorzi ve diğerleri, 2013). İnsan görsel sistemine benzer şekilde, derin öğrenme ağları yığılmış hiyerarşiler içerdikleri için "derin" tir. Bu yapı, insan görüşüne benzer şekilde, bir görevde oluşturulan erken katman temsillerinin yeniden kullanılacağı anlamına gelir. Teorik olarak, diğer öğrenme görevleri üzerinde olumsuz ve olumlu bir etkisi olabilir. Bu hiyerarşik öğrenme sistemi için, sıralı eğitim setinin hesaplama değeri iyi anlaşılmamıştır. Yüzlerden dokunmatik nesnelere kadar kısıtlı, ancak kademeli olarak gelişen eğitim setlerinin tüm kombinasyonu, 2 yaşındaki çocukların yeni bir tür yüz olmayan nesneleri yalnızca bir veya birkaç örnekle sınıflandırmayı öğrenmesinin nedeninin bir kısmını açıklıyor mu?

Küçük çocuklar benzetme yoluyla nasıl öğrenir?

2 yaşındaki bir bebeğin başının kamera görüntülerinin analizi de bize bu görüntülerdeki varlıkların dağılımının ne dünyadaki rastgele bir varlık örneği ne de bu ben merkezli görüntülerde eşit olarak dağıtılmış varlıklar olduğunu söylüyor. Aksine, deneyim son derece sağa meyillidir. Bebeğin baş kamera görüntüsündeki nesneler oldukça seçicidir - birkaç türü yaygındır ve çoğu nesne nadirdir. Öyleyse, işte anahtar bir soru: kapsamlı bir şekilde (belki yavaşça) bir şeyler öğrenerek, bazı alışılmadık şeyler de dahil olmak üzere tüm kategorileri hızla öğrenebilen bir öğrenme sistemi nasıl üretilir? Güç yasası dağılımı, bebeğin benzersiz bireysel yüzler deneyimine (Jayaraman ve diğerleri, 2015) ve bebeğin nesnelerle ilgili deneyimine (Clerkin ve diğerleri, 2017) yansır. Bebek doğduktan sonraki tüm yıl boyunca, gördükleri yüzler birkaç kişiye yoğunlaşır ve en sık görünen üç kişi, baş kamera görüntüsündeki tüm yüzlerin yaklaşık% 80'ini oluşturur. Benzer şekilde, nesnelerin bebeğin görsel ortamındaki dağılımı son derece doğrudur ve bazı nesne kategorileri diğerlerinden daha sıktır (Clerkin vd., 2017). Şekil 3, 8-10 aylık bebekler için 147 farklı masa saatinde (Clerkin vd., 2017) baş kamera görüntülerinin analizinde ortak nesne kategorilerinin dağılımını göstermektedir. Çok az nesne kategorisi evrenseldir ve çoğu nesne nadiren görülür. İlginç bir şekilde, en yaygın nesne kategorilerinin isimleri de çok erken, ancak 8 ila 10 ay sonra, yani ilk doğum gününden sonra elde edilir. Bu, erken yoğun görsel deneyimin gelecekte bu belirli nesnelerin etiketlerini öğrenmeye hazır olduğunu gösterir.

Şekil 38-10 aylık bebeklerin baş kamera görüntüsünde ortak nesne kategorilerinin dağılımı (Clerkin vd., 2017). Nesne kategorileri edinim yaşlarına göre renklendirilir (Fenson ve diğerleri, 1994): ilk isimler (nesne isimleri 16 aylık bebekler için en az% 50 kabul edilen sözcüklerdir), erken isimler (nesne isimleri ilk isim değildir ve en az% 5030 (8 aylık çocuklar için üretken kelime dağarcığı) ve sonraki isimler (diğer tüm nesne adları).

Aşırı sağ çarpık dağılımın olası bir avantajı, Nispeten küçük bireysel nesneler ve nesne kategorilerinin evrenselliği, bebeklerin öğrenme için ilk hedef kümesini tanımlamasına olanak tanır. (Clerkin ve diğerleri, 2017; bkz.Salakhutdinov ve diğerleri, 2011), Ardından, bu birkaç nesneyi birçok farklı görüntüleme koşulunda tanımakla ilişkili görsel değişmezliği kavrayın. Bu, 2 yaşındaki bir çocuğun şekil sapması gibi sınırlı deneyimlerden hızlı bir şekilde öğrenme genel becerisine hakim olmak için - bazı şeylerin öğrenimini tamamlamak için - çok önemli bir adım olabilir (Smith, 2013). Bazı şeylerin tam olarak anlaşılması, yalnızca deneyim miktarına değil, aynı zamanda deneyimin zaman içindeki sürekliliğine de bağlı olabilir. Bir nesne uzun bir süre gözlemlendiğinde, nesneyle ilgili retina bilgisi kaçınılmaz olarak sürekli değişecek ve ilgili dönüşüm ve tanımanın değişmezliğini gösterecek ve yeni şeyleri tanımak için genişletilebilecek (Földiák, 1991; Wiskott ve Sejnowski) , 2002; Li ve DiCarlo, 2008).

Civcivlerin kontrollü beslenmesi çalışması (Wood, 2013; Wood ve Wood, 2016) bu görüş için bir argüman sağlar: nesnenin yavaş değişmesi, civcivin nesnenin şeklini genelleştirilmiş öğrenmesi için yeterli girdi sağlar. Bu çalışmalarda, yeni doğan civcivler sıkı bir şekilde kontrol edilen görsel bir ortamda büyür ve hareket eden ve dönen tek tek nesneler gösterilir. Bir dizi kontrollü besleme deneyi aracılığıyla, araştırmacılar farklı hareket ve dönme özellikleri ile deneyler yaptılar. Sonuçlar, zamanla, tek bir nesnenin gözlem deneyiminin, tavuğun bu nesnenin ve daha önce hiç görülmemiş diğer nesnelerin görünmeyen perspektifini tanıyabilen sağlam nesne tanıma becerileri geliştirmesi için yeterli olduğunu göstermektedir (Wood, 2013, 2015) ). Kontrollü besleme deneyi (Wood, 2016; Wood ve diğerleri, 2016) ayrıca tavuk öğrenimi için iki ana sınırlayıcı faktöre dikkat çekti: yavaşlık ve akıcılık. Gözlem perspektifinin değişimi yavaş ve sorunsuz bir şekilde gerçekleştirilmeli ve dünyadaki fiziksel nesnenin zamansal ve mekansal özelliklerini takip etmelidir. Bununla birlikte, tavukların beyni ve görsel sistemi insanlardan çok farklıdır, bu nedenle tavuk verilerinin korelasyonu, insan görsel sisteminin bir hayvan modeli değildir. Aksine, bu bulguların alaka düzeyi, tek bir görsel nesnenin zamansal olarak sürekli deneyiminde mevcut olan bilgileri açıkça göstermeleridir. Bu aynı zamanda henüz geliştirilmemiş bir algoritma anlamına da gelebilir ve çok az nesnenin (belki de yalnızca bir) genişletilmiş görsel deneyiminden nesne kategorilerini tanımayı çabucak öğrenebilir.

Kendi oluşturduğu görsel deneyim

Küçük çocukların nesne adlarını kavrayışlarını test etmenin bir yolu, tercihlerinin ne olduğunu görmek için onlara farklı nesne adlarını sormaktır. Diğer bir yol da, onlara bir nesneyi göstermek ve kendiliğinden konuşup konuşmayacaklarını görmektir. isim. Bu nedenle, çocukların nesne adı kelimeleri, nesneleri görsel olarak tanıma yeteneklerinin iyi bir göstergesidir. Bir yaşından önce, nesne adlarının öğrenilmesi çok yavaş başlar ve çocukların, başlangıçta hatalarla karakterize edilen bireysel nesne adlarına ilişkin bilgisi giderek artar (örneğin, MacNamara, 1982; Mervis ve diğerleri, 1992, bkz. Bloom, 2000). Yaklaşık 18 ila 24 ay (farklı çocukların farklı öğrenme süreleri vardır), öğrenme özellikleri ve öğrenme hızı değişecektir. Yaklaşık 2 yaşında, nesne adlarının öğrenilmesi kolay görünmektedir, çünkü tipik olarak büyüyen çocuklar yalnızca çok az deneyime ihtiyaç duyarlar, genellikle yalnızca nesneleri adlandırma konusunda tek bir deneyim gerektirir ve ardından adlar uygun şekilde yeni örneklere genişletilir (Landau ve diğerleri, 1988; Smith, 2003). Yavaş, artımlı öğrenmeden hızlı, neredeyse bir kereye mahsus öğrenmeye geçiş, öğrenmenin getirdiği iç mekanizmalardaki değişiklikleri yansıtır (Smith ve diğerleri, 2002). Bununla birlikte, giderek daha fazla kanıt, öğrenme için kullanılan görsel verilerin de büyük değişikliklere uğradığını göstermektedir.

8-10 aylık bebekler için, kafa kamerası tarafından çekilen sahneler genellikle dağınıktır (Clerkin ve diğerleri, 2017). 12 aydan sonraki sahneler hala genellikle dağınıktır, ancak bu sahneler bir dizi ardışık sahneyle kesintiye uğrar. Bu sahnelerde yalnızca bir nesne görsel olarak baskındır (örneğin, Yu ve Smith, 2012). Sahnenin kompozisyonundaki değişiklik, çocukların uygulamalı yeteneklerinin gelişiminin doğrudan bir sonucudur. Bir yaş gibi erken bir zamanda, bebekler bir şeyler için uzanırlar, ancak uzun süreli oyun için gereken gövde stabilitesinden yoksundurlar (Rochat, 1992; Soska ve diğerleri, 2010). Nesneleri döndürme, istifleme veya yerleştirme uygulamalı becerilerinden yoksundurlar (Pereira ve diğerleri, 2010; Street ve diğerleri, 2011). Ayrıca, en çok, görsel öğrenme için ideal olmayan nesneleri ağızlarına koymakla ilgilenirler. . Bu nedenle, dünyayı sıklıkla uzaktan görürler. Uzaktan bakıldığında, dünya pek çok dağınık şeydir. İlk doğum günlerinden sonra tüm bunlar değişti. Küçük çocuklar aktif olarak nesneleri tutarken, onları yakından gözlemleyeceklerdir. Bu tür bir uygulamalı aktivite, daha gelişmiş görsel nesne hafızasını ve ayrımını (Ruff, 1984; Soska ve diğerleri, 2010; Möhring ve Frick, 2013; James ve diğerleri, 2014a) ve nesne adı öğrenmeyi (örneğin Yu ve Smith, 2012 ; LeBarton ve Iverson, 2013; James ve diğerleri, 2014a).

Küçük çocukların görsel sistemi tarafından oluşturulan resmin perspektifinin üç özelliği vardır ve bu gelişmelerin temeli olabilir.

Her şeyden önce, küçük çocuklar tarafından nesnelerin işlenmesiyle oluşturulan görsel sahneler, küçük bebeklerden (Yu ve Smith, 2012; Clerkin vd., 2017) ve yetişkinlerden (Smith vd., 2011; Yu ve Smith, 2012) daha büyüktür. Düzenli ol. Yeni yürümeye başlayan çocukların kolları kısa ve öne doğru eğilerek ellerindeki eşyalara dikkatle bakarlar. Bu süreçte nesnelerin görüş alanını doldurduğu bir sahne oluştururlar. Bu, segmentasyon, rekabet ve bilinmeyen referans nesneleri dahil olmak üzere birçok temel sorunu çözer. Bir çalışma (Bambach ve diğerleri, 2017), bebek ve yetişkin kafa kameralarının görüntülerinden oluşan belirli bir eğitim setinde (aynı gerçek dünya etkinliği) öğrenmek için yaygın olarak kullanılan bir CNN'yi (Simonyan ve Zisserman, 2014) doğrudan karşılaştırdı. Nesneleri tanıma yeteneği. Ağ, eğitilecek nesnelerin kırpılmış görüntülerini değil, sahnedeki hedef nesnenin ilgili konum bilgisi olmadan tam sahneleri sağlar. Erken çocukluk döneminde resimlerden öğrenilen sistem, yetişkin dönemine göre daha sağlamdır ve daha iyi genelleme yeteneği gösterir. Bu, çağdaş bilgisayar görüşü uygulamasıyla tutarlıdır Bilgisayar görme algoritmaları, öğrenilecek nesneleri belirlemek için genellikle kırpılmış görüntülere veya sahnelere sınırlar ekler. Küçük çocukların bunu yapma şekli kendi elleriyle ve kafalarıyla olur.

Nesnelerle ilgilenen çocukları yürümeyi öğrenmenin ikinci özelliği, tek bir nesnenin oldukça değişken görüntülerini oluşturmalarıdır. Şekil 4, oyun oynarken 15 aylık bir yürümeye başlayan çocuk tarafından oluşturulan tek bir nesnenin bir görünümünü gösterir (Slone ve diğerleri, inceleniyor). Bu çalışmada, birinci şahıs sahnesinde sabit nesneleri yakalamak için başa takılan bir göz izleyici kullanıldı. Tek bir algoritma ölçer, maske yönelimi (MO) bebeğin baktığı nesnenin kare kare görüntü değişkenliğini yakalamak için kullanılır: MO, nesnenin görüntüdeki ince ekseninin yönüdür. En önemlisi, bu gerçek dünya veya nesne şekline yönelik bir yöntem değildir ve distal uyarımın şekil özelliklerini doğrudan herhangi bir şekilde içermez, ancak uzak nesneyi proksimal görüntünün özelliklerini ölçen görsel sistemle belirlemek içindir. Ana sonuç şudur: 15 aylık bir bebeğin oyuncaklarla oynarken ürettiği MO'daki değişim miktarının, 6 ay sonra, yani 21 aylıkken nesne adlarının kelime dağarcığına hakim olabileceği tahmin edilebilir. Kısacası, daha büyük farklılıklar daha iyi öğrenmeye yol açar. İlgili bir hesaplamalı çalışmada (Bambach ve diğerleri, 2017), araştırmacılar CNN'e ebeveynler veya çocuklar tarafından takılan baş kameralar tarafından çekilen yaygın oyun olaylarının görüntülerinden oluşan bir dizi eğitim seti sağladı. Ebeveynler tarafından takılan kameralardan görülen aynı nesnelerin daha küçük değişikliklere sahip görüntüleri ile karşılaştırıldığında, çocukların taktığı kameralardan daha fazla değişiklik gösteren nesnelerin görüntüleri daha güçlü öğrenme ve öğrenme genelleme becerisine yol açmaktadır. Bu bulgular, tek seferlik öğrenmeye bakış açımızı değiştirmelidir. Çocukların bir nesneye ilişkin görsel deneyimleri tek bir deneyim değil, aynı şeyin çok farklı gözlemleridir. Tek bir olayda böyle bir dizi farklı gözlem, genç öğrencilerin bir kategorinin tüm üyelerini (örneğin, tüm traktörler) belirlemek için üretken ilkeleri kullanmasına yol açabilir mi?

Şekil 415 aylık bir bebeğin oyun oynarken baş kamerasıyla yakaladığı tek bir nesnenin örnek görüntüsü.

Çocukların kendi ürettikleri nesne görüşlerinin üçüncü özelliği, çoğu nesnenin uzun eksenini görüş hattına dik yapma (basit kavrama yöntemi) ve aynı zamanda (daha zayıf olsa da) uzun ekseni yapma eğiliminde olmalarıdır (Pereira ve diğerleri, 2010). Görüş hattına paralel (bir nesneyi diğerine eklemenin en kolay yolu). Yeni yürümeye başlayan çocuklar, nesnenin ana eksenini döndürerek bu favori görünümler arasında geçiş yapar. Bu farklı perspektifler ve dönüşler, kazara olmayan şekil özelliklerini vurgular. Nesnenin elle tutulma şeklinin ürettiği farklı bakış açılarının görsel bir kaynağı olabilir, çünkü bu sapma çocuk şeffaf kürenin içerdiği nesneyi tutup ona baktığında daha güçlü olacaktır (James vd., 2014b). Bu şekilde, tüm görüşler el için eş potansiyeldir. Wood (2016), tavukların çalışmasındaki pürüzsüzlüğün ve yavaş değişimin kısıtlamalarını ortaya koymuştur, ancak ne doğru analiz ne de doğru deney, bu kendi ürettiği nesne görünümlerinin özelliklerini bu kısıtlamalarla karşılaştırmaz. . Bununla birlikte, fiziksel dünyanın ve fiziksel bedenin uzay-zaman kısıtlamaları göz önüne alındığında, küçük çocukların kendi ürettikleri bir görüşü izleyeceklerine inanmak için her türlü nedene sahibiz.

Çocukların tüm vücut görme eğitim yöntemleri benzersiz görsel eğitim setleri oluşturmuştur Bu eğitim setlerinin yapısı çok özel bir kurs öğretiyor gibi görünüyor: görsel olarak bağımsız üç boyutlu şekil tanıma. Görüntüyü doldurduğu için görüntüde tek bir nesne izole edilmiştir. Farklı görünümler, zamansal yakınlık ve el teması yoluyla birbirine bağlanır, bu da güçlü bir öğrenme sinyali sağlar ve iki farklı görüntünün aynı nesneye ait olduğunu gösterir. Görünümün dinamik yapısı, kazara olmayan şekil özelliklerini vurgular. Bu, görsel hedef tanımada zor bir sorundur ve verinin yapısıyla çözülebilir.

Çocuk büyümesi ve makine öğrenimi arasında birbirlerinden öğrenmek

Bebeklerin ve küçük çocukların görsel ortamı gelişimle değişecek, farklı öğrenme görevlerini sınıflandıracak ve sıralayacaklar, böylece gelecekteki öğrenmeler farklı alanlardaki önceki öğrenmeler temelinde inşa edilebilir. Her alanda, eğitim seti, sınırlı sayıda kişisel varlık örneğine odaklanır - iki ila üç kişinin yüzü, küçük bir evrensel nesne kümesi, bir nesnenin birden çok görünümü - ancak bu deneyimler, birçok kişinin nasıl tanınacağını ve anlaşılacağını oluşturur. Farklı türden şeyler hakkında genel bilgi. Bu, sınırlı veriden öğrenme durumu değildir; veriler çok büyüktür - annenizin yüzü, ağızlığınız hakkındaki tüm görüşler. Bu eğitim setlerinin genel yapısı, bilgisayarla görmede yaygın olarak kullanılan eğitim setlerinden çok farklıdır. Daha güçlü makine öğreniminde bir sonraki ilerlemenin parçası olabilirler mi?

Makine öğrenimi, eğitim için gelişimsel çok aşamalı yöntemi benimsemedi, ancak muazzam bir ilerleme kaydetti. Bu tür dersler ve yapılandırılmış kurslar gerektirmeyen öğrenme makinelerinin daha güçlü olup olmadığı tartışmalıdır. Aslında, sıralı eğitim setlerini kullanan (Rumelhart ve McClelland, 1986) ve öğrenme sürecinin zorluğunu artıran bağlantısal dil geliştirme teorisi, hile olarak şiddetle eleştirilmiştir (Pinker ve Prince, 1988). Ancak eleştirilen görüş, gelişme açısından doğrudur (Elman, 1993). Halihazırda, sıralı ve yapılandırılmış eğitim setleri aracılığıyla öğrenmeyi optimize etmeye çalışan bazı makine öğrenimi yöntemleri (kurs öğrenimi ve yinelemeli öğretim gibi) bulunmaktadır (örneğin Bengio ve diğerleri, 2009; Krueger ve Dayan, 2009). Bu çabalar, bebeğin doğal öğrenme ortamının yapısı hakkında çok fazla endişelenmedi; bu insan ve makine öğreniminin yararlı bir kombinasyonu olabilir. Bununla birlikte, bebeklerin ve küçük çocukların öğrenme verileri, gelişim sürecinde sadece düzenli bir şekilde düzenlenmekle kalmaz, aynı zamanda öğrencilerin kendi etkinlikleri ile gerçek zamanlı dinamik olarak oluşturulur. Herhangi bir andaki girdi, öğrencinin mevcut durumuna bağlıdır ve öğrencinin iç sistemi bir öğrenme işlevi olarak değiştikçe gerçek zamanlı olarak değişecektir. Bu şekilde, herhangi bir zamanda verilen bilgiler, mevcut öğrenme durumuna en uygun olabilir ve doğru zamanda doğru bilgiyi sağlayabilir. Şu anda, makine öğreniminin ilgili bir yöntemi, öğrenme sürecinde derin ağdaki dikkati eğitmektir, böylece seçilen öğrenme verileri öğrenme değişiklikleri ile değişir (Mnih ve diğerleri, 2014; Gregor ve diğerleri, 2015) . Diğer bir yöntem ise, öğrenme sürecinde dikkati yeni öğrenme sorunlarına yönlendirmek için merakı kullanmaktır (Oudeyer, 2004; Houthooft vd., 2016; bkz. Kidd ve Hayden, 2015). Geliştirme içgörülerini makine öğrenimine nasıl entegre ederiz? Ritter ve diğerleri (2017) Makine öğrenicileriyle yapılan "bilişsel psikoloji" deneyi, makine öğrenicilerinin çocuklar tarafından gösterilen şekil önyargısıyla yavaş öğrenenlerden "tek seferlik" e nasıl geliştiğini incelerken öğrenci. Bu deneyler, eğitim setinin (bkz.Liu ve diğerleri, 2017) ve algoritmaların yapısını değiştirebilir. Bu algoritmalar, erken öğrenmenin sonraki öğrenmeyi nasıl sınırladığını ve biraz öğrenmenin nasıl genelleştirildiğini anlamak için kullanılır.Çok öğrenme birçok şeyi karşılaştırır, ancak sadece biraz öğrenir.

Elbette, makine öğrenenlerinin bu fikirleri takip ederek güçlü algoritmalar oluşturabileceğini ve mevcut rekabeti kazanabileceğini kimse garanti edemez. Ancak, bu tür çabaların yeni öğrenme ilkeleri üreteceği kesindir. Algoritmalar biçiminde ifade edilen bu ilkeler, insan öğrenimi ve zekasını anlamada büyük bir ilerleme oluşturacaktır.

frontiersin.org aracılığıyla, Lei Feng.com AI Technology Review Compilation

Saf kuru ürünler Bu yılki Şangay Film Festivali bu filmleri izlemek için yeterli olacak!
önceki
NIKE x KITH yarın satışta! Büyük bir vuruş mu yoksa büyük bir kırmızı mı? !
Sonraki
Supreme'in tek ürün satışının altıncı haftasından sonra, çeşitli pansuman ajanları yeniden gösterime başladı! Ama onu izlemeye direnebilir misin? !
Bu film 37 dakikadır silinmiş, aslında 9 puan alabilirim!
Bir Land Rover'a ve mükemmel bir aileye sahip olmak nasıl bir duygu?
Diyabet, obezite, hiperlipidemi, gut ... Bitişikteki ikinci hastanenin standartlaştırılmış metabolik hastalık kliniği, tek noktadan yönetim konusunda size yardımcı olacaktır.
Off-White Bayanlar hazır giyim koleksiyonu ortaya çıktı! Ama asıl mesele şu ki, Jimmy Choo ile ortak markalı o tanrıça ayakkabılarını fark ettiniz mi? !
Usta araba hayatı illüstratörünün ve Angkesaila'nın hikayesi
"Savaş Alanını Canlandıran" gizemli paskalya yumurtası, oyuncular: gelecekte bin mermi olmadan vahşi oynamaya cesaret edemeyecekler!
İşçilik ve terzilik seçmek zordur! ACW 2018SS aksesuarlarının yakından görünümü sizi şaşırttı mı? !
Cannes'ın 70. yıldönümü sona erdi, Fan Bingbing'in jüri üyeliğinin yanı sıra Çin kısa filmi de büyük ödülü kazandı!
Önümüzdeki ay piyasa yapısını değiştirmek mi? Huang Zhang: Meizu 16, ayın sonunda veya gelecek ayın başlarında serbest bırakılmaya çalışıyor.
Arrizo 5e, 130.000'den fiyatlandırılması tahmin edilen 30 Haziran'da piyasaya sürülecek
Kayınbiraderi iki kelime ötüyor, Baby Xu Xu korkuyor ve tekrar itiraf ediyor!
To Top