Li Feifei'nin son makalesinin yorumu: Bebek öğrenme yeteneği için hesaplamalı bir model oluşturma

Xinzhiyuan Sütunu

Yazar: Zhang Hao (Yunnan Üniversitesi)

Editör: Liu Xiaoqin

Xin Zhiyuan Rehberi Feifei Li ve Stanford Üniversitesi'nden diğerleri, merak odaklı içsel motivasyondan oluşan bir sinir ağı uygulayarak bebeğin bazı yeteneklerini kopyalamaya çalışan en son makaleleri yayınladılar. Araştırmacılar, aracının davranışının sonucunu tahmin eden ve bebeğin öğrenmesinin temel özelliklerini açıklayabilecek bir dünya modeli öğrendiği basit bir simülasyon ortamı tasarladı.

Oyun için bebekler uzmandır. Net dış ödül sinyallerinin olmadığı yapılandırılmamış bir ortamda, bebekler yeni yapılandırılmış davranışlar üretme konusunda inanılmaz bir yeteneğe sahiptir. Son zamanlarda, Li Feifei ve diğerleri tarafından yayınlanan en son makaleler, merak kaynaklı içsel motivasyondan oluşan bir sinir ağı uygulayarak bebeğin bazı yeteneklerini kopyalamaya çalıştı.

Aracı, basit ama ekolojik olarak doğal bir simülasyon ortamı kullanarak, gördüğü nesnelerle hareket edebilir ve etkileşime girebilir ve aracı, davranışının dinamik sonuçlarını tahmin eden bir dünya modelini öğrenecektir. Aynı zamanda, temsilci, gelişmekte olan dünya modeline karşı karşıya gelmek için harekete geçmeyi de öğrenmiştir; bu, temsilcinin çevreyi keşfetmesini ve onunla yeni ve daha zengin etkileşimler yürütmesini teşvik eder. Makale, bu stratejinin kendi kendine hareket tahmini, nesne dikkati ve nesne toplama dahil olmak üzere bir dizi karmaşık kendi kendini denetleyen davranışa yol açtığını kanıtlıyor.

Ek olarak, aracı tarafından öğrenilen dünya modeli, nesne dinamik tahmin ve yerelleştirme görevlerinin performansının iyileştirilmesini destekler. Bu modelin içsel motivasyon hesaplama modeli, bebek gelişimsel görsel motor öğrenmenin temel özelliklerini açıklayabilir.

Merakla yönlendirilen hesaplamalı bir içsel motivasyon modeli

Bebeklik döneminde insanlar, özellikle oyunlarda çevrede gezinme, nesneleri arama ve bunlara bakma gibi bir dizi ilginç ve kendiliğinden görsel motor davranış sergiler. Çevre anlayışları ve (yeniden) yapılandırma yetenekleri, onları en gelişmiş otonom robotlardan farklı kılar. Bu dönemde oyun oynama yeteneği, bebeğin çevreyi anlama ve simüle etme konusundaki güçlü yeteneği ile etkileşime girebilir.

Merakın içsel motivasyonunun kendisi dünya modelinin gelişimini teşvik edebilir. Bu fikir, yeni fakat tekrarlanabilir etkileşimler arayarak bebeğin dünya modeli tahmin sisteminin başarabileceklerinin sınırlarını zorladığı ve bu sistemleri iyileştirmek ve geliştirmek için yararlı veriler sağladığı erdemli bir döngüye dayanır.

Yapay zeka alanındaki son çalışmalara dayanan makale, merak temelli bir içsel motivasyon hesaplama modeli oluşturdu. Bir aracının gördüğü nesneler üzerinde hareket edebileceği ve fiziksel işlemler gerçekleştirebileceği basit bir simüle edilmiş etkileşimli ortam öneriyoruz (Şekil 1).

Makale daha sonra, aracının davranışının sonuçlarını tahmin etmek için tasarlanmış bir dünya modelini öğrendiği bir sinir ağı mimarisini anlatıyor. Ek olarak, ajan dünya modelinin doğruluğunu optimize ettiğinde, ayrı bir sinir ağı aynı anda ajanın dünya modelinin mevcut durumuna meydan okumak için harekete geçmeyi amaçlayan eylem stratejisini öğrenir.

Makale, bu mimarinin yukarıda bahsedilen iyi huylu pekiştirmeli öğrenme döngüsüne sürekli olarak katıldığını, kendiliğinden oluşan kendi kendine hareketleri anlamayı öğrendiğini ve seçici olarak herhangi bir yerleşik kavram olmadan nesnelere odaklandığını, konumlandırdığını ve bunlarla etkileşime girdiğini kanıtlıyor.

Ajan mimarisi ve ortamı

Makale, ajanı Unity 3D simülasyon çerçevesinde oluşturulmuş gerçekçi bir fizik simülasyon ortamına yerleştiriyor. Temsilci, bir dünya modeli ve bir kayıp modelinden oluşur. Dünya modelinin görevi dinamik görsel girdiyi öğrenmektir. Kayıp modeli, dünya modelinin kaybını tahmin etmeye çalışır ve sonraki birkaç adımda dünya modeline karşı eylemleri seçer. Kendi kendini denetleyen merak sistemi Şekil 2'de gösterilmektedir. Modelin fiziksel ortamdaki gerçek düzenlemesini keşfetmek için model önceden eğitilmiş ağırlıklarla başlatılmamıştır.

Etkileşimli ortam

Ortam, başında rastgele yerleştirilmiş bir ajan ve birkaç nesne içeren basit bir kare odadır. Aracı, farklı zaman adımlarında önden RGB görüntülerini alıp hareket edebilen görünmez bir küre olarak modellenmiştir. Temsilci, biraz dikkat ve yakınlık gerektiren nesnelerin etkileşimli modellemesini kolaylaştırmak için, üç boyutlu uzaydaki tüm kuvvetleri ve momentleri halihazırda görünümde olan nesnelere uygulayabilir.

Ajan tarafından t-1'den t'ye kadar yakalanan görüntülerden oluşan durum uzayında bir durum tanımlayın. Eyalette, temsilci bir eylem gönderir ve bu eylem bir sonraki durumu etkileyecektir. Eylem alanı süreklidir. İlk iki boyut, kendi kendine hareketi belirler, temsilcinin ileri / geri hareketini ve yatay düzlem dönüşünü kısıtlar. Kalan 6N boyutları, aracının görüş alanına göre en alttaki nesneden en sağdaki nesneye sıralanmış N nesneye uygulanan kuvvetleri ve torkları belirtir.

Dünya modeli

Geçmişin bir parçası verildiğinde, genelleştirilmiş dinamik problemini açıklamak için girdi eşlemesini : H X ve doğruluk değeri eşlemesini : H Y kullanın ve dünya modelinin (Şekil 2'deki mavi bölüm) (h) ile ( h). Bu dünya modelini öyle ifade edelim. Her tahmin için ortaya çıkan kayıp. Teorik olarak, tahminler çekici bir dinamik problem yaratacaktır.

,

.

Pratikte, ters kinetik tahminin eksik bir davranışı doldurmak için çok yararlı olduğunu buluyoruz. Makale, evrişimli sinir ağlarını eğitmek için stokastik gradyan inişini kullanıyor

, parametresini rasgele başlatın. Model 12 evrişimli katman kullanır ve diğer her katman maksimum adım havuzu = 2 kullanır.

Kayıp modeli

Temsilcinin amacı dünya modeline karşı savaşmaktır, bu nedenle bir sonraki seçimin neden olduğu kaybı tahmin edebilirse, bir strateji geliştirebilir. Uygulamada, eğitimi kolaylaştırmak için tahmin kaybının ayrıklaştırılması kullanılır. verilen

Ve bir sonraki önerilen eylem a, kayıp modeli (Şekil 2'de kırmızı) dünya modeli kaybının olasılık dağılımını tahmin eder. Softmax çapraz entropi kaybı ile sınırlıdır. Parametre ile tek bir evrişimli sinir ağı kullanıyoruz

, Her katmanda 12 evrişimli katman içerir, adım = 2 maksimum havuzlama katmanı, kodlama durumu için gizli bir katman kullanılır ve ardından eylem ile

Basamaklı hale getirmek.

Kaybın sadece dünya modelinin durumuna değil, aynı zamanda gelecekte alınan önlemlere de bağlı olduğunu, bu nedenle kayıp modelinin gelecekteki stratejileri tahmin etmesi gerektiğini belirtmek gerekir. Mevcut durum göz önüne alındığında, Şekil 4'te gösterildiği gibi

Durumunda, kayıp tahmini, eylem uzayındaki kayıp tahmin haritası olarak etkili bir şekilde yorumlanır.

.

Eylem politikası

Kayıp tahmin modeline dayalı olarak, aracı davranışını seçmek için basit bir mekanizma kullanabilir. Kayıp modeline göre, verilen durum

Ve önerilen sonraki eylemin olasılık dağılımı a, T

,

. T olasılık dağılımına dayalı olarak, strateji bir dağılım olarak tanımlanabilir

, bir hiperparametredir, aslında, stratejiyi A'daki K tek tip rasgele örnekler üzerinde 'yı değerlendirerek yürütürüz. Olasılığı denklem (1) ile orantılı olan bir K-orta ayrık dağılım Bu strateji mekanizmasını seçerken, basit bir yöntemle başlamayı ve kendi kendini denetleme sinyallerine odaklanmak için daha karmaşık pekiştirmeli öğrenme standartlarını kullanmayı seçiyoruz. Bu aşamada önümüzdeki birkaç zaman dilimindeki kayıp net bir şekilde tahmin edilebilir ve deneysel sonuçlar kolaylıkla görselleştirilebilir ve makul açıklamalar yapılabilir.

Gözlemler ve sonuçlar

Dinamik olarak oluşturulmuş bir dünya modelinin kaybına dayanan basit ve evrensel bir içsel motivasyon mekanizmasının, ajanın kararlı bir şekilde bir dizi doğal davranış üretmesine izin verdiğini gözlemliyoruz. Aktif öğrenme süreci sırasında kendi kendine müfredat ortamı aracılığıyla, aracı, "oynamayı" öğrenirken karmaşıklıkta uygun artışla birkaç "gelişim kilometre taşına" ulaştı.

Rastgele eylemlerden başlayarak, kendi kendine hareketin dinamiklerini hızla öğrenir. Ardından, nesnenin varlığı veya konumu hakkında net bir denetim sinyali vermeden, kendi kendine hareket tahminini terk edecek ve daha ilginç nesnelere odaklanmaya başlayacaktır. Son olarak, birden fazla nesne mevcut olduğunda, bunları karşılıklı etkileşim kapsamına sokmak için bu nesneleri toplayacaktır. Tüm süreç içinde, temsilci daha zorlu bir veri dağıtım yöntemi buldu.Atmanı her an yeni durumlara maruz bırakmak zordur, ancak bu yöntem yine de ajan tarafından anlaşılabilir ve kullanılabilir. Bu içsel motivasyon stratejisi, nesne dinamiklerinin ve sistemin açıkça öğrenmediği diğer görevlerin anlaşılmasında performans iyileştirmelerine yol açar.

Bu, önceden eğitilmiş görsel omurga olmadan gerçekleşir - görsel sistem dünya modeli, ImageNet sınıflandırması üzerinde önceden eğitilmiş filtre ağırlıkları ile kasıtlı olarak başlatılmaz (örneğin).

Makine öğrenimi açısından bakıldığında, bu spontan davranış kombinasyonu, gerçek pekiştirmeli öğrenme senaryolarında etkili bir şekilde hareket etmesi gereken aracıları tasarlamak için çok uygun olan gelişmiş bir dünya modeline yol açar. Bu senaryolarda ödül, Seyrek veya muhtemelen bilinmiyor. Burada nihayet karmaşık ve öngörülemeyen ortamlarda çalışmayı öğrenebilen otonom robotları kontrol edebilen algoritmalar geliştirmeye çalışıyoruz. Bilişsel bilim perspektifinden bakıldığında, bu sonuçlar, bebeğin spontan davranışını simüle etmek için içsel motivasyonel öğrenme sistemlerini kullanmanın bir yolunu göstermektedir. Bu alanda, bebek öğreniminin temel yönlerini tanımlayabilecek bir hesaplama modeli oluşturmaya çalışıyoruz.

Kağıt adresi: https://arxiv.org/pdf/1802.07461.pdf

Topluluğa katıl

Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstrisiyle ilgilenen öğrenciler küçük bir WeChat asistanı hesabı ekleyebilirler: aiera2015_1 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmeniz gerekir (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).

Ek olarak, Xinzhiyuan AI teknoloji + endüstri topluluğu (akıllı arabalar, makine öğrenimi, derin öğrenme, sinir ağları vb.), İlgili alanlarda çalışan mühendisleri ve araştırmacıları işe alıyor.

Nasıl bir Japonya'ya gideceğiniz, yerli bahar görünümünün zirvesinde oynayın, Akıncılar sizin için hazır!
önceki
Kız yalnız seyahat ettiğinde, bir yabancı tarafından vurulur ve "Yabancılarla Konuşma" nın gerçekçi bir versiyonunu sahneliyor!
Sonraki
AI, "Mobil Olimpiyatlar" MWC'nin ana yolu oldu, Google ve Samsung, Çin Ordusu'na karşı savaşta yer alıyor
Uçakta bir ... Alaska köpeği vardı! China Southern Airlines yanıt verdi
Musk: Ben Satoshi Nakamoto değilim, sahte bir hesap gibi davrandığımda inanılır değilim
Güvenli Bahar Şenliği Gezisi | Otobüse binerken kimlik kartınızı getirmeyi unuttuğunuz için korkmazsınız, hileler vardır ...
Mart'ta güney Anhui'ye gitmeyin! Batı Anhui'deki bu küçük şehir, Anhui'nin gitmesi gereken yer!
Serada ozon sterilizasyonu ve böcek ilacı durumunda yeni sterilizasyon ve böcek ilacı teknolojisi
Çin! Dünyanın en büyük uçak gemisi, ani bir yüksek çözünürlüklü resim! Gizem ...
30 yıldır geyik avlayan bu Çinli çiftçi dünyayı şok etti ve Birleşmiş Milletler'i vurdu.
JD.com küresel satın almalara ağırlık veriyor: hedefler, iş fırsatları ve rekabet ortamı
İtfaiyeci olmak ister misin? İşe alım duyurusu burada!
Ayrıcalıklı | Komşu mağazaların büyük bir bölümü kapandı ve sermaye zincirinin kırıldığı ortaya çıktı. CEO "tek söz söylemek zor" yanıtını verdi
Hanchuan Mahkemesi Avukat Arabuluculuk Stüdyosu kuruldu
To Top