g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Takviyeli öğrenmede bir sonraki adım: OpenAI Berkeley, yapay zekanın yalnızca "meraktan" öğrenmesine olanak tanır!

Xinzhiyuan Raporu

Kaynak: Github

Derleme: Daming

Xin Zhiyuan Rehberi Pekiştirmeli öğrenme modelleri genellikle harici ödül mekanizmalarının dikkatli tasarımına dayanır ve model eğitimi maliyet kontrolü ve ölçeklenebilirlikte sınırlamalara sahiptir. OpenAI araştırmacıları, iç ödül işlevi olarak temsilcinin "merakını" kullanan yeni bir takviye öğrenme modeli eğitim yöntemi önerdiler.Eğitim sırasında dış ödüllere gerek yoktur.Genelleme iyidir. 54 çevresel testten sonra, etki olağanüstüdür.

Pekiştirmeli öğrenme modelleri, büyük ölçüde temsilcinin dış çevre ödüllerinin dikkatli tasarımına dayanır. Bununla birlikte, her ortamı elle tasarlanmış yoğun ödüllerle işaretlemenin yolu ölçeklenebilir değildir, bu da aracının içsel ödül işlevinin geliştirilmesini gerektirir. Merak, tahmin hatalarını ödül sinyali olarak kullanan doğal bir ödül işlevidir.

Bu makalede, ilk kez, herhangi bir harici ödül belirlemeden, 54 standart karşılaştırma ortamında (bir dizi Atari oyunu dahil) tamamen merak odaklı öğrenmeye dayalı büyük ölçekli bir çalışma yürüttük. Elde edilen sonuçlar şaşırtıcıdır ve birçok oyun ortamında içsel merak hedefi ödülü ile elle tasarlanmış dış ödül mekanizması arasında yüksek derecede tutarlılık olduğunu göstermektedir.

Takviyeli öğrenme "merak" modeli: eğitim harici ödüller gerektirmez, tamamen kendi başınıza

Tahmin hatalarını hesaplamak için farklı özellik alanları kullanmanın etkisini inceledik ve rastgele özelliklerin birçok popüler pekiştirmeli öğrenme oyununun karşılaştırmaları için yeterli olduğunu gösterdik, ancak öğrenilen özelliklerin daha yüksek genellemeye sahip olduğu görülüyor. Seks. (Örneğin, Super Mario Bros'un yeni seviyesine taşınabilir).

Temsilci üzerinde geniş çaplı ampirik bir çalışma yaptık, Bu aracılar, çeşitli simüle edilmiş ortamlarda tamamen içsel ödüllerle yönlendirilir Bu sektörde bir ilk. Özellikle, dinamiklere ve içsel ödüllere dayalı bir merak modeli seçiyoruz. Bu model güçlü ölçeklenebilirliğe ve paralelliğe sahip olduğundan, büyük ölçekli deneyler için çok uygundur.

Şekil 1: Bu çalışmada kullanılan 54 ortamın anlık görüntülerinden oluşan bir koleksiyon. Araştırmamız, temsilcinin harici ödüller veya son sinyaller olmadan ancak meraktan dolayı ilerleme kaydedebileceğini göstermektedir.

İlgili videolar, sonuçlar, kod ve modeller için bkz. Https://pathak22.github.io/large-scale-curiosity

Bizim fikrimiz, içsel ödülü, mevcut durumda ajanın davranışsal sonuçlarını tahmin etmedeki hata, yani, ajan öğrenmesinin ileri dinamik tahmin hatası olarak ifade etmektir. Dinamik tabanlı merakı 54 ortamda kapsamlı bir şekilde araştırdık: Bu senaryolar, Şekil 1'de gösterildiği gibi video oyunları, fizik motoru simülasyonları ve sanal 3B gezinme görevlerini içerir.

Merak odaklı öğrenmeyi daha iyi anlamak için performansını belirleyen temel faktörleri daha fazla inceledik. Yüksek boyutlu orijinal gözlem uzayında (bir görüntü gibi) gelecek durumu tahmin etmek çok zor bir problemdir.Yardımcı özellik uzayındaki dinamikleri öğrenmek sonuçları iyileştirebilir.

Bununla birlikte, böyle bir gömülü alanın nasıl seçileceği önemli ve çözülmemiş bir araştırma problemidir. Sistemin sadeleştirilmesi ile, ajanın kendi merak mekanizmasında iyi performans gösterebilmesi için ajanın gözlemlediği bilgilerin farklı yöntemlerle kodlanmasının etkisini inceledik.

Yukarıdaki resim, seçilen 8 Atari oyunu ve Super Mario Bros.'un özellik öğrenme yöntemlerinin karşılaştırmasıdır. Şekildeki değerlendirme eğrisi, harici ödüller ve seviye sonu sinyalleri olmadan, aracı tarafından yalnızca merak eğitimi yoluyla elde edilen ortalama ödül puanını (standart hata dahil) gösterir.

Gördük, Tamamen merakla yönlendirilen temsilciler, eğitimde herhangi bir harici ödül kullanmadan bu ortamlarda ödül toplayabilir .

Şekil 3: Sol: Farklı parti boyutlarına sahip RF eğitim yöntemlerinin karşılaştırması, harici ödüller olmadan eğitim. Orta: Hokkabazlık (Roboschool) ortamında topun sekme sayısı. Sağ: Çok oyunculu Pong ortamının ortalama seviyesi

Dinamik ve istikrarlı çevrimiçi eğitim sağlamak için, gerekli yerleştirme alanının: (1) boyutsallık açısından kompakt olması, (2) gözlemlenen yeterli bilgiyi depolayabilmesi ve (3) gözlem bilgilerine dayalı sabit bir işlev olması gerektiğine inanıyoruz.

Şekil 4: "Super Mario Bros." oyun ortamında genelleme deneyi Soldaki resim, seviye 1-1'den seviye 1-2'ye geçiş sonucunu gösterir ve sağdaki resim, seviye 1-1'den seviye 1-3'e geçiş sonucunu gösterir. Kaynak ortamdan hedef ortama eşleme aşağıda verilmiştir. Eğitim sürecinde tüm temsilcilerin harici ödülleri yoktur.

Şekil 5: Birleşik eğitim için terminal harici ödül + merak ödülü kullanıldığında Unity ortamında ortalama harici ödül. Yalnızca harici ödüller yoluyla eğitim için eğri değerinin her zaman sıfır olduğunu unutmayın (şekilde alt satırda gösterilir)

Araştırmamız, rastgele ağlar aracılığıyla gözlemleri kodlamanın, pek çok popüler pekiştirmeli öğrenme kıyaslamasında merak modelleri oluşturmak için kullanılabilecek basit ve etkili bir teknik olduğunu göstermektedir. Bu şunu gösterebilir: Pek çok popüler pekiştirmeli öğrenme video oyunu testi, sanıldığı kadar görsel olarak karmaşık değildir. .

İlginç bir şekilde, pek çok popüler pekiştirmeli öğrenme oyununun kıyaslama testleri için rastgele özellikler yeterli olsa da, öğrenilen özellikler daha genelleştirilebilir görünüyor (Super Mario Bros. Yeni bir seviyede).

Yukarıdaki şekil, tüm Atari oyun ortamlarındaki performans sonuçlarını göstermektedir. Piksellerle eğitilen merak modelinin hiçbir ortamda iyi performans göstermediğini ve VAE özelliklerinin performansının rastgele özellikler ve ters dinamik özelliklerden daha iyi olmadığını ve bazen daha da kötü olduğunu gördük.

Ayrıca Atari oyunlarının% 55'inde ters dinamik eğitim özellikleri rastgele özelliklerden daha iyi performans gösteriyor. Analizler, merakı modelleyen rastgele özelliğin basit ve güçlü bir temel standart olduğunu ve Atari oyun sahnelerinin yarısında iyi performans gösterebileceğini gösteriyor.

özet

(1) Merak odaklı modeller üzerine çeşitli ortamlarda büyük ölçekli araştırmalar yaptık.Bu sahneler şunları içerir: Atari oyun seti, Super Mario Bros. oyunu, Unity'de sanal 3D navigasyon, Roboschool ortamı vb.

(2) Rastgele özellikler, pikseller, ters dinamikler ve değişken otomatik kodlayıcılar dahil olmak üzere dinamik tabanlı merakı öğrenmek için farklı özellik alanlarını kapsamlı bir şekilde inceledik ve bu alanların görünmez ortamlarda genelleştirilebilirliğini değerlendirdik. Seks.

(3) Sınırlamalar: Ajanın kendisi çevredeki rastgeleliğin kaynağıysa, herhangi bir gerçek ilerleme kaydetmeden kendisini ödüllendirebileceğini gözlemledik. Temsilcinin ortamın çeşitli kısımlarını kontrol edebildiği 3D navigasyon görevlerinde bu sınırlamayı deneysel olarak kanıtladık.

Gelecek yönü

Herhangi bir ödül işlevi veya bitiş sinyali olmadan farklı ortamlarda önemsiz olmayan davranışları öğrenmek için basit ve genişletilebilir bir yöntem öneriyoruz. Bu makalenin şaşırtıcı bir bulgusu, rastgele özelliklerin iyi performans göstermesidir, ancak öğrenilen özelliklerin genelleştirilebilirlikte daha iyi olduğu görülmektedir. Ortam yeterince karmaşık hale geldiğinde, özelliklerin öğrenilmesinin daha önemli olacağına inanıyoruz, ancak bu sorunu geleceğe bırakmaya karar verdik.

Daha yüksek hedefimiz, ilgilenilen görevler için performansı artırmak için birçok etiketlenmemiş (yani, önceden tasarlanmış bir ödül işlevi olmayan) ortamı kullanabilmektir. Bunun ışığında, evrensel ödül işlevi olan bir ortamda iyi performans göstermek, araştırmamızın yalnızca ilk adımıdır ve gelecekteki sonuçlar, etiketlenmemiş ortamdan etiketli ortama geçişin gerçekleştirilmesini içerebilir.

Kağıt adresi:

https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

Github ile ilgili kaynaklar:

https://github.com/openai/large-scale-curiosity

Xinzhiyuan AI WORLD 2018 [Erken Kayıt Bileti]

Satılık!

Xinzhiyuan, AI WORLD 2018 konferansını 20 Eylül'de Pekin'deki Ulusal Kongre Merkezi'nde gerçekleştirecek ve makine öğrenimi vaftiz babası, CMU profesörü Tom Mitchell, Mikes Tekmark, Zhou Zhihua, Tao Dacheng, Chen Yiran ve diğer AI liderlerini makine zekasına dikkat etmeye davet edecek. Ve insan kaderi.

Konferans resmi web sitesi:

Şu andan 19 Ağustos'a kadar Xinzhiyuan, küresel yapay zeka liderleriyle iletişim kurmak ve küresel yapay zeka endüstrisinin sıçrama gelişimine tanık olmak için birkaç erken kuş bileti satışını sınırladı.