Seyrek geribildirim görevlerini öğrenmek için merakı kullanın

AI Technology Review Press : Son zamanlarda Unity, makine öğrenimi aracısı araç setinin (ML-Agent araç seti v0.4) 0.4 sürümünü yayınladı. En belirgin yeni özellik, meraka dayalı ek iç teşvikler yoluyla temsilcinin eğitimidir. Bu yeni özelliğin açıklanırken çözülmesi gereken birçok yönü olduğu için, yazar Arthur Juliani bunu açıklamak için bağımsız bir makale yazdı. AI Technology Review bu makaleyi aşağıdaki gibi derledi.

Prensip olarak, ödülün olasılığı yüksek değilse veya dağılım seyrekse, failin ortamı algılaması için artık daha etkili bir yol var. Bu temsilciler, sonuç hakkındaki merak derecesine göre bir ödüllendirme yöntemi kullanarak bu tür ortamları keşfedebilirler. Yazar, bu yazıda bu yöntemin çalışma prensibini anlatmakta ve bu yöntemi kullanarak pratik bir görevin nasıl çözüleceğini, pekiştirmeli öğrenme yönteminin orijinal versiyonu ile karşılaştırarak bu yeni yöntemin üstünlüğünü göstererek göstermektedir. Seks.

Merak odaklı keşif

Takviye öğrenmeye gelince, temel öğrenme bilgileri ödüller şeklinde gelir: her karar verildiğinde, temsilciye bir skaler değer verilir. Bu tür ödüller genellikle çevrenin kendisi tarafından oluşturulur ve ortamın yaratıcısı tarafından belirlenir. Ödül aralığı (-1.0, +1.0), +1.0 hedefe yakın ve -1.0, ajanın hayatının öldüğü anlamına gelir. Bu tür bir ödülün dışsal olduğu düşünülebilir, çünkü zekanın dışından üretilir. Harici ödüller varsa, o zaman dahili ödüller de olmalıdır. Dış ödüllerden farklı olarak, iç ödüller ortam tarafından sağlanmamaktadır, ancak bazı standartlara göre temsilci tarafından üretilmektedir. Tabii ki, tüm iç teşvikler böyle değil. Sonunda, iç ödüller, temsilcinin davranışını değiştirmek ve gelecekte daha iyi dış teşvikler elde etmek gibi bazı hedeflere hizmet etmeyi umuyor veya temsilci daha fazla dış çevreye maruz kalabilir. İnsanlarda ve diğer memelilerde, bu içsel ödüllerin peşinde koşmak genellikle içsel motivasyon olarak adlandırılır ve duygularımızla yakından bağlantılıdır.

Pekiştirmeli öğrenme alanındaki araştırmacılar, aracılara içsel ödüller sağlamak için iyi sistemler geliştirmeye çok fazla enerji harcadılar, bu da onlara doğal ajanlarda bulduğumuza benzer motivasyonlar sağlıyor. Popüler bir yöntem, acenteye bir merak vermek ve etrafındaki dünya tarafından şaşırtılmasına dayanarak onu ödüllendirmektir. Küçük bir bebeğin dünyayı nasıl anladığını düşünmek istiyorsanız, belirli bir hedef peşinde değil, yeni deneyimler için oynuyor ve keşfediyor - böylece çocuğun meraklı olduğunu söyleyebilirsiniz. Merak odaklı araştırmanın arkasındaki fikir, bu motivasyonu temsilcilerimize aşılamaktır. Temsilci ödüllendirilirse ve kendisini şaşırtan bir duruma ulaşırsa, kendisini şaşırtan giderek daha fazla durum bulmak için çevreyi keşfetmek için yeni stratejiler öğrenecektir. Bu şekilde, temsilci ayrıca labirentteki uzak hedef konumlar veya kaynakların seyrek olması gibi harici ödülleri keşfetmeyi umuyor.

Yazar, Deepak Pathak ve meslektaşları tarafından geçen yıl yayınlanan yakın tarihli bir makalede belirli bir yöntem seçti. Buna merak odaklı keşif ve kendi kendini denetleyen tahmin denir.Tüm ayrıntılarla ilgileniyorsanız, orijinal bağlantıyı açabilirsiniz. Makalede yazar, merak uyandıran fikirleri akıllıca ve genelleştirilebilir bir şekilde formüle ediyor. Bu yöntem, iki bağımsız sinir ağını eğitmeyi önerir: bir ileri model ve bir ters model. Ters model, aracı tarafından alınan mevcut ve sonraki gözlem bilgilerini kabul etmek, bunları tek bir kodlayıcı kullanarak kodlamak ve sonucu iki gözlemin gerçekleşmesi arasında gerçekleştirilen eylemi tahmin etmek için kullanmak üzere eğitilir. Daha sonra ileri model, kodlamanın mevcut gözlemini ve davranışını elde etmek ve kodlamanın bir sonraki gözlemini tahmin etmek için eğitilir. Öngörülen ve gerçek kodlama arasındaki fark daha sonra içsel bir ödül olarak kullanılır ve aracıya verilir. Daha büyük farklılıklar, daha büyük sürprizler anlamına gelir ve bu da daha büyük iç ödüller anlamına gelir.

Bu iki modeli aynı anda kullanarak, temsilci tarafından elde edilen ödüller, yalnızca temsilciyi şaşırtan şeyleri değil, aynı zamanda temsilcinin eylemleri aracılığıyla kontrolünü kazandığı şeyleri de özel olarak yakalar. Super Mario oyununda, yöntemleri herhangi bir dış ödül olmadan bir temsilci için ilerleme sağlayabilir. Aşağıda, yöntem tasarımlarının şematik bir diyagramı bulunmaktadır.

İçsel merak modelinin şematik diyagramı. Beyaz kutu girdiyi temsil eder; mavi kutu sinir ağındaki katmanı ve çıktıyı temsil eder; kesintisiz mavi çizgi ağdaki etkinleştirme yönünü temsil eder; yeşil kesik çizgi, kaybı hesaplamak için kullanılan karşılaştırma öğesini temsil eder; yeşil kutu iç geribildirimin hesaplanmasını temsil eder .

Piramit ortamı

Merakı test etmek için, sıradan hiçbir ortam bunu yapamaz. Machine Learning Agent Toolkit'in 0.3 sürümü aracılığıyla yayınlanan örnek ortamların çoğu, nispeten yoğun ödüller içerir ve meraktan veya diğer keşif geliştirme yöntemlerinden yararlanmayacaktır. Yeni keşfedilen merakı teste sokmak için yazar, piramit ortamı adı verilen yeni bir nadir ödül ortamı yarattı. İçinde sadece bir ödül var ve rastgele keşifler, ajanın onunla karşılaşmasına nadiren izin veriyor. Bu ortamda, ajan, önceki bazı ortamlarda tanıdık mavi kübe benzer bir form benimser. Aracı, ileri veya geri, sonra sola veya sağa hareket edebilir ve küpün önündeki bir dizi ışın projeksiyonu aracılığıyla çevredeki dünyanın görüntüsüne erişebilir.

Ajan, çevresini bir dizi ışınla gözlemler

Temsilci, dokuz odadan oluşan kapalı bir alana yerleştirilir. Bir oda rastgele yerleştirilmiş bir anahtar içerir ve diğer odalar rastgele yerleştirilmiş taşınmaz taş piramitler içerir. Temsilci anahtarla etkileşime girdiğinde, anahtar kırmızıdan yeşile döner. Bu renk değişikliği ile ortam, belirli bir odada rastgele bir konumda hareketli tuğlalarla yeni bir piramit oluşturacaktır. Piramidin tepesinde altın bir tuğla var. Temsilci tuğlaya dokunduğunda +2 harici ödül alır. Buradaki zor kısım, yeni bir odaya yürüme, düğmeyi çevirme ve kuleyi devirme sürecinde hiçbir ara ödülün olmamasıdır. Temsilci, bu sıralamayı ara yardım almadan yürütmeyi öğrenmelidir.

PPO + ile eğitilen ajan, düğmeye dokunduktan sonra piramide doğru yürüyor

Temsilci eğitim için Proksimal Politika Optimizasyonunun (PPO, Unity ortamındaki varsayılan güçlendirme öğrenme algoritması) orijinal sürümünü kullandığında, 200.000 adımlık egzersizden sonra bile performansı zayıftır, sonuç genellikle eşit değildir Rastgele oluşturulan sonuçlardan daha iyidir (ortalama ödül -1'dir). (Aşağıdaki şekil)

Aksine, PPO ve merak odaklı dahili ödüller ile eğitilen bir aracı, sorunları birden çok deneyde 200.000 adımda veya hatta zamanın yarısında çözebilir. (Aşağıdaki şekil)

Yazarlar ayrıca sadece içsel ödül sinyalleri ile eğitilmiş ajanlar üzerinde çalıştılar. Görevleri çözmeyi öğrenmemiş olsalar da, birden çok oda arasında hareket etmelerine izin veren daha ilginç bir nitel strateji öğrendiler; aksine, Tek strateji ödül olarak, temsilci bir odada yalnızca küçük bir daire oluşturabilir. (Aşağıdaki şekil)

Yakın uç strateji optimizasyonu ve merak stratejisi

Temsilcilerin çevrede eğitilmesine yardımcı olmak için merak stratejilerini kullanmak istiyorsanız, eğitimi etkinleştirmek çok basittir. İlk olarak, en son makine öğrenimi araç setini alın ve ardından aşağıdaki kodu hiperparametre belgesine ekleyin: use_curiosity: true. Daha sonra eskisi gibi çalışın. TensorBoard kullanıyorsanız, sonuçlarda birçok yeni metriğin izlendiğini görebilirsiniz. Bu süreç, ileri ve geri model kayıplarının yanı sıra her adımda biriken doğal ödülleri içerir.

Temsilciye merak uyandırmak tüm senaryolarda geçerli değildir. Özellikle ortam zaten çoğu eylemden sonra sıfır olmayan bir ödül alan Crawler ve Walker ortamları gibi yoğun bir ödül işlevi içeriyorsa, çok fazla gelişme göremeyebilirsiniz. Ortam yalnızca seyrek ödüller içeriyorsa, içsel ödüller eklemek, bu görevleri pekiştirmeli öğrenmeyi kullanarak çözülemez durumdan çözmesi kolay hale getirebilir. Bu, özellikle kazanma / kaybetme veya tamamlama / başarısızlık gibi basit görevleri ödüllendirdiğinde uygundur.

-

Merak özelliğini kullanırsanız, Unity ekibi de geri bildirimlerinizi duymayı umar. Doğrudan ml-agents@unity3d.com adresine bir e-posta gönderin veya Github'daki soru sütunundan bir mesaj bırakın ~ Eğitimde iyi şanslar!

Blogs.unity3d.com aracılığıyla, AI teknolojisi inceleme derlemesi. Makalenin sonundaki tıklayın Orijinali okuyun AI etki faktörünü görüntüleyin.

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

Xiaomi 9 konferansından önceki haberlerin özeti: çeşitli konfigürasyonlar ortaya çıkıyor, cevap sadece fiyat
önceki
Beatles Obsidian serisi özel baskısı 227.800 fiyatla satışta
Sonraki
Şüpheli OPPO R19 resmi tanıtım resmi pozlama: ekran altı ön kamera tasarımı kullanma
geliyor! 5G ve yapay zekanın geleceği, bu 10 endüstri liderini söyledi
Gerçek iQOO cep telefonu açıklandı, katlanır ekran tasarımı bir söylenti, Snapdragon 855+ altıncı nesil ekran kilidi açıldı
Bin yüzün kralı mı? Leung Ka Fai sadece herhangi bir rolü oynayamaz, aynı zamanda herhangi bir stili denemeye cesaret edebilir!
22 gram çok yönlü koç-Lexin bilezik 5 gerçek test deneyimi
"Eğlence · Olağanüstü" 2017 Otomotiv Video Pazarlama Ödülleri Pekin'de Glory Blooms
Zhou Xingchi veya Jin Yong'un kraliçesine ek olarak? Zhang Min kostüm iblis kızın başının ne olduğunu açıkladı
Xiaomi Mi 9 Transparent Edition Gerçek Kamera Görünüyor: Yüksek profilli teknoloji modeli + 12GB büyük depolama, güzel görünümlü ve yetenekli
Zotye T700L resmi haritası 2 + 3 + 2 yedi kişilik SUV / veya yıl içinde piyasaya sürülecek
Kendinizi anında şekillendirmek için bir çift Sneaker nasıl kullanılır? YOHO! Baş editör Shanghai Xingye Taikoo Hui'de size anlatıyor!
Zhang Yi'nin daha önce oynadığı rollere baktığınızda, bu "Bıçak Noktası" nı kaçırmaktan utanıyor musunuz?
Master Lu'nun ilk koşu skoru olan güçlü Xiaomi Mi 9, Game Turbo modunu destekliyor
To Top