Seyrek ödüllerin kısıtlamalarının üstesinden gelin ve temsilcinin öğrenmede büyümesine izin verin

Lei Feng.com: Makine öğrenimini ve yapay zekayı seviyorum, ancak kafamı gömmek ve pratik yapmak sıkıcı ve zaman öldürücü buluyorum? YouTube kanalı Arxiv Insights'ın haftalık seçimi, teknik bir bakış açısıyla, sizi kolay ve derinlemesine öğrenmenizi sağlar.

Tercüme / Zhao Ruojia Terbiye / MY

Takviye öğrenme ortamında, öğrenmek istediğimiz bir görevi gerçekleştirmek için temsilci, orijinal verilerden yararlı bilgiler çıkarmak için bazı özellik çıkarma şemaları uygulayacak ve ardından özellikleri çıkarmak için bir strateji ağı olacaktır.

Pekiştirmeli öğrenmeyi genellikle zor buluyoruz ve bunu zorlaştıran sebep, seyrek ödüller kullanmamızdır. Temsilcinin geri bildirimden öğrenmesi ve ardından hangi işlem sırasının nihai ödüle yol açacağını ayırt etmesi gerekir, ancak aslında geri bildirim sinyalimiz o kadar seyrek ki, temsilci orijinal verilerden yararlı özellikler çıkaramaz.

Mevcut pekiştirmeli öğrenmede, oyun ortamından elde edilen seyrek dış ödül sinyallerini yükseltmek ve temsilcinin ek geri bildirim sinyalleri yoluyla öğrenmesine yardımcı olmak olan ana akım bir eğilim vardır. Denetlenebilir bir ortam oluşturmayı ve çok yoğun ek geri bildirim sinyalleri tasarlamayı umuyoruz .. Temsilci görevi başardığında bilgi sahibi olabilir.

Bu makale, bazı makalelerin ayrıntılandırılması ve analizi yoluyla size mevcut araştırmanın bazı genel ve yönsel görüşlerini sunmayı ummaktadır.

1. Yardımcı görevleri ayarlama

İlk nokta, yardımcı görevlerin temsilcinizi eğitmeye yardımcı olacağıdır.Bu basit hedeflerin üst üste konulması, temsilcimizin öğrenme verimliliğini önemli ölçüde artırabilir. Google deepmind'den, denetimsiz yardımcı öğrenme görevleriyle birleştirilmiş pekiştirmeli öğrenme adı verilen bir makaleye bakalım.

Bu makale 3 boyutlu bir labirent kuruyor. Aracı labirentte yürüyor. Belirli nesneleri bulması gerekiyor. Bu nesnelerden biriyle karşılaştığında ödüllendirilecek. Yazarlar bu çok seyrek ödülleri değiştirdiler ve tüm eğitim sürecini güçlendirmek için üç ek ödül sinyali kullandılar.

İlk görev piksel kontrolüdür. Temsilcinin, giriş resminin belirli yerlerindeki piksel değerlerinin değişimini en üst düzeye çıkarmak için bağımsız bir strateji öğrenmesi gerekir. Önerilen uygulama yöntemlerinde, giriş çerçevesi az sayıda ızgaraya bölünür ve her ızgara bir görsel değişim puanı hesaplar ve ardından strateji Tüm ızgaraların toplam görsel değişimini en üst düzeye çıkarmak için eğitilmiştir. Piksel kontrol görevlerinin eklenmesi, üç boyutlu bir ortamda çok etkilidir.

İkinci yardımcı görev ödül tahminidir. Temsilciye, bölüm dizisindeki en son üç kare verilir ve onun görevi, bir sonraki adımda verilecek ödülü tahmin etmektir.

Üçüncü görev, değerlendirme işlevini yeniden oynatmaktır. Tahmin yoluyla, temsilci şu anda gelecekteki ödüllerin toplamını alacaktır.

2. Merak keşfi yönlendirir

İkinci görüş, merakın keşfi yönlendirdiğidir. Popüler görüş, çevreyi keşfettikten sonra keşfedilen yeni bir şeyi öğrendikten sonra, temsilcinizi bir şekilde ödüllendirmek istediğinizdir.

Varsayılan pekiştirmeli öğrenme algoritmalarının çoğunda, insanlar -açgözlü keşif yöntemini kullanır, bu da çoğu durumda temsilcinizin mevcut stratejisine göre en iyi ve mümkün olan en iyi yönü seçeceği anlamına gelir. Küçük olasılık durumunda, temsilci rastgele bir eylem gerçekleştirecek ve eğitim ilerledikçe bu rastgele eylem, kararınızı tam olarak yerine getirene kadar kademeli olarak azalacaktır. Bu nedenle, temsilciniz daha iyi stratejiler bulmak için tüm ortamı tam olarak keşfedemeyebilir.

Takviye öğrenmede, ileriye dönük bir modeli hatırlayacağız, bu, temsilcinizin belirli girdi çerçevesini göreceği, bir tür özellik çıkarıcı kullanacağı ve girdi verilerini bir tür gizli gösterime kodlayacağı anlamına gelir. O zaman bir ileri modeliniz var. Yepyeni bir konumsa, temsilcinin ileri modeli o kadar doğru olmayabilir. Temsilcinizi eyalet uzayındaki bilinmeyen bölgeleri keşfetmeye teşvik etmek için seyrek ödüle ek olarak bu tahmin hatalarını ek bir geri bildirim sinyali olarak kullanabilirsiniz. .

Aşağıda tanıtmak istediğim makalede yazar, içsel merak modülünü (ICM) göstermek için iyi bir örnek kullanıyor.

Bırakın her yaprağın piksel değişimlerini tahmin etmek bir yana, esintiyi modellemenin zor olduğunu hepimiz biliyoruz. Yaprakların hareketi, aracının hareketiyle kontrol edilemez. Özellik kodlayıcı için, bu yaprakları modellemesi için onu yönlendirecek bir teşvik yoktur. Bu, piksel uzayının tahmin hatasının her zaman yüksek olacağı ve aracının her zaman yaprakları takip edeceği anlamına gelir. Merak edin, bu, makaledeki ICM modelinin mimarisidir.

Orijinal ortam durumları s ve s + 1 ilk olarak özellik uzayına kodlanır ve sonra iki model vardır: biri ileri modeldir, bu model bir sonraki durum için strateji tarafından seçilen eylem aracılığıyla özellikleri tahmin eder ve sonra bir tersi vardır. S durumundan sonraki s + 1 karakteristik durumuna geçmek için hangi eylemin seçilmesi gerektiğini tahmin etmek için modeli çevirin. Son olarak, s + 1'in özellik kodu, ileri model tarafından verilen s + 1'in öngörücü özellik kodu ile karşılaştırılır. Temsilciyi eğitin.

Bu iyi bir nokta, temsilcilerimiz bilinmeyen alanları keşfetmeli ve dünyayı merak etmelidir.

3. Standart ödül ayarı

Üçüncü bakış açısının standart ödül ayarı, temsilcinin başarısız bölümlerden öğrenmesini sağlar. Yakın zamanda açık AI tarafından yayınlanan, Post Experience Replay veya kısaca HER adlı bir makaleyi okuyabiliriz.

Bir manipülatörü masadaki bir nesneyi A konumuna itecek şekilde eğitmek istediğinizi, ancak strateji iyi eğitilmediğinden nesne B'de biter. Hedefe göre bu başarısız bir girişimdir ve HER modeli sadece " Hey! Yanlış yaptın, 0 değerinde bir ödül aldın ", ancak temsilciye" Harika! Aferin, nesneyi B konumuna bu şekilde taşıdın "dedin, temelde zaten seyrek bir ödül içindesin Sorunda, temsilcinin öğrenmesine izin vermek için çok yoğun bir ödül ayarı oluşturulmuştur.

Normal bir çevrimdışı öğrenme algoritması ve hedef konumların örneklenmesi için bir strateji ile başladık, ancak daha sonra değiştirilen bir dizi ek hedefi de örnekledik. Bu algoritmanın en iyi yanı, eğitimden sonra zaten bir strateji ağına sahip olmanızdır; bu nedenle, bir nesneyi yeni bir konuma taşımak istiyorsanız, tüm stratejileri yeniden eğitmenize gerek yoktur, yalnızca hedef vektörü değiştirmeniz gerekir ve stratejiniz Doğru şey. Bu makalenin amacı çok basit, ancak öğrenmemizdeki çok temel bir sorunu çözüyor, yani sahip olduğumuz her deneyimin kullanımını en üst düzeye çıkarmayı umuyoruz.

Seyrek ödül sinyalini artırmanın çok farklı yollarını paylaştık. Yoğun geri bildirim yoluyla, ilk adımın gerçek anlamda denetimsiz öğrenme olma eğiliminde olduğunu düşünüyorum. Bununla birlikte, genelleştirilmiş transfer öğrenme, fizikte nedensellik vb. Gibi pekiştirmeli öğrenmede hala birçok zorlu problem vardır. Bu problemler hala zorluk olarak mevcuttur. Aynı zamanda yapay zeka gelişimi ile sosyal gelişim arasındaki ilişkiyi daha iyi dengelememiz ve yapay zekanın gelişiminden herkesin yararlanabileceği bir kariyer oluşturmamız gerekiyor.

Video bağlantısı: https://www.youtube.com/watch?v=0Ey02HT_1Hot=364s

Lei Feng Ağı Lei Feng Ağı

Wu Xiubo, Xiao Yang'ın yüzünü değiştirerek "Love Saint 2" ön satışının boşuna açıldığını söylüyor.
önceki
Nokia 9 PureView en son haberleri, Snapdragon 855 stabilize edildi
Sonraki
Titriyor musun Supreme x Louis Vuitton ortak markalı Box Logo kazakları yaklaşık 200.000 yuan'a satılıyor
AI sentez teknolojisi Dünya İnternet Konferansı'nda ortaya çıkıyor, sesimiz kötü adamlar tarafından kullanılacak mı?
Akıllı gayrimenkul büyük ölçekli satın alma MixPad ciltli pazar tarihi değişiklikleri memnuniyetle karşılıyor
"Çılgın Uzaylılar" "çılgın başlangıç" afişini ortaya koyuyor, ulusal ön satışlar ateşli bir şekilde açılıyor
Güçlü performans ve ceplerinizi boşaltmanıza gerek yok, bu üç oyun denemeye değer
Baojun 560 Rhythm Edition, 9 Ocak'ta Harman Audio özellikli
Efsanevi mobil oyun "Shabuck", binlerce kişinin kum saldırısını tekrar yaşamanıza izin veriyor! Üç terminalli birlikte çalışabilirlik gerçekten eğlenceli
Hammer Technology sonunda bakkal modunu açtı, Luo Yonghao söylentileri yalanladı: şirket iflas etmedi!
Küçük bir değişiklik olmasına rağmen, yine de çok düşünceli! İOS 11'de bir başka kullanışlı özellik iyileştirmesi
Hit film "Yeşil Kitap", Oscar'ın dört büyük rüzgar gülünü bir araya getiriyor ve Çin'de tanıtılması bekleniyor.
İblis kralı kazanmak için 4 ayda 6 kat artış! İblis hissedar iletişimi nasıl gelişti?
"Big Coffee Live" 8 ders incelemesi: Akıllı sürüşün güzel vizyonuna ek olarak, bu yol göstericiler aynı zamanda işleri sallamak istiyor
To Top