Lei Feng.com: Makine öğrenimini ve yapay zekayı seviyorum, ancak kafamı gömmek ve pratik yapmak sıkıcı ve zaman öldürücü buluyorum? YouTube kanalı Arxiv Insights'ın haftalık seçimi, teknik bir bakış açısıyla, sizi kolay ve derinlemesine öğrenmenizi sağlar.
Tercüme / Zhao Ruojia Terbiye / MY
Takviye öğrenme ortamında, öğrenmek istediğimiz bir görevi gerçekleştirmek için temsilci, orijinal verilerden yararlı bilgiler çıkarmak için bazı özellik çıkarma şemaları uygulayacak ve ardından özellikleri çıkarmak için bir strateji ağı olacaktır.
Pekiştirmeli öğrenmeyi genellikle zor buluyoruz ve bunu zorlaştıran sebep, seyrek ödüller kullanmamızdır. Temsilcinin geri bildirimden öğrenmesi ve ardından hangi işlem sırasının nihai ödüle yol açacağını ayırt etmesi gerekir, ancak aslında geri bildirim sinyalimiz o kadar seyrek ki, temsilci orijinal verilerden yararlı özellikler çıkaramaz.
Mevcut pekiştirmeli öğrenmede, oyun ortamından elde edilen seyrek dış ödül sinyallerini yükseltmek ve temsilcinin ek geri bildirim sinyalleri yoluyla öğrenmesine yardımcı olmak olan ana akım bir eğilim vardır. Denetlenebilir bir ortam oluşturmayı ve çok yoğun ek geri bildirim sinyalleri tasarlamayı umuyoruz .. Temsilci görevi başardığında bilgi sahibi olabilir.
Bu makale, bazı makalelerin ayrıntılandırılması ve analizi yoluyla size mevcut araştırmanın bazı genel ve yönsel görüşlerini sunmayı ummaktadır.
1. Yardımcı görevleri ayarlama
İlk nokta, yardımcı görevlerin temsilcinizi eğitmeye yardımcı olacağıdır.Bu basit hedeflerin üst üste konulması, temsilcimizin öğrenme verimliliğini önemli ölçüde artırabilir. Google deepmind'den, denetimsiz yardımcı öğrenme görevleriyle birleştirilmiş pekiştirmeli öğrenme adı verilen bir makaleye bakalım.
Bu makale 3 boyutlu bir labirent kuruyor. Aracı labirentte yürüyor. Belirli nesneleri bulması gerekiyor. Bu nesnelerden biriyle karşılaştığında ödüllendirilecek. Yazarlar bu çok seyrek ödülleri değiştirdiler ve tüm eğitim sürecini güçlendirmek için üç ek ödül sinyali kullandılar.
İlk görev piksel kontrolüdür. Temsilcinin, giriş resminin belirli yerlerindeki piksel değerlerinin değişimini en üst düzeye çıkarmak için bağımsız bir strateji öğrenmesi gerekir. Önerilen uygulama yöntemlerinde, giriş çerçevesi az sayıda ızgaraya bölünür ve her ızgara bir görsel değişim puanı hesaplar ve ardından strateji Tüm ızgaraların toplam görsel değişimini en üst düzeye çıkarmak için eğitilmiştir. Piksel kontrol görevlerinin eklenmesi, üç boyutlu bir ortamda çok etkilidir.
İkinci yardımcı görev ödül tahminidir. Temsilciye, bölüm dizisindeki en son üç kare verilir ve onun görevi, bir sonraki adımda verilecek ödülü tahmin etmektir.
Üçüncü görev, değerlendirme işlevini yeniden oynatmaktır. Tahmin yoluyla, temsilci şu anda gelecekteki ödüllerin toplamını alacaktır.
2. Merak keşfi yönlendirir
İkinci görüş, merakın keşfi yönlendirdiğidir. Popüler görüş, çevreyi keşfettikten sonra keşfedilen yeni bir şeyi öğrendikten sonra, temsilcinizi bir şekilde ödüllendirmek istediğinizdir.
Varsayılan pekiştirmeli öğrenme algoritmalarının çoğunda, insanlar -açgözlü keşif yöntemini kullanır, bu da çoğu durumda temsilcinizin mevcut stratejisine göre en iyi ve mümkün olan en iyi yönü seçeceği anlamına gelir. Küçük olasılık durumunda, temsilci rastgele bir eylem gerçekleştirecek ve eğitim ilerledikçe bu rastgele eylem, kararınızı tam olarak yerine getirene kadar kademeli olarak azalacaktır. Bu nedenle, temsilciniz daha iyi stratejiler bulmak için tüm ortamı tam olarak keşfedemeyebilir.
Takviye öğrenmede, ileriye dönük bir modeli hatırlayacağız, bu, temsilcinizin belirli girdi çerçevesini göreceği, bir tür özellik çıkarıcı kullanacağı ve girdi verilerini bir tür gizli gösterime kodlayacağı anlamına gelir. O zaman bir ileri modeliniz var. Yepyeni bir konumsa, temsilcinin ileri modeli o kadar doğru olmayabilir. Temsilcinizi eyalet uzayındaki bilinmeyen bölgeleri keşfetmeye teşvik etmek için seyrek ödüle ek olarak bu tahmin hatalarını ek bir geri bildirim sinyali olarak kullanabilirsiniz. .
Aşağıda tanıtmak istediğim makalede yazar, içsel merak modülünü (ICM) göstermek için iyi bir örnek kullanıyor.
Bırakın her yaprağın piksel değişimlerini tahmin etmek bir yana, esintiyi modellemenin zor olduğunu hepimiz biliyoruz. Yaprakların hareketi, aracının hareketiyle kontrol edilemez. Özellik kodlayıcı için, bu yaprakları modellemesi için onu yönlendirecek bir teşvik yoktur. Bu, piksel uzayının tahmin hatasının her zaman yüksek olacağı ve aracının her zaman yaprakları takip edeceği anlamına gelir. Merak edin, bu, makaledeki ICM modelinin mimarisidir.
Orijinal ortam durumları s ve s + 1 ilk olarak özellik uzayına kodlanır ve sonra iki model vardır: biri ileri modeldir, bu model bir sonraki durum için strateji tarafından seçilen eylem aracılığıyla özellikleri tahmin eder ve sonra bir tersi vardır. S durumundan sonraki s + 1 karakteristik durumuna geçmek için hangi eylemin seçilmesi gerektiğini tahmin etmek için modeli çevirin. Son olarak, s + 1'in özellik kodu, ileri model tarafından verilen s + 1'in öngörücü özellik kodu ile karşılaştırılır. Temsilciyi eğitin.
Bu iyi bir nokta, temsilcilerimiz bilinmeyen alanları keşfetmeli ve dünyayı merak etmelidir.
3. Standart ödül ayarı
Üçüncü bakış açısının standart ödül ayarı, temsilcinin başarısız bölümlerden öğrenmesini sağlar. Yakın zamanda açık AI tarafından yayınlanan, Post Experience Replay veya kısaca HER adlı bir makaleyi okuyabiliriz.
Bir manipülatörü masadaki bir nesneyi A konumuna itecek şekilde eğitmek istediğinizi, ancak strateji iyi eğitilmediğinden nesne B'de biter. Hedefe göre bu başarısız bir girişimdir ve HER modeli sadece " Hey! Yanlış yaptın, 0 değerinde bir ödül aldın ", ancak temsilciye" Harika! Aferin, nesneyi B konumuna bu şekilde taşıdın "dedin, temelde zaten seyrek bir ödül içindesin Sorunda, temsilcinin öğrenmesine izin vermek için çok yoğun bir ödül ayarı oluşturulmuştur.
Normal bir çevrimdışı öğrenme algoritması ve hedef konumların örneklenmesi için bir strateji ile başladık, ancak daha sonra değiştirilen bir dizi ek hedefi de örnekledik. Bu algoritmanın en iyi yanı, eğitimden sonra zaten bir strateji ağına sahip olmanızdır; bu nedenle, bir nesneyi yeni bir konuma taşımak istiyorsanız, tüm stratejileri yeniden eğitmenize gerek yoktur, yalnızca hedef vektörü değiştirmeniz gerekir ve stratejiniz Doğru şey. Bu makalenin amacı çok basit, ancak öğrenmemizdeki çok temel bir sorunu çözüyor, yani sahip olduğumuz her deneyimin kullanımını en üst düzeye çıkarmayı umuyoruz.
Seyrek ödül sinyalini artırmanın çok farklı yollarını paylaştık. Yoğun geri bildirim yoluyla, ilk adımın gerçek anlamda denetimsiz öğrenme olma eğiliminde olduğunu düşünüyorum. Bununla birlikte, genelleştirilmiş transfer öğrenme, fizikte nedensellik vb. Gibi pekiştirmeli öğrenmede hala birçok zorlu problem vardır. Bu problemler hala zorluk olarak mevcuttur. Aynı zamanda yapay zeka gelişimi ile sosyal gelişim arasındaki ilişkiyi daha iyi dengelememiz ve yapay zekanın gelişiminden herkesin yararlanabileceği bir kariyer oluşturmamız gerekiyor.
Video bağlantısı: https://www.youtube.com/watch?v=0Ey02HT_1Hot=364s
Lei Feng Ağı Lei Feng Ağı