Geng'e BAIR Blog'dan derlenen sor
Qubit Üretildi | Genel Hesap QbitAI
California Üniversitesi, Berkeley'den doktora öğrencileri Haoran Tang ve Tuomas Haarnoja, bugün yeni araştırmalarını tanıtan bir blog yazısı yayınladılar. Orijinal başlığı "Maximum Entropy Deep Reinforcement Learning ile Farklı Becerilerde Ustalaşmak", aşağıda makalenin ana içeriği yer almaktadır.
Standart derin pekiştirmeli öğrenme, belirli bir görevi çözmek için tek bir yöntemi öğrenmeyi amaçlar. Ancak tek bir çözüm yeterli değildir, çünkü ajanlar gerçek dünyadaki ortak çevresel değişikliklerden kolayca etkilenir.
Örneğin, basit bir labirentte hedef arayan bir robot, eğitim sırasında, mesafe görece kısa olduğu için aracı üst kanaldan hedefi bulmayı öğrenir. Bununla birlikte, üst kanalı daha sonra bloke edersek, temsilci daha önce uzmanlaşan becerilerin uygulanabilir olmadığını görür, ancak alt kanalı da seçebileceğimizi bilmiyorum. Son olarak, temsilci yalnızca yeniden eğitilebilir.
Örnek olarak yukarıdaki temsilciyi almaya devam edin. Temsilci, mevcut durum (lar) ı tekrar tekrar gözlemler, (a) işlemini gerçekleştirir ve ödülleri (r) alır. Q (s, a) işlevini, s durumunda a eylemini gerçekleştirdikten sonra beklenen kümülatif ödül olarak tanımlarız. Geleneksel pekiştirmeli öğrenme yöntemi, alt kanalın tamamen göz ardı edilmesine neden olan, belirtilen maksimum Q değerine odaklanan tek modlu bir strateji dağılımıdır.
Diğer bir çözüm, temsilcinin daha umut verici durumlara öncelik verirken tüm eyaletleri keşfetmesini sağlamaktır. Yukarıdaki şeklin sağ tarafında gösterildiği gibi, bu yoğunluk bir Boltzmann dağılımına sahiptir. Bu yöntem, aracının bazı çözümlerin başarısızlığıyla başa çıkmak için tüm çözümlere hakim olmasını sağlar. Yazar, enerji formu tarafından tanımlanan politikanın, maksimum entropi güçlendirme öğrenme hedefinin optimal çözümü olduğunu kanıtlıyor.
Bu maksimum entropi modelini öğrenme fikri, istatistiksel modellemeden türetilmiştir ve amacı, gözlem istatistiklerini tatmin ederken en yüksek entropiye sahip olasılık dağılımını bulmaktır. Uygulamada, maksimum entropi modellerini tercih ediyoruz çünkü bunlar, gözlem bilgilerini eşleştirirken bilinmeyenlere ilişkin en az tahminlere sahipler. Daha önce birçok benzer çalışma yapılmıştır.
Soft Bellman denklemi aracılığıyla maksimum entropi hedefinin optimal çözümünü elde edebiliriz.
Buraya
Bununla birlikte, sürekli alanda hala iki ana zorluk vardır. Birincisi, doğru dinamik programlama uygulanabilir değildir ve ikincisi, optimum strateji örneklemesi zor olan enerji tahsisi ile tanımlanır.
İlk zorluğu çözmek için yazar, sinir ağı işlevinin yaklaşık olarak ifade edilmesini benimser, örneklenmiş durum ve eylem üzerinde rastgele gradyan iniş eğitimi yürütür ve ardından yeni durum eylem dizisine genelleştirir. İkinci zorluğu çözmek için, Markov zinciri Monte Carlo gibi yaklaşık muhakeme teknikleri kullanılır ve muhakemeyi hızlandırmak için Stein mutasyon gradyan inişi kullanılır. Ortaya çıkan algoritmaya yumuşak Q-öğrenme adı verilir.
Yumuşak Q-öğrenme yoluyla maksimum entropiyi öğrenme stratejisi pratikte nasıl işliyor?
Yazar, deneyler yoluyla bu yöntemin benzer görevler arasında strateji geçişini daha iyi keşfedebileceğini, gerçekleştirebileceğini, mevcut stratejilerden kolayca yeni stratejiler oluşturabileceğini ve sağlamlığı artırabileceğini kanıtlıyor.
İşte bir geçiş stratejisi örneği. Q işlevini üst üste bindiren, farklı davranışlara karşılık gelen iki strateji yeni becerilerde ustalaşabilir. Aşağıdaki şekilde gösterildiği gibi, strateji 1 aracısı silindiri kırmızı dikey şeritlerin konumuna hareket ettirmek üzere eğitilir ve strateji 2 testi kırmızı yatay şeritlere hareket eder. İki strateji üst üste geldiğinde, aracı silindiri kırmızı noktanın konumuna hareket ettirebilir.
Yazar ayrıca sağlamlık konusunda bir örnek verdi. Aşağıdaki robot, Lego bloklarını bir araya getirmeyi öğrendi, dönem boyunca rahatsız edilse bile, Lego bloklarını başarıyla bir araya getirebiliyor.
Yukarıdaki araştırma aşağıdaki yazıda:
Derin Enerji Temelli Politikalarla Takviyeli Öğrenme
Haarnoja T., Tang H., Abbeel P., Levine S. ICML 2017.
Kağıt adresi:
https://arxiv.org/abs/1702.08165
Ayrıca ilgili kod GitHub'da da yayınlanmaktadır, adres burada:
https://github.com/haarnoja/softqlearning
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.
Qubit QbitAI
' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin