Berkeley'in yeni araştırması: Derin takviyeli öğrenmenin artık tek tek karanlığa gitmesine izin vermeyin Kağıt + Kod

Geng'e BAIR Blog'dan derlenen sor

Qubit Üretildi | Genel Hesap QbitAI

California Üniversitesi, Berkeley'den doktora öğrencileri Haoran Tang ve Tuomas Haarnoja, bugün yeni araştırmalarını tanıtan bir blog yazısı yayınladılar. Orijinal başlığı "Maximum Entropy Deep Reinforcement Learning ile Farklı Becerilerde Ustalaşmak", aşağıda makalenin ana içeriği yer almaktadır.

Standart derin pekiştirmeli öğrenme, belirli bir görevi çözmek için tek bir yöntemi öğrenmeyi amaçlar. Ancak tek bir çözüm yeterli değildir, çünkü ajanlar gerçek dünyadaki ortak çevresel değişikliklerden kolayca etkilenir.

Örneğin, basit bir labirentte hedef arayan bir robot, eğitim sırasında, mesafe görece kısa olduğu için aracı üst kanaldan hedefi bulmayı öğrenir. Bununla birlikte, üst kanalı daha sonra bloke edersek, temsilci daha önce uzmanlaşan becerilerin uygulanabilir olmadığını görür, ancak alt kanalı da seçebileceğimizi bilmiyorum. Son olarak, temsilci yalnızca yeniden eğitilebilir.

Örnek olarak yukarıdaki temsilciyi almaya devam edin. Temsilci, mevcut durum (lar) ı tekrar tekrar gözlemler, (a) işlemini gerçekleştirir ve ödülleri (r) alır. Q (s, a) işlevini, s durumunda a eylemini gerçekleştirdikten sonra beklenen kümülatif ödül olarak tanımlarız. Geleneksel pekiştirmeli öğrenme yöntemi, alt kanalın tamamen göz ardı edilmesine neden olan, belirtilen maksimum Q değerine odaklanan tek modlu bir strateji dağılımıdır.

Diğer bir çözüm, temsilcinin daha umut verici durumlara öncelik verirken tüm eyaletleri keşfetmesini sağlamaktır. Yukarıdaki şeklin sağ tarafında gösterildiği gibi, bu yoğunluk bir Boltzmann dağılımına sahiptir. Bu yöntem, aracının bazı çözümlerin başarısızlığıyla başa çıkmak için tüm çözümlere hakim olmasını sağlar. Yazar, enerji formu tarafından tanımlanan politikanın, maksimum entropi güçlendirme öğrenme hedefinin optimal çözümü olduğunu kanıtlıyor.

Bu maksimum entropi modelini öğrenme fikri, istatistiksel modellemeden türetilmiştir ve amacı, gözlem istatistiklerini tatmin ederken en yüksek entropiye sahip olasılık dağılımını bulmaktır. Uygulamada, maksimum entropi modellerini tercih ediyoruz çünkü bunlar, gözlem bilgilerini eşleştirirken bilinmeyenlere ilişkin en az tahminlere sahipler. Daha önce birçok benzer çalışma yapılmıştır.

Soft Bellman denklemi aracılığıyla maksimum entropi hedefinin optimal çözümünü elde edebiliriz.

Buraya

Bununla birlikte, sürekli alanda hala iki ana zorluk vardır. Birincisi, doğru dinamik programlama uygulanabilir değildir ve ikincisi, optimum strateji örneklemesi zor olan enerji tahsisi ile tanımlanır.

İlk zorluğu çözmek için yazar, sinir ağı işlevinin yaklaşık olarak ifade edilmesini benimser, örneklenmiş durum ve eylem üzerinde rastgele gradyan iniş eğitimi yürütür ve ardından yeni durum eylem dizisine genelleştirir. İkinci zorluğu çözmek için, Markov zinciri Monte Carlo gibi yaklaşık muhakeme teknikleri kullanılır ve muhakemeyi hızlandırmak için Stein mutasyon gradyan inişi kullanılır. Ortaya çıkan algoritmaya yumuşak Q-öğrenme adı verilir.

Yumuşak Q-öğrenme yoluyla maksimum entropiyi öğrenme stratejisi pratikte nasıl işliyor?

Yazar, deneyler yoluyla bu yöntemin benzer görevler arasında strateji geçişini daha iyi keşfedebileceğini, gerçekleştirebileceğini, mevcut stratejilerden kolayca yeni stratejiler oluşturabileceğini ve sağlamlığı artırabileceğini kanıtlıyor.

İşte bir geçiş stratejisi örneği. Q işlevini üst üste bindiren, farklı davranışlara karşılık gelen iki strateji yeni becerilerde ustalaşabilir. Aşağıdaki şekilde gösterildiği gibi, strateji 1 aracısı silindiri kırmızı dikey şeritlerin konumuna hareket ettirmek üzere eğitilir ve strateji 2 testi kırmızı yatay şeritlere hareket eder. İki strateji üst üste geldiğinde, aracı silindiri kırmızı noktanın konumuna hareket ettirebilir.

Yazar ayrıca sağlamlık konusunda bir örnek verdi. Aşağıdaki robot, Lego bloklarını bir araya getirmeyi öğrendi, dönem boyunca rahatsız edilse bile, Lego bloklarını başarıyla bir araya getirebiliyor.

Yukarıdaki araştırma aşağıdaki yazıda:

Derin Enerji Temelli Politikalarla Takviyeli Öğrenme

Haarnoja T., Tang H., Abbeel P., Levine S. ICML 2017.

Kağıt adresi:

https://arxiv.org/abs/1702.08165

Ayrıca ilgili kod GitHub'da da yayınlanmaktadır, adres burada:

https://github.com/haarnoja/softqlearning

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Denizaşırı genç açıkladı: Da Kui geri döndü! Carrasco, kış eğitimi için bir partiyi takip etti, ancak ekibi faaliyet gösteriyor
önceki
Hao Haidong, yurtdışında okurken 0 maça çıkan uluslararası oyunculara liderlik ediyor
Sonraki
Otomobil markası Fuxing'i ilk kez tescil ettirdi, Geely "Borui GE" Fuxing treni resmi olarak yola çıktı
98K tavuk kaburgası haline geldi tavuk yiyin? Bir sonraki versiyon silah kralının tahtına dönebilir
Bir parti nazikçe davet edildi ama Jardim hâlâ tereddüt ediyordu! Lao Shu'nun dört maçlık mağlubiyet serisi gerçek bir yalan mı oldu?
Mila'nın "amcası" ne kadar geç
16 yıldır popüler olan batıya bir kez daha yolculuk! Yılın ikinci yarısında ürünlerin yeni versiyonları piyasaya sürülecek
Evergrande'nin genel durumu! İki büyük yabancı yardımın değeri vatandaşlığa geçer ve Gao Lat ekipten ayrılır.
Qingcheng Dağı'nda bir RX8 Dünya Kupası oynamak eğlenceli ve lüksten daha fazlasıdır.
Asya baş antrenörünün UEFA Şampiyonlar Ligi'nde yeniden ortaya çıkması defalarca mucizeler yarattı
World of Warcraft 7.0, oyuncular tarafından şikayet edilemeyecek kadar ciğer, Blizzard ondan öğrendi ve daha karaciğer 8.0 versiyonunu piyasaya sürdü
Wanda, Umut Yıldızı'nı hatırlıyor, Li Shuai ve Geng Peng sağlıklı bir rekabetle karşı karşıya! Gençlik fırtınası Jardim'i bekliyor
LYNKCO 02 burada, LYNKCO'nun ilkbahar ve yaz sürümü arabaları gerçekten modaya uygun hale getirecek
İran'ın "Zhang Yuning" i, Rusya Süper Ligi için dünya ön elemelerinde düştü + Şampiyonlar Ligi'nde sıfır gol 700 dakika
To Top