OpenAI, yeni görevlerde hızlı eğitim elde etmek için kayıp işlevini ayarlamak için yeni bir meta öğrenme yöntemi önerir.

OpenAI, öğrenme aracılarının kayıp işlevinden geliştirilen ve yeni görevler hakkında hızlı eğitim alabilen deneysel bir meta-öğrenme yöntemi olan Evolved Policy Gradients (EPG) yayınladı. Test sırasında, EPG ile eğitilmiş bir temsilci, eğitim sırasında bir nesnenin konumundan test sırasında nesnenin konumuna (odanın diğer tarafına) gitmeyi öğrenmek gibi eğitim kapsamı dışındaki temel görevlerde başarılı olabilir.

EPG, acenteleri yeni görevlerde nasıl ilerleme kaydedecekleri konusunda önceden bilgi sahibi olmaları için eğitir. EPG, strateji ağ kodlamasına ilişkin önceden öğrenilmiş bilgileri geçmez, ancak bunu öğrenilmiş bir kayıp işlevi olarak kodlar. Bundan sonra, aracı yeni görevleri hızlı bir şekilde öğrenmek için kayıp işlevini (zaman serisi evrişimli sinir ağı olarak tanımlanan) kullanabilir. OpenAI, EPG'nin dağıtım dışı test görevlerine genelleştirilebileceğini ve performansının diğer popüler meta-öğrenme algoritmalarından niteliksel olarak farklı olduğunu göstermektedir. Testte, araştırmacılar EPG'nin ajanları PPO'dan (kullanıma hazır bir politika gradyan yöntemi) daha hızlı eğittiğini buldular. EPG, pekiştirme öğrenme aracıları için uygun ödül işlevlerinin tasarlanmasıyla ilgili önceki araştırmalarla ilgilidir (Ödül İşlevi Araması için Genetik Programlama, vb.), Ancak EPG bu fikri, tam bir kayıp işlevi geliştirmek için genelleştirir; Takviye öğrenme algoritması.

İlk video, OpenAI'nin yönteminin robotlara ortamı sıfırlamadan farklı hedeflere ulaşmayı nasıl öğrettiğini ve ikinci videonun PPO yöntemini nasıl gösterdiğini gösteriyor. Sol üstteki sayı, mevcut öğrenme güncellemelerinin sayısını gösterir. Bu videonun tüm gerçek zamanlı öğrenme sürecini gösterdiğini unutmayın.

EPG'nin arkasındaki tasarım algısı, hepimizin aşina olduğu bir konseptten geliyor: yeni beceriler öğrenmeye çalışın ve süreçte hayal kırıklığı ve neşe dönüşümünü deneyimleyin. Farz edin ki keman çalmayı öğrenmeye yeni başlıyorsunuz, rehberlik olmasa bile, ne deneyeceğinizi hemen hissedebilirsiniz. Çaldığınız sesi dinleyerek, ilerleme olup olmadığını hissedebilirsiniz, çünkü diğer motor görevlerin önceki deneyimlerinden türetilen ve biyolojik evrim süreciyle gelişen mükemmel bir iç ödül işlevine sahipsiniz. Aksine, pek çok takviye öğrenme aracı yeni görevlerle iletişim kurarken ön bilgileri kullanmaz, ancak ilk davranışı yönlendirmek için tamamen dış ödül sinyallerine güvenir. Boş durumdan başlayarak, mevcut pekiştirme öğrenme araçlarının basit becerileri öğrenmede insanlardan çok daha kötü olması şaşırtıcı değil. Benzer görevlerdeki geçmiş deneyimlere dayanarak EPG, "boş durumda olmayan ve yeni bir görevi nasıl tamamlayacağını bilen" bir temsilciye doğru bir adım attı.

EPG, iki optimizasyon döngüsü içerir. İç döngüde, aracı, bir görev sınıfından örneklenen belirli bir görevi çözmeyi sıfırdan öğrenir. Bu tür bir görev, "tutucuyu belirli bir konuma hareket ettirmek" olabilir. İç döngü, temsilcinin stratejisini dış döngüdeki kayıp fonksiyonuna karşı optimize etmek için Stokastik Gradyan İnişi (SGD) kullanır. Dış döngü, iç döngü öğreniminden elde edilen dönüş sonuçlarını değerlendirir ve daha yüksek getiri sonuçları getirebilecek yeni bir kayıp işlevi önermek için kayıp işlevinin parametrelerini ayarlamak için evrim stratejisini (ES) kullanır.

Öğrenilmiş bir kayıp işlevine sahip olmanın, mevcut pekiştirmeli öğrenme yöntemlerine göre birkaç avantajı vardır: Kayıp işlevini geliştirmek için evrimsel stratejiler kullanmak, kısa vadeli geri dönüş sonuçları yerine gerçek hedefi (son eğitim stratejisinin performansını) optimize etmemize olanak tanır. EPG, kayıp işlevini ayarlayarak uyum sağlar Ortam ve aracı geçmişi, bu nedenle standart takviye öğrenme algoritmalarından daha üstündür.

Yukarıdaki resim, OpenAI yönteminin robota nasıl geriye doğru atlamayı öğrettiğini göstermektedir ve aşağıdaki resim PPO yöntemidir. EPG, temsilcinin keşif davranışını getirir ve temsilci, geriye doğru yürümenin yüksek ödüller getireceğini fark etmeden önce geriye doğru yürümeye çalışmıştır. Sol üstteki sayı, mevcut öğrenme güncellemelerinin sayısını gösterir. Bu videonun tüm gerçek zamanlı öğrenme sürecini gösterdiğini unutmayın.

Son zamanlarda, meta-öğrenme stratejileri üzerine pek çok araştırma yapıldı. Stratejiyi doğrudan öğrenmek yerine neden kayıp işlevini öğrendiğimizi sormalıyız? Öğrenme döngüsü stratejisi, mevcut görevin gereğinden fazla uygun görünmesine neden olabilir ve öğrenme stratejisinin başlatılması, keşfederken ifade gücünü sınırlayacaktır. OpenAI'nin motivasyonu, kayıp fonksiyonunun çok sayıda farklı göreve iyi bir şekilde genelleştirilebileceğini beklemektir. Bu elbette manuel olarak ayarlanan kayıp fonksiyonları için geçerlidir: iyi tasarlanmış pekiştirme öğrenme kaybı fonksiyonları (PPO'daki kayıp fonksiyonu gibi) çok sayıda görevde (Atari oyunlarından kontrol robotlarına kadar) yaygın olarak kullanılabilir.

EPG'nin genelleme yeteneğini test etmek için, araştırmacılar, ajan "karınca" etkin bir şekilde dairesel spor sahasının sağ tarafındaki rastgele bir hedef konuma hareket edene kadar EPG kaybını geliştirmek için basit bir deney yaptılar. Ardından, kayıp fonksiyonunu düzeltin ve karıncaya yeni bir hedef verin, bu sefer soldaki pozisyon. Şaşırtıcı bir şekilde, karınca sola yürümeyi öğrendi! Aşağıda onların öğrenme eğrisi ekranı (kırmızı çizgi):

Sonuç çok iyidir, çünkü görevdeki genelleme etkisini "eğitim dağılımının ötesinde" gösterir. Bu genellemeye ulaşmak zordur. OpenAI araştırmacıları EPG'yi, yeni görev türleri için kullanılabilecek stratejileri doğrudan öğrenmeye çalışan başka bir meta öğrenme algoritması olan RL2 ile karşılaştırdı. Deneyler, RL2'nin gerçekten de ajanı ekranın sağ tarafındaki hedefe başarıyla taşıyabildiğini gösteriyor. Ancak, test sırasında hedef ekranın sol tarafındaysa, ajan başarısız olur ve yine de sağa doğru yürür. Başka bir deyişle, eğitim görev ayarına "aşırı uyum" üretir (yani sağa doğru yürüme).

Yukarıdaki video (orijinal metne bakın), OpenAI yönteminin (solda) robota yürümeyi ve hedefe baştan (yeşil daire) ve sağdaki RL2'den nasıl ulaşmayı öğrettiğini gösterir. Sol üstteki sayı, mevcut öğrenme güncellemelerinin sayısını gösterir. Bu videonun tüm öğrenme sürecini 3X gerçek zamanlı hızda gösterdiğini unutmayın.

Tüm meta öğrenme yöntemleri gibi, bu yöntemin hala birçok sınırlaması vardır. Şimdi, EPG kaybı işlevini tek bir görev türünü aynı anda yerine getirecek şekilde eğitebiliriz, örneğin, bir karıncanın etrafta dolaşmasına izin verin. Ancak, bu tür bir görev için EPG kaybı işlevi, "Uzay İstilacıları" oyununu oynamak gibi diğer farklı görev türleri için etkili olmayabilir. Aksine, standart RL kaybı bu genelleme yeteneğine sahiptir ve aynı kayıp işlevi çok sayıda farklı beceriyi öğrenmek için kullanılabilir. EPG daha iyi performans elde etti, ancak genelleme yeteneğini kaybetti. Performans ve genellemeyi aynı anda elde etmek için, meta-öğrenme yönteminin hala alması gereken uzun bir yol var.

İzinsiz yeniden yazdırmayın: Dijital Zeka Ağı »OpenAI, yeni görevlerde hızlı eğitim elde etmek için kayıp işlevini ayarlamak için yeni bir meta öğrenme yöntemi önerir

600 milyon kırın! "Raging Behemoth" dan "Bir Gecede Büyümek" Parçası
önceki
Aniden Bilişsel CEO Dai Shuaixiang: Araç içi ses belirsizdir ve otomotiv ön kurulum pazarına girmek için "ağır" hizmetler kullanılmalıdır
Sonraki
Xiaomi'nin mağazası yeni açıldı ve Wild Beast M3 akıllı dönen bisiklet uygulamalı deneyimi
Sun Jian çok haksız! "Pislik" yangınında hareket eden netizenler her gün ne zaman boşanmaları gerektiğini soruyor!
"Muhteşem Weiyang" "intihal" tuzağına düşmüş, neden azarlarken yayınlanıyor?
Hafif ve rahat kablosuz kulaklık, mifo Molang O5 hızlı uygulamalı deneyim
Feng Shaofeng bir başka harika kostüm dramasını duyurdu! Zhao Liying olmadan, kahramanın kendisi olduğu ortaya çıktı!
Trump iktidara gelir, Hollywood bitecek mi?
"Catherine Full Body" Yeni Fragman: Yetişkin Shura Field 06
Dou Jingtong çok mu popüler yoksa çok kaotik mi? Zhou Xun ve Li Yapeng yıllar sonra "aynı karede"
Zhao Gang ile röportaj | Jingdong, BAT'tan sonra neden AR savaş alanına katıldı?
JMGO U14K lazer TV, bir dakikada 1.200 ünite sattığında ne gösteriyor?
Yu Zheng, Çin'de iyi bir patrona dönüştü ve kadın için pek çok sert materyali var, çok katı!
Bu erkek ve kadın İspanyol casus savaş dramıyla karşılaştırıldığında, yerel casus savaş draması sadece baharatlı.
To Top