Pekiştirmeli öğrenmedeki "genişleme bozukluğunun" üstesinden gelmek için yeni bir merak yöntemine ihtiyacınız var

Lei Feng.com AI teknolojisi inceleme notu: Pekiştirmeli öğrenme (RL), günümüzde makine öğrenimindeki en aktif araştırma yönlerinden biridir ve burada temsilci doğru şeyi yaptığında ödüllendirilir, aksi takdirde cezalandırılır. Bu "havuç ve çubuk" yöntemi basit, evrenseldir ve DeepMind'ın klasik Atari oyunlarını oynamak için DQN algoritmasını ve Go oynamak için AlphaGo Zero'yu öğretmesine yardımcı olabilir. Benzer şekilde, OpenAI ayrıca video oyunları oynamak için OpenAI-Five algoritmasını öğretmek için RL'yi kullanır Dota, Google Takviye öğrenme yoluyla, robot kolu nesneleri kavramak için kullanılır. Bununla birlikte, pekiştirmeli öğrenmenin başarısına rağmen, onu etkili bir teknik yapmak için hala birçok zorluk vardır.

Temsilciye az miktarda geri bildirim veren ortam, standart RL algoritmalarının kullanılmasını zorlaştırır.Gerçek dünyada seyrek geribildirimin çok yaygın olması çok önemlidir. Örneğin, büyük bir labirent süpermarkette en sevdiğiniz peyniri nasıl bulacağınızı hayal edin. Ararsınız ve ararsınız, ancak peynir bölümü hala bulunamadı. Yolculuğun her adımında bir "havuç" veya "sopa" almazsanız, doğru yönde gidip gitmediğinizi yargılamak imkansızdır. Bir ödül mekanizmasının yokluğunda, sizi daireler içinde dolaşmaktan ne alıkoyuyor? Merak mekanizmanızdan başka bir yol yok Merak sizi peşinde olduğunuz peyniri bulmak için görünüşte alışılmadık bir ürün bölümüne girmeye motive edecek.

Merakla ilgili olarak, Labirentteki Ajanlar hakkında "Seyrek Geri Bildirimli Görev Öğrenimi Yapmak için Merak Kullanımı" ve merak kavramının kendisi üzerine "Merak Odaklı Öğrenme" gibi bazı makaleler yayınlanmıştır. , Pekiştirmeli öğrenmeyi kolaylaştırıyor. " Bu sefer Google ayrıca yeni bir merak uyandırma önerisinde bulundu ve bir tanıtım blogu yazdı. Tam metin aşağıdaki şekilde derlenmiştir.

Yeni bir merak yolu

Google Brain, DeepMind ve ETH Zurich, "Erişilebilirliğe Dayalı Durumsal Merak Etme" ve "Erişilebilirlik Yoluyla Epizodik Merak" adlı makalesinde ortaklaşa, epizodik belleğe dayalı yeni bir model önerdiler. Pekiştirmeli öğrenme için ödüller sağlamak, çevreyi keşfedebilen bir merak mekanizmasına benzer. Temsilcinin sadece çevreyi keşfetmesini değil, aynı zamanda orijinal görevi de çözmesini istediğimizden, model tarafından sağlanan ödül değerini orijinal seyrek görev ödülüne ekliyoruz. Birleşik ödül artık seyrek değil, bu da standart güçlendirme algoritmalarının ondan öğrenmesine izin veriyor. Bu nedenle, Google'ın yeni merak yöntemi, pekiştirmeli öğrenmenin uygulama kapsamını genişletiyor.

Erişilebilirliğe dayalı durumsal merak: Gözlemler hafızaya eklenir ve ödüller mevcut gözlem ile hafızadaki en benzer gözlem arasındaki mesafeye göre hesaplanır. Henüz hafızada görünmeyen gözlemler sonucunda temsilci daha fazla ödül alacak.

Google'ın yönteminin temel fikri, aracının çevreye ilişkin gözlemlerini bölümsel bellekte saklamak ve aracıyı bellekte olmayan gözlemler için ödüllendirmektir. "Hafızada değil", Google'ın yönteminde yeniliğin tanımıdır. Hafızada olmayan gözlemleri aramak, bilinmeyen şeyleri aramak anlamına gelir. Tanıdık olmayan sahneleri bulmaya yönelik bu motivasyon, yapay zekanın yeni bir konuma ulaşmasını sağlayarak çemberde dolaşmasını engelliyor ve sonunda hedefi tesadüfen bulmasına yardımcı oluyor. Daha sonra tartışılacağı gibi, bu yöntem, temsilcinin diğer yöntemlere eğilimli bazı kötü davranışlardan kaçınmasını sağlayabilir - Google araştırmacılarını şaşırtacak şekilde, bu kötü davranışlar meslekten olmayanların gözünde "erteleme" gibidir.

Önceki merak yaklaşımı

Geçmiş çalışmalarda merak yöntemlerine yönelik pek çok girişimde bulunulmuş olsa da, bu makalede Google daha çok "Kendi Kendini Denetleyen Tahminle Merak Odaklı Keşif" adlı son makalede keşfedilen çok popüler bir doğal yöntemle ilgileniyor: Şaşkınlık tahminine dayalı merak (genellikle İçsel Merak Modülü, ICM olarak adlandırılır). Sürprizin nasıl merak uyandırdığını göstermek için, "süpermarkette peynir arama" örneğine dönelim.

Pazarda dolaşırken geleceği tahmin etmeye çalışırsınız ("Şimdi et alanındayım, bu yüzden köşe kısmının taze gıda alanı olduğunu düşünüyorum, çünkü süpermarket zincirlerinde bu alanlar genellikle bitişiktir"). Tahmininiz yanlışsa, şaşıracaksınız ("Hayır, aslında bir sebze alanı. Beklemiyordum!") Ve ödüllendirileceksiniz. Bu sizi köşeleri aramak, yeni yerler keşfetmek ve bunlardan beklentilerinizin gerçekle uyumlu olup olmadığını görmek (ve peynirle karşılaşmayı ummak) konusunda sizi daha motive edecektir.

Benzer şekilde, ICM yöntemi dinamik bir dünya tahmin modeli oluşturur ve model iyi bir öngörüde bulunamadığında (örneğin bir sürpriz veya yenilik işareti verdiğinde) temsilciyi ödüllendirir. Lütfen bilinmeyen yerleri keşfetmenin ICM'nin merak yaklaşımının bir parçası olmadığını unutmayın. ICM yöntemleri için bunlara erişmek sadece daha fazla "sürpriz" elde etmenin bir yoludur, böylece genel ödülü en üst düzeye çıkarır. Bazı ortamlarda şaşkınlığa neden olmanın başka yolları olabileceği ve tahmin edilemeyen sonuçlara yol açabileceği ortaya çıktı.

Ajan, TV ile karşılaştıktan sonra meraktan şaşkınlıkla donuyor

Erteleme tehlikesi

"Merak Odaklı Öğrenmenin Büyük Ölçekli Çalışması" adlı makalede, ICM yönteminin yazarı ve OpenAI araştırmacıları, "sürprizi" en üst düzeye çıkarmanın gizli bir tehlikesini birlikte ortaya koydular: aracı, yapmak yerine şımartmayı ve ertelemeyi öğrenebilir. Elinizdeki görevi yerine getirmek için yararlı olan bazı şeyler. Kaynağın izini sürmek için, yazarın "gürültülü TV sorunu" olarak adlandırdığı ortak bir düşünce deneyine bakalım: bir ajan bir labirente yerleştirilir ve çok değerli bir nesneyi bulmaktan sorumludur (bizimkine benzer Önceki süpermarket örneğindeki "peynir" deneyi. Ortam ayrıca bir TV içerir. Kanal sayısı sınırlıdır (her kanalın farklı bir programı vardır) Temsilcinin TV için bir uzaktan kumandası vardır. Uzaktan kumandaya her bastığınızda, rastgele herhangi bir kanala geçecektir. Bu ortamda, aracı gerçekleştirir Nasıl?

Merak etme şaşkınlık yöntemine dayanan ifade için, kanalı değiştirmek büyük ödüller üretecektir çünkü her değişiklik tahmin edilemez ve şaşırtıcıdır. Önemli olan, mevcut tüm kanallar bir döngüde oynatıldıktan sonra bile, rastgele kanal seçiminin hala şaşırtıcı bir yeni değişiklik olmasıdır. Temsilci, kanal değiştirildikten sonra TV'de ne olacağını tahmin ediyor. Muhtemelen yanlış gidecek ve şaşkınlığa neden olacak. Önemli olan, temsilci her kanaldaki her programı izlemiş olsa bile, bu değişimin hala tahmin edilemez olmasıdır. Bu nedenle, şaşkınlık ve merak dolu bir ajan, "gecikme" ile tamamen aynı olan çok değerli bir program aramak yerine, sonunda sonsuza kadar TV'nin önünde kalacaktır. Öyleyse merak bu davranışa yol açmayacak şekilde nasıl tanımlanır?

Durumsal merak

Google araştırmacıları, "Erişilebilirliğe Dayalı Durumsal Merak Edinme" başlıklı makalede, bellek tabanlı bir durumsal merak modelini araştırdılar. Sonuçlar, bu modelin, aracının "kendi kendine hoşgörü" üretmesini sağlamanın kolay olmadığını kanıtladı. Memnuniyet. Sebebi nedir? Az önce aynı TV örneği için, kanal değiştirildikten bir süre sonra tüm programlar hafızaya kaydedilecektir. Ekranda görünen programların sırası rastgele ve öngörülemez olsa bile, tüm bu programlar zaten bellekte olduğundan TV artık çekici olmayacaktır. Sürpriz temelli merak yönteminden temel fark, Google'ın yönteminin tahmin edilmesi zor (hatta imkansız) olabilecek bir geleceğe bahse girmeye bile çalışmamasıdır. Bunun yerine, temsilci mevcut duruma benzer gözlemler görüp görmediğini görmek için geriye bakacaktır. Bu nedenle, Google'ın temsilcisi, TV programlarının sağladığı anlık memnuniyetten etkilenmeyecek, daha fazla ödül almak için bilinen programların dışındaki sahneleri keşfetmelidir.

Fakat ajanın gördüklerinin bellekte olanla tutarlı olduğunu nasıl tanımlarız? Tam eşleme araması anlamsız olabilir, çünkü gerçek ortamda, aracı aynı nesneyi nadiren iki kez görür. Örneğin, aracı aynı odaya dönse bile, bu odayı hafızadan farklı bir açıdan görmeye devam edecektir.

Google, belleğin tam eşleşmelerini aramak yerine, ajanın iki gözleminin benzerliğini ölçmek için derin bir sinir ağı eğitir. Bu ağı eğitmek için Google, iki gözlemin zamanla ilgili, zamanla yakından bağlantılı veya çok uzak olduğunu tahmin etti. Zaman yakınlığı, iki sonucun tutarlı olup olmadığına karar verilmesi gerekip gerekmediğinin iyi bir özelliğidir. Bu eğitim, aşağıdaki şekilde gösterildiği gibi, erişilebilirliğe dayalı yeni bir genel konsepte götürür.

Erişilebilirlik haritası yeniliği belirler. Modelin fiili çalışmasında, böyle bir grafik çizilemez, bu nedenle gözlemler arasındaki bazı adımları tahmin etmek için bir sinir ağı yaklaşımcısını eğitmek gerekir.

Deneysel sonuçlar

Google, farklı merak modeli yöntemlerinin performansını karşılaştırmak için, bunları görsel açıdan zengin iki 3D ortamda (ViZDoom ve DMLab) test etti. Bu ortamlarda, ajanın bir labirentte hedefler bulmak veya iyi şeyler toplamak ve kötü şeylerden kaçınmak gibi birçok farklı görevi vardır.

DMLab ortamı, temsilciye, lazer vericiye benzer bir bilim kurgu aygıtı sağlayacaktır. Önceki araştırmada, DMLab'ın standart ayarı, aracıyı tüm görevlerde bu araçla donatmaktır; temsilci bu araca belirli bir görevde ihtiyaç duymuyorsa, aynı zamanda kullanılabilir. İlginç bir şekilde, daha önce açıklanan gürültü TV deneyine benzer şekilde, merak modeline dayanan ICM yöntemi, eldeki görev için yararlı olmasa bile, aslında çoğu görevde bu aracı kullanır! Görev labirentte yüksek ödüllü eşyalar bulmak olduğunda, temsilci duvarları işaretlemek için zaman harcamayı tercih ediyor gibi görünüyor, çünkü bu çok fazla "merak" ödülü oluşturacaktır. Teorik olarak, etiketleme sonucunu tahmin etmek mümkündür, ancak pratikte zordur, çünkü bunu yapmak daha fazla fiziksel bilgi gerektirir ve mevcut standart ajanlar bu standardı karşılayamaz.

Sürpriz temelli ICM ajanı, labirenti keşfetmek yerine duvarı işaretlemeye devam edecek

Google'ın yeni yöntemi, aynı ortamda makul keşif davranışlarını öğrenebilir. Bunun nedeni, davranışının sonuçlarını tahmin etmeye çalışmaması, ancak var olan epizodik anılardan elde edilmesi zor gözlemleri aramasıdır. Başka bir deyişle, aracı, tek bir işaret işleminden ziyade bellekten elde etmek için daha fazla çaba gerektiren hedefleri gizlice takip eder.

Google'ın yeni yönteminin temsilcisi, araştırmaya yönelik makul davranış gösterdi

İlginç bir şekilde, Google'ın ödüllendirme yöntemi, çevrelerde dolaşan aracıları cezalandıracaktır. Çünkü ilk turu tamamladıktan sonra, temsilci hafızadaki gözlemler dışında yeni gözlemlerle karşılaşmayacağı için herhangi bir ödül almayacaktır:

Temsilci tarafından alınan geri bildirimin görsel bir gösterimi: kırmızı, olumsuz geri bildirimi ve yeşil, olumlu geri bildirimi belirtir. Soldan sağa üç resim sırayla gösterilir: harita ve geri bildirim, haritada ve hafızada bulunan konum ve birinci şahıs perspektifi

Google'ın yeni yöntemi, iyi bir keşif davranışı getirecek:

Google araştırmacıları, bu çalışmanın yeni keşif yöntemleri dalgasına öncülük etmesine, sürpriz mekanizmaların ötesine geçmesine ve daha akıllı keşif davranışları öğrenmesine yardımcı olacağını umuyor. Bu yöntemin derinlemesine analizi için lütfen https://arxiv.org/abs/1810.02274 orijinal belgesine bakın.

Referanslar

"Sinir Yoğunluğu Modelleri ile Sayıma Dayalı Keşif", https://arxiv.org/abs/1703.01310, Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos

"# Keşif: Derin Güçlendirmeli Öğrenme için Saymaya Dayalı Bir Araştırma", https://arxiv.org/abs/1611.04717, Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

"İçsel Motive Edilmiş Hedef Keşfi için Hedef Alanlarının Denetimsiz Öğrenimi", https://arxiv.org/abs/1803.00781, Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

"VIME: Keşfi En Üst Düzeye Çıkaran Varyasyonel Bilgiler", https://arxiv.org/abs/1605.09674, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

Merak Odaklı Öğrenmenin Büyük Ölçekli Çalışması, https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf, Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Darrell, Alexei A. Efros

ai.googleblog.com, Leifeng.com AI teknolojisi inceleme derlemesi aracılığıyla

Lüks ve modanın çarpışması: Vivo X21 Black Gold Edition Gerçek Makine Resim Turu
önceki
"The Lego Movie 2", "en güçlü iyimser" Lego Warriors'ın sevimli evreni yarıp geçti
Sonraki
Nissan Jinke'nin yakıt tüketimi bilgileri ortaya çıktı veya resmi olarak Temmuz ayında listelenecek
Samsung S10 serisi yerinde uygulamalı deneyim: "Android Phone King" gerçekten adını hak ediyor
Hammer Technology 15 Mayıs'ta bir dizüstü bilgisayar çıkaracak mı? Bazı yorumcular endişelerini dile getirdi
AFROPUNK Festivalini bilmiyor musunuz? Sonra içeri gelin ve canlı sokak çekimlerine tam bir stille bakın
Kralın ihtişamının tarihindeki en güçlü beş kahraman, onların dehşeti sadece düşman tarafından biliniyor
"Thunder Shazan! Rotten Tomatoes% 95 en iyi DC Universe'ü yaratmaya başlıyor. Yurtdışı medyası "Laughing Crazy" filmine övgüde bulundu
Honor'un yıllık benchmark telefonu V20 piyasaya sürüldü: Kirin 980 + 48MP AI ultra net fotoğrafçılık + Link Turbo
BAPE® ve AAPE "gizemli" teneke kutuyu piyasaya sürüyor! Ve para yok!
Yeni nesil mikro denetleyici AURIX 2G'nin piyasaya sürülmesinin ardında, yarı iletken devi Infineon, otomotiv endüstrisindeki değişikliklere nasıl tepki veriyor?
Durian üzerinde diz çöküp limon yemek, "İnsan · Komedi" sayısız ünlü sahne, en taciz eden basın toplantısı haline geldi
2017 eğitim çemberinde 5 söylenti aldatıldınız mı?
Yaramaz filmler gün içinde patlıyor | "Thunder Shazan!" Rotten Tomatoes% 97 oy aldı, "kum heykel" kahramanı DC'deki en iyi itibarı yarattı
To Top