Academia Pekiştirmeli öğrenmedeki "genişleme bozukluğunun" üstesinden gelmek için yeni bir merak yöntemine ihtiyacınız var

AI Technology Review Press : Pekiştirmeli öğrenme (RL), günümüzün makine öğrenimindeki en aktif araştırma yönlerinden biridir. Temsilciler doğru şeyi yaptıklarında ödül alırlar, aksi takdirde cezalandırılırlar. Bu "havuç ve çubuk" yöntemi basit, evrenseldir ve DeepMind'ın klasik Atari oyunlarını oynamak için DQN algoritmaları öğretmesine yardımcı olabilir ve AlphaGo Zero Go oynuyor , OpenAI ayrıca öğretmek için RL kullanır. Video oyunları oynamak için OpenAI-Five algoritması Dota , Google, robot kollarının nesneleri yakalamasına izin vermek için pekiştirmeli öğrenmeyi kullanıyor . Bununla birlikte, pekiştirmeli öğrenmenin bir miktar başarı elde etmesine rağmen, onu etkili bir teknik haline getirmek için hala birçok zorluk vardır.

Temsilciye az geri bildirim veren ortam, standart RL algoritmasının kullanılmasını zorlaştırır.Gerçek dünyada seyrek geri bildirimlerin çok yaygın olması çok önemlidir. Örneğin, büyük bir labirent süpermarkette en sevdiğiniz peyniri nasıl bulacağınızı hayal edin. Ararsınız ve ararsınız, ancak peynir bölümü hala bulunamadı. Yolculuğun her adımında bir "havuç" veya "sopa" alamazsanız, doğru yönde ilerlediğinizi söylemek imkansızdır. Bir ödül mekanizmasının yokluğunda, sizi daireler içinde dolaşmaktan ne alıkoyuyor? Merak mekanizmanızdan başka bir yol yok Merak sizi peşinde olduğunuz peyniri bulmak için görünüşte tanıdık olmayan bir ürün bölümüne girmeye motive edecek.

Merakla ilgili makaleler ile ilgili olarak, AI Technology Review'un daha önce " Seyrek geri bildirim görevlerini öğrenmek için merak kullanın ", ve " Merak öğrenmeyi teşvik ederek pekiştirmeli öğrenmeyi kolaylaştırır ". Bu sefer Google ayrıca yeni bir merak uyandırma önerisinde bulundu ve bir tanıtım blogu yazdı. Tam metin aşağıdaki şekilde derlenmiştir.

Merakı gerçekleştirmenin yeni bir yolu

"Erişilebilirliğe Dayalı Durumsal Merak Edinme" ve "Erişilebilirlik Yoluyla Epizodik Merak" (https://arxiv.org/abs/1810.02274) başlıklı makalede, Google Brain, DeepMind ve ETH Zurich ortaklaşa yeni bir Epizodik hafıza (epizodik hafıza) modeline dayalı olarak, çevreyi keşfedebilen merak mekanizmasına benzer şekilde pekiştirmeli öğrenme için ödüller sağlayabilir. Temsilcinin sadece çevreyi keşfetmesini değil, aynı zamanda orijinal görevi de çözmesini istediğimizden, model tarafından sağlanan ödül değerini orijinal seyrek görev ödülüne ekliyoruz. Birleşik ödül artık seyrek değil, bu da standart güçlendirme algoritmalarının ondan öğrenmesine izin veriyor. Bu nedenle, Google'ın yeni merak yöntemi, pekiştirmeli öğrenmenin uygulama kapsamını genişletiyor.

Erişilebilirliğe dayalı durumsal merak: Gözlemler hafızaya eklenir ve ödüller mevcut gözlem ile hafızadaki en benzer gözlem arasındaki mesafeye göre hesaplanır. Henüz hafızada görünmeyen gözlemler sonucunda temsilci daha fazla ödül alacaktır.

Google'ın yönteminin temel fikri, aracının çevreye ilişkin gözlemlerini bölümsel bellekte saklamak ve aracıyı bellekte olmayan gözlemler için ödüllendirmektir. "Hafızada değil", Google'ın yönteminde yeniliğin tanımıdır. Hafızada olmayan gözlemleri aramak, alışılmadık şeyleri aramak anlamına gelir. Tanıdık olmayan sahneleri bulmaya yönelik bu motivasyon, yapay zeka temsilcisinin yeni bir konuma ulaşmasına, böylece daire içinde dolaşmasını engelleyerek sonunda hedefi tesadüfen bulmasına yardımcı olur. Daha sonra tartışılacağı gibi, bu yöntem, temsilcinin diğer yöntemlere eğilimli bazı kötü davranışlardan kaçınmasını sağlayabilir - Google araştırmacılarını şaşırtacak şekilde, bu kötü davranışlar meslekten olmayanların gözünde "erteleme" gibidir.

Önceki merak yaklaşımı

Geçmiş çalışmalarda merak yöntemlerine yönelik pek çok girişimde bulunulmuş olsa da, bu makalede Google daha çok "Kendi Kendine Denetlenen Tahminle Merak Odaklı Keşif" (https: //pathak22.github) makalesi ile ilgilenmektedir. İo / noreward-rl / 'da tartışılan çok popüler doğal yöntem: sürpriz tahminine dayalı merak (genellikle İç Merak Modülü, ICM olarak adlandırılır). Sürprizin nasıl merak uyandırdığını göstermek için, "süpermarkette peynir arama" örneğine dönelim.

Pazarda dolaşırken geleceği tahmin etmeye çalışırsınız ("Şimdi et alanındayım, bu yüzden köşe kısmının taze gıda alanı olduğunu düşünüyorum, çünkü süpermarket zincirlerinde bu alanlar genellikle bitişiktir"). Tahmininiz yanlışsa, şaşıracaksınız ("Hayır, aslında bir sebze alanı. Beklemiyordum!") Ve ödüllendirileceksiniz. Bu sizi köşeleri aramak, yeni yerler keşfetmek ve bunlardan beklentilerinizin gerçekle uyumlu olup olmadığını görmek (ve peynirle karşılaşmayı ummak) konusunda sizi daha motive eder.

Benzer şekilde, ICM yöntemi dinamik bir dünya tahmin modeli oluşturur ve model iyi bir tahmin yapamadığında (örneğin bir sürpriz veya yenilik işareti) temsilciyi ödüllendirir. Lütfen bilinmeyen yerleri keşfetmenin ICM'nin merak yaklaşımının bir parçası olmadığını unutmayın. ICM yöntemleri için, bunlara erişmek sadece daha fazla "sürpriz" elde etmenin bir yoludur, böylece genel ödülü maksimize eder. Bazı ortamlarda şaşkınlığa neden olmanın başka yolları olabileceği ve tahmin edilemeyen sonuçlara yol açabileceği ortaya çıktı.

Ajan, TV ile karşılaştıktan sonra meraktan şaşkınlıkla donuyor

Erteleme tehlikesi

"Merak Odaklı Öğrenmenin Büyük Ölçekli Çalışması" adlı makalede, ICM yönteminin yazarı ve OpenAI araştırmacıları, "sürprizi" en üst düzeye çıkarmanın gizli bir tehlikesini birlikte ortaya koydular: aracı, yapmak yerine şımartmayı ve ertelemeyi öğrenebilir. Elinizdeki görevi yerine getirmek için bazı yararlı şeyler. Kaynağın izini sürmek için, yazarın "gürültülü TV sorunu" olarak adlandırdığı ortak bir düşünce deneyine bakalım: bir ajan bir labirente yerleştirilir ve çok değerli bir nesneyi bulmaktan sorumludur (bizimkine benzer Önceki süpermarket vakasındaki "peynir" deneyi. Ortam ayrıca bir TV içerir. Kanal sayısı sınırlıdır (her kanalın farklı bir programı vardır) Temsilcinin TV için bir uzaktan kumandası vardır. Uzaktan kumandaya her bastığınızda, rastgele herhangi bir kanala geçecektir. Bu ortamda, aracı gerçekleştirir Nasıl?

Merak etme şaşkınlık yöntemine dayanan ifade için, kanalı değiştirmek büyük ödüller üretecektir, çünkü her değişiklik tahmin edilemez ve şaşırtıcıdır. Önemli olan, mevcut tüm kanallar bir döngüde oynatıldıktan sonra bile, rastgele kanal seçiminin hala şaşırtıcı bir yeni değişiklik olmasıdır. Temsilci, kanal değiştirildikten sonra TV'de ne olacağını tahmin ediyor. Muhtemelen yanlış gidiyor ve sürprizlere neden oluyor. Önemli olan, temsilci her kanaldaki her programı izlemiş olsa bile, bu değişikliğin hala tahmin edilemez olmasıdır. Bu nedenle, şaşkınlık ve merak dolu bir ajan, "erteleme" ile tamamen aynı olan çok değerli bir program aramak yerine, sonunda sonsuza kadar televizyonun önünde kalacaktır. Peki merak bu davranışa yol açmayacak şekilde nasıl tanımlanır?

Durumsal merak

Google araştırmacıları, "Erişilebilirliğe Dayalı Durumsal Merakı Elde Etme" başlıklı makalede, bellek temelli bir durumsal merak modelini araştırdılar ve bu modelin, temsilcilerin anında "kendi kendine hoşgörü" üretmesinin kolay olmadığı ortaya çıktı. Memnuniyet. Sebebi nedir? Az önce aynı TV örneği için, tüm programlar, kanal değiştirildikten bir süre sonra bellekte saklanacaktır. Ekranda görünen programların sırası rastgele ve öngörülemez olsa bile, tüm bu programlar zaten bellekte olduğundan TV artık çekici olmayacaktır. Sürpriz temelli merak yönteminden temel fark, Google'ın yönteminin tahmin edilmesi zor (hatta imkansız) olabilecek bir geleceğe bahse girmeye bile çalışmamasıdır. Bunun yerine temsilci, mevcut duruma benzer gözlemler görüp görmediğini görmek için geçmişe bakacaktır. Bu nedenle, Google'ın temsilcisi, TV programlarının sağladığı anlık memnuniyetten etkilenmeyecek, daha fazla ödül almak için bilinen programların dışındaki sahneleri keşfetmelidir.

Fakat ajanın gördüklerinin bellekte olanla tutarlı olduğunu nasıl tanımlarız? Tam eşleme araması anlamsız olabilir, çünkü gerçek ortamda, aracı aynı nesneyi nadiren iki kez görür. Örneğin, aracı tam olarak aynı odaya dönse bile, bu odayı hafızadan farklı bir açıdan görmeye devam edecektir.

Google, belleğin tam eşleşmelerini aramak yerine, ajanın iki gözleminin benzerliğini ölçmek için derin bir sinir ağı eğitir. Bu ağı eğitmek için Google, iki gözlemin zamanla ilgili, zamanla yakından bağlantılı veya çok uzak olduğunu tahmin etti. Zaman yakınlığı, iki sonucun tutarlı olup olmadığına karar verilip verilmeyeceğinin iyi bir özelliğidir. Bu eğitim, aşağıdaki şekilde gösterildiği gibi, erişilebilirliğe dayalı yeni bir genel konsepte götürür.

Erişilebilirlik haritası yeniliği belirler. Modelin gerçek işleyişinde, böyle bir grafik çizilemez, bu nedenle gözlemler arasındaki bazı adımları tahmin etmek için bir sinir ağı yaklaşımcısını eğitmek gerekir.

Deneysel sonuçlar

Google, farklı merak modeli yöntemlerinin performansını karşılaştırmak için, bunları görsel açıdan zengin iki 3D ortamda (ViZDoom ve DMLab) test etti. Bu ortamlarda, aracının bir labirentte hedef bulmak veya iyi şeyler toplamak ve kötü şeylerden kaçınmak gibi birçok farklı görevi vardır.

DMLab ortamı, temsilciye, lazer vericiye benzer bir bilim kurgu aygıtı sağlayacaktır. Önceki araştırmada, DMLab'ın standart ayarı, aracıyı tüm görevlerde bu araçla donatmaktır; Temsilci bu araca belirli bir görevde ihtiyaç duymuyorsa, aynı zamanda kullanılabilir. İlginç bir şekilde, daha önce açıklanan gürültü TV deneyine benzer şekilde, merak modeline dayalı ICM yöntemi, eldeki görev için yararlı olmasa bile, aslında çoğu görevde bu aracı kullanır! Görev bir labirentte yüksek ödüllü eşyalar bulmak olduğunda, temsilci duvarları işaretlemek için zaman harcamayı tercih ediyor gibi görünüyor çünkü bu çok fazla "merak" ödülü oluşturacaktır. Teorik olarak, etiketleme sonucunu tahmin etmek mümkündür, ancak pratikte zordur çünkü daha fazla fiziksel bilgi gerektirir ve mevcut standart ajanlar bu standardı karşılayamaz.

Sürpriz temelli ICM ajanı, labirenti keşfetmek yerine duvarı işaretlemeye devam edecek

Google'ın yeni yöntemi, aynı ortamda makul keşif davranışını öğrenebilir. Bunun nedeni, davranışının sonucunu tahmin etmeye çalışması değil, var olan epizodik anılardan elde etmesi zor gözlemler aramasıdır. Başka bir deyişle, aracı, tek bir işaret işleminden ziyade bellekten elde etmek için daha fazla çaba gerektiren hedefleri gizlice takip eder.

Google'ın yeni yönteminin temsilcisi, araştırmaya yönelik makul davranış gösterdi

İlginç bir şekilde, Google'ın ödüllendirme yöntemi, çevrelerde dolaşan aracıları cezalandıracaktır. Çünkü ilk turu tamamladıktan sonra, temsilci hafızadaki gözlemler dışında yeni gözlemlerle karşılaşmayacağı için herhangi bir ödül almayacaktır:

Temsilci tarafından alınan geri bildirimin görsel bir sunumu: kırmızı olumsuz geri bildirim, yeşil olumlu geri bildirim anlamına gelir. Soldan sağa üç resim sırayla gösterilir: harita ve geri bildirim, harita ve hafızada bulunan konum, birinci şahıs perspektifi

Google'ın yeni yöntemi, iyi bir keşif davranışı getirecektir:

Google araştırmacıları, bu çalışmanın yeni keşif yöntemleri dalgasına öncülük edeceğini, sürpriz mekanizmaların ötesine geçeceğini ve daha akıllı keşif davranışları öğreneceğini umuyor. Bu yöntemin derinlemesine bir analizi için lütfen https://arxiv.org/abs/1810.02274 orijinal makalesine bakın.

Referanslar

"Sinir Yoğunluğu Modelleriyle Sayıma Dayalı Keşif", https://arxiv.org/abs/1703.01310, Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos

"# Keşif: Derin Güçlendirmeli Öğrenme için Sayıma Dayalı Bir Araştırma", https://arxiv.org/abs/1611.04717, Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

"İçsel Motive Edilmiş Hedef Keşfi için Hedef Alanlarının Denetimsiz Öğrenimi", https://arxiv.org/abs/1803.00781, Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

"VIME: Keşfi En Üst Düzeye Çıkaran Varyasyonel Bilgiler", https://arxiv.org/abs/1605.09674, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

Merak Odaklı Öğrenmenin Büyük Ölçekli Çalışması, https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf, Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Darrell, Alexei A. Efros

ai.googleblog.com aracılığıyla, AI teknolojisi inceleme derlemesi

Çıkışının 18. yılından sonra nihayet "Büyük Adam" a güvendi, TVB'nin yeni Li Jiaxin'i olacak mı?
önceki
Şimdi bir SUV mi satın alıyorsunuz? Nasıl oynanacağını bilenler şimdiden istasyon vagonuna bakıyor
Sonraki
OnePlus 6T'ye nasıl başlanır
Baidu Araştırma Enstitüsü bugün yükseltti ve 9 dünya çapında bilim adamını ağırladı
OFF-WHITE değerlerinizi tekrar yenileyin! 500 dolarlık temel gömleği nasıl eşleştirmeyi planlıyorsunuz?
Ucuz lastiklerin yol tutuşunun olmadığını kim söylüyor? Bu lastik testinin sonuçları şaşırtıcı
iOS 12.1 resmi olarak kullanıma sunuldu: muhtemelen şimdiye kadarki en iyi iOS
Geri dönüş yapıp işe mi geçeceksiniz? Fan Bingbing, Pekin'de 1 milyon kraliçe kartıyla bir güzellik salonu açtı! Hayranlar: Çok uygun
Tasarımcılar için üretildi! İPad için Photoshop resmi olarak duyuruldu
Bir zamanlar Hong Kong kardeşin şampiyonuydu ve kariyeri her zaman genç nesiller tarafından yönetildi.
Youku güzel bir genç olur! "Başkan" Jin Xing, "Bei Shonen Topluluğu'nun" tüketmediğini, sadece döllediğini söyledi.
80'lerde hala böyle retro oynayabilir misin? Converse Fastbreak Mid Zip yeniden retro bir çılgınlık başlattı!
KDD 2018 Kitle kaynaklı ek açıklamanın kalitesi istikrarsız mı? Makinenin etiketleyicilere bir ders vermesine izin verin!
"Rahibe Tuoqiang" Wei Junjie şişman, eğer iki kişi varsa, bu "pisliğin" cezası mı?
To Top