g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

83 belge ve 4D özetleri, yoğun öğrenime giden yolu açar

Yazar: Hou Yuqing Chen Yurong

Kaynak: Deep Reinforcement Learning Lab

Bu makale hakkında 13000 kelime , Okumanız tavsiye edilir 15+ dakika

Bu makale derin pekiştirmeli öğrenmenin mevcut gelişimini açıklayacak ve geleceği dört gözle bekleyecektir.

Etiket: Reinforcement Learning

Derin pekiştirmeli öğrenme, derin öğrenme ve pekiştirmeli öğrenmenin birleşiminin bir ürünüdür. Derin öğrenmenin vizyon gibi algılama problemlerine ilişkin güçlü anlayışını ve uçtan uca öğrenmeyi gerçekleştirmek için pekiştirmeli öğrenmenin karar verme becerisini bütünleştirir. Derin takviyeli öğrenmenin ortaya çıkışı, takviyeli öğrenme teknolojisini gerçekten pratik hale getirir ve gerçek dünya senaryolarındaki karmaşık sorunları çözebilir. DQN'nin (derin Q ağı) 2013 yılında ortaya çıkmasından bu yana, derin pekiştirmeli öğrenme alanında çok sayıda algoritma ve pratik uygulama problemlerini çözen makaleler bulunmaktadır.Bu makale derin pekiştirmeli öğrenmenin mevcut gelişimini açıklayacak ve gelecekte ilerleme kaydedecektir. Görünüm.

1. Derinlemesine pekiştirmeli öğrenme balonu

2015 yılında, DeepMind'den Volodymyr Mnih ve diğer araştırmacılar Nature dergisinde derin öğrenme yoluyla insan seviyesinde kontrol başlıklı bir makale yayınladılar. Makale, derin öğrenme (DL) teknolojisi ve pekiştirmeli öğrenme (RL) fikirlerini birleştiren bir Derin Q modeli önerdi. Network (DQN), Atari oyun platformunda insan seviyesinin ötesinde bir performans gösterdi. O zamandan beri, DL ve RL'yi birleştiren Derin Güçlendirmeli Öğrenme (DRL), hızla yapay zeka topluluğunun odak noktası haline geldi.

Son üç yılda, DRL algoritması farklı alanlarda büyük güçler gösterdi: video oyunlarında ve masa oyunlarında en iyi insan oyuncuları yenmek; operasyon için karmaşık makineleri kontrol etmek; ağ kaynaklarını tahsis etmek; veri merkezleri için büyük ölçüde enerji tasarrufu; hatta makine öğrenimi algoritmalarını otomatik olarak ayarlamak Katıl. Büyük üniversiteler ve şirketler buna katıldı ve göz kamaştırıcı DRL algoritmaları ve uygulamaları ortaya koydu. Son üç yılın DRL için yükselen bir dönem olduğu söylenebilir. DeepMind'de AlphaGo projesinden sorumlu araştırmacı David Silver, DL'nin ifade gücü ile RL'nin muhakeme yeteneğini birleştiren DRL'nin yapay zekaya nihai cevap olacağına inandığından "AI = RL + DL" diye bağırdı.

1.1 DRL'nin yeniden üretilebilirlik krizi

Ancak, araştırmacılar son altı ayda DRL üzerinde düşünmeye başladılar. Yayınlanan literatür genellikle önemli parametre ayarlarının ve mühendislik çözümlerinin ayrıntılarını sağlamadığından, birçok algoritmanın yeniden üretilmesi zordur. Eylül 2017'de, tanınmış RL uzmanları Doina Precup ve Joelle Pineau liderliğindeki bir araştırma grubu, çok sayıda makale içeren mevcut DRL alanının sorunlarına ve deneyleri yeniden oluşturmanın zorluğuna doğrudan işaret eden Deep Reinforcement Learning that Matters adlı bir makale yayınladı. Bu makale akademik ve endüstriyel çevrelerde coşkulu tepkiler uyandırdı. Birçok kişi buna katılıyor ve DRL'nin gerçek yetenekleri hakkında güçlü şüpheler var.

Aslında bu, Precup Pineau araştırma grubunun DRL'ye ilk saldırısı değil. 2 ay kadar erken bir zamanda, araştırma grubu DRL algoritmasının yeniden üretilmesini zorlaştıran birden çok faktörü incelemek için yeterli deney kullandı ve araştırma sonuçlarını Sürekli Kontrol için Karşılaştırmalı Derin Güçlendirmeli Öğrenme Görevlerinin Tekrar Üretilebilirliği belgesine yazdı. Aynı yılın Ağustos ayında, ICML 2017'de "Sürekli Kontrol için Politika Değişimi Yöntemlerinin Yeniden Üretilebilirliği" başlıklı bir rapor hazırladılar. Çeşitli belirsizlikler nedeniyle çoklu politika gradyan tabanlı algoritmaları yeniden oluşturma sürecinde bunu örneklerle detaylı olarak gösterdiler. Faktörlerin neden olduğu tekrarlama zorlukları. Aralık ayında, merakla beklenen NIPS 2017 DRL sempozyumunda Joelle Pineau, "DRL ve Ötesinin Yeniden Üretilebilirliği" başlıklı bir rapor vermeye davet edildi. Raporda Pineau ilk olarak bilimsel araştırma alanındaki mevcut "tekrar üretilebilirlik krizini" ortaya koydu: "Nature" dergisi tarafından yapılan bir ankette, görüşmecilerin% 90'ı "tekrarlanabilirlik" sorununun bilimsel araştırma alanında bir kriz olduğuna inanıyordu. Bunların arasında, yanıt verenlerin% 52'si bu sorunun ciddi olduğunu düşünüyordu. Başka bir ankette, farklı alanlardaki araştırmacıların neredeyse yüksek bir yüzdesi başkalarının ve hatta kendilerinin geçmiş deneylerini yeniden üretemedi. "Tekrarlanabilirlik krizinin" ne kadar şiddetli olduğu görülüyor! Pineau'nun makine öğrenimi alanında yaptığı bir ankete göre, araştırmacıların% 90'ı da bu krizin farkında.

Makine öğrenimi alanında ciddi bir "tekrar üretilebilirlik krizi" var

Daha sonra, DRL alanında, Pineau, araştırma grubunun farklı güncel DRL algoritmaları üzerinde çok sayıda tekrarlanabilirlik deneyini gösterdi. Deneysel sonuçlar, farklı DRL algoritmalarının farklı görevler, farklı hiperparametreler ve farklı rastgele tohumlar altında çok farklı etkilere sahip olduğunu göstermektedir. Raporun ikinci yarısında Pineau, akademik topluluğu "tekrarlanabilirlik krizi" sorununa dikkat etmeye çağırdı ve araştırma sonuçlarına dayanarak, algoritmaların "tekrarlanabilirliğini" test etmek için 12 kriter önerdi ve ICLR 2018 düzenlemeye başlama planlarını duyurdu. Teşvik etmeyi amaçlayan "Yeniden Üretilebilirlik Deneyi Mücadelesi" ("Yeniden Üretilebilirlik Krizi", diğer makine öğrenimi alanlarında da ilgi gördü. ICML 2017, Makine Öğreniminde Yeniden Üretilebilirlik Atölyesi'ni düzenledi ve bu yıl ikinci oturumu yapmaya devam edecek) Araştırmacılar, makine öğrenimi alanındaki balonu engellemek için gerçekten sağlam bir çalışma yaptı. Pineau ve Precup araştırma grubu tarafından yapılan bu çalışmalar dizisi büyük ilgi gördü.

Pineau'nun çok sayıda ankete dayanan algoritmaları test etmek için "tekrar üretilebilirlik" kriterleri

1.2 DRL araştırmasında kaç tane tuzak vardır?

Ayrıca Aralık ayında Reddit forumu, makine öğreniminin sağlıksız eğilimleri hakkında canlı bir tartışma başlattı. Birisi, bazı temsili DRL algoritmalarının mükemmel ancak simülatörde performansı yeniden üretmenin zor olmasının nedeninin, yazarların deneydeki simülatörün fiziksel modelini değiştirmekten şüphelenmeleri, ancak kağıtta bundan kaçınmaları olduğunu ismen belirtti. konuşmak.

Mevcut DRL algoritmasına yönelik eleştiriler artmaya devam ediyor. Bir zamanlar Berkeley Yapay Zeka Araştırma Laboratuvarı'nda (BAIR) eğitim gören Alexirpan, 2018 Sevgililer Günü'nde bir blog gönderisini geçti < Derin Pekiştirmeli Öğrenme Henüz Çalışmıyor > DRL çemberine acı bir hediye gönderildi. Makalede, DRL algoritmasının temel sorunlarını deneysel bir bakış açısıyla özetlemek için birden fazla örnek kullandı:

Örnek kullanımı çok düşüktür;
Nihai performans yeterince iyi değildir, genellikle model tabanlı yöntemlerden daha düşüktür;
İyi bir ödül işlevinin tasarlanması zordur;
Algoritmanın yerel minimuma düşmesi için "keşif" ile "kullanım" arasında denge kurmak zordur;
Çevreye aşırı uyum;
Yıkıcı istikrarsızlık ...

Yazar, makalenin sonunda bir sonraki adımda DRL'nin çözmesi gereken bir dizi sorunu ortaya koymaya çalışsa da, birçok kişi yine de bu makaleyi DRL'nin "ikna" olarak görüyordu. Birkaç gün sonra, GIT'de bir doktora öğrencisi olan Himanshu Sahni bir blog yazısı yayınladı < Takviye Öğrenme hiç işe yaramadı ve deep ' >

Başka bir DRL araştırmacısı Matthew Rahtz, Alexirpan'a bir DRL algoritmasının iniş ve çıkışlarını nasıl yeniden oluşturmaya çalıştığını ve herkesin DRL algoritmasını yeniden oluşturmanın ne kadar zor olduğunu derinden anlamasını sağlayarak yanıt verdi. Altı ay önce, araştırma ilgisinden dolayı Rahtz, İnsan Tercihlerinden Derin Güçlendirme Öğrenimi başlıklı OpenAI makalesini yeniden üretmeyi seçti. Üreme sürecinde, Alexirpan'ın özetlediği neredeyse tüm çukurların üzerine basıldı. Yinelenen DRL algoritmasının bir mühendislik probleminden çok matematiksel bir problem olduğuna inanıyor. "Daha çok bir bulmacayı çözüyormuşsunuz gibi. Uyulması gereken kurallar yok. Tek yol, ilham görünene ve siz onu anlayana kadar denemeye devam etmektir ... Görünüşte önemsiz birçok ayrıntı tek ipucu haline gelir ... Her seferinde birkaç hafta hazırlık yaptım. Rahtz, tekrarlama sürecinde çok sayıda değerli mühendislik deneyimi biriktirdi, ancak tüm sürecin zorluğu hala ona çok para ve zamana mal oldu. Okulun bilgisayar odası kaynakları, Google bulut bilişim motoru ve toplam 850 ABD dolarına mal olan FloydHub dahil olmak üzere farklı bilgi işlem kaynaklarını tamamen seferber etti. Ancak yine de, başlangıçta 3 ayda tamamlanması planlanan proje sonunda 8 ay sürdü ve bunun büyük bir kısmı hata ayıklamaya harcandı.

DRL algoritmasını yeniden üretmek için gereken gerçek süre, tahmini süreden çok daha uzundur

Rahtz sonunda kağıdı yeniden üretme hedefine ulaştı. Okuyuculara yol boyunca çeşitli değerli mühendislik deneyimlerinin ayrıntılı bir özetini vermenin yanı sıra, blog yazısı aynı zamanda herkesin DRL araştırmasında ne kadar büyük bir baloncuğun ve kaç tane çukur bulunduğunu belirli bir örnekten deneyimlemesine olanak tanır. Birisi, "DRL'nin başarısı, gerçekten etkili olduğu için değil, insanların çok çaba harcadığı için olabilir."

Birçok ünlü bilim insanı da tartışmaya katıldı. Hakim görüş, DRL'nin AI alanındaki en büyük baloncuğa sahip olabileceğidir. Makine öğrenimi uzmanı Jacob Andreas anlamlı bir tweet attı:

Jacob Andreas'ın DRL hakkındaki şikayeti

DRL'nin başarısı, makine öğrenimi topluluğunda test seti üzerinde eğitime izin veren tek yöntem olmasına atfedilir.

Pineau ve Precup'ın ilk atışından bu yana geçen bir yıldan fazla bir süre içinde, DRL göz alıcıdan genel olarak bozulmuşa kadar harap oldu. Yazar tam da bu makaleyi göndermeye hazırlanırken, Pineau, ICLR 2018'de DRL'de Yeniden Üretilebilirlik, Yeniden Kullanılabilirlik ve Sağlamlık başlıklı bir rapor hazırlamaya davet edildi ve resmi olarak "Tekrarlanabilir Deney Yarışması" düzenlemeye başladı. Görünüşe göre akademik topluluk DRL'den şikayet etmeye devam edecek ve olumsuz yorumlar mayalanmaya devam edecek. Peki, DRL ile ilgili sorun nerede? Görünüm gerçekten çok kasvetli mi? Derin öğrenme ile birleştirilmezse, RL için çıkış yolu nedir?

Herkes DRL'den şikayet ettiğinde, ünlü optimizasyon uzmanı Ben Recht başka bir açıdan bazı analizler yaptı.

2. Modelsiz pekiştirmeli öğrenmenin temel kusurları

RL algoritmaları, model tabanlı yöntemlere (Model tabanlı) ve modelden bağımsız yöntemlere (Modelden bağımsız) ayrılabilir. İlki, esas olarak optimal kontrol alanından geliştirilmiştir. Genellikle, belirli bir problem için Gauss süreci (GP) veya Bayes ağı (BN) gibi araçlar ve daha sonra makine öğrenimi yöntemleri veya model tahmin kontrolü (MPC), doğrusal ikinci dereceden ayarlama gibi optimum kontrol yöntemleri aracılığıyla bir model oluşturulur. Hesap Makinesi (LQR), Doğrusal Kuadratik Gauss (LQG), Yinelemeli Öğrenme Kontrolü (ICL), vb. İkincisi, makine öğrenimi alanında daha gelişmiştir ve veri odaklı bir yaklaşımdır. Algoritma, çok sayıda örnek aracılığıyla aracının durumunu, eylemin değer işlevini veya ödül işlevini tahmin eder ve böylece eylem stratejisini optimize eder.

Model tabanlı ve modelsiz

Yılın başından bu yana, Ben Recht, kontrol ve optimizasyon açısından RL'de modelsiz yönteme odaklanan 13 blog yazısı yayınladı. Recht, modelsiz yöntemin kendisinin aşağıdaki büyük kusurlara sahip olduğuna dikkat çekti:

Modelden bağımsız yöntem, geri bildirim sinyali olmayan örneklerden öğrenemez ve geri bildirimin kendisi seyrektir, bu nedenle modelden bağımsız yönün örnek kullanım oranı çok düşükken, veri odaklı yöntem çok fazla örnekleme gerektirir. Örneğin Atari platformunda yer alan "Space Invader" ve "Seaquest" oyunlarında, eğitim verisi arttıkça temsilcinin aldığı puan artacaktır. Modelden bağımsız DRL yöntemini kullanmak, daha iyi sonuçlar öğrenmek için 200 milyon çerçeve gerektirebilir. Nature'da piyasaya sürülen en eski AlphaGo sürümü ayrıca eğitim için 30 milyon disk gerektirir. Bununla birlikte, mekanik kontrol ile ilgili sorunlar söz konusu olduğunda, eğitim verilerinin elde edilmesi video görüntüleri kadar kolay değildir, bu nedenle eğitim yalnızca simülatörde gerçekleştirilebilir. Simülatör ile gerçek dünya arasındaki Gerçeklik Uçurumu, ondan eğitilen algoritmanın genelleme performansını doğrudan sınırlar. Ek olarak, veri kıtlığı da DL teknolojisi ile kombinasyonunu etkiler.

Modelden bağımsız yöntem, belirli sorunları modellemez, ancak tüm sorunları genel bir algoritma ile çözmeye çalışır. Model tabanlı yaklaşım, belirli bir problem için bir model oluşturarak, problemin içsel bilgilerinden tam olarak yararlanır. Modelden bağımsız yöntem, çok yönlülüğün peşinden giderken bu değerli bilgileri terk eder.

Model tabanlı yaklaşım, problem için açıklayıcı olan dinamik bir model oluşturur. Bununla birlikte, modelsiz yöntemin modeli yoktur ve çok açıklayıcı değildir ve hata ayıklaması zordur.
Model tabanlı yöntemle, özellikle de basit doğrusal modele dayanan yöntemle karşılaştırıldığında, modelsiz yöntem yeterince kararlı değildir ve eğitim sırasında kolayca sapabilir.

Yukarıdaki bakış açısını doğrulamak için Recht, basit bir LQR tabanlı rastgele arama yöntemini MuJoCo deney ortamında en iyi modelsiz yöntemle karşılaştırdı. Benzer örnekleme oranları durumunda, model tabanlı rastgele arama algoritmasının hesaplama verimliliği, model içermeyen yönteme göre en az 15 kat daha yüksektir.

Model tabanlı rastgele arama yöntemi ARS, kalabalık olmayan bir yöntem sunar

Recht'ın analizi sayesinde, DRL sorununun temel nedenini bulduk. Son üç yılda makine öğrenimi alanında popüler olan DRL algoritmaları çoğunlukla modelsiz yöntemi DL ile birleştiriyor ve modelsiz algoritmanın doğal kusurları, Alexirpan tarafından özetlenen büyük DRL problemlerine karşılık geliyor (yukarıya bakınız).

Görünüşe göre DRL'nin temel nedeni çoğunlukla modelsiz yöntemlerin kullanılmasıdır. Çoğu DRL neden modelden bağımsız yöntemlere dayanıyor? Yazar, bunun birkaç nedeni olduğunu düşünüyor. İlk olarak, model içermeyen yöntem, zengin açık kaynak uygulamaları ile nispeten basit ve sezgiseldir ve başlaması daha kolaydır, bu da araştırma yapmak için daha fazla akademisyeni çeker ve DQN ve AlphaGo serileri gibi çığır açan işler yapma olasılığı daha yüksektir. İkincisi, RL'nin şu anki gelişimi henüz başlangıç aşamasındadır. Akademik araştırmanın odak noktası, ortamın belirli ve statik olmasıdır. Durum esas olarak ayrık, statik ve tamamen gözlemlenebilirdir. Geri bildirim de kesin bir sorundur (Atari oyunları gibi). ) üzerinde. Bu nispeten "basit", temel ve genel problem için modelden bağımsız yöntemin kendisi çok uygundur. Son olarak, "AI = RL + DL" görüşünden esinlenen akademik topluluk, DRL'nin yeteneklerini abarttı. DQN'nin gösterdiği heyecan verici yetenekler, birçok insanı DQN etrafında genişlemeye ve yine modelsiz bir dizi çalışma yaratmaya yönlendirdi.

Çoğu DRL yöntemi, DQN'nin uzantılarıdır ve modelsiz yöntemlerdir

Öyleyse, DRL modelsiz yaklaşımı terk etmeli ve model tabanlı yaklaşımı benimsemeli mi?

3. Model tabanlı veya modelsiz, sorun o kadar basit değil

3.1 Model tabanlı yaklaşımın gelecekte büyük bir potansiyeli var

Model tabanlı yöntemler genellikle modelleri önce verilerden öğrenir ve ardından öğrenilen modellere göre stratejileri optimize eder. Öğrenme modeli süreci, sibernetikteki sistem parametresi tanımlamaya benzer. Modelin varlığından dolayı, modele dayalı yöntem, modele yaklaşmak için her bir numuneden tam olarak faydalanabilir ve veri kullanım oranı büyük ölçüde iyileştirilir. Bazı kontrol problemlerinde, modele dayalı yöntemler, modelden bağımsız yöntemlere kıyasla, örnekleme oranında genellikle 10 ^ 2 düzeyinde bir artışa sahiptir. Ek olarak, öğrenilen model genellikle ortamdaki değişikliklere karşı dayanıklıdır.Yeni bir ortamla karşılaşıldığında, algoritma akıl yürütme için öğrenilen modele güvenebilir ve iyi bir genelleme performansına sahiptir.

Model tabanlı yöntemler daha yüksek örnekleme oranlarına sahiptir

Ek olarak, model tabanlı yöntemler, büyük potansiyele sahip tahmine dayalı öğrenme ile yakından ilgilidir. Model kurulduğundan, gelecek, Tahmine Dayalı Öğrenmenin ihtiyaçları ile örtüşen modelin kendisi tarafından tahmin edilebilir. Aslında Yann LeCun, çokça izlenen NIPS 2016 tema raporunda Tahmine Dayalı Öğrenmeyi tanıttığında, model tabanlı yaklaşımı da örnek aldı. Yazar, model tabanlı RL yönteminin Tahmine Dayalı Öğrenmeyi uygulamak için önemli teknolojilerden biri olabileceğine inanmaktadır.

Bu şekilde, model tabanlı yaklaşım daha umut verici görünüyor. Ancak dünyada bedava öğle yemeği yok ve modellerin varlığı bazı sorunları da beraberinde getiriyor

3.2 Modelden bağımsız yöntem hala ilk tercihtir

Model tabanlı DRL yöntemi göreceli olarak o kadar basit ve sezgisel değildir ve RL ve DL kombinasyonu nispeten daha karmaşıktır ve tasarlanması daha zordur. Şu anda, model tabanlı DRL yöntemleri, 2016'da David Silver tarafından önerilen Predictron modeli gibi modeller oluşturmak için genellikle Gauss süreçlerini, Bayes ağlarını veya Olasılıksal Sinir Ağlarını (PNN) kullanır. Olasılıksal Çıkarsama için Öğrenme Kontrolü (PILCO) gibi diğer çalışmalar, sinir ağlarının kendilerine dayanmaz, ancak BN ile birleştirilmiş genişletilmiş sürümlere sahiptir. Kılavuzlu Politika Arama (GPS), optimum denetleyicinin optimizasyonunda bir sinir ağı kullanmasına rağmen, model sinir ağına dayanmaz. Ek olarak, bazı modeller sinir ağını modelle birleştirir. Bu görevler, modelsiz DRL yöntemi kadar sezgisel ve doğal değildir ve DL'nin rolü de farklıdır.

Ek olarak, model tabanlı yaklaşımın birkaç dezavantajı da vardır:

Modellenemeyen sorunlar hakkında hiçbir şey yapamaz. NLP gibi bazı alanlarda, modellere genellemesi zor olan birçok görev vardır. Bu senaryoda, önce çevreyle yalnızca R-max algoritması gibi yöntemlerle etkileşime girebilir ve sonraki kullanım için bir model hesaplayabilirsiniz. Bununla birlikte, bu yöntemin karmaşıklığı genellikle yüksektir. Son zamanlarda, bazı çalışmalar, modellemenin zor problemini kısmen çözen modeller oluşturmak için tahmine dayalı öğrenmeyle birleştirildi Bu fikir, yavaş yavaş bir araştırma noktası haline geldi.
Modelleme hataları getirecek ve algoritma ve ortamın yinelemeli etkileşimi ile hatalar gittikçe daha büyük hale gelme eğiliminde olup, algoritmanın optimum çözüme yakınsamayı garanti etmesini zorlaştırmaktadır.
Model çok yönlülüğünden yoksundur ve her problem değiştiğinde, modelin yeniden modellenmesi gerekir.

Yukarıdaki noktalar ışığında, modelsiz yöntemin göreceli avantajları vardır: gerçekte modellenemeyen ve taklit edilemeyen birçok problem için, modelsiz algoritma hala en iyi seçimdir. Ek olarak, modelden bağımsız yöntemin teoride asimptotik yakınsaması vardır ve çevre ile sayısız etkileşimden sonra optimal çözümü garanti edebilir.Bu, model tabanlı yöntemlerle elde edilmesi zor bir sonuçtur.

Son olarak, modelsizin en büyük avantajı, çok iyi bir çok yönlülüğe sahip olmasıdır. Aslında, gerçekten zor sorunlarla uğraşırken, modelsiz yaklaşım genellikle daha iyi sonuç verir. Recht ayrıca blog gönderisinde, kontrol alanındaki etkili MPC algoritmasının aslında Q-Learning gibi modelden bağımsız yöntemlerle çok ilişkili olduğuna dikkat çekti.

Model tabanlı yöntemler ile modelden bağımsız yöntemler arasındaki fark aslında bilgiye dayalı yöntemler ve istatistiksel yöntemler arasındaki fark olarak görülebilir. Genel olarak, iki yöntemin kendine has değerleri vardır ve bir yöntemin diğerinden daha iyi olduğunu söylemek zordur. RL alanında, modelden bağımsız algoritmalar yalnızca küçük bir kısmı hesaba katar, ancak tarihsel nedenlerden dolayı, mevcut modelden bağımsız DRL yöntemleri hızla ve çok sayıda gelişirken, model tabanlı DRL yöntemleri nispeten azdır. Yazar, mevcut DRL sorunlarının çoğunun üstesinden gelmek için daha fazla model tabanlı DRL çalışması yapmayı düşünebileceğimize inanıyor. Ek olarak, her iki yöntemin avantajlarına sahip olan model yöntemlere ve modelsiz yöntemlere dayalı daha fazla yarı model yöntemi de inceleyebilirsiniz. Bu alandaki klasik çalışma, RL ustası Rich Sutton tarafından önerilen Dyna çerçevesini ve öğrencisi David Silver tarafından önerilen Dyna-2 çerçevesini içerir.

Yukarıdaki tartışma aracılığıyla, DRL'nin mevcut ikileminden bir çıkış yolu bulmuş görünüyoruz. Ama aslında, mevcut DRL ikileminin nedenleri bunlardan çok daha fazlası.

3.3 Bu sadece bir model sorunu değil

Yukarıda belirtildiği gibi, Recht modelsiz yöntemi ölüme mahkum etmiş gibi görünen modelsiz yöntemi cezalandırmak için rastgele arama tabanlı bir yöntem kullandı. Ancak bu karşılaştırma adil değil.

Mart 2017'de, makine öğrenimi uzmanı Sham Kakade'nin araştırma grubu, sürekli kontrol sorunlarına basit ve genel çözümler bulmaya çalışan Sürekli Kontrolde Genelleştirme ve Basitliğe Doğru bir makale yayınladı. Mevcut simülatörün çok büyük bir sorunu olduğunu buldular. Hata ayıklamadan sonraki doğrusal strateji zaten çok iyi sonuçlar elde edebilir - böyle bir simülatör çok kaba, rastgele aramaya dayalı yöntemin aynı simülatördeki bağışıklık sistemini yenmesine şaşmamalı. Model yöntemi!

RL alanındaki mevcut deneysel platformun hala çok olgunlaşmamış olduğu ve böyle bir test ortamındaki deneysel sonuçların yeterince ikna edici olmadığı görülebilir. Pek çok araştırma sonucu inandırıcı olmayabilir, çünkü iyi performans sadece simülatör hatalarının kullanımından kaynaklanıyor olabilir. Ek olarak, bazı bilim adamları mevcut RL algoritması performans değerlendirme kriterlerinin bilimsel olmadığına dikkat çekti. Hem Ben Recht hem de Sham Kakade, test ortamı, kıyaslama algoritması, ölçüm standartları vb. Dahil olmak üzere RL'nin geliştirilmesi için bir dizi özel öneri ortaya koydu. RL alanında hala iyileştirilmesi ve standardize edilmesi gereken çok şey olduğu görülebilir.

Öyleyse, RL bundan sonra nasıl geçmeli?

Dördüncü olarak, pekiştirmeli öğrenmeyi yeniden gözden geçirin

DRL ve modelsiz RL ile ilgili sorular ve tartışmalar, RL'nin gelecekteki gelişimi için büyük fayda sağlayan RL'yi yeniden incelememize olanak tanır.

4.1 DRL'nin araştırmasını ve uygulamasını yeniden inceleyin

DQN ve AlphaGo serileri etkileyici, ancak bu iki görev aslında doğası gereği görece "basit". Bu görevlerin ortamı belirleyici ve statik olduğundan, durum esas olarak ayrık, statik ve tamamen gözlemlenebilir, geri bildirim kesindir ve aracı bekardır. Şu anda DRL, bazı görünür durum görevlerini (StarCraft gibi), sürekli durum görevlerini (mekanik kontrol görevleri gibi), dinamik geri bildirim görevlerini ve çoklu aracı görevlerini çözmede şaşırtıcı atılımlar yapmadı.

DRL başarısının görevi doğası gereği nispeten basittir

Şu anda, çok sayıda DRL araştırması, özellikle bilgisayarla görme görevleri alanında uygulananlar, belirli bir DL tabanlı bilgisayar görüşü görevini çözülmesi için RL problemlerine zorlamıştır ve sonuçlar genellikle geleneksel yöntemler kadar iyi değildir. Bu araştırma yöntemi, DRL alanındaki makale sayısında bir artışa ve büyük miktarda suya neden oldu. Bir DRL araştırmacısı olarak, onu RL'ye zorlayacak bir DL görevi bulmamalıyız. Bunun yerine, RL işleme için doğal olarak uygun olan bazı görevler için hedef tanıma bağlantısındaki veya işlev yaklaştırma bağlantısındaki mevcut yöntemleri iyileştirmek için DL'yi tanıtmaya çalışmalıyız. kabiliyet.

Bilgisayarla görme görevlerinde, DL'yi birleştirerek iyi özellik ifadesi veya işlev yaklaşımı elde etmek çok doğal bir fikirdir. Ancak bazı alanlarda DL, güçlü bir özellik çıkarma rolü oynayamayabilir veya işlev yaklaşımı için kullanılamaz. Örneğin, DL şu ana kadar robotik alanında en algısal rol oynamıştır ve mekanik analize dayalı yöntemlerin yerini alamaz. DRL'nin QT-Opt gibi nesne kavrama gibi gerçek dünyadaki mekanik kontrol görevlerine uygulandığı bazı başarılı durumlar olsa da, genellikle çok fazla hata ayıklama ve eğitim süresi gerektirir. DRL algoritmasının uygulama özelliklerini açıkça anlamalıyız: çıktısının rastgeleliği nedeniyle, mevcut DRL algoritması gerçek ortamdan ziyade simülatörde daha fazla kullanılmaktadır. Şu anda, pratik değeri olan ve yalnızca simülatörde çalıştırılması gereken üç ana görev türü vardır: video oyunları, masa oyunları ve otomatik makine öğrenimi (Google'ın AutoML Vision gibi AutoML).

Bu, DRL uygulamasının simülatörde sıkışıp kaldığı anlamına gelmez - belirli bir problem için simülatör ile gerçek dünya arasındaki farkı çözebilirseniz, DRL'nin gücünü kullanabilirsiniz. Son zamanlarda, Google araştırmacıları simülatörü güçlü bir şekilde geliştirerek dört ayaklı robotların hareket problemine odaklandılar, böylece simülatörde eğitilen spor stratejileri gerçek dünyaya mükemmel bir şekilde aktarılabilir ve inanılmaz sonuçlar elde edildi. Bununla birlikte, RL algoritmasının kararsızlığını göz önünde bulundurarak, pratik uygulamalarda körü körüne uçtan uca bir çözüm peşinde koşmamalısınız. Bunun yerine, daha iyi yorumlanabilirlik ve kararlılık elde etmek için özellik çıkarma (DL) ile karar verme (RL) arasında ayrım yapmayı düşünebilirsiniz. Seks. Ek olarak, modüler RL (RL algoritmasını bir modülde kapsülleyen) ve RL'nin diğer modellerle füzyonu, pratik uygulamalarda geniş beklentilere sahip olacaktır. RL modülüne giriş için uygun bir temsili öğrenmek için DL'nin nasıl kullanılacağı da çalışmaya değer.

4.2 RL araştırmasının yeniden incelenmesi

Makine öğrenimi, disiplinler arası bir araştırma alanıdır ve HBS, disiplinler arası doğası çok önemli olan bir dalıdır. RL teorisinin gelişimi fizyoloji, sinirbilim ve optimal kontrol alanlarından esinlenmiştir ve birçok ilgili alanda halen çalışılmaktadır. Kontrol teorisi, robotik, yöneylem araştırması, ekonomi vb. Alanlarda hala RL araştırmalarına adanmış birçok bilim insanı vardır.Aynı kavramlar veya algoritmalar genellikle farklı alanlarda yeniden keşfedilir ve farklı isimler verilir.

RL'nin gelişimi birden fazla disiplinden etkilenir

Princeton Üniversitesi'nde tanınmış bir operasyon araştırma uzmanı olan Warren Powell, bir keresinde AI, OR ve Control Theory: A Rosetta Stone for Stochastic Optimization başlıklı bir makale yazdı, aynı kavramı ve algoritmayı YZ, OR (Operasyonel Araştırma) ve RL'de sıraladı. Kontrol Teorisindeki karşılık gelen isimler, farklı alanlar arasındaki boşluğu doldurur. Çeşitli disiplinlerin ilgili özelliklerinden dolayı, farklı alanlarda RL araştırması benzersiz özelliklere sahiptir ve bu da RL araştırmasının farklı alanlardaki fikirlerin özünden tam olarak öğrenmesini sağlar.

Burada, kendi RL anlayışıma dayanarak, çalışmaya değer bazı yönleri özetlemeye çalışıyorum:

Model tabanlı yaklaşım. Yukarıda bahsedildiği gibi, modele dayalı yöntem, yalnızca örnekleme gereksinimlerini büyük ölçüde azaltmakla kalmaz, aynı zamanda öğrenme görevinin dinamik modeli aracılığıyla tahmine dayalı öğrenmenin temelini de oluşturur.
Modelden bağımsız yöntemin veri kullanımını ve ölçeklenebilirliğini geliştirin. Bunlar, model öğrenmeden kaçınmanın iki kusurudur ve aynı zamanda Rich Sutton'ın nihai araştırma hedefidir. Bu alan çok zordur, ancak anlamlı bir atılım da büyük değer sağlayacaktır.
Daha verimli keşif stratejileri (Keşif Stratejileri). "Keşif" ve "kullanımı" dengelemek, daha verimli keşif stratejileri tasarlamamızı gerektiren RL'nin temel sorunudur. Softmax, -Greedy, UCB ve Thompson Sampling gibi birkaç klasik algoritmaya ek olarak, son zamanlarda akademik toplulukta Intrinsic Motivation, Curiosity-Driven Exploration, Count-based Exploration gibi çok sayıda yeni algoritma önerildi. Aslında, bu "yeni" algoritma fikirlerinin çoğu 1980'lerin başlarında ortaya çıktı ve DL ile organik kombinasyon onların yeniden dikkat çekmesini sağladı. Ek olarak, OpenAI ve DeepMind, strateji parametrelerine ve sinir ağı ağırlıklarına gürültü ekleyerek keşif stratejisini iyileştirmeyi ve yeni bir yön açarak art arda önerdiler.
Taklit Öğrenme (IL) ile birleştirilmiştir. Makine öğrenimi ve otonom sürüş alanındaki en eski başarılı örnek ALVINN, IL'ye dayanmaktadır; RL alanındaki şu anki en iyi bilim adamı Pieter Abbeel, Doktorası için Andrew Ng ile çalışırken, helikopterleri IL aracılığıyla kontrol etmek için tasarlanan algoritma, IL alanında temsili bir çalışma haline geldi. 2016 yılında, Nvidia tarafından önerilen uçtan uca otonom sürüş sistemi de IL aracılığıyla öğrenildi. AlphaGo'nun öğrenme yöntemi de IL'dir. Bilgi okuryazarlığı, RL ile denetimli öğrenme arasındadır ve her ikisinin de avantajlarına sahiptir. Daha hızlı geribildirim alabilir, daha hızlı birleşebilir ve araştırma değeri yüksek olan muhakeme yeteneğine sahiptir. IL'ye giriş için lütfen bu incelemeye bakın.
Ödül Şekillendirme. Ödül geri bildirimdir ve RL algoritmasının performansı üzerindeki etkisi çok büyüktür. Alexirpanın blog yazısı, iyi tasarlanmış bir geri bildirim sinyali olmadan RL algoritmasının ne kadar kötü olabileceğini gösterdi. Tasarlanan geri bildirim sinyali, her zaman RL alanında bir araştırma etkin noktası olmuştur. Son yıllarda birçok RL algoritması ve "merak" temelli hiyerarşik RL algoritmaları ortaya çıkmıştır.Bu iki algoritmanın amacı, model eğitimi sırasında geri bildirim sinyalleri eklemek ve böylece çok seyrek geri bildirim probleminin kısmen üstesinden gelmektir. Diğer bir fikir, ters pekiştirmeli öğrenmenin (Ters RL, IRL) ana yöntemlerinden biri olan geribildirim işlevini öğrenmektir. Son yıllarda popüler olan GAN, üretken modelleme sorununu çözmek için bu fikre de dayanmaktadır.GAN'ın savunucusu Ian Goodfellow, GAN'ın bir RL yöntemi olduğuna da inanmaktadır. GAN'ı geleneksel IRL ile birleştiren GAIL, pek çok akademisyenin ilgisini çekmiştir.
RL'de öğrenmeyi ve çok görevli öğrenmeyi aktarın. RL'nin mevcut örnekleme verimliliği son derece düşüktür ve öğrenilen bilgi evrensel değildir. Transfer öğrenimi ve çok görevli öğrenme bu sorunları etkili bir şekilde çözebilir. Orijinal görevden öğrenilen stratejiyi yeni göreve geçirerek, yeni görev için en baştan öğrenmeyi önler, bu da veri gereksinimlerini büyük ölçüde azaltabilir ve algoritmanın uyarlanabilir yeteneğini geliştirebilir. Gerçek bir ortamda RL'yi kullanmanın zorluklarından biri, RL'nin dengesizliğidir.Doğal bir fikir, simülatörde eğitilen kararlı stratejiyi aktarım öğrenimi yoluyla gerçek ortama aktarmaktır ve strateji, yeni ortamda yalnızca az miktarda keşif gerektirir. Gereksinimleri karşılayabilir. Bununla birlikte, bu araştırma alanının karşı karşıya olduğu en büyük sorun Reality Gap'dir, yani simülatörün simülasyon ortamı gerçek ortamdan çok farklıdır. İyi bir simülatör yalnızca gerçekteki boşluğu etkili bir şekilde doldurmakla kalmaz, aynı zamanda RL algoritmasının büyük örnekleme ihtiyaçlarını da karşılayabilir, böylece yukarıda bahsedilen Sim-to-Real gibi RL'nin araştırma ve geliştirmesini büyük ölçüde teşvik edebilir. Aynı zamanda, bu aynı zamanda RL ve VR teknolojisinin bir kombinasyonudur. Akademi ve endüstri son zamanlarda bu alanda çalışmalar yaptı. Otonom sürüş alanında Gazebo, EuroTruck Simulator, TORCS, Unity, Apollo, Prescan, Panosim ve Carsim gibi simülatörlerin kendine has özellikleri vardır ve Intel Research Institute tarafından geliştirilen CARLA simülatörü giderek endüstri araştırma standardı haline gelmiştir. Diğer alanlardaki simülatör gelişimi de bir çiçeklenme eğilimi gösteriyor: ev ortamı simülasyonu alanında, MIT ve Toronto Üniversitesi birlikte zengin özelliklere sahip bir VirturalHome simülatörü geliştirdi; drone simülasyon eğitimi alanında MIT ayrıca Flight Goggles simülatörünü geliştirdi.
RL'nin genelleme yeteneğini geliştirin. Makine öğreniminin en önemli amacı genelleme yeteneğidir ve mevcut RL yöntemlerinin çoğu bu göstergede kötü performans gösterir. Jacob Andreas'ın RL'nin başarısının "tren >
Hiyerarşik RL (Hiyerarşik RL, HRL). Profesör Zhou Zhihua, DL'nin başarısı için üç koşulu özetledi: katman katman işleme, karakteristik dahili değişiklikler ve yeterli model karmaşıklığı. HRL sadece bu üç koşulu karşılamakla kalmaz, aynı zamanda çok potansiyel bir araştırma alanı olan daha güçlü muhakeme yeteneğine de sahiptir. Şu anda HRL, karmaşık muhakeme gerektiren bazı görevlerde (Atari platformu gibi) kullanılmaktadır. < Montezuma'nın İntikamı > Oyun) güçlü bir öğrenme yeteneği gösterdi.
Sıra tahmini (Sıra Tahmini) ile birleştirilmiştir. Sıra Tahmini ve RL ve IL benzer ancak farklı sorunları çözer. Üçü arasında birbirinden öğrenebilecek birçok fikir var. Sıra Tahmin görevinde iyi sonuçlar elde eden RL ve IL'ye dayalı bazı yöntemler halihazırda mevcuttur. Bu yöndeki bir atılım, Video Tahmini ve NLP'deki birçok görev üzerinde geniş bir etkiye sahip olacaktır.
Davranışın güvenliğini (Güvenli RL) keşfetmek için (model içermeyen) yöntem. Model tabanlı yöntemle karşılaştırıldığında, modelden bağımsız yöntem, keşif davranışını daha istikrarsız hale getiren öngörü yeteneğinden yoksundur. Bir araştırma fikri, RL ajan davranışının belirsizliğini modellemek için Bayes yöntemlerini birleştirmek ve böylece çok tehlikeli keşif davranışından kaçınmaktır. Ayrıca RL'yi gerçek ortama güvenli bir şekilde uygulamak için, tehlikeli alan simülatörde karma gerçeklik teknolojisi yardımıyla tanımlanabilir ve acentenin faaliyet alanı kısıtlanarak acentenin davranışı kısıtlanabilir.
İlişki RL. Son zamanlarda akıl yürütme ve öngörü amaçlı nesneler arasındaki ilişkiyi öğrenen "ilişkisel öğrenme" akademik çevrelerden yoğun ilgi gördü. İlişkisel öğrenme genellikle eğitimde oluşturulmuş bir durum zinciridir ve ara durum nihai geri bildirimden kopuktur. RL, etkili öğrenmeyi gerçekleştirmek için son geri bildirimi orta duruma geri aktarabilir ve böylece ilişkisel öğrenmeyi gerçekleştirmenin en iyi yolu haline gelir. DeepMind tarafından 2017'de önerilen VIN ve Pridictron, bu bağlamda her ikisi de temsili çalışmalardır. Haziran 2018'de DeepMind, ilişkisel indüksiyon önyargısı, ilişkisel RL, ilişkisel RNN, grafik ağı ve Science'ta yayınlanan Üretken Sorgu Ağı (GQN) gibi ilişkisel öğrenmede bir dizi çalışma yayınladı. . Bu göz alıcı çalışma serisi, RL ilişkisinin yükselişine öncülük edecek.
Olumsuz örnek RL. RL, mekanik kontrol ve diğer alanlarda yaygın olarak kullanılmaktadır Görüntü tanıma ve konuşma tanıma ile karşılaştırıldığında, bu alanların sağlamlık ve güvenlik için daha yüksek gereksinimleri vardır. Bu nedenle, RL'ye karşı düşmanca saldırı çok önemli bir konudur. Son zamanlarda yapılan araştırmalar, düşman örnekler tarafından manipüle edileceğini ve DQN ve diğer algoritmalar gibi birçok klasik modelin, düşman saldırılarının bozulmasına dayanamadığını göstermiştir.
Diğer modların girişini işleyin. NLP alanında, akademi, RL'yi cümleler, metinler, bilgi tabanları vb. Gibi birçok modalitenin verilerini işlemek için uygulamıştır. Bununla birlikte, bilgisayar görüşü alanında, RL algoritması esas olarak görüntülerin ve videoların özelliklerini sinir ağları aracılığıyla çıkarır ve nadiren diğer modsal verileri içerir. RGB-D verilerini ve lidar verilerini işlemek gibi diğer modsal verilere RL uygulama yollarını keşfedebiliriz. Belirli bir tür verinin öznitelik çıkarmasının zorluğu büyük ölçüde azaldığında, onu RL ile organik olarak birleştirdikten sonra AlphaGo düzeyinde bir atılım elde etmek mümkündür. Intel Araştırma Enstitüsü bu bağlamda CARLA simülatörüne dayalı bir dizi çalışma yürütmüştür.

4.3 RL uygulamasını yeniden ziyaret edin

Şu anki görüş, "RL sadece oyun ve satranç oynayabilir ve diğer her şeyi yapabilir" şeklindedir. Bence, HBS konusunda fazla karamsar olmamalıyız. Aslında, video oyunlarında ve masa oyunlarında insanları geçebilmek, RL muhakemesinin gücünü kanıtladı. Makul bir iyileştirmeden sonra, yaygın olarak kullanılacağı umulmaktadır. Genellikle araştırmadan uygulamaya dönüşüm sezgisel değildir. Örneğin, IBM Watson® sistemi, doğal dili anlama ve ona yanıt verme becerisiyle dünyaca ünlüdür. 2011'de insan oyuncuları yendi ve Jeopardy! Şampiyonasını kazandı. Bunun arkasındaki destekleyici teknolojilerden biri, Gerald Tesauro'nun TD-Gammon programını geliştirdiği sırada kullanılan RL teknolojisi olduğu ortaya çıktı. Satranç için "sadece kullanılabilen" teknoloji, en iyi soru cevap sisteminde vazgeçilmez bir rol oynamıştır. Bugünün RL gelişme seviyesi yılın çok üstünde, kendimize nasıl güvenemeyiz?

RL, güçlü IBM Watson®'un arkasında merkezi bir rol oynar

İnceleme yoluyla, RL algoritmasının çeşitli alanlarda yaygın olarak kullanıldığını görebiliriz:

Kontrol alanı. Bu, RL düşüncesinin doğum yerlerinden biridir ve RL teknolojisi uygulamasının en olgun alanıdır. Kontrol alanı ve makine öğrenimi alanı benzer fikirler, kavramlar ve teknolojiler geliştirmiştir ve birbirlerinden öğrenebilirler. Örneğin, şu anda yaygın olarak kullanılan MPC algoritması, özel bir RL türüdür. Robotik alanında, yalnızca algılama için kullanılabilen DL ile karşılaştırıldığında, RL'nin geleneksel yöntemlere göre kendi avantajları vardır: LQR gibi geleneksel yöntemler genellikle daha yüksek karmaşıklıkla grafik aramaya veya olasılıklı aramaya dayalı yörünge düzeyinde bir strateji öğrenir. Yeniden planlama için uygun değildir; RL yöntemi, daha iyi uyarlanabilirliğe sahip olan durum eylem alanında stratejiyi öğrenir.
Otonom sürüş alanı. RL 80 ALVINNTORCS CARLA RL
NLP NLP RL RL NLP / Yoshua Bengio MILABOT Facebook Microsoft Translator NLP VQAImage/Video CaptionImage GroundingVideo Summarization RL
RL Bandits RL
RL Kensho RL
UCSB Jiawei Wu Reinforced Co-Training
RL

RL RL DL RL RL CMAES DRL RL All in RL, RL in All, RL

4.4 RL

NIPS 2016 Yan LeCun Predictive Learning Ben Recht RL Supervised Learning, SLUnsupervised Learning, ULULSLRL

GAN

RL RL

RL

RL RL RL

5.1 RL

1950 Computing Machinery and Intelligence C B AC A B A

1959 Arthur Samuel Samuel 50 RL RL RL RL Reinforcement Learning might be considered to encompass all of AI: an agent is placed in an environment and must learn to behave successfully therein.

Enactivism

DL RL DRLRL Memory RL DL RL RL RL , RL DRL DL RL DRL RL

5.2 RL

Recht RL A/B RL RL RL Recht RL

5.3 RL

4.2 RL

SL RL Albert Bandura IL Melanie Klein RL RL Behaviorism John Broadus Watson RL RL RL RL

Cone of Experience RL SL

RL RL RL RL RL

Sonuç

RL DRL RL

Referanslar

Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.

Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.

Silver, David, et al. "Mastering the game of go without human knowledge." Nature 550.7676 (2017): 354.

Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." arXiv preprint arXiv:1504.00702, 2015.

Mao, Hongzi, et al. "Resource management with deep reinforcement learning." Proceedings of the 15th ACM Workshop on Hot Topics in Networks. ACM, 2016.

deepmind.com/blog/deepm

Jaques, Natasha, et al. "Tuning recurrent neural networks with reinforcementlearning." (2017).

Henderson, Peter, et al. "Deep reinforcement learning that matters." arXivpreprint arXiv:1709.06560 (2017).

Islam, Riashat, et al. "Reproducibility of benchmarked deep reinforcementlearning tasks for continuous control." arXiv preprint arXiv:1708.04133 (2017).

riashatislam.files.wordpress.com

sites.google.com/view/d

reddit.com/r/MachineLea

alexirpan.com/2018/02/1

himanshusahni.github.io

amid.fish/reproducing-d

rodeo.ai/2018/05/06/rep

Dayan, Peter, and Yael Niv. "Reinforcement learning: the good, the bad and the ugly." Current opinion in neurobiology 18.2 (2008): 185-196.

argmin.net/2018/05/11/o

Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).

Justesen, Niels, et al. "Deep Learning for Video Game Playing." arXiv preprint arXiv:1708.07902 (2017).

youtube.com/watch?

sites.google.com/view/i

Silver, David, et al. "The predictron: End-to-end learning and planning." arXiv preprint arXiv:1612.08810 (2016).

Deisenroth, Marc, and Carl E. Rasmussen. "PILCO: A model-based and data-efficient approach to policy search." Proceedings of the 28th International Conference on machine learning (ICML-11). 2011.

Levine, Sergey, and Vladlen Koltun. "Guided policy search." International Conference on Machine Learning. 2013.

Weber, Théophane, et al. "Imagination-augmented agents for deep reinforcement learning." arXiv preprint arXiv:1707.06203 (2017).

Sutton, Richard S. "Dyna, an integrated architecture for learning, planning, and reacting." ACM SIGART Bulletin 2.4 (1991): 160-163.

Silver, David, Richard S. Sutton, and Martin Müller. "Sample-based learning and search with permanent and transient memories." Proceedings of the 25th international conference on Machine learning. ACM, 2008.

Rajeswaran, Aravind, et al. "Towards generalization and simplicity in continuous control." Advances in Neural Information Processing Systems. 2017.

andreykurenkov.com/writ

UCL Course on RL: www0.cs.ucl.ac.uk/staff

Powell, Warren B. "AI, OR and control theory: A rosetta stone for stochastic optimization." Princeton University (2012).

Pomerleau, Dean A. "Alvinn: An autonomous land vehicle in a neural network." Advances in neural information processing systems. 1989.

Abbeel, Pieter, and Andrew Y. Ng. "Apprenticeship learning via inverse reinforcement learning." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.

Osa, Takayuki, et al. "An algorithmic perspective on imitation learning." Foundations and Trends® in Robotics 7.1-2 (2018): 1-179.

fermatslibrary.com/arxi url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf

Ho, Jonathan, and Stefano Ermon. "Generative adversarial imitation learning." Advances in Neural Information Processing Systems. 2016.

github.com/carla-simula

36kr.com/p/5129474.html

Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).

Ranzato, Marc'Aurelio, et al. "Sequence level training with recurrent neural networks." arXiv preprint arXiv:1511.06732 (2015).

Bahdanau, Dzmitry, et al. "An actor-critic algorithm for sequence prediction." arXiv preprint arXiv:1607.07086 (2016).

Keneshloo, Yaser, et al. "Deep Reinforcement Learning For Sequence to Sequence Models." arXiv preprint arXiv:1805.09461 (2018).

Watters, Nicholas, et al. "Visual interaction networks." arXiv preprint arXiv:1706.01433 (2017).

Hamrick, Jessica B., et al. "Relational inductive bias for physical construction in humans and machines." arXiv preprint arXiv:1806.01203 (2018).

Zambaldi, Vinicius, et al. "Relational Deep Reinforcement Learning." arXiv preprint arXiv:1806.01830 (2018).

Santoro, Adam, et al. "Relational recurrent neural networks." arXiv preprint arXiv:1806.01822 (2018).

Battaglia, Peter W., et al. "Relational inductive biases, deep learning, and graph networks." arXiv preprint arXiv:1806.01261 (2018).

Eslami, SM Ali, et al. "Neural scene representation and rendering." Science 360.6394 (2018): 1204-1210.

Huang, Sandy, et al. "Adversarial attacks on neural network policies." arXiv preprint arXiv:1702.02284 (2017).

Behzadan, Vahid, and Arslan Munir. "Vulnerability of deep reinforcement learning to policy induction attacks." International Conference on Machine Learning and Data Mining in Pattern Recognition. Springer, Cham, 2017.

Tesauro, Gerald. "Temporal difference learning and TD-Gammon." Communications of the ACM 38.3 (1995): 58-68.

Jones, Rebecca M., et al. "Behavioral and neural properties of social reinforcement learning."Journal of Neuroscience 31.37 (2011): 13039-13045.

github.com/YBIGTA/DeepN

Lewis, Mike, et al. "Deal or no deal? end-to-end learning for negotiation dialogues." arXiv preprint arXiv:1706.05125 (2017).

microsoft.com/zh-cn/tra

Derhami, Vali, et al. "Applying reinforcement learning for web pages ranking algorithms." Applied Soft Computing 13.4 (2013): 1686-1692.

Wu, Jiawei, Lei Li, and William Yang Wang. "Reinforced Co-Training." arXiv preprint arXiv:1804.06035 (2018).

Li, Yuxi. "Deep reinforcement learning: An overview." arXiv preprint arXiv:1701.07274 (2017).

Feinberg, Eugene A., and Adam Shwartz, eds. Handbook of Markov decision processes: methods and applications. Vol. 40. Springer Science and Business Media, 2012.

en.wikipedia.org/wiki/C

Turing, Alan M. "Computing machinery and intelligence." Parsing the Turing Test. Springer, Dordrecht, 2009. 23-65.

en.wikipedia.org/wiki/A

Russell, Stuart J., and Peter Norvig. Artificial intelligence: a modern approach. Malaysia; Pearson Education Limited,, 2016.

Noë, Alva. Action in perception. MIT press, 2004.

Garnelo, Marta, Kai Arulkumaran, and Murray Shanahan. "Towards deep symbolic reinforcement learning." arXiv preprint arXiv:1609.05518 (2016).

argmin.net/2018/04/16/e

Bojarski, Mariusz, et al. "End to end learning for self-driving cars." arXiv preprint arXiv:1604.07316 (2016).

Recht, Benjamin . "A Tour of Reinforcement Learning:The View from Continuous Control." arXiv preprint arXiv: 1806.09460

Kalashnikov, Dmitry, et al. "QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation." arXiv preprint arXiv:1806.10293 (2018).

Tan, Jie, et al. "Sim-to-Real: Learning Agile Locomotion For Quadruped Robots." arXiv preprint arXiv:1804.10332 (2018).

Auer, Peter. "Using confidence bounds for exploitation-exploration trade-offs." Journal of Machine Learning Research 3.Nov (2002): 397-422.

Agrawal, Shipra, and Navin Goyal. "Thompson sampling for contextual bandits with linear payoffs." International Conference on Machine Learning. 2013.

Mohamed, Shakir, and Danilo Jimenez Rezende. "Variational information maximisation for intrinsically motivated reinforcement learning." Advances in neuralinformation processing systems. 2015.

Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." International Conference on Machine Learning (ICML). Vol. 2017. 2017.

Tang, Haoran, et al. "# Exploration: A study of count-based exploration for deep reinforcement learning." Advances in Neural Information Processing Systems. 2017.

McFarlane, Roger. "A Survey of Exploration Strategies in Reinforcement Learning." McGill University, www. cs. mcgill. ca/ cs526/roger. pdf, accessed: April (2018).

Plappert, Matthias, et al. "Parameter space noise for exploration." arXiv preprint arXiv:1706.01905 (2017).

Fortunato, Meire, et al. "Noisy networks for exploration." arXiv preprint arXiv:1706.10295 (2017).

Kansky, Ken, et al. "Schema networks: Zero-shot transfer with a generative causal model of intuitive physics." arXiv preprint arXiv:1706.04317 (2017).

Li, Da, et al. "Learning to generalize: Meta-learning for domain generalization." arXiv preprint arXiv:1710.03463 (2017).

berkeleyautomation.github.io

contest.openai.com/2018

Editör: Yu Tengkai

Redaksiyon: Lin Yilin

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Bilgi haritasının sınırları takip edilecek ve altı büyük açık sorun çözülecek!

Tsinghua Özel Ödülü Gao Tianyu Kuru Mal Paylaşımı: İşte böyle kağıtlar yazıyorum, deneyler yapıyorum ve amirimle iyi geçiniyorum