Yazar: Hou Yuqing Chen Yurong
Kaynak: Deep Reinforcement Learning Lab
Bu makale hakkında 13000 kelime , Okumanız tavsiye edilir 15+ dakika
Bu makale derin pekiştirmeli öğrenmenin mevcut gelişimini açıklayacak ve geleceği dört gözle bekleyecektir.
Etiket: Reinforcement Learning
Derin pekiştirmeli öğrenme, derin öğrenme ve pekiştirmeli öğrenmenin birleşiminin bir ürünüdür. Derin öğrenmenin vizyon gibi algılama problemlerine ilişkin güçlü anlayışını ve uçtan uca öğrenmeyi gerçekleştirmek için pekiştirmeli öğrenmenin karar verme becerisini bütünleştirir. Derin takviyeli öğrenmenin ortaya çıkışı, takviyeli öğrenme teknolojisini gerçekten pratik hale getirir ve gerçek dünya senaryolarındaki karmaşık sorunları çözebilir. DQN'nin (derin Q ağı) 2013 yılında ortaya çıkmasından bu yana, derin pekiştirmeli öğrenme alanında çok sayıda algoritma ve pratik uygulama problemlerini çözen makaleler bulunmaktadır.Bu makale derin pekiştirmeli öğrenmenin mevcut gelişimini açıklayacak ve gelecekte ilerleme kaydedecektir. Görünüm.
2015 yılında, DeepMind'den Volodymyr Mnih ve diğer araştırmacılar Nature dergisinde derin öğrenme yoluyla insan seviyesinde kontrol başlıklı bir makale yayınladılar. Makale, derin öğrenme (DL) teknolojisi ve pekiştirmeli öğrenme (RL) fikirlerini birleştiren bir Derin Q modeli önerdi. Network (DQN), Atari oyun platformunda insan seviyesinin ötesinde bir performans gösterdi. O zamandan beri, DL ve RL'yi birleştiren Derin Güçlendirmeli Öğrenme (DRL), hızla yapay zeka topluluğunun odak noktası haline geldi.
Son üç yılda, DRL algoritması farklı alanlarda büyük güçler gösterdi: video oyunlarında ve masa oyunlarında en iyi insan oyuncuları yenmek; operasyon için karmaşık makineleri kontrol etmek; ağ kaynaklarını tahsis etmek; veri merkezleri için büyük ölçüde enerji tasarrufu; hatta makine öğrenimi algoritmalarını otomatik olarak ayarlamak Katıl. Büyük üniversiteler ve şirketler buna katıldı ve göz kamaştırıcı DRL algoritmaları ve uygulamaları ortaya koydu. Son üç yılın DRL için yükselen bir dönem olduğu söylenebilir. DeepMind'de AlphaGo projesinden sorumlu araştırmacı David Silver, DL'nin ifade gücü ile RL'nin muhakeme yeteneğini birleştiren DRL'nin yapay zekaya nihai cevap olacağına inandığından "AI = RL + DL" diye bağırdı.
1.1 DRL'nin yeniden üretilebilirlik krizi
Ancak, araştırmacılar son altı ayda DRL üzerinde düşünmeye başladılar. Yayınlanan literatür genellikle önemli parametre ayarlarının ve mühendislik çözümlerinin ayrıntılarını sağlamadığından, birçok algoritmanın yeniden üretilmesi zordur. Eylül 2017'de, tanınmış RL uzmanları Doina Precup ve Joelle Pineau liderliğindeki bir araştırma grubu, çok sayıda makale içeren mevcut DRL alanının sorunlarına ve deneyleri yeniden oluşturmanın zorluğuna doğrudan işaret eden Deep Reinforcement Learning that Matters adlı bir makale yayınladı. Bu makale akademik ve endüstriyel çevrelerde coşkulu tepkiler uyandırdı. Birçok kişi buna katılıyor ve DRL'nin gerçek yetenekleri hakkında güçlü şüpheler var.
Aslında bu, Precup Pineau araştırma grubunun DRL'ye ilk saldırısı değil. 2 ay kadar erken bir zamanda, araştırma grubu DRL algoritmasının yeniden üretilmesini zorlaştıran birden çok faktörü incelemek için yeterli deney kullandı ve araştırma sonuçlarını Sürekli Kontrol için Karşılaştırmalı Derin Güçlendirmeli Öğrenme Görevlerinin Tekrar Üretilebilirliği belgesine yazdı. Aynı yılın Ağustos ayında, ICML 2017'de "Sürekli Kontrol için Politika Değişimi Yöntemlerinin Yeniden Üretilebilirliği" başlıklı bir rapor hazırladılar. Çeşitli belirsizlikler nedeniyle çoklu politika gradyan tabanlı algoritmaları yeniden oluşturma sürecinde bunu örneklerle detaylı olarak gösterdiler. Faktörlerin neden olduğu tekrarlama zorlukları. Aralık ayında, merakla beklenen NIPS 2017 DRL sempozyumunda Joelle Pineau, "DRL ve Ötesinin Yeniden Üretilebilirliği" başlıklı bir rapor vermeye davet edildi. Raporda Pineau ilk olarak bilimsel araştırma alanındaki mevcut "tekrar üretilebilirlik krizini" ortaya koydu: "Nature" dergisi tarafından yapılan bir ankette, görüşmecilerin% 90'ı "tekrarlanabilirlik" sorununun bilimsel araştırma alanında bir kriz olduğuna inanıyordu. Bunların arasında, yanıt verenlerin% 52'si bu sorunun ciddi olduğunu düşünüyordu. Başka bir ankette, farklı alanlardaki araştırmacıların neredeyse yüksek bir yüzdesi başkalarının ve hatta kendilerinin geçmiş deneylerini yeniden üretemedi. "Tekrarlanabilirlik krizinin" ne kadar şiddetli olduğu görülüyor! Pineau'nun makine öğrenimi alanında yaptığı bir ankete göre, araştırmacıların% 90'ı da bu krizin farkında.
Makine öğrenimi alanında ciddi bir "tekrar üretilebilirlik krizi" var
Daha sonra, DRL alanında, Pineau, araştırma grubunun farklı güncel DRL algoritmaları üzerinde çok sayıda tekrarlanabilirlik deneyini gösterdi. Deneysel sonuçlar, farklı DRL algoritmalarının farklı görevler, farklı hiperparametreler ve farklı rastgele tohumlar altında çok farklı etkilere sahip olduğunu göstermektedir. Raporun ikinci yarısında Pineau, akademik topluluğu "tekrarlanabilirlik krizi" sorununa dikkat etmeye çağırdı ve araştırma sonuçlarına dayanarak, algoritmaların "tekrarlanabilirliğini" test etmek için 12 kriter önerdi ve ICLR 2018 düzenlemeye başlama planlarını duyurdu. Teşvik etmeyi amaçlayan "Yeniden Üretilebilirlik Deneyi Mücadelesi" ("Yeniden Üretilebilirlik Krizi", diğer makine öğrenimi alanlarında da ilgi gördü. ICML 2017, Makine Öğreniminde Yeniden Üretilebilirlik Atölyesi'ni düzenledi ve bu yıl ikinci oturumu yapmaya devam edecek) Araştırmacılar, makine öğrenimi alanındaki balonu engellemek için gerçekten sağlam bir çalışma yaptı. Pineau ve Precup araştırma grubu tarafından yapılan bu çalışmalar dizisi büyük ilgi gördü.
Pineau'nun çok sayıda ankete dayanan algoritmaları test etmek için "tekrar üretilebilirlik" kriterleri
1.2 DRL araştırmasında kaç tane tuzak vardır?
Ayrıca Aralık ayında Reddit forumu, makine öğreniminin sağlıksız eğilimleri hakkında canlı bir tartışma başlattı. Birisi, bazı temsili DRL algoritmalarının mükemmel ancak simülatörde performansı yeniden üretmenin zor olmasının nedeninin, yazarların deneydeki simülatörün fiziksel modelini değiştirmekten şüphelenmeleri, ancak kağıtta bundan kaçınmaları olduğunu ismen belirtti. konuşmak.
Mevcut DRL algoritmasına yönelik eleştiriler artmaya devam ediyor. Bir zamanlar Berkeley Yapay Zeka Araştırma Laboratuvarı'nda (BAIR) eğitim gören Alexirpan, 2018 Sevgililer Günü'nde bir blog gönderisini geçti < Derin Pekiştirmeli Öğrenme Henüz Çalışmıyor > DRL çemberine acı bir hediye gönderildi. Makalede, DRL algoritmasının temel sorunlarını deneysel bir bakış açısıyla özetlemek için birden fazla örnek kullandı:
Yazar, makalenin sonunda bir sonraki adımda DRL'nin çözmesi gereken bir dizi sorunu ortaya koymaya çalışsa da, birçok kişi yine de bu makaleyi DRL'nin "ikna" olarak görüyordu. Birkaç gün sonra, GIT'de bir doktora öğrencisi olan Himanshu Sahni bir blog yazısı yayınladı < Takviye Öğrenme hiç işe yaramadı ve deep ' >
Başka bir DRL araştırmacısı Matthew Rahtz, Alexirpan'a bir DRL algoritmasının iniş ve çıkışlarını nasıl yeniden oluşturmaya çalıştığını ve herkesin DRL algoritmasını yeniden oluşturmanın ne kadar zor olduğunu derinden anlamasını sağlayarak yanıt verdi. Altı ay önce, araştırma ilgisinden dolayı Rahtz, İnsan Tercihlerinden Derin Güçlendirme Öğrenimi başlıklı OpenAI makalesini yeniden üretmeyi seçti. Üreme sürecinde, Alexirpan'ın özetlediği neredeyse tüm çukurların üzerine basıldı. Yinelenen DRL algoritmasının bir mühendislik probleminden çok matematiksel bir problem olduğuna inanıyor. "Daha çok bir bulmacayı çözüyormuşsunuz gibi. Uyulması gereken kurallar yok. Tek yol, ilham görünene ve siz onu anlayana kadar denemeye devam etmektir ... Görünüşte önemsiz birçok ayrıntı tek ipucu haline gelir ... Her seferinde birkaç hafta hazırlık yaptım. Rahtz, tekrarlama sürecinde çok sayıda değerli mühendislik deneyimi biriktirdi, ancak tüm sürecin zorluğu hala ona çok para ve zamana mal oldu. Okulun bilgisayar odası kaynakları, Google bulut bilişim motoru ve toplam 850 ABD dolarına mal olan FloydHub dahil olmak üzere farklı bilgi işlem kaynaklarını tamamen seferber etti. Ancak yine de, başlangıçta 3 ayda tamamlanması planlanan proje sonunda 8 ay sürdü ve bunun büyük bir kısmı hata ayıklamaya harcandı.
DRL algoritmasını yeniden üretmek için gereken gerçek süre, tahmini süreden çok daha uzundur
Rahtz sonunda kağıdı yeniden üretme hedefine ulaştı. Okuyuculara yol boyunca çeşitli değerli mühendislik deneyimlerinin ayrıntılı bir özetini vermenin yanı sıra, blog yazısı aynı zamanda herkesin DRL araştırmasında ne kadar büyük bir baloncuğun ve kaç tane çukur bulunduğunu belirli bir örnekten deneyimlemesine olanak tanır. Birisi, "DRL'nin başarısı, gerçekten etkili olduğu için değil, insanların çok çaba harcadığı için olabilir."
Birçok ünlü bilim insanı da tartışmaya katıldı. Hakim görüş, DRL'nin AI alanındaki en büyük baloncuğa sahip olabileceğidir. Makine öğrenimi uzmanı Jacob Andreas anlamlı bir tweet attı:
Jacob Andreas'ın DRL hakkındaki şikayeti
DRL'nin başarısı, makine öğrenimi topluluğunda test seti üzerinde eğitime izin veren tek yöntem olmasına atfedilir.
Pineau ve Precup'ın ilk atışından bu yana geçen bir yıldan fazla bir süre içinde, DRL göz alıcıdan genel olarak bozulmuşa kadar harap oldu. Yazar tam da bu makaleyi göndermeye hazırlanırken, Pineau, ICLR 2018'de DRL'de Yeniden Üretilebilirlik, Yeniden Kullanılabilirlik ve Sağlamlık başlıklı bir rapor hazırlamaya davet edildi ve resmi olarak "Tekrarlanabilir Deney Yarışması" düzenlemeye başladı. Görünüşe göre akademik topluluk DRL'den şikayet etmeye devam edecek ve olumsuz yorumlar mayalanmaya devam edecek. Peki, DRL ile ilgili sorun nerede? Görünüm gerçekten çok kasvetli mi? Derin öğrenme ile birleştirilmezse, RL için çıkış yolu nedir?
Herkes DRL'den şikayet ettiğinde, ünlü optimizasyon uzmanı Ben Recht başka bir açıdan bazı analizler yaptı.
RL algoritmaları, model tabanlı yöntemlere (Model tabanlı) ve modelden bağımsız yöntemlere (Modelden bağımsız) ayrılabilir. İlki, esas olarak optimal kontrol alanından geliştirilmiştir. Genellikle, belirli bir problem için Gauss süreci (GP) veya Bayes ağı (BN) gibi araçlar ve daha sonra makine öğrenimi yöntemleri veya model tahmin kontrolü (MPC), doğrusal ikinci dereceden ayarlama gibi optimum kontrol yöntemleri aracılığıyla bir model oluşturulur. Hesap Makinesi (LQR), Doğrusal Kuadratik Gauss (LQG), Yinelemeli Öğrenme Kontrolü (ICL), vb. İkincisi, makine öğrenimi alanında daha gelişmiştir ve veri odaklı bir yaklaşımdır. Algoritma, çok sayıda örnek aracılığıyla aracının durumunu, eylemin değer işlevini veya ödül işlevini tahmin eder ve böylece eylem stratejisini optimize eder.
Model tabanlı ve modelsiz
Yılın başından bu yana, Ben Recht, kontrol ve optimizasyon açısından RL'de modelsiz yönteme odaklanan 13 blog yazısı yayınladı. Recht, modelsiz yöntemin kendisinin aşağıdaki büyük kusurlara sahip olduğuna dikkat çekti:
Modelden bağımsız yöntem, geri bildirim sinyali olmayan örneklerden öğrenemez ve geri bildirimin kendisi seyrektir, bu nedenle modelden bağımsız yönün örnek kullanım oranı çok düşükken, veri odaklı yöntem çok fazla örnekleme gerektirir. Örneğin Atari platformunda yer alan "Space Invader" ve "Seaquest" oyunlarında, eğitim verisi arttıkça temsilcinin aldığı puan artacaktır. Modelden bağımsız DRL yöntemini kullanmak, daha iyi sonuçlar öğrenmek için 200 milyon çerçeve gerektirebilir. Nature'da piyasaya sürülen en eski AlphaGo sürümü ayrıca eğitim için 30 milyon disk gerektirir. Bununla birlikte, mekanik kontrol ile ilgili sorunlar söz konusu olduğunda, eğitim verilerinin elde edilmesi video görüntüleri kadar kolay değildir, bu nedenle eğitim yalnızca simülatörde gerçekleştirilebilir. Simülatör ile gerçek dünya arasındaki Gerçeklik Uçurumu, ondan eğitilen algoritmanın genelleme performansını doğrudan sınırlar. Ek olarak, veri kıtlığı da DL teknolojisi ile kombinasyonunu etkiler.
Modelden bağımsız yöntem, belirli sorunları modellemez, ancak tüm sorunları genel bir algoritma ile çözmeye çalışır. Model tabanlı yaklaşım, belirli bir problem için bir model oluşturarak, problemin içsel bilgilerinden tam olarak yararlanır. Modelden bağımsız yöntem, çok yönlülüğün peşinden giderken bu değerli bilgileri terk eder.
Yukarıdaki bakış açısını doğrulamak için Recht, basit bir LQR tabanlı rastgele arama yöntemini MuJoCo deney ortamında en iyi modelsiz yöntemle karşılaştırdı. Benzer örnekleme oranları durumunda, model tabanlı rastgele arama algoritmasının hesaplama verimliliği, model içermeyen yönteme göre en az 15 kat daha yüksektir.
Model tabanlı rastgele arama yöntemi ARS, kalabalık olmayan bir yöntem sunar
Recht'ın analizi sayesinde, DRL sorununun temel nedenini bulduk. Son üç yılda makine öğrenimi alanında popüler olan DRL algoritmaları çoğunlukla modelsiz yöntemi DL ile birleştiriyor ve modelsiz algoritmanın doğal kusurları, Alexirpan tarafından özetlenen büyük DRL problemlerine karşılık geliyor (yukarıya bakınız).
Görünüşe göre DRL'nin temel nedeni çoğunlukla modelsiz yöntemlerin kullanılmasıdır. Çoğu DRL neden modelden bağımsız yöntemlere dayanıyor? Yazar, bunun birkaç nedeni olduğunu düşünüyor. İlk olarak, model içermeyen yöntem, zengin açık kaynak uygulamaları ile nispeten basit ve sezgiseldir ve başlaması daha kolaydır, bu da araştırma yapmak için daha fazla akademisyeni çeker ve DQN ve AlphaGo serileri gibi çığır açan işler yapma olasılığı daha yüksektir. İkincisi, RL'nin şu anki gelişimi henüz başlangıç aşamasındadır. Akademik araştırmanın odak noktası, ortamın belirli ve statik olmasıdır. Durum esas olarak ayrık, statik ve tamamen gözlemlenebilirdir. Geri bildirim de kesin bir sorundur (Atari oyunları gibi). ) üzerinde. Bu nispeten "basit", temel ve genel problem için modelden bağımsız yöntemin kendisi çok uygundur. Son olarak, "AI = RL + DL" görüşünden esinlenen akademik topluluk, DRL'nin yeteneklerini abarttı. DQN'nin gösterdiği heyecan verici yetenekler, birçok insanı DQN etrafında genişlemeye ve yine modelsiz bir dizi çalışma yaratmaya yönlendirdi.
Çoğu DRL yöntemi, DQN'nin uzantılarıdır ve modelsiz yöntemlerdir
Öyleyse, DRL modelsiz yaklaşımı terk etmeli ve model tabanlı yaklaşımı benimsemeli mi?
3.1 Model tabanlı yaklaşımın gelecekte büyük bir potansiyeli var
Model tabanlı yöntemler genellikle modelleri önce verilerden öğrenir ve ardından öğrenilen modellere göre stratejileri optimize eder. Öğrenme modeli süreci, sibernetikteki sistem parametresi tanımlamaya benzer. Modelin varlığından dolayı, modele dayalı yöntem, modele yaklaşmak için her bir numuneden tam olarak faydalanabilir ve veri kullanım oranı büyük ölçüde iyileştirilir. Bazı kontrol problemlerinde, modele dayalı yöntemler, modelden bağımsız yöntemlere kıyasla, örnekleme oranında genellikle 10 ^ 2 düzeyinde bir artışa sahiptir. Ek olarak, öğrenilen model genellikle ortamdaki değişikliklere karşı dayanıklıdır.Yeni bir ortamla karşılaşıldığında, algoritma akıl yürütme için öğrenilen modele güvenebilir ve iyi bir genelleme performansına sahiptir.
Model tabanlı yöntemler daha yüksek örnekleme oranlarına sahiptir
Ek olarak, model tabanlı yöntemler, büyük potansiyele sahip tahmine dayalı öğrenme ile yakından ilgilidir. Model kurulduğundan, gelecek, Tahmine Dayalı Öğrenmenin ihtiyaçları ile örtüşen modelin kendisi tarafından tahmin edilebilir. Aslında Yann LeCun, çokça izlenen NIPS 2016 tema raporunda Tahmine Dayalı Öğrenmeyi tanıttığında, model tabanlı yaklaşımı da örnek aldı. Yazar, model tabanlı RL yönteminin Tahmine Dayalı Öğrenmeyi uygulamak için önemli teknolojilerden biri olabileceğine inanmaktadır.
Bu şekilde, model tabanlı yaklaşım daha umut verici görünüyor. Ancak dünyada bedava öğle yemeği yok ve modellerin varlığı bazı sorunları da beraberinde getiriyor
3.2 Modelden bağımsız yöntem hala ilk tercihtir
Model tabanlı DRL yöntemi göreceli olarak o kadar basit ve sezgisel değildir ve RL ve DL kombinasyonu nispeten daha karmaşıktır ve tasarlanması daha zordur. Şu anda, model tabanlı DRL yöntemleri, 2016'da David Silver tarafından önerilen Predictron modeli gibi modeller oluşturmak için genellikle Gauss süreçlerini, Bayes ağlarını veya Olasılıksal Sinir Ağlarını (PNN) kullanır. Olasılıksal Çıkarsama için Öğrenme Kontrolü (PILCO) gibi diğer çalışmalar, sinir ağlarının kendilerine dayanmaz, ancak BN ile birleştirilmiş genişletilmiş sürümlere sahiptir. Kılavuzlu Politika Arama (GPS), optimum denetleyicinin optimizasyonunda bir sinir ağı kullanmasına rağmen, model sinir ağına dayanmaz. Ek olarak, bazı modeller sinir ağını modelle birleştirir. Bu görevler, modelsiz DRL yöntemi kadar sezgisel ve doğal değildir ve DL'nin rolü de farklıdır.
Ek olarak, model tabanlı yaklaşımın birkaç dezavantajı da vardır:
Yukarıdaki noktalar ışığında, modelsiz yöntemin göreceli avantajları vardır: gerçekte modellenemeyen ve taklit edilemeyen birçok problem için, modelsiz algoritma hala en iyi seçimdir. Ek olarak, modelden bağımsız yöntemin teoride asimptotik yakınsaması vardır ve çevre ile sayısız etkileşimden sonra optimal çözümü garanti edebilir.Bu, model tabanlı yöntemlerle elde edilmesi zor bir sonuçtur.
Son olarak, modelsizin en büyük avantajı, çok iyi bir çok yönlülüğe sahip olmasıdır. Aslında, gerçekten zor sorunlarla uğraşırken, modelsiz yaklaşım genellikle daha iyi sonuç verir. Recht ayrıca blog gönderisinde, kontrol alanındaki etkili MPC algoritmasının aslında Q-Learning gibi modelden bağımsız yöntemlerle çok ilişkili olduğuna dikkat çekti.
Model tabanlı yöntemler ile modelden bağımsız yöntemler arasındaki fark aslında bilgiye dayalı yöntemler ve istatistiksel yöntemler arasındaki fark olarak görülebilir. Genel olarak, iki yöntemin kendine has değerleri vardır ve bir yöntemin diğerinden daha iyi olduğunu söylemek zordur. RL alanında, modelden bağımsız algoritmalar yalnızca küçük bir kısmı hesaba katar, ancak tarihsel nedenlerden dolayı, mevcut modelden bağımsız DRL yöntemleri hızla ve çok sayıda gelişirken, model tabanlı DRL yöntemleri nispeten azdır. Yazar, mevcut DRL sorunlarının çoğunun üstesinden gelmek için daha fazla model tabanlı DRL çalışması yapmayı düşünebileceğimize inanıyor. Ek olarak, her iki yöntemin avantajlarına sahip olan model yöntemlere ve modelsiz yöntemlere dayalı daha fazla yarı model yöntemi de inceleyebilirsiniz. Bu alandaki klasik çalışma, RL ustası Rich Sutton tarafından önerilen Dyna çerçevesini ve öğrencisi David Silver tarafından önerilen Dyna-2 çerçevesini içerir.
Yukarıdaki tartışma aracılığıyla, DRL'nin mevcut ikileminden bir çıkış yolu bulmuş görünüyoruz. Ama aslında, mevcut DRL ikileminin nedenleri bunlardan çok daha fazlası.
3.3 Bu sadece bir model sorunu değil
Yukarıda belirtildiği gibi, Recht modelsiz yöntemi ölüme mahkum etmiş gibi görünen modelsiz yöntemi cezalandırmak için rastgele arama tabanlı bir yöntem kullandı. Ancak bu karşılaştırma adil değil.
Mart 2017'de, makine öğrenimi uzmanı Sham Kakade'nin araştırma grubu, sürekli kontrol sorunlarına basit ve genel çözümler bulmaya çalışan Sürekli Kontrolde Genelleştirme ve Basitliğe Doğru bir makale yayınladı. Mevcut simülatörün çok büyük bir sorunu olduğunu buldular. Hata ayıklamadan sonraki doğrusal strateji zaten çok iyi sonuçlar elde edebilir - böyle bir simülatör çok kaba, rastgele aramaya dayalı yöntemin aynı simülatördeki bağışıklık sistemini yenmesine şaşmamalı. Model yöntemi!
RL alanındaki mevcut deneysel platformun hala çok olgunlaşmamış olduğu ve böyle bir test ortamındaki deneysel sonuçların yeterince ikna edici olmadığı görülebilir. Pek çok araştırma sonucu inandırıcı olmayabilir, çünkü iyi performans sadece simülatör hatalarının kullanımından kaynaklanıyor olabilir. Ek olarak, bazı bilim adamları mevcut RL algoritması performans değerlendirme kriterlerinin bilimsel olmadığına dikkat çekti. Hem Ben Recht hem de Sham Kakade, test ortamı, kıyaslama algoritması, ölçüm standartları vb. Dahil olmak üzere RL'nin geliştirilmesi için bir dizi özel öneri ortaya koydu. RL alanında hala iyileştirilmesi ve standardize edilmesi gereken çok şey olduğu görülebilir.
Öyleyse, RL bundan sonra nasıl geçmeli?
DRL ve modelsiz RL ile ilgili sorular ve tartışmalar, RL'nin gelecekteki gelişimi için büyük fayda sağlayan RL'yi yeniden incelememize olanak tanır.
4.1 DRL'nin araştırmasını ve uygulamasını yeniden inceleyin
DQN ve AlphaGo serileri etkileyici, ancak bu iki görev aslında doğası gereği görece "basit". Bu görevlerin ortamı belirleyici ve statik olduğundan, durum esas olarak ayrık, statik ve tamamen gözlemlenebilir, geri bildirim kesindir ve aracı bekardır. Şu anda DRL, bazı görünür durum görevlerini (StarCraft gibi), sürekli durum görevlerini (mekanik kontrol görevleri gibi), dinamik geri bildirim görevlerini ve çoklu aracı görevlerini çözmede şaşırtıcı atılımlar yapmadı.
DRL başarısının görevi doğası gereği nispeten basittir
Şu anda, çok sayıda DRL araştırması, özellikle bilgisayarla görme görevleri alanında uygulananlar, belirli bir DL tabanlı bilgisayar görüşü görevini çözülmesi için RL problemlerine zorlamıştır ve sonuçlar genellikle geleneksel yöntemler kadar iyi değildir. Bu araştırma yöntemi, DRL alanındaki makale sayısında bir artışa ve büyük miktarda suya neden oldu. Bir DRL araştırmacısı olarak, onu RL'ye zorlayacak bir DL görevi bulmamalıyız. Bunun yerine, RL işleme için doğal olarak uygun olan bazı görevler için hedef tanıma bağlantısındaki veya işlev yaklaştırma bağlantısındaki mevcut yöntemleri iyileştirmek için DL'yi tanıtmaya çalışmalıyız. kabiliyet.
Bilgisayarla görme görevlerinde, DL'yi birleştirerek iyi özellik ifadesi veya işlev yaklaşımı elde etmek çok doğal bir fikirdir. Ancak bazı alanlarda DL, güçlü bir özellik çıkarma rolü oynayamayabilir veya işlev yaklaşımı için kullanılamaz. Örneğin, DL şu ana kadar robotik alanında en algısal rol oynamıştır ve mekanik analize dayalı yöntemlerin yerini alamaz. DRL'nin QT-Opt gibi nesne kavrama gibi gerçek dünyadaki mekanik kontrol görevlerine uygulandığı bazı başarılı durumlar olsa da, genellikle çok fazla hata ayıklama ve eğitim süresi gerektirir. DRL algoritmasının uygulama özelliklerini açıkça anlamalıyız: çıktısının rastgeleliği nedeniyle, mevcut DRL algoritması gerçek ortamdan ziyade simülatörde daha fazla kullanılmaktadır. Şu anda, pratik değeri olan ve yalnızca simülatörde çalıştırılması gereken üç ana görev türü vardır: video oyunları, masa oyunları ve otomatik makine öğrenimi (Google'ın AutoML Vision gibi AutoML).
Bu, DRL uygulamasının simülatörde sıkışıp kaldığı anlamına gelmez - belirli bir problem için simülatör ile gerçek dünya arasındaki farkı çözebilirseniz, DRL'nin gücünü kullanabilirsiniz. Son zamanlarda, Google araştırmacıları simülatörü güçlü bir şekilde geliştirerek dört ayaklı robotların hareket problemine odaklandılar, böylece simülatörde eğitilen spor stratejileri gerçek dünyaya mükemmel bir şekilde aktarılabilir ve inanılmaz sonuçlar elde edildi. Bununla birlikte, RL algoritmasının kararsızlığını göz önünde bulundurarak, pratik uygulamalarda körü körüne uçtan uca bir çözüm peşinde koşmamalısınız. Bunun yerine, daha iyi yorumlanabilirlik ve kararlılık elde etmek için özellik çıkarma (DL) ile karar verme (RL) arasında ayrım yapmayı düşünebilirsiniz. Seks. Ek olarak, modüler RL (RL algoritmasını bir modülde kapsülleyen) ve RL'nin diğer modellerle füzyonu, pratik uygulamalarda geniş beklentilere sahip olacaktır. RL modülüne giriş için uygun bir temsili öğrenmek için DL'nin nasıl kullanılacağı da çalışmaya değer.
4.2 RL araştırmasının yeniden incelenmesi
Makine öğrenimi, disiplinler arası bir araştırma alanıdır ve HBS, disiplinler arası doğası çok önemli olan bir dalıdır. RL teorisinin gelişimi fizyoloji, sinirbilim ve optimal kontrol alanlarından esinlenmiştir ve birçok ilgili alanda halen çalışılmaktadır. Kontrol teorisi, robotik, yöneylem araştırması, ekonomi vb. Alanlarda hala RL araştırmalarına adanmış birçok bilim insanı vardır.Aynı kavramlar veya algoritmalar genellikle farklı alanlarda yeniden keşfedilir ve farklı isimler verilir.
RL'nin gelişimi birden fazla disiplinden etkilenir
Princeton Üniversitesi'nde tanınmış bir operasyon araştırma uzmanı olan Warren Powell, bir keresinde AI, OR ve Control Theory: A Rosetta Stone for Stochastic Optimization başlıklı bir makale yazdı, aynı kavramı ve algoritmayı YZ, OR (Operasyonel Araştırma) ve RL'de sıraladı. Kontrol Teorisindeki karşılık gelen isimler, farklı alanlar arasındaki boşluğu doldurur. Çeşitli disiplinlerin ilgili özelliklerinden dolayı, farklı alanlarda RL araştırması benzersiz özelliklere sahiptir ve bu da RL araştırmasının farklı alanlardaki fikirlerin özünden tam olarak öğrenmesini sağlar.
Burada, kendi RL anlayışıma dayanarak, çalışmaya değer bazı yönleri özetlemeye çalışıyorum:
4.3 RL uygulamasını yeniden ziyaret edin
Şu anki görüş, "RL sadece oyun ve satranç oynayabilir ve diğer her şeyi yapabilir" şeklindedir. Bence, HBS konusunda fazla karamsar olmamalıyız. Aslında, video oyunlarında ve masa oyunlarında insanları geçebilmek, RL muhakemesinin gücünü kanıtladı. Makul bir iyileştirmeden sonra, yaygın olarak kullanılacağı umulmaktadır. Genellikle araştırmadan uygulamaya dönüşüm sezgisel değildir. Örneğin, IBM Watson® sistemi, doğal dili anlama ve ona yanıt verme becerisiyle dünyaca ünlüdür. 2011'de insan oyuncuları yendi ve Jeopardy! Şampiyonasını kazandı. Bunun arkasındaki destekleyici teknolojilerden biri, Gerald Tesauro'nun TD-Gammon programını geliştirdiği sırada kullanılan RL teknolojisi olduğu ortaya çıktı. Satranç için "sadece kullanılabilen" teknoloji, en iyi soru cevap sisteminde vazgeçilmez bir rol oynamıştır. Bugünün RL gelişme seviyesi yılın çok üstünde, kendimize nasıl güvenemeyiz?
RL, güçlü IBM Watson®'un arkasında merkezi bir rol oynar
İnceleme yoluyla, RL algoritmasının çeşitli alanlarda yaygın olarak kullanıldığını görebiliriz:
RL
RL RL DL RL RL CMAES DRL RL All in RL, RL in All, RL
RL
4.4 RL
NIPS 2016 Yan LeCun Predictive Learning Ben Recht RL Supervised Learning, SLUnsupervised Learning, ULULSLRL
GAN
RL
RL RL
RL RL RL
5.1 RL
1950 Computing Machinery and Intelligence C B AC A B A
RL
1959 Arthur Samuel Samuel 50 RL RL RL RL Reinforcement Learning might be considered to encompass all of AI: an agent is placed in an environment and must learn to behave successfully therein.
Enactivism
DL RL DRLRL Memory RL DL RL RL RL , RL DRL DL RL DRL RL
5.2 RL
Recht RL A/B RL RL RL Recht RL
5.3 RL
4.2 RL
SL RL Albert Bandura IL Melanie Klein RL RL Behaviorism John Broadus Watson RL RL RL RL
Cone of Experience RL SL
RL RL RL RL RL
RL DRL RL
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.
Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.
Silver, David, et al. "Mastering the game of go without human knowledge." Nature 550.7676 (2017): 354.
Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." arXiv preprint arXiv:1504.00702, 2015.
Mao, Hongzi, et al. "Resource management with deep reinforcement learning." Proceedings of the 15th ACM Workshop on Hot Topics in Networks. ACM, 2016.
deepmind.com/blog/deepm
Jaques, Natasha, et al. "Tuning recurrent neural networks with reinforcementlearning." (2017).
Henderson, Peter, et al. "Deep reinforcement learning that matters." arXivpreprint arXiv:1709.06560 (2017).
Islam, Riashat, et al. "Reproducibility of benchmarked deep reinforcementlearning tasks for continuous control." arXiv preprint arXiv:1708.04133 (2017).
riashatislam.files.wordpress.com
sites.google.com/view/d
reddit.com/r/MachineLea
alexirpan.com/2018/02/1
himanshusahni.github.io
amid.fish/reproducing-d
rodeo.ai/2018/05/06/rep
Dayan, Peter, and Yael Niv. "Reinforcement learning: the good, the bad and the ugly." Current opinion in neurobiology 18.2 (2008): 185-196.
argmin.net/2018/05/11/o
Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).
Justesen, Niels, et al. "Deep Learning for Video Game Playing." arXiv preprint arXiv:1708.07902 (2017).
youtube.com/watch?
sites.google.com/view/i
Silver, David, et al. "The predictron: End-to-end learning and planning." arXiv preprint arXiv:1612.08810 (2016).
Deisenroth, Marc, and Carl E. Rasmussen. "PILCO: A model-based and data-efficient approach to policy search." Proceedings of the 28th International Conference on machine learning (ICML-11). 2011.
Levine, Sergey, and Vladlen Koltun. "Guided policy search." International Conference on Machine Learning. 2013.
Weber, Théophane, et al. "Imagination-augmented agents for deep reinforcement learning." arXiv preprint arXiv:1707.06203 (2017).
Sutton, Richard S. "Dyna, an integrated architecture for learning, planning, and reacting." ACM SIGART Bulletin 2.4 (1991): 160-163.
Silver, David, Richard S. Sutton, and Martin Müller. "Sample-based learning and search with permanent and transient memories." Proceedings of the 25th international conference on Machine learning. ACM, 2008.
Rajeswaran, Aravind, et al. "Towards generalization and simplicity in continuous control." Advances in Neural Information Processing Systems. 2017.
andreykurenkov.com/writ
UCL Course on RL: www0.cs.ucl.ac.uk/staff
Powell, Warren B. "AI, OR and control theory: A rosetta stone for stochastic optimization." Princeton University (2012).
Pomerleau, Dean A. "Alvinn: An autonomous land vehicle in a neural network." Advances in neural information processing systems. 1989.
Abbeel, Pieter, and Andrew Y. Ng. "Apprenticeship learning via inverse reinforcement learning." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
Osa, Takayuki, et al. "An algorithmic perspective on imitation learning." Foundations and Trends® in Robotics 7.1-2 (2018): 1-179.
fermatslibrary.com/arxi url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf
Ho, Jonathan, and Stefano Ermon. "Generative adversarial imitation learning." Advances in Neural Information Processing Systems. 2016.
github.com/carla-simula
36kr.com/p/5129474.html
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).
Ranzato, Marc'Aurelio, et al. "Sequence level training with recurrent neural networks." arXiv preprint arXiv:1511.06732 (2015).
Bahdanau, Dzmitry, et al. "An actor-critic algorithm for sequence prediction." arXiv preprint arXiv:1607.07086 (2016).
Keneshloo, Yaser, et al. "Deep Reinforcement Learning For Sequence to Sequence Models." arXiv preprint arXiv:1805.09461 (2018).
Watters, Nicholas, et al. "Visual interaction networks." arXiv preprint arXiv:1706.01433 (2017).
Hamrick, Jessica B., et al. "Relational inductive bias for physical construction in humans and machines." arXiv preprint arXiv:1806.01203 (2018).
Zambaldi, Vinicius, et al. "Relational Deep Reinforcement Learning." arXiv preprint arXiv:1806.01830 (2018).
Santoro, Adam, et al. "Relational recurrent neural networks." arXiv preprint arXiv:1806.01822 (2018).
Battaglia, Peter W., et al. "Relational inductive biases, deep learning, and graph networks." arXiv preprint arXiv:1806.01261 (2018).
Eslami, SM Ali, et al. "Neural scene representation and rendering." Science 360.6394 (2018): 1204-1210.
Huang, Sandy, et al. "Adversarial attacks on neural network policies." arXiv preprint arXiv:1702.02284 (2017).
Behzadan, Vahid, and Arslan Munir. "Vulnerability of deep reinforcement learning to policy induction attacks." International Conference on Machine Learning and Data Mining in Pattern Recognition. Springer, Cham, 2017.
Tesauro, Gerald. "Temporal difference learning and TD-Gammon." Communications of the ACM 38.3 (1995): 58-68.
Jones, Rebecca M., et al. "Behavioral and neural properties of social reinforcement learning."Journal of Neuroscience 31.37 (2011): 13039-13045.
github.com/YBIGTA/DeepN
Lewis, Mike, et al. "Deal or no deal? end-to-end learning for negotiation dialogues." arXiv preprint arXiv:1706.05125 (2017).
microsoft.com/zh-cn/tra
Derhami, Vali, et al. "Applying reinforcement learning for web pages ranking algorithms." Applied Soft Computing 13.4 (2013): 1686-1692.
Wu, Jiawei, Lei Li, and William Yang Wang. "Reinforced Co-Training." arXiv preprint arXiv:1804.06035 (2018).
Li, Yuxi. "Deep reinforcement learning: An overview." arXiv preprint arXiv:1701.07274 (2017).
Feinberg, Eugene A., and Adam Shwartz, eds. Handbook of Markov decision processes: methods and applications. Vol. 40. Springer Science and Business Media, 2012.
en.wikipedia.org/wiki/C
Turing, Alan M. "Computing machinery and intelligence." Parsing the Turing Test. Springer, Dordrecht, 2009. 23-65.
en.wikipedia.org/wiki/A
Russell, Stuart J., and Peter Norvig. Artificial intelligence: a modern approach. Malaysia; Pearson Education Limited,, 2016.
Noë, Alva. Action in perception. MIT press, 2004.
Garnelo, Marta, Kai Arulkumaran, and Murray Shanahan. "Towards deep symbolic reinforcement learning." arXiv preprint arXiv:1609.05518 (2016).
argmin.net/2018/04/16/e
Bojarski, Mariusz, et al. "End to end learning for self-driving cars." arXiv preprint arXiv:1604.07316 (2016).
Recht, Benjamin . "A Tour of Reinforcement Learning:The View from Continuous Control." arXiv preprint arXiv: 1806.09460
Kalashnikov, Dmitry, et al. "QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation." arXiv preprint arXiv:1806.10293 (2018).
Tan, Jie, et al. "Sim-to-Real: Learning Agile Locomotion For Quadruped Robots." arXiv preprint arXiv:1804.10332 (2018).
Auer, Peter. "Using confidence bounds for exploitation-exploration trade-offs." Journal of Machine Learning Research 3.Nov (2002): 397-422.
Agrawal, Shipra, and Navin Goyal. "Thompson sampling for contextual bandits with linear payoffs." International Conference on Machine Learning. 2013.
Mohamed, Shakir, and Danilo Jimenez Rezende. "Variational information maximisation for intrinsically motivated reinforcement learning." Advances in neuralinformation processing systems. 2015.
Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." International Conference on Machine Learning (ICML). Vol. 2017. 2017.
Tang, Haoran, et al. "# Exploration: A study of count-based exploration for deep reinforcement learning." Advances in Neural Information Processing Systems. 2017.
McFarlane, Roger. "A Survey of Exploration Strategies in Reinforcement Learning." McGill University, www. cs. mcgill. ca/ cs526/roger. pdf, accessed: April (2018).
Plappert, Matthias, et al. "Parameter space noise for exploration." arXiv preprint arXiv:1706.01905 (2017).
Fortunato, Meire, et al. "Noisy networks for exploration." arXiv preprint arXiv:1706.10295 (2017).
Kansky, Ken, et al. "Schema networks: Zero-shot transfer with a generative causal model of intuitive physics." arXiv preprint arXiv:1706.04317 (2017).
Li, Da, et al. "Learning to generalize: Meta-learning for domain generalization." arXiv preprint arXiv:1710.03463 (2017).
berkeleyautomation.github.io
contest.openai.com/2018
Editör: Yu Tengkai
Redaksiyon: Lin Yilin
-Bitiş-
Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.