Kaynaklar | "Derin Pekiştirmeli Öğrenme" el yazması artık açık!

Kaynak: Heart of the Machine

Bu makale hakkında 2500 Word, önerilen okuma 5 dakika.

Bu makale size Derin Pekiştirmeli Öğrenmedeki ilerlemeye genel bir bakış sunar.

Bir yıl önce, Kanada Alberta Üniversitesi Bilgisayar Bilimleri Bölümü'nden Yuxi Li tarafından derin pekiştirmeli öğrenmedeki tatmin edici ilerlemeyi özetleyen (Derin Güçlendirmeli Öğrenme) derin pekiştirmeli öğrenme üzerine bir inceleme makalesi yayınladık. Ve bu yeni başlatılan "Derin Pekiştirmeli Öğrenme" el yazması, "Derin Takviye Öğrenme İncelemesi" nin önceki sürümünde büyük ölçekli bir iyileştirme yaptı; bir yıldan fazla bir süre önce 70 sayfadan şimdi 150 sayfaya genişledi. Bu makale bu makaleyi tanıtır.

"Derin Güçlendirmeli Öğrenme", yeni başlayanların derin pekiştirmeli öğrenmeyi anlamalarına yardımcı olmayı ve ayrıca profesörler, araştırmacılar, öğrenciler, mühendisler, yöneticiler, yatırımcılar ve diğer okuyucular için derin bir pekiştirmeli öğrenme referans materyali sağlamayı umuyor.

Derin pekiştirmeli öğrenmenin genel yönünü tanımlarken birçok teknik detayı dikkate almıştır. Son gelişmeleri tarihsel bağlamda tartışır. Aşağıdaki üç soruyu yanıtlamak için çok çalıştı:

  • Neden derin öğrenmeyi kullanmalı?
  • En modern gelişmeler neler?
  • Sorunlar ve çözümleri nelerdir? Yazıda kaçınılmaz eksiklikler ve hatta hatalar var Değerli öneri ve yorumları içtenlikle bekliyoruz.

Bu blog pek çok derin takviye öğrenme materyali topladı:

https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.

"Derin Takviyeli Öğrenme" altı temel unsuru ele alır: Değer işlevi (değer işlevi), strateji (politika), ödül (ödül), model (model), keşif ve sömürü (keşfetmeye karşı sömürü) ve temsil (temsil);

Altı önemli mekanizma: Dikkat ve hafıza, denetimsiz öğrenme, hiyerarşik RL, çok aracılı RL, ilişkisel RL ve meta öğrenme (öğrenmeyi öğrenmek);

Ve on iki uygulama senaryosu (uygulama): Oyunlar (oyunlar), robotik (robotik), doğal dil işleme (NLP), bilgisayarla görme (bilgisayarla görme), finans (finans), işletme yönetimi (işletme yönetimi), tıp (sağlık), eğitim (eğitim) , Enerji, ulaşım, bilgisayar sistemleri ve bilim, mühendislik ve sanat.

Derin takviyeli öğrenme, yakın zamanda dünyaca ünlü sonuçlara ulaştı. Örneğin, Atari oyunlarına uygulanan DQN algoritması, bu derin güçlendirme öğrenme dalgası için net bir çağrı yaptı; Computer Go (AlphaGo / AlphaGo Zero) ve Texas Hold'em (DeepStack) 'de yapay zeka kilometre taşlarına ulaştı. Kazanım. DQN, A3C, TRPO, PPO, DDPG, Trust-PCL, GPS, UNREAL gibi derin pekiştirmeli öğrenme için birçok yeni algoritma geliştirilmiştir.

Derin pekiştirmeli öğrenme de birçok geniş yönde uygulanmıştır, Örneğin, Bayrağı Yakala, Dota 2, StarCraft II, robotik, animasyonlu karakter simülasyonu, akıllı diyalog, nöron ağ yapısı tasarımı, makine öğrenimi otomasyonu, veri merkezi soğutma sistemi, Öneri sistemi, veri genişletme, model sıkıştırma, kombinatoryal optimizasyon, program sentezi, teorem kanıtlama, tıbbi görüntüleme, müzik sentezi, kimyasal ters sentez vb.

Bu blog pek çok takviye öğrenme uygulama senaryosunu toplar:

https://medium.com/@yuxili/rl-applications-73ef685c07eb

Pekiştirmeli öğrenme ne zaman yardımcı olur? Cevap şudur: Eğer bir problem tanımlanabiliyorsa veya sıralı bir karar verme problemine dönüştürülebiliyorsa, durumu, eylemi ve muhtemelen pekiştirmeli öğrenme için gereken ödülleri inşa edebilir. ne zaman. Bazen bir sorun pekiştirmeli öğrenme ile çözülebilir, ancak sorun yüzeydeki pekiştirmeli öğrenme problemi gibi görünmeyebilir. Genel anlamda, bir problem insanlar tarafından tasarlanmış belirli "stratejiler" içeriyorsa, pekiştirmeli öğrenme bu stratejileri otomatikleştirmek ve optimize etmek için bir rol oynayabilir. Yaratıcılık, temel unsurlar, önemli mekanizmalar ve uygulama senaryoları açısından derin pekiştirmeli öğrenmenin gelişimini daha da teşvik edecektir.

Derin takviye öğrenimi birçok etkileyici sonuç elde etmesine rağmen, aynı zamanda acilen çözülmesi gereken birçok sorunu da var. Kredi tahsisi (kredi tahsisi), seyrek ödül (seyrek ödül), örnekleme verimliliği (numune verimliliği), istikrarsızlık (istikrarsızlık), sapma (sapma), yorumlanabilirlik (yorumlanabilirlik), güvenlik (güvenlik), Bekleyin; yeniden üretilebilirlik bile hala bir sorun.

"Derin Pekiştirmeli Öğrenme", aynı zamanda zorluklar ve fırsatlar olarak altı araştırma yönü önerir. Dopamin, TStarBots, derin RL için denetimsiz video nesnesi segmentasyonu, üretken sorgu ağı, sinirsel-sembolik öğrenme, evrensel planlama ağları, nedensel InfoGAN, meta gradyan RL gibi bu yönlerde bazı ilerlemeler kaydedildiğinden bahsedilmelidir. , ve daha fazlası. (Bu gelişmelerin referans materyalleri için lütfen orijinal İngilizce versiyona bakın, makalenin sonuna bakın.) Bu yönlerdeki gelişmeler, pekiştirmeli öğrenmenin ve hatta yapay zekanın gelişimini büyük ölçüde destekleyecektir.

  • Derin pekiştirmeli öğrenme algoritmalarını sistematik olarak karşılaştırın
  • Çok aracılı sorunu "çözmek"
  • Yalnızca ham verilere dayalı öğrenme değil, varlıklara dayalı öğrenme
  • Pekiştirmeli öğrenme için en iyi temsil formunu tasarlayın
  • Otomatik Takviyeli Öğrenme (AutoRL)
  • Takviye öğrenme için harika bir uygulama geliştirdi
  • Güçlendirmeli öğrenmenin yapay zeka ile derinlemesine entegre edilebileceği, tasarım çalışmasını orijinal girdiden karar vermeye kadar tamamlamak için uçtan uca öğrenme yöntemine daha fazla zeka ekleyebileceği, bilgi ekleyebileceği, sağduyu katabileceği ve daha verimli hale getirebileceği umulmaktadır. Önceki derin öğrenme gibi bir kara kutuda öğrenmek yerine, bariz hatalardan kaçınırken daha anlaşılır bir şekilde öğrenin.

    Derin öğrenme ve pekiştirmeli öğrenme, 2013 ve 2017'de MIT Technology Review tarafından on çığır açan teknolojiden biri olarak seçildi; Güçlü yapay zeka yolunda önemli bir rol oynayacaklar. David Silver bir hipotez ortaya attı: yapay zeka = pekiştirmeli öğrenme + derin öğrenme. Hem derin öğrenme hem de pekiştirmeli öğrenme daha da gelişecek. Derin öğrenme patlayıcı bir gelişme yaşıyor. Ve şimdi yoğun öğrenim pazarını geliştirmek, eğitmek ve yönetmek için harika bir zaman.

    Derin öğrenme, bu üçüncü yapay zeka dalgasının güçlü gelişiminde gittikçe daha geniş kapsamlı bir etki yaratacak; ayrıca derin öğrenmenin birçok başarısındaki rolünü de gördük. Takviyeli öğrenme, daha genel bir öğrenme ve karar verme modeli sağlar; derin öğrenmenin, makine öğreniminin ve hatta yapay zekanın daha da geliştirilmesi üzerinde derin bir etkiye sahip olacaktır.

    Pekiştirmeli öğrenme çağı yakında geliyor. Hazırlanalım!

    Bu makalenin İngilizce sürümüne hoş geldiniz, Derin Güçlendirmeli Öğrenmeye Giriş, https://medium.com/@yuxili/deeprl-6c8c48b6489b; çok sayıda köprü içerir. "Derin Pekiştirmeli Öğrenme", Derin Pekiştirmeli Öğrenme, arXiv adresini indirip okumaya hoş geldiniz: https://arxiv.org/abs/1810.06339

    Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

    Python'da bir nesne algılama sistemi oluşturmayı öğretin (kod ve öğrenme materyalleri ile)
    önceki
    Özel | Üst düzey özellikler oluşturmak için büyük ölçekli denetimsiz veriler nasıl kullanılır?
    Sonraki
    İtalya Shenzhou Uluslararası Kayak Okulu, tanınmış kuzey kayak merkezleriyle bağlantılı olarak kayak eğitimi etkinlikleri düzenledi.
    Wang Dalei çok güçlü! Geçen yıl, Tianjin'deki asistler kesinlikle düzdü ve şimdi aynı rakiplerle karşı karşıya geliyorlar ve sonra onları gönderiyorlar!
    Bu büyük İtalyan markası Çin'e hakaret mi ediyor? "Yemek çubuklarıyla kalkmama" izin verdin, "kalkıp sikilmene" izin veriyorum!
    Özel | Tongji Özel, AI Finansmanı Hakkında Konuşun! (Şangay)
    GIF-Luneng çılgın! 7 dakikada 3 gol atan Tianjin Tianhai takımı çöktü!
    Özel Google Colab'da Keras kullanarak derin sinir ağlarında ince ayar yapmayı öğretir
    Güzel bir kızın bekar olup olmadığı nasıl anlaşılır? (Bir kız yapmanın ilk adımı)
    Yifan Ay Yeni Yılı 31 Bing Anne: Yılbaşı gecesi bu çocuklar gönüllü hizmetlere geliyor
    Münhasır Veriler, tamamen farklı insan-makine çalışma mekanizmaları altında işbirliği içinde nasıl işlenebilir?
    Dazhou Dazhu polisi bir kumarhaneye girdi ve 18 şüpheliyi engelledi
    Optik devi Carl Zeiss, Google Glass'ın lanetini kırma sözü vererek yeni akıllı gözlüklerin lansmanını şok etti
    Ayarlamaya veda, AutoML yeni kitabı yayınlandı (indirme ektedir)
    To Top