"ICML Eğitimi" Derin Güçlendirmeli Öğrenme, Karar ve Kontrol (117 PPT)

200.000, bu, bugün Xinzhiyuan'ın ulaştığı toplam kullanıcı sayısı. Akıllı evrene yolculuk sırasında, Xinzhiyuan ile seyahat eden her arkadaşınıza teşekkür edin. Dikkatiniz ve desteğiniz "Xinzhiyuan" yıldız gemisinin tükenmez yakıtıdır.

Tam PPT indirme: https://sites.google.com/view/icml17deeprl

"Büyülü" bir sinir ağı modelini basit ve ölçeklenebilir bir eğitim algoritmasıyla birleştiren derin öğrenme, bilgisayarla görme, konuşma tanıma ve doğal dil işleme gibi bir dizi denetimli öğrenme alanında büyük bir etkiye sahip olmuştur. Derin ağların karmaşık, yüksek boyutlu işlevleri yakalama ve esnek dağıtılmış gösterimleri öğrenme yeteneği, bu başarıyı mümkün kılar. Bu yetenek, gerçek dünyadaki karar verme ve kontrol problemleri üzerinde bir etkiye sahip olabilir.Makineler yalnızca karmaşık duyusal kalıpları sınıflandırmakla kalmaz, aynı zamanda eylemleri seçebilir ve uzun vadeli etkilerini açıklayabilir.

Karar verme ve kontrol sorunları, daha klasik derin öğrenme uygulamalarında ilgili denetimden yoksundur ve çözülmesi için yeni algoritma geliştirmeyi gerektiren bazı zorluklar getirir. Bu eğitici yazıda, pekiştirmeli öğrenmeyle ilgili temel pekiştirme ve optimal kontrol teorilerini tanıtacağız ve model tabanlı algoritmalar, taklit öğrenme ve ters pekiştirmeli öğrenme dahil olmak üzere derin öğrenmeyi karar verme ve kontrole genişletmedeki en son başarılardan bazılarını tartışacağız. Mevcut derin güçlendirme öğrenme algoritmalarının sınırlarını ve sınırlamalarını keşfedin.

Derin takviyeli öğrenme, karar verme ve kontrol

Sıralı karar verme için derin öğrenme

Sıralı karar ne zaman gerekli değildir?

  • Sisteminiz, örneğin sınıflandırma, regresyon gibi bireysel kararlar verirken

  • Bu karar gelecekteki kararları etkilemediğinde

Genel uygulama

Robotlar, otonom sürüş, dil diyaloğu (yapılandırılmış tahmin), iş operasyonları, finans

Neden derin pekiştirmeli öğrenmeyi seçmelisiniz?

  • Derin öğrenme, zengin duyusal girdiyi açıklamak için harikadır

  • Pekiştirmeli öğrenme, karmaşık eylemleri seçmek için iyidir

  • Duyuların ve eylemlerin eşlemesini temsil etmek için derin ağları kullanın

  • Tahmin, kontrol vb. Dahil

  • Büyük işlevlere genişletilmesi gerekiyor

Bu öğreticinin yapısı:

  • Pekiştirmeli öğrenme için problem belirleme

  • Model içermeyen pekiştirmeli öğrenme

    Strateji gradyanı

    aktör-eleştirmen algoritması

    Değer işlevi

  • 3. Yumuşak optimallik

    4. Ters RL

    5. Model tabanlı RL

    6. Sınır ve açık zorluklar

    Terimler ve semboller

    Taklit öğrenme

    Ödül işlevi

    Pekiştirmeli öğrenmenin amacı

    Takviye öğrenme algoritması anatomisi

    Örnekler oluşturun (yani stratejileri çalıştırın) getirileri tahmin etmek için bir model oluşturun politikaları iyileştirin

    Değerlendirme stratejisi gradyanı

    Politika gradyanıyla ilgili sorunlar

    (Üst) Yüksek varyans

    (Alt) Yavaş yakınsama, öğrenme oranını seçmek zor

    Varyansı azaltın

    Temel

    Ortalama ödül en iyi temel değil ama oldukça iyi.

    Kontrol değişkeni

    gözden geçirmek

    Strateji gradyanı:

    Doğrudan türev beklenen ödül

    riyal-hata öğrenme

    Varyansı azaltın

    Nedensellik kullanın

    Temel kullanın

    Yakınsama oranının doğal / ortak değişken gradyanını iyileştirin

    Otomatik kademe ayarı

    Değişken / doğal strateji gradyanı

    Strateji gradyanı örneği: TRPO

    • Doğal gradyan

    • Otomatik kademe ayarı

    • Ayrık eylem ve sürekli eylem

    • kullanıcı dostu

    • Kodlanabilir

    Basit bir lüks duygusu nedir? Sadece gerçek Kuzey Avrupa'ya bak
    önceki
    Yurt içinde üretilen arabalar ile yabancı araçlar arasındaki uçurum küçük mü? Hayır, hala büyük bir boşluk var!
    Sonraki
    Boz ayılara evcil hayvan muamelesi yapan bu ülke gerçekten savaşan bir millet
    Neden çok meşgulsün?
    En çok Çinli kim | Ye ve ye, kış bitti
    Güzel Long Beach geri döndü! Acele et ve düzenle ~
    Çin Halk Bankası bir kez daha merkez bankası faturasını yükseltti, RMB keskin bir şekilde yükseldi ve RMB açık pozisyonu çökebilir
    Taishan Numarası Efsane No. 9 Savaşan ruhla dolu bir numara, Kardeş Dokuz'un dönüşünü dört gözle mi bekliyorsunuz?
    Ağaç dikmenin en iyi zamanı on yıl önceydi, onu şimdi takip ediyor
    Avrupa Yapay Zeka Şirketi Ekolojik Raporu: İngiltere, Avrupa yapay zekasının temel merkezi haline geldi
    Bu araba söylentilerinin gerçeğini söylemek zor mu? Bazı insanlar uyanma zamanının geldiğine inanıyor
    Ulusal keder! Çocuklar için şeker hapı aşısını icat eden büyükbaba öldü!
    Sıcak bir kıştan sonra buraya gelin, Bali'den daha güzel ve Madai'den daha ucuz!
    Çin ve Rusya dahil 22 ülkenin ardından veya dolarizasyonun ardından, Çin aniden bir altın patlaması yaşadı ve dolara bağımlılığı azaldı mı?
    To Top