Ağır siklet klasik ders kitabı R. Sutton "Geliştirilmiş Öğrenmeye Giriş" in son baskısı

Xinzhiyuan Derlemesi

Derleme: Craig

[Xinzhiyuan Kılavuzu] Kanada Alberta Üniversitesi'nde ünlü pekiştirmeli öğrenme ustası Profesör Richard S. Sutton'ın klasik ders kitabı "Takviye Öğrenme: Bir Giriş" (Takviye Öğrenme: Bir Giriş) 'in ikinci baskısı yakın zamanda güncellendi. Xinzhiyuan'ın derlenmiş kitaplarının katalog kısmı, kitabın tamamı (İngilizce versiyon taslağı) Xinzhiyuan kamu hesabından indirilebilir. Bu kitap, pek çok yeni uygulama vaka çalışması da dahil olmak üzere toplam 548 sayfalık pekiştirmeli öğrenmeyi sistematik olarak tanıtmaktadır.

"Yoğun Öğrenmeye Giriş" e-kitap adresi:

https://drive.google.com/file/d/1xeUDVGWGUUv1-ccUMAZHJLej2C7aAFWY/view

Tam kitap kataloğu

İkinci Baskıya Giriş

Birinci Baskıya Giriş

Sembol özeti

Özet

1. Gelişmiş öğrenme sorunu

1.1 Pekiştirmeli öğrenme

1.2 Vaka

1.3 Gelişmiş öğrenme öğeleri

1.4 Kısıtlamalar ve kapsam

1.5 Genişletilmiş durum: Tic-Tac-Toe

1.6 Özet

1.7 Pekiştirmeli öğrenmenin tarihi

Liste yöntemi

2. Çok kollu Haydut sorunu

2.1 K-arm kumar makinesi sorunu

2.2 Eylem değeri yöntemi

2.310 kollu Test Yatağı

2.4 Artımlı uygulama

2.5 Kararsız bir çözümün izini sürmek

2.6 Başlangıç değerlerinin optimize edilmesi

2.7 Güven Üst Sınır Eylem Seçimi

2.8 Gradyan kumar makinesi algoritması

2.9 İlgili Arama

2.10 Özet

3. Sonlu Markov karar süreci

3.1 Aracı ortam etkileşimi

3.2 Hedefler ve geri bildirim

3.3 İade

3.4 Ekleme veya sürekli görevler için sembolleri birleştirin

3.5 Strateji ve değer işlevi

3.6 Optimizasyon stratejisi ve değer işlevi

3.7 Optimizasyon ve yaklaşım

3.8 Özet

4. Dinamik programlama

4.1 Strateji tahmini

4.2 Strateji iyileştirme

4.3 Strateji yinelemesi

4.4 Yineleme değeri

4.5 Eşzamansız dinamik programlama

4.6 Genelleştirilmiş strateji yinelemesi

4.7 Dinamik programlamanın etkileri

4.8 Özet

5. Monte Carlo yöntemi

5.1 Monte Carlo tahmini

5.2 Monte Carlo'nun eylemin değerine ilişkin değerlendirmesi

5.3 Monte Carlo kontrolü

5.4 Okumama başlangıç koşulu altında Monte Carlo kontrolü (Keşfedin)

5.5 Politika dışı tahmin için önem örneklemesini kullanma

5.6 Artımlı uygulama

5.7 Politika Dışı Monte Carlo Kontrolü

5.8 * İndirgemeye duyarlı Önem Örneklemesi

5.9 * Karar Başına Önem Örnekleme

5.10 Özet

6. Zaman farkı (TD) öğrenme

6.1 Zaman farkı tahmini

6.2 Zaman farkı tahmin yönteminin avantajları

6.3 TD'nin Optimalliği (o)

6.4 Sarsa: Politika Üzerinde TD kontrolü

6.5 Q-Öğrenme: hatta strateji TD kontrolü

6.6 Beklenen Sarsa

6.7 Önyargı maksimizasyonu ve çift öğrenme

6.8 Oyunlar, sonraki durumlar ve diğer özel durumlar

6.9 Özet

7. Çok adımlı önyükleme

7.1 n adımlı TD tahmini

7.2 n-adım Sarsa

7.3 Önem örneklemesi yoluyla N aşamalı strateji öğrenme

7.4 * Kontrol Değişkenleriyle Karar Başına Politika Dışı Yöntemler

7.5 Önemsiz örnekleme altında politika dışı öğrenme: n adımlı ağaç ters algoritması

7.6 Birleşik bir algoritma: n adımlı Q ()

7.7 Özet

8. Planlamak ve öğrenmek için liste yöntemini kullanın

8.1 Model ve plan

8.2 Dyna: Planlama, eylem ve öğrenmenin entegrasyonu

8.3 Model yanlışsa ne olur

8.4 Öncelikli süpürme

8.5 Beklenen ve Örnek Güncellemeler

8.6 Yörünge Örneklemesi

8.7 Gerçek Zamanlı Dinamik Programlama

8.8 Eylem seçiminin bir parçası olarak planlama

8.9 Sezgisel arama

8.10 Kullanıma Sunma Algoritmaları

8.11 Monte Carlo Ağacı Arama

8.12 Bölüm Özeti

8.13 Kısım I Özeti: Boyutlar

Yaklaşık çözüm

9. Yaklaşık yöntemi kullanarak politikada tahmin

9.1 Değer fonksiyonunun yaklaşımı

9.2 Tahmin Hedefi (MSVE)

9.3 Stokastik gradyan ve yarı gradyan yöntemleri

9.4 Doğrusal yöntem

9.5 Doğrusal yöntemlerde özellik yapımı

9.5.1 Polinom

9.5.2 Fourier temelleri

9.5.3 Kaba kodlama

9.5.4 Çini Kodlama

9.5.5 Radyal Taban İşlevi

9.6 Adım Büyüklüğü Parametrelerini Manuel Olarak Seçme

9.7 Doğrusal olmayan fonksiyon yaklaşımı: yapay sinir ağı

9.8 En Küçük Kare TD

9.9 Belleğe Dayalı İşlev Yaklaşımı

9.10 Çekirdek Tabanlı İşlev Yaklaşımı

9.11 Politika İçi Öğrenmeye Daha Derin Bakmak: İlgi ve Vurgu

9.12 Özet

10. Stratejide politikayı kontrol etmek için yaklaşık yöntemi kullanın

10.1 Eklenti yarı gradyan kontrolü

10.2 n adımlı yarı gradyan Sarsa

10.3 Ortalama geri bildirim: sürekli görevlerde yeni sorun ayarı

10.4 "İndirim" ayarları kullanılabilirliği dikkate almalıdır

10.5 n adımlı diferansiyel yarım gradyan Sarsa

10.6 Özet

11. Yaklaşım kullanan strateji dışı yöntem

11.1 Yarı gradyan yöntemi

11.2 Barid'in karşı örneği

11.3 Ölümcül üçlü

11.4 Doğrusal Değer-fonksiyon Geometrisi

11.5 Bellman Hatasında Gradyan Alçalma

11.6 Bellman Hatası Öğrenilemez

11.7 Gradient-TD Yöntemleri

11.8 Emphatic-TD Yöntemleri

11.9 Varyansı Azaltma

11.10 Özet

12. Uygunluk takibi

12.1 -Geri

12,2 TD ()

12.3 n-adımlı Kesilmiş -dönüş Yöntemleri

12.4 Güncellemeleri Yeniden Yapma: Çevrimiçi -dönüş Algoritması

12.5 Gerçek çevrimiçi TD ()

12.6 Monte Carlo Öğreniminde Hollanda İzleri

12.7 Sarsa ()

12.8 Değişken ve

12.9 Kontrol Değişkenleri ile Politika Dışı Uygunluk İzleri

12.10 Watkinsin Q'sundan () Tree-Backup'a ()

12.11 İzler İçeren Kararlı Politika Dışı Yöntemler

12.12 Uygulama Sorunları

12.13 Sonuç

13. Strateji gradyan yöntemi

13.1 Strateji yaklaşımı ve avantajları

13.2 Politika eğimi ilkesi

13.3 Geliştirme: Monte Carlo strateji gradyanı

13.4 Kıyaslama geliştirmesini kullanın

13.5 Değerlendirme-Karar Yöntemi (Aktör-Eleştirmen)

13.6 Sürekli sorunlarda politika eğimi (ortalama getiri oranı)

13.7 Sürekli eylemde strateji parametrelendirme

13.8 Özet

Daha derin bir bakış

14. Psikoloji

14.1 Tahmin ve kontrol

14.2 Klasik ayar

14.2.1 Engelleme ve Üst Düzey Koşullandırma

14.2.2 rescorla wagner yöntemi

14.2.3 TD modeli

14.2.4 TD modeli simülasyonu

14.3 Yararlı koşullar

14.4 Gecikme iyileştirmesi

14.5 Bilişsel Harita

14.6 Alışkanlıklar ve hedefe yönelik davranış

14.7 Özet

15. Sinirbilim

15.1 Nörobilimin Temelleri

15.2 Geri bildirim sinyali, değer, tahmin hatası ve geliştirilmiş sinyal

15.3 Geri besleme tahmin hatası varsayımı

15.4 Tahmin hatası hipotezinin geri bildirimine yönelik deneysel destek

15.6 TD hatası / dopamin yazışmaları

15.7 Sinirsel Değerlendirme-Karar

15.8 Karar verme için değerlendirme-öğrenme kuralları

15.9 Hedonistik Nöronlar

15.10 Kolektif pekiştirmeli öğrenme

15.11 Beyinde model tabanlı yöntemler

15.12 Bağımlılık

15.13 Özet

16. Uygulama ve vaka analizi

16.1 TD-Gammon

16.2 Samuel'in satranç oyuncusu

16.3 Watson Daily-Double

16.4 Bellek kontrolünü optimize edin

16.5 İnsan düzeyinde video oyunları

16.6 Go oynamak

16.6.1 AlphaGo

16.6.2 AlphaGo Zero

16.8 Kişiselleştirilmiş web hizmetleri

16.9 Termal Süzülme

17. Sınır

17.1 Genel Değer Fonksiyonları ve Yardımcı Görevler

17.2 Seçenekler aracılığıyla Temporal Soyutlama

17.3 Gözlemler ve Durum

17.4 Ödül Sinyalleri Tasarlama

17.5 Kalan Sorunlar

17.6 Takviyeli Öğrenme ve Yapay Zekanın Geleceği

Referanslar

Açıklama

Kitaptaki bazı resimler

"Yoğun Öğrenmeye Giriş" e-kitap adresi:

https://drive.google.com/file/d/1xeUDVGWGUUv1-ccUMAZHJLej2C7aAFWY/view

466 sahte sigara ve 76 şişe sahte şarap aldınız mı? !
önceki
İşte tarihin tozunda saklı, ilkellikle dolu güzellik ve filmlerin favori mekanı!
Sonraki
Ortalama yaş 74 ile, tüm hayatlarını vatanı bir sonraki seviyeye taşıyarak geçirdiler!
Bu 9 şey ile keyifli bir yolculuk!
Suçların yok edilmesinin ön saflarında 20 polis öldü, en küçüğü sadece 28 yaşındaydı (liste ektedir)
Fon Projesi: Farklı Tozlaşma Yöntemlerinin Domates Verimine Etkisi
Polis olay yerine koştu ve nefes aldı ve titreyen kız üst korkuluğa çıktı ...
Hanchuan Gönüllüleri Federasyonu "Kolej Giriş Sınavı Sezon 5'e Escort" Lisanslı Sponsor İşe Alım!
2 milyar kişinin makine öğrenimini desteklemek: Jeff Dean, Jia Yangqing ve diğer ScaledML konferans konuşmaları
Japon marketleri o kadar rahat ki "sapkın", Japonların onsuz yaşayamamasına şaşmamalı!
Afet önleme ve yardım bilgisini, güvenli kampüs yangın tatbikatlarını yaygınlaştırın!
TensorFlow Geliştirici Zirvesi: TensorFlow.js'nin yoğun sürümü
Sürükleyici gangsterler ve kötü İlgili fonlar 23 milyon yuan ve gayrimenkul 120 milyon yuan! Yeraltı dünyasında 60'tan fazla insan bir tencerede öldürüldü!
Güneydoğu Asya'daki bu ihmal edilen seyahat noktası ucuz ve eğlencelidir!
To Top