Xinzhiyuan Derlemesi
Derleme: Craig
[Xinzhiyuan Kılavuzu] Kanada Alberta Üniversitesi'nde ünlü pekiştirmeli öğrenme ustası Profesör Richard S. Sutton'ın klasik ders kitabı "Takviye Öğrenme: Bir Giriş" (Takviye Öğrenme: Bir Giriş) 'in ikinci baskısı yakın zamanda güncellendi. Xinzhiyuan'ın derlenmiş kitaplarının katalog kısmı, kitabın tamamı (İngilizce versiyon taslağı) Xinzhiyuan kamu hesabından indirilebilir. Bu kitap, pek çok yeni uygulama vaka çalışması da dahil olmak üzere toplam 548 sayfalık pekiştirmeli öğrenmeyi sistematik olarak tanıtmaktadır.
"Yoğun Öğrenmeye Giriş" e-kitap adresi:
https://drive.google.com/file/d/1xeUDVGWGUUv1-ccUMAZHJLej2C7aAFWY/view
Tam kitap kataloğu
İkinci Baskıya Giriş
Birinci Baskıya Giriş
Sembol özeti
Özet
1. Gelişmiş öğrenme sorunu
1.1 Pekiştirmeli öğrenme
1.2 Vaka
1.3 Gelişmiş öğrenme öğeleri
1.4 Kısıtlamalar ve kapsam
1.5 Genişletilmiş durum: Tic-Tac-Toe
1.6 Özet
1.7 Pekiştirmeli öğrenmenin tarihi
Liste yöntemi
2. Çok kollu Haydut sorunu
2.1 K-arm kumar makinesi sorunu
2.2 Eylem değeri yöntemi
2.310 kollu Test Yatağı
2.4 Artımlı uygulama
2.5 Kararsız bir çözümün izini sürmek
2.6 Başlangıç değerlerinin optimize edilmesi
2.7 Güven Üst Sınır Eylem Seçimi
2.8 Gradyan kumar makinesi algoritması
2.9 İlgili Arama
2.10 Özet
3. Sonlu Markov karar süreci
3.1 Aracı ortam etkileşimi
3.2 Hedefler ve geri bildirim
3.3 İade
3.4 Ekleme veya sürekli görevler için sembolleri birleştirin
3.5 Strateji ve değer işlevi
3.6 Optimizasyon stratejisi ve değer işlevi
3.7 Optimizasyon ve yaklaşım
3.8 Özet
4. Dinamik programlama
4.1 Strateji tahmini
4.2 Strateji iyileştirme
4.3 Strateji yinelemesi
4.4 Yineleme değeri
4.5 Eşzamansız dinamik programlama
4.6 Genelleştirilmiş strateji yinelemesi
4.7 Dinamik programlamanın etkileri
4.8 Özet
5. Monte Carlo yöntemi
5.1 Monte Carlo tahmini
5.2 Monte Carlo'nun eylemin değerine ilişkin değerlendirmesi
5.3 Monte Carlo kontrolü
5.4 Okumama başlangıç koşulu altında Monte Carlo kontrolü (Keşfedin)
5.5 Politika dışı tahmin için önem örneklemesini kullanma
5.6 Artımlı uygulama
5.7 Politika Dışı Monte Carlo Kontrolü
5.8 * İndirgemeye duyarlı Önem Örneklemesi
5.9 * Karar Başına Önem Örnekleme
5.10 Özet
6. Zaman farkı (TD) öğrenme
6.1 Zaman farkı tahmini
6.2 Zaman farkı tahmin yönteminin avantajları
6.3 TD'nin Optimalliği (o)
6.4 Sarsa: Politika Üzerinde TD kontrolü
6.5 Q-Öğrenme: hatta strateji TD kontrolü
6.6 Beklenen Sarsa
6.7 Önyargı maksimizasyonu ve çift öğrenme
6.8 Oyunlar, sonraki durumlar ve diğer özel durumlar
6.9 Özet
7. Çok adımlı önyükleme
7.1 n adımlı TD tahmini
7.2 n-adım Sarsa
7.3 Önem örneklemesi yoluyla N aşamalı strateji öğrenme
7.4 * Kontrol Değişkenleriyle Karar Başına Politika Dışı Yöntemler
7.5 Önemsiz örnekleme altında politika dışı öğrenme: n adımlı ağaç ters algoritması
7.6 Birleşik bir algoritma: n adımlı Q ()
7.7 Özet
8. Planlamak ve öğrenmek için liste yöntemini kullanın
8.1 Model ve plan
8.2 Dyna: Planlama, eylem ve öğrenmenin entegrasyonu
8.3 Model yanlışsa ne olur
8.4 Öncelikli süpürme
8.5 Beklenen ve Örnek Güncellemeler
8.6 Yörünge Örneklemesi
8.7 Gerçek Zamanlı Dinamik Programlama
8.8 Eylem seçiminin bir parçası olarak planlama
8.9 Sezgisel arama
8.10 Kullanıma Sunma Algoritmaları
8.11 Monte Carlo Ağacı Arama
8.12 Bölüm Özeti
8.13 Kısım I Özeti: Boyutlar
Yaklaşık çözüm
9. Yaklaşık yöntemi kullanarak politikada tahmin
9.1 Değer fonksiyonunun yaklaşımı
9.2 Tahmin Hedefi (MSVE)
9.3 Stokastik gradyan ve yarı gradyan yöntemleri
9.4 Doğrusal yöntem
9.5 Doğrusal yöntemlerde özellik yapımı
9.5.1 Polinom
9.5.2 Fourier temelleri
9.5.3 Kaba kodlama
9.5.4 Çini Kodlama
9.5.5 Radyal Taban İşlevi
9.6 Adım Büyüklüğü Parametrelerini Manuel Olarak Seçme
9.7 Doğrusal olmayan fonksiyon yaklaşımı: yapay sinir ağı
9.8 En Küçük Kare TD
9.9 Belleğe Dayalı İşlev Yaklaşımı
9.10 Çekirdek Tabanlı İşlev Yaklaşımı
9.11 Politika İçi Öğrenmeye Daha Derin Bakmak: İlgi ve Vurgu
9.12 Özet
10. Stratejide politikayı kontrol etmek için yaklaşık yöntemi kullanın
10.1 Eklenti yarı gradyan kontrolü
10.2 n adımlı yarı gradyan Sarsa
10.3 Ortalama geri bildirim: sürekli görevlerde yeni sorun ayarı
10.4 "İndirim" ayarları kullanılabilirliği dikkate almalıdır
10.5 n adımlı diferansiyel yarım gradyan Sarsa
10.6 Özet
11. Yaklaşım kullanan strateji dışı yöntem
11.1 Yarı gradyan yöntemi
11.2 Barid'in karşı örneği
11.3 Ölümcül üçlü
11.4 Doğrusal Değer-fonksiyon Geometrisi
11.5 Bellman Hatasında Gradyan Alçalma
11.6 Bellman Hatası Öğrenilemez
11.7 Gradient-TD Yöntemleri
11.8 Emphatic-TD Yöntemleri
11.9 Varyansı Azaltma
11.10 Özet
12. Uygunluk takibi
12.1 -Geri
12,2 TD ()
12.3 n-adımlı Kesilmiş -dönüş Yöntemleri
12.4 Güncellemeleri Yeniden Yapma: Çevrimiçi -dönüş Algoritması
12.5 Gerçek çevrimiçi TD ()
12.6 Monte Carlo Öğreniminde Hollanda İzleri
12.7 Sarsa ()
12.8 Değişken ve
12.9 Kontrol Değişkenleri ile Politika Dışı Uygunluk İzleri
12.10 Watkinsin Q'sundan () Tree-Backup'a ()
12.11 İzler İçeren Kararlı Politika Dışı Yöntemler
12.12 Uygulama Sorunları
12.13 Sonuç
13. Strateji gradyan yöntemi
13.1 Strateji yaklaşımı ve avantajları
13.2 Politika eğimi ilkesi
13.3 Geliştirme: Monte Carlo strateji gradyanı
13.4 Kıyaslama geliştirmesini kullanın
13.5 Değerlendirme-Karar Yöntemi (Aktör-Eleştirmen)
13.6 Sürekli sorunlarda politika eğimi (ortalama getiri oranı)
13.7 Sürekli eylemde strateji parametrelendirme
13.8 Özet
Daha derin bir bakış
14. Psikoloji
14.1 Tahmin ve kontrol
14.2 Klasik ayar
14.2.1 Engelleme ve Üst Düzey Koşullandırma
14.2.2 rescorla wagner yöntemi
14.2.3 TD modeli
14.2.4 TD modeli simülasyonu
14.3 Yararlı koşullar
14.4 Gecikme iyileştirmesi
14.5 Bilişsel Harita
14.6 Alışkanlıklar ve hedefe yönelik davranış
14.7 Özet
15. Sinirbilim
15.1 Nörobilimin Temelleri
15.2 Geri bildirim sinyali, değer, tahmin hatası ve geliştirilmiş sinyal
15.3 Geri besleme tahmin hatası varsayımı
15.4 Tahmin hatası hipotezinin geri bildirimine yönelik deneysel destek
15.6 TD hatası / dopamin yazışmaları
15.7 Sinirsel Değerlendirme-Karar
15.8 Karar verme için değerlendirme-öğrenme kuralları
15.9 Hedonistik Nöronlar
15.10 Kolektif pekiştirmeli öğrenme
15.11 Beyinde model tabanlı yöntemler
15.12 Bağımlılık
15.13 Özet
16. Uygulama ve vaka analizi
16.1 TD-Gammon
16.2 Samuel'in satranç oyuncusu
16.3 Watson Daily-Double
16.4 Bellek kontrolünü optimize edin
16.5 İnsan düzeyinde video oyunları
16.6 Go oynamak
16.6.1 AlphaGo
16.6.2 AlphaGo Zero
16.8 Kişiselleştirilmiş web hizmetleri
16.9 Termal Süzülme
17. Sınır
17.1 Genel Değer Fonksiyonları ve Yardımcı Görevler
17.2 Seçenekler aracılığıyla Temporal Soyutlama
17.3 Gözlemler ve Durum
17.4 Ödül Sinyalleri Tasarlama
17.5 Kalan Sorunlar
17.6 Takviyeli Öğrenme ve Yapay Zekanın Geleceği
Referanslar
Açıklama
Kitaptaki bazı resimler
"Yoğun Öğrenmeye Giriş" e-kitap adresi:
https://drive.google.com/file/d/1xeUDVGWGUUv1-ccUMAZHJLej2C7aAFWY/view