İşte pekiştirmeli öğrenmeye bir giriş, bir giriş | kesinlikle acemi dostu

Orijinal çalışma: Thomas Simonini

FreeCodeCamp'tan derlenen duvarlı kestane

Qubit Üretildi | Genel Hesap QbitAI

Takviye öğrenme Makine öğreniminde çok önemli bir hiziptir. Temsilci, bazı işlemleri gerçekleştirmeye ve sonuçları öğrenmeye devam edecek. çevre Her birinde hangi önlemler alınmalıdır?

Bir dizi öğretim makalesinde, pekiştirmeli öğrenme problemini çözmek için farklı yapıları anlayabiliriz. Q öğrenme, derin Q ağı (DQN), politika gradyanları (Politika Gradyanları), aktör-eleştirmen (Aktör-Eleştirmen) ve yakın uç politika optimizasyonu (PPO) dahil edilecek algoritmalardır.

Bu, bu dizinin ilk makalesi, kapabilirsin Odaklanma Sahip olmak:

· Pekiştirmeli öğrenme nedir ve neden ödüller en önemlidir?

· Pekiştirmeli öğrenmenin üç yolu

· Derin takviyeli öğrenmede "derin" kelimesinin anlamı nedir?

Pekiştirmeli öğrenmenin karmaşık dünyasına girmeden önce, yukarıdaki noktaları anlamak gerekli olabilir.

Bu dostça bir giriş

Pekiştirmeli öğrenmenin ana fikri, Temsilcinin çevrede öğrenmesine izin verin . Her eylem kendi ödülüne karşılık gelir Temsilci, verileri analiz ederek ve hangi koşullarda ne yapması gerektiğini öğrenir.

Aslında bu öğrenme süreci bizim doğal deneyimlerimize çok benziyor. Kendinizi bir çocuk olarak hayal edin , Yangını ilk kez gördükten sonra ateşe doğru yürüdü.

Sıcaklığı hissediyorsun. Ateş iyi bir şeydir ( +1 ).

Sonra dokunmaya çalışın. Kahretsin, çok ateşli ( -1 ).

Sonuç, biraz uzağa ateş etmenin iyi olduğu, ancak çok yakın olmadığıdır.

İnsanlar bu şekilde öğreniyor ve çevre Etkileşimli . Takviye öğrenme aynıdır, ancak kahramanın yerini bir bilgisayar almıştır.

Örneğin, temsilcinin Super Mario oynamayı öğrenmesi gerekir. Takviye öğrenme süreci bir döngü kullanabilir ( döngü ) Temsil etmek:

· Temsilci, ortamdaki ilk durumu alır (Süper Mario) S0 (Oyunun ilk çerçevesi);

· Durum 0 temelinde, temsilci ilk eylemi gerçekleştirecektir A0 (Sağa gitmek gibi);

· Çevre değişir ve yeni bir hal kazanır S1 (A0 oluşumundan sonra belirli bir çerçeve);

· Çevre ilk ödülü veriyor R1 (Ölmemiş: +1);

Yani, bu döngünün çıktısı bir Durum, ödül ve eylem dizisi .

Ve temsilcinin Amaçları İzin ver Beklenen maksimum kümülatif ödül .

Temel olarak ödül hipotezi

Sorun geliyor, hedef neden Beklenen kümülatif ödül maksimize edildi mi?

Çünkü pekiştirmeli öğrenme başlangıçta Ödül hipotezi Dayalı. İyi performans göstermek istiyorsan daha fazla ödül almalısın.

Her Zaman adımı (zaman adımı) kümülatif ödül şu şekilde ifade edilebilir:

veya

Ama, biz Ödülleri doğrudan eklemenin bir yolu yok . Çünkü oyunda ödül oyunun başlangıcına ne kadar yakınsa elde etmek o kadar kolay olur ve oyun ilerledikçe sonraki ödülleri almak o kadar kolay olmaz.

Temsilciyi tek kişi olarak düşünün küçük fare Rakip bir kedi. Amacı bir kedi tarafından yenmektir. Çoğu peynir yenir .

Tıpkı resimdeki gibi Fareye en yakın peynirin yenmesi kolaydır , Ama kedinin göz kapaklarının altından peyniri yumuşatmak zordur . Kediye ne kadar yakınsanız, o kadar tehlikelidir.

Sonuç olarak, kedinin ödülleri indirim , Peynir yoğun olarak yerleştirilse bile yeme imkanı azdır, faydasızdır.

Iyi İndirim nasıl hesaplanır Ne?

0 ile 1 arasındaki iskonto oranını temsil etmek için kullanırız.

· ne kadar büyükse, indirim o kadar küçük olur. Temsilcinin daha çok ilgilendiğini gösterir uzun Ödül (kedinin yanında peynir).

· ne kadar küçükse, indirim o kadar büyük olur. Temsilcinin daha çok ilgilendiğini gösterir kısa dönem Ödül (farenin yanında peynir).

böyle Birikimli ödül Anlamı:

basit ifadeyle, Kediye bir adım daha yakın , Sadece bir ile çarpın Bu, ödülü almanın daha zor olduğu anlamına gelir.

Parçalı görev veya sürekli görev

Pekiştirmeli öğrenmede iki tür görev vardır.

Epizodik Görevler

Var başlangıç noktası , sahip olmak son . İkisi arasında, bir dizi eylem, bir dizi ödül ve birlikte bir "küme" oluşturan bir dizi yeni durum vardır.

Bir bölüm bittiğinde, yani bitiş durumuna geldiğinde, temsilci ödülün ne kadar biriktiğine bakacak ve sonra Performansınızı değerlendirin .

Ardından, önceki deneyimle yeni bir oyun başlatır. Bu sefer temsilcinin kararının temeli daha yeterli olacaktır.

İçin Kedi ve fare labirent Örnek olarak:

· Daima aynı başlangıç noktasından başlayın

· Bir kedi tarafından yenirseniz veya 20 adımdan fazla atarsanız oyun biter

· Sonunda bir dizi durum, eylem, ödül ve yeni durum kazanın

· Ödüllerin toplamını hesaplayın (nasıl performans gösterdiğini görün)

· Daha fazla deneyimle yeni bir oyuna başlayın

Daha fazla bölüm , Temsilci daha iyi performans gösterecek .

Devam Eden Görevler

Asla oyun bitmeyecek . Temsilcinin, en iyi eylemi nasıl seçeceğini ve ortamla gerçek zamanlı olarak nasıl etkileşim kuracağını öğrenmesi gerekir. Kendi kendine giden arabalarda olduğu gibi bayrak diye bir şey yoktur.

Böyle bir görev zaman geçirmek Diferansiyel öğrenme (Temporal Difference Learning) eğitmek. Her zaman adımında, bir özet çalışma olacak ve sonuçlar bir bölümün bitiminden sonra analiz edilmeyecektir.

Keşif ve geliştirme arasındaki denge

Pek çok takviye öğrenme yöntemini tartışmadan önce, bu konuya değinilmelidir.

· keşfetmek (Keşif) çevre hakkında daha fazla bilgi bulmaktır.

· Geliştirme (Sömürü), en çok ödülü almak için bilinen bilgilerin kullanılmasıdır.

Unutmayın, amaç beklenen kümülatif ödülü en üst düzeye çıkarmaktır. Bu yüzden bazen Bir ikilem içine gir .

Küçük fareler sonsuz sayıda dağınık peynir yiyebilir (her biri +1 ). Ama labirentin üstünde pek çok peynir yığını var ( +1000 ) veya dev bir peynir olarak.

durumunda Sadece ne kadar yediğimizi önemsiyoruz, küçük fare her zaman O büyük peynirleri aramayacağım . Güvenli bir yerde sadece parça parça yer, bu nedenle ödül birikimi daha yavaştır, ama umursamaz.

durumunda Çok uzaklaşırsa ödülün varlığını bulabilir, ancak bu da mümkündür Tehlikede .

Programcının, aracının bunu yapabilmesi için bir kural belirlemesi gerekir. İkisi arasındaki dengeyi kavrayın .

Takviye öğrenmenin üç yöntemi

Meze bittikten sonra nihayet pekiştirmeli öğrenme probleminin nasıl çözüleceğinden bahsedeceğiz. Üç yöntem şunlardır: değer temelli, ilke tabanlı ve model tabanlı.

Değere Dayalı

Bu yaklaşımla amaç, Optimize edilmiş değer fonksiyonu V (s) .

Değer işlevi bize her eyalette temsilcinin gelecekteki beklenen maksimum ödülünü söyleyecektir.

Tek eyalette Fonksiyon değeri , Ajan mı Beklenen gelecekteki ödül birikiminin toplam değeri , Mevcut durumdan saymaya başlayın.

Aracı, her adımda hangi eylemi seçeceğine karar vermek için bu değer işlevini kullanır. Fonksiyon değerini alacaktır (yani Q değeri ) En büyük eylem.

Labirent probleminde, her adımda maksimum fonksiyon değerini seçeriz: -7, -6, -5, vb. Hedefe ulaşmak için.

Politikaya Dayalı

Bu şekilde olacak Doğrudan optimizasyon stratejisi işlevi (s) Değer işlevini bırakın.

Strateji, temsilcinin performansını belirli bir zamandaki değerlendirmektir.

Her eyaleti ve yerini koyun karşılık Bağlantı kurmak için en iyi eylem.

İki strateji var,

· Kesinlik Strateji: Belirli bir durumdaki bir strateji her zaman aynı eylemi verecektir.

· Rastgelelik Strateji: Strateji, çoklu eylemlerin olasılık dağılımını verir.

Şekilden, stratejinin Doğrudan işaret edin Her adım için en iyi eylem.

Model Bazlı

Bu yöntem, ortamı modellemektir. Bu, çevrenin davranışını temsil edecek bir model oluşturmak istediğimiz anlamına gelir.

Sorun şu ki, Her ortam Farklı bir modele ihtiyaç duyulacaktır (Mario'nun attığı her adım, yeni bir ortam olacaktır). Bu nedenle bu yöntem pekiştirmeli öğrenmede yaygın olarak kullanılmamaktadır.

Derin takviye öğrenme

Sözde derin pekiştirmeli öğrenme , Pekiştirmeli öğrenmede , Derin bir sinir ağına katılın .

Şekilde gösterildiği gibi, örnek olarak Q öğrenmeyi ve derin Q ağını (DQN) alın.

· Q öğrenme , Temsilcinin yapılacak bir sonraki eylemi bulmasına yardımcı olmak için bir Q tablosu oluşturmak için geleneksel bir algoritma kullanmaktır.

· DQN , Q değerini tahmin etmek için derin sinir ağını kullanır.

Şimdiye kadar okuduğunuz için tebrikler. Bu ilk makaledeki bilgi miktarı az değil.

Sadece duramazsın

İlgilenen öğrenciler bir tedavi sürecine bağlı kalabilirler.

İşte bu dizi Anahat S portalı:

https://simoninithomas.github.io/Deep_reinforcement_learning_Course/

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Bu oyun 20 yıl önce efsaneyi yerle bir etti ve Ekin Cheng bunu onayladı! Ama tüm dış oyuncular tarafından yok edildi
önceki
Yeniden inşa etmek için 800.000 yuan harcadıktan sonra 80.000 yuan'den az bir araba, şaşırtıcı bir şey oldu!
Sonraki
Guangzhou Evergrande tarihindeki en iyi beş atıcı olan yerel atıcılar, ilk dört yabancı oyuncuyu yendi ve birinci oldu
RNG paket servisi kaybeder ve ısıyı yakalamaya mı geliyor? MLXG ve UZI 1 yuan, ayda sadece 1 kopya olarak mı fiyatlandırılıyor?
Arabanın sahibi, Wuling Hongguang'ı kızdırmak için ellerini ve ayaklarını sessizce hareket ettirdi ve AE86 onu görmekten korktu!
Asla bir atın kıçının arkasında durma! "Red Dead Redemption 2" komik koleksiyonu
Uzaylılar nerede? Plymouth Üniversitesi'nin bölüm dışında yapay zeka arayan yeni yaşam sistemi
King of Glory resmi bir hile cihazı mı başlattı? Kostümleri yerinde öğretin ve takım arkadaşları tarafından ağlayan oyuncuları cesaretlendirin!
Tarihteki en büyük robot "yüz" araştırması: 157 yüzün ardındaki insan duyguları
World of Warcraft büyük bir sırrı çözdü: Kraliçe'nin halefi bir komplo ve eski savaş şefi başı çekiyor!
Koreli ve Japon gençler, yeni sezonda Şampiyonlar Ligi'nde ilk tur Asyalı oyunculara başladı.
Toyota, evrendeki bir numara, neden bu arabalar Çin'de satılamıyor?
Oyun dünyasındaki en popüler iblis! Çok güçlü olduğu için kahramanı ilgi odağından uzaklaştırdı!
Yüksek ateş, yaralanma, Zhang Jike neden oynamakta ısrar ediyor?
To Top