Spor salonu ve tensorflow'a dayalı pekiştirmeli öğrenme algoritmasının "pekiştirmeli öğrenme uygulaması" uygulaması

Spor salonu ve tensorflow'a dayalı pekiştirmeli öğrenme algoritmasının uygulanması

Son ders, spor salonu ortamının yapısını ve "Ders 1 Spor Salonu Öğrenimi ve İkincil Gelişim-Sütunu Bilmek" pekiştirmeli öğrenmenin fiili mücadelesini derinlemesine analiz etti. Bu derste, en klasik iki pekiştirmeli öğrenme algoritması olan qleanring'i ve politika gradyanlarına dayalı bir yöntemi uygulamak için gym ve tensorflow'u kullanacağız. Bu ders, Mofan'ın kodunun bir kısmıyla ilgilidir (bkz. Zhihu Soru ve Cevap "Pekiştirmeli öğrenme için hangi iyi açık kaynak projeleri, web siteleri, makaleler öneriliyor?"), Bunun için teşekkür ederim. Bu ders iki alt bölüme ayrılmıştır.Bölüm 2.1, altın madeni paraları bulmak için robotları çözmek için qlearning'in kullanımından bahseder (önceki bölümde çevre verilmiştir); Bölüm 2.2, politika gradyanına dayalı takviye öğrenimini ayrıntılı olarak açıklamak için örnek olarak tramvay ters sarkaçını alır yöntem. Bu iki yöntemi seçmenin nedeni, her ikisinin de klasik algoritmalar olmasıdır.Bir başka neden, robotun altın paraları bulması, tipik bir tablo takviye öğrenme problemi ve arabanın ters çevrilmiş sarkaçının tipik bir durum-uzay sürekli takviye öğrenme problemi olmasıdır.

Bölüm 1 qlearning algoritması uygulaması

1.1 qlearning sözde kodu

Qlearning algoritması, bir değer fonksiyonuna dayalı bir politika dışı TD (0) takviye öğrenme algoritmasıdır. Değer işlevlerine dayalı pekiştirmeli öğrenme algoritmalarının özü, değer işlevlerini güncellemektir. Teori ve sözde kod dördüncü derste verilmiştir. Şimdi gözden geçirelim:

Şekil 2.1 qlearning algoritmasının sözde kodu

Şekil 2.1'den qlearning algoritmasının uygulanmasının aşağıdaki kilit noktalara bölünebileceğini görebiliriz: Davranış değeri işlevinin temsili, çevreyi keşfetme stratejisi, epsilon açgözlü stratejisi, değer işlevi güncellendiğinde eylemleri seçmenin açgözlü stratejisi ve değer işlevi güncellemesi. Aşağıda bunları tek tek anlatacağım.

1.2 qlearning'in davranış değeri fonksiyonu temsili

Tablo takviye öğrenme algoritmaları için değer işlevi bir tablodur. Davranış değeri fonksiyonu için, bu tablo, biri durum diğeri eylem olan iki boyutlu bir tablo olarak kabul edilebilir. Altın para arayan bir robot örneği için:

Durum uzayı:

Eylem alanı:

Davranış değeri işlevi, sözlüğün indeksinin bir durum-eylem çifti ile temsil edildiği bir sözlük veri türü ile temsil edilebilir. Bu nedenle, davranış değeri işlevinin başlatılması şu şekildedir:

qfunc = dict #Davranış değeri işlevi qfun

eyaletlerdeki s için:

eylemler için:

anahtar = "d% _s%"% (s, a)

qfun = 0.0

1.3 Çevreyi keşfetme stratejisi: epsilon açgözlü strateji

Temsilci, çevreyi eplilon açgözlü stratejisiyle keşfeder. Eplilon açgözlü stratejisinin matematiksel ifadesi şudur:

Bu formülün python kodu şu şekilde uygulanır:

def epsilon_greedy (qfunc, durum, epsilon):

# Önce en büyük hareketi bulun

amax = 0

anahtar = "% d_% s"% (durum, eylemler)

qmax = qfunc

aralıktaki i için (uzunluk (eylemler)): # Maksimum eylem değeri işlevini elde etmek için eylem alanını tarayın

anahtar = "% d_% s"% (durum, eylemler )

q = qfunc

eğer qmax < q:

qmax = q

amax = i

#Probability bölümü

pro =

pro + = 1-epsilon

aralıktaki i için (len (eylemler)):

profesyonel + = epsilon / len (eylemler)

## Yukarıdaki olasılık dağılımına göre işlemleri seçin

r = random.random

s = 0.0

aralıktaki i için (len (eylemler)):

s + = pro

eğer s > = r: eylemleri döndür

dönüş eylemleri

Yukarıdaki kod yorumlarından da görebileceğiniz gibi, kod 3 bölüme ayrılabilir: ilk bölüm mevcut durumdaki en büyük işlemi bulmak içindir; ikinci bölüm her eyleme bir olasılık atar; üçüncü bölüm, olasılık dağılımına dayalı bir eylemi örneklemektir.

1.4 Değer işlevi güncellendiğinde, eylemleri seçmenin açgözlü stratejisi

Eylemleri seçmenin açgözlü stratejisi, durum s olduğunda en büyük değer işlevine sahip eylemi seçmektir. Python uygulaması:

def açgözlü (qfunc, durum):

amax = 0

anahtar = "% d_% s"% (durum, eylemler)

qmax = qfunc

aralıktaki i için (len (eylemler)): # Maksimum eylem değeri işlevini elde etmek için eylem alanını tarayın

anahtar = "% d_% s"% (durum, eylemler )

dönüş eylemleri

Bu kod, önceki kodla hemen hemen aynıdır, aradaki fark, alınan durum değerinin farklı olmasıdır. Bu kod parçasının durumu, mevcut durumların sonraki durumlarıdır. Ayrıca, DQN'nin davranışı seçmek için yaptığı değer işlevi ağına, mevcut değer işlevi ağından farklı olan hedef değer işlevi ağı denir.

1.5 Değer işlevi güncellemesi

Değer işlevi güncelleme formülü şöyledir:

Kod şu şekilde uygulanır:

anahtar = "% d_% s"% (s, a)

# Çevre ile etkileşim kurun, yeni durum alın ve ortamdan geri dönün

s1, r, t1, i = grid.step (a)

key1 = ""

# s1 Maksimum eylem

a1 = açgözlü (qfunc, s1)

key1 = "% d_% s"% (s1, a1)

# Değer işlevini güncellemek için qlearning yöntemini kullanma

qfunc = qfunc + alfa * (r + gama * qfunc-qfunc)

Yorum: Tablo türü değer işlevinin güncelleme işlemi için, her güncellemenin tablodaki yalnızca bir değeri etkilediğini ve davranış değeri işlevi yaklaşım yönteminden farklı olan davranış değeri işlevinin diğer değerlerini etkilemediğini görüyoruz. Tablo şeklindeki güçlendirme öğrenme algoritmaları çok etkilidir ve genellikle birkaç yinelemeden sonra birleşir. Tüm kodlar için lütfen github.gxnk'deki qlearning'e bakın. Qlearning algoritmasının testi learning_and_test.py dosyasındadır.

Bölüm 2: Strateji gradyan algoritması uygulamasına dayalı ayrıntılı açıklama

Bu bölüm tensorflow ve çizim kitaplığını kullanmalıdır, bu nedenle herkes önce tensorflow'un cpu sürümünü kurar.

2.1 Tensorflow kurulumu:

Adım 1: Terminaldeki sanal ortamı etkinleştirin (önceki derste nasıl kurulur): source gymlab'i etkinleştirin

Adım 2: Kurulu tensorflow sürümü 1.0.0, python = 3.5 aşağıdaki komuttur:

Bu komuta göre kurulan tensorflow, gpu içermez ve gpu'suz tensorflow'un öğrenmeye hiçbir engeli yoktur. Elbette bir proje yaparsanız tensorflow'un gpu versiyonunu kurmanız tavsiye edilir.

Adım 3: Bir çizim modülü kurun, komut şu şekildedir:

pip3 matplotlib'i kurun

2.2 Strateji gradyan algoritmasının teorik temeli

Bu sütunun altıncı dersi politika gradyanının teorik olarak türetilmesini vermiştir. Politika gradyan teorisi, bir stokastik politikanın gradyanının aşağıdaki formülle verildiğini göstermektedir:

Stokastik strateji Gauss stratejisi olduğunda, altıncı ders zaten stokastik gradyan hesaplama formülünü vermiştir. Rastgele strateji Gauss stratejisi olmadığında parametreler nasıl optimize edilir?

Küçük bir araba için ters çevrilmiş sarkaç sistemi aşağıdaki Şekil 2.2'de gösterilmektedir.

Şekil 2.2 Araba ters çevrilmiş sarkaç sistemi

Önceki bölümde, spor salonu ortamının yapısını derinlemesine analiz ettik. Arabanın ters çevrilmiş sarkaçının çevresel modelinden, arabanın ters çevrilmiş sarkaçının durum uzayının olduğunu görmek zor değildir.

, Eylem alanı

, Eylem 1 olduğunda, 10N pozitif kuvvet uygulayın; 0 olduğunda, -10N negatif kuvvet uygulayın.

Eylem alanı ayrık olduğu için, bir softmax stratejisi olarak rastgele bir strateji tasarlıyoruz. Takviye öğrenme problemini bir optimizasyon problemine dönüştürmek için Softmax stratejisinin nasıl inşa edileceği ve kayıp fonksiyonunun nasıl oluşturulacağı.

2.3 Yumuşak strateji ve kayıp işlevi

Şekil 2.3'te gösterildiği gibi ileriye dönük bir sinir ağı stratejisi tasarlıyoruz.

Şekil 2.3 Softmax stratejisi

Nöral softmax stratejisinin girdi katmanı, 4 boyutlu, arabanın ters sarkaç durumudur; son katman, 2 boyutlu bir softmax katmanıdır. Takım tezgahlarıyla öğrenen öğrenciler, softmax'in genellikle çoklu sınıflandırıcıların son katmanı olarak kullanıldığının farkındadır.

En temel kavramlardan biri softmax katmanı nedir?

Şekil 2.3'te gösterildiği gibi, katman2'nin çıktısını z olarak ayarlayın, sözde softmax katmanı, z'ye uygulanan bir softmax işlevini ifade eder. hangisi:

Softmax stratejisi için, politika gradyanı teorisindeki stokastik strateji:

Şekil 2.3'te gösterildiği gibi,

Layer2 çıktısına karşılık gelir.

A eylemine karşılık gelen softmax çıktısını temsil eder. Yukarıdaki formül, ajanın s durumunda a eylemi yapma olasılığını verir. Bu formül fonksiyonla ilgilidir, doğrudan onun logaritmasını hesaplayabilir ve ardından türevi strateji gradyan formülüne alabilir ve parametreleri güncellemek için strateji gradyanı teorisini kullanabilirsiniz. Ancak, burada sorunu dönüştürüyoruz. Bir bölüm için, politika gradyanı teorisinin tek adımlı güncellemesi aslında kayıp fonksiyonudur.

Tek adımda güncelleme.

Ve kayıp işlevi şu şekilde yazılabilir:

onların arasında

Çapraz entropidir.

Gerçek hesaplamalarda,

Güncellenmemiş parametre strateji ağı ile örnekleme,

Eyaleti doğrudan getirmektir, bu parametre

Bir işlevi. Örneğin, mevcut eylem örnekleme ağı tarafından belirlenir

, Sonuç a = 1; o zaman

,

, Sonra

Bu, softmax katmanını bilgi teorisindeki çapraz entropi perspektifinden anlamaktır. Teorik kısım geçici olarak burada tanıtıldı ve bundan sonra önemsediğimiz şey Teori nasıl koda dönüştürülür .

Yukarıda, politika gradyanı yöntemini bir sınıflandırma problemi için bir eğitim sürecine dönüştürdük, burada kayıp işlevi:

Peki bu ağ için giriş verileri nedir?

Üç giriş verisi vardır:

İlk olarak: ters sarkaç durumu

İkincisi: Arabaya etki eden eylemler a

Üçüncüsü: her eyleme karşılık gelen kümülatif getiri v

Bu girdilerin nasıl elde edildiğini tek tek açıklıyoruz.

İlk olarak, arabanın ters sarkaçının durumları çevre ile etkileşime girerek elde edilir; ikincisi, arabaya etki eden a eylemi, örnekleme ağı tarafından elde edilir ve eğitim sürecinde bir etiket görevi görür; son olarak, her bir eylemin birikimi Ödül, eylemden ve normalleşmeden sonra biriken ödülün birikmesi ile elde edilir.

Bu nedenle, kod birkaç temel işleve bölünebilir: Strateji sinir ağının inşası, eylem seçme fonksiyonu, kayıp fonksiyonunun inşası, kümülatif dönüş fonksiyonunun işlenmesi v. Aşağıda tek tek nasıl başarılacağını tanıtıyoruz.

2.4 Tensorflow'a dayalı strateji gradyan algoritmasının uygulanması

Stratejik ağ inşası

Bir sinir ağı kurmanın en kolay yolu, mevcut derin öğrenme yazılımını kullanmaktır Uyumluluk ve çok yönlülük nedeniyle, burada tensorflow'u seçtik. Oluşturmak istediğimiz strateji ağ yapısı Şekil 2.4'te gösterilmektedir:

Şekil 2.4 Strateji sinir ağı

Bu sinir ağı, en basit ileri sinir ağıdır, giriş katmanı s durumudur, toplam 4 nöron, ilk gizli katman 10 nöron içerir ve aktivasyon işlevi relu'dur. Çıktı, bir eylemin olasılığı olduğundan ve iki eylem olduğundan, ikinci katman 2 nörondur, aktivasyon işlevi yoktur ve son katman softmax katmanıdır.

Bu kodu tensorflow diline çevirmek:

def _build_net (öz):

tf.name_scope ('input') ile:

# Giriş olarak yer tutucuyu oluştur

self.tf_obs = tf.placeholder (tf.float32 ,, name = "gözlemler")

self.tf_acts = tf.placeholder (tf.int32 ,, name = "actions_num")

self.tf_vt = tf.placeholder (tf.float32 ,, name = "actions_value")

#Seviye bir

layer = tf.layers.dense (

inputs = self.tf_obs,

birimler = 10,

aktivasyon = tf.nn.tanh,

kernel_initializer = tf.random_normal_initializer (ortalama = 0, stddev = 0.3),

bias_initializer = tf.constant_initializer (0.1),

isim = 'fc1',

)

#İkinci kat

all_act = tf.layers.dense (

girdiler = katman,

birimler = self.n_actions,

aktivasyon = Yok,

isim = 'fc2'

)

# Her eylemin olasılığını elde etmek için softmax işlevini kullanın

self.all_act_prob = tf.nn.softmax (all_act, name = 'act_prob')

Kodun tamamı, policynet.py dosyasındaki github'da görüntülenebilir.

Eylem seçme işlevi:

Eylem seçme işlevi, örnekleme ağına dayalı bir olasılık dağılımı oluşturmak ve eylemleri örneklemek için olasılık dağılımını kullanmaktır. Spesifik kod:

# Davranışı nasıl seçeceğinizi, yani s durumunda davranış örneklemesini tanımlayın. Mevcut davranış olasılık dağılımına göre örnekleme

def select_action (öz, gözlem):

prob_weights = self.sess.run (self.all_act_prob, feed_dict = {self.tf_obs: observation})

# Verilen olasılığa göre örnekleme

action = np.random.choice (aralık (prob_weights.shape), p = prob_weights.ravel)

dönüş eylemi

Np.random.choice işlevi, p = prob_weights.ravel olasılık dağılımına göre örnekleme işlevidir.

Kayıp fonksiyonunun yapısı:

Teorik bölümde, kayıp fonksiyonunun

Yani, çapraz entropi, kümülatif dönüş işlevi ile çarpılır. Aşağıdaki kod kısmıdır:

# Kayıp işlevini tanımlayın

tf.name_scope ('kayıp') ile:

neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits (logits = all_act, labels = self.tf_acts)

kayıp = tf.reduce_mean (neg_log_prob * self.tf_vt)

Kümülatif dönüş işlevi v'nin işlenmesi:

def _discount_and_norm_rewards (kendi):

#Discount iade ve

indirimli_ep_rs = np.zeros_like (self.ep_rs)

running_add = 0

ters çevrilmiş t için (aralık (0, len (self.ep_rs))):

running_add = running_add * self.gamma + self.ep_rs

indirimli_ep_rs = running_add

# Normalleştirilmiş

indirimli_ep_rs- = np.ortalama (indirimli_ep_rs)

indirimli_ep_rs / = np.std (indirimli_ep_rs)

iade indirimli_ep_rs

Strateji sinir ağı, eylem seçme işlevi, kayıp işlevi ve kümülatif dönüş işlevi ile öğrenme süreci basittir, sadece bir ifade çağırın:

# Eğitimi tanımlayın, parametreleri güncelleyin

tf.name_scope ('tren') ile:

self.train_op = tf.train.AdamOptimizer (self.lr) .minimize (kayıp)

Eğitim süreci, uyarlanabilir momentum kullanan bir optimizasyon yöntemidir. Optimizasyon öğrenme süreci aşağıdaki gibidir:

# Öğrenin, strateji ağ parametrelerini güncellemek için bölümden sonra bir kez öğrenin

def öğren (kendini):

# Bir bölümün indirimli getirisini hesaplayın

indirimli_ep_rs_norm = self._discount_and_norm_rewards

# Parametreleri güncellemek için eğitim işlevini arayın

self.sess.run (self.train_op, feed_dict = {

self.tf_obs: np.vstack (self.ep_obs),

self.tf_acts: np.array (self.ep_as),

self.tf_vt: indirimli_ep_rs_norm,

})

#Empty bölüm verileri

self.ep_obs, self.ep_as, self.ep_rs = ,,

iade indirimli_ep_rs_norm

2.5 Strateji gradyan algoritmasına dayalı arabanın ters sarkaç problemi

Strateji ağı ve eğitim süreci ile arabanın problemini çözmek çok basit. Temel çerçeve şudur:

1. Bir ortam oluşturun

2. Bir politika ağı oluşturun

3. Yinelemeli öğrenme

Çevre ile etkileşime girerek stratejinin ağ parametrelerini güncellemeyi öğrenin

4. Arabanın ters çevrilmiş sarkaç sistemini test etmek için öğrenilen strateji ağını kullanın

Açgözlü bir strateji tanımlamak için softmax stratejisini kullanın.

Spesifik kod, github'daki learning_cartpole.py dosyasındadır.

Bu dersin sonu.

Not: Bu kısım biraz dağınık.Kodu github'a indirmenizi şiddetle tavsiye ediyorum.Çince bir yorum yaptım.Parametreleri değiştirebilir ve kendiniz deneyimleyebilirsiniz. Tüm kodlar github gxnk / takviye-öğrenme-kodunun ilk ders klasöründedir.

Milli Gün Derin Yoğun Öğrenme Pratik Eğitim Kampı

Hong Kong Polytechnic University in Intensive Learning'den Dr. Guo ve Dr. Traffas ile Derin Yoğun Öğrenme Ulusal Günü Eğitim Kampı 2-6 Ekim tarihleri arasında Pekin'de düzenlenecek.

Kaydolmak için lütfen yukarıdaki resimdeki QR kodunu tarayın.

Discovery Education Technology, öğrenciler tarafından büyük ilgi gören ilk yoğun öğrenim kursunu Ağustos ayı başlarında başarıyla gerçekleştirdi. Öğrenci geri bildirimlerine ve en son öğretim ve araştırma sonuçlarımıza dayanarak, kursu daha da yükselttik ve geliştirdik. Ulusal Gün boyunca, beş günlük yoğun öğrenim özel eğitim kampı özel olarak başlatıldı. Beş günlük teorik açıklama ve pratik programlama yoluyla, herkesin kapsamlı ve sistematik bir şekilde yoğun öğrenme tekniklerini anlamasına ve ustalaşmasına yardımcı olacak.

Nesne odaklı: pekiştirmeli öğrenmede acemiler, yeni başlayanlar, belirli bir temeli olan ancak sistematik bir bilgi sistemi kurmamış olanlar ve pekiştirmeli öğrenmeyle ilgilenen diğer insanlar. Analiz, doğrusal cebir, olasılık teorisi ve python programlama temelinin belirli bir temeli var. Öğrencilerin sınıfa kendi bilgisayarlarını getirmeleri gerekmektedir.

Öğretim zamanı ve yeri: 10.2-10.6, Haidian Bölgesi, Pekin (belirli konum ayrıca bildirilecektir)

Kayıt: yüksek kaliteli küçük sınıf sistemi, üst sınır 30 kişidir ve sınıfa başlamak için 15'ten fazla kişi kaydolur.

Öğrenim: 7999 Erken kuş bileti 7499 (9.24'ten önce kayıt olun)

Özel açıklama: Bu Ulusal Gün özel eğitim kampına kaydolan tüm öğrenciler, şirketimiz tarafından düzenlenen (5999 yuan değerinde) iki günlük çevrimdışı kurslara bir yıl içinde iki kez katılabilir.

Eğitmenler :

Guo Xian , Bilgisayar ve Kontrol Mühendisliği Fakültesi, Nankai Üniversitesi'nde doktora sonrası. 2009 yılında Huazhong Bilim ve Teknoloji Üniversitesi'nden mekanik tasarım, imalat ve otomasyon dalından mezun oldu.Aynı yıl, robot dinamiği modelleme ve kontrolüne odaklanan bir master-doktora çalışması için Çin Bilimler Akademisi, Shenyang Otomasyon Enstitüsü'ne gönderildi.Ocak 2016'da mühendislik alanında doktora yaptı. Yurt içi ve yurt dışında tanınmış dergi ve konferanslarda 10 makale yayınlandı. Dr Guo, 2016 yılından beri robot akıllı algılama ve akıllı karar verme üzerine odaklanmaktadır.Şu anda robotik alanında derin öğrenme ve derin güçlendirme öğrenme gibi akıllı algoritmaların uygulanmasını içeren iki ulusal düzeydeki konuya başkanlık etmektedir. Dr. Guo, Mart 2017'de Zhihu sütun yoğun öğrenme bilgisi konferans salonunda başladı ve derinlemesine açıklamaları arkadaşlarının çoğu tarafından olumlu karşılandı. "Basit ve Basit Bir Kursta Pekiştirmeli Öğrenme" kitabı yakında yayınlanacaktır.

Bağlantıyı bilin: https://zhuanlan.zhihu.com/sharerl

Traffas , Temmuz 2014'te İsveç Kraliyet Teknoloji Enstitüsü'nden yüksek lisans derecesi aldı, daha önce İsveç'te Accedo'da program geliştirme yapmaktaydı ve şu anda Hong Kong Polytechnic Üniversitesi Bilgisayar Bilimi Bölümünde araştırma görevlisi olarak doktora eğitimi alıyor. Traffas'ın araştırma yönü makine öğrenimi ve pekiştirmeli öğrenmedir. Şimdiye kadar, Çin Bilgisayar Federasyonu (CCF) tarafından önerilen bir B kategorisi ve bir C kategorisi konferans kağıdı dahil olmak üzere altı makale yayınlandı.

program:

ilk gün: Eğitmen Trafikleri

1. Pekiştirmeli öğrenme nedir ve pekiştirmeli öğrenme yöntemlerinin bir özeti?

Takviyeli öğrenme, AlphaGo'nun insan rehberliğine ihtiyaç duymadan "birbirleriyle oynamasına" ve daha iyi ve şaşırtıcı bir şekilde kazanan Go becerilerini gerçekleştirmesine olanak tanır; robotun eylemlerinin artık karmaşık insan programlaması gerektirmemesini ve ortama uyum sağlamasını sağlayabilir. Pekiştirmeli öğrenmenin neden bu kadar büyülü bir işlevi var? Pekiştirmeli öğrenme tam olarak nedir? Bu ders sizinle konuşacak ...

2. Öğrenme alanındaki temel kavramları güçlendirin.

Takviye öğrenme alanındaki terimlerin kilidini açın. Pekiştirmeli öğrenme ile çözülebilecek problemleri tanıtın. Bellman Denklemi ilkesini tanıtın, RL ve dinamik programlama arasındaki benzerlikleri ve farklılıkları tanıtın. Geleneksel boru şeklindeki RL'yi tanıtın.

3. Python2.7 + Anconda + jupyter Notebook'u yüklemeye giriş

4. Gelişmiş öğrenme için ilk python programını yazmaya başlayın (30 dakika) ve slot makineleri oynamak için en iyi stratejiyi bulun.

5. Monte Carlo pekiştirmeli öğrenmeye, aynı stratejiye, farklı strateji pekiştirmeli öğrenme algoritmasına girişe dayanmaktadır.

6. Cevaplar ve değişimler

sonraki gün: Eğitmen Trafikleri

1. Takviye öğrenme algoritması uygulaması, takviye öğrenmeye dayalı blackjack oyunları ve gridworld oyunları oynayın.

2. Takviye öğrenme zaman farkı algoritması. Aynı strateji Q-öğrenme pekiştirmeli öğrenme yöntemini ve farklı strateji Sara algoritmasını tanıtın. Karşılaştırma ve Monte Carlo algoritması arasındaki benzerlikler ve farklılıklar. Uygunluk Ağacı ve TD (lamda) algoritmasını tanıtın.

3. Spor salonu ortamı inşası ve pekiştirme öğrenme algoritması uygulaması. Spor Salonu ortamının kurulumu ve test edilmesi, Spor Salonu ortamının temel işlevlerinin açıklaması ve özel bir Spor Salonu ortamının nasıl oluşturulacağı dahil.

4. Stajyerler uygulamalı uygulama

5. Öğretmen soruları cevaplar ve iletişim kurar.

Üçüncü gün: Eğitmen Trafikleri

1. DQN'nin ayrıntılı açıklaması

DQN, derin takviyeli öğrenmede güçlü bir silahtır.DeepMind ekibi, bilgisayarların Atari video oyunlarındaki en iyi insan oyunculardan daha iyi performans göstermesini sağlamak için DQN teknolojisini kullanır. Aynı zamanda, DQN varyantlarını Double DQN, Prioritized Replay, Dual DQN açıklayacağız.

2. Alıştırma hazırlığı

Derin sinir ağı DNN ve RNN'yi tanıtın. Keras kurulumu, sınıflandırma problemlerini çözmek için RNN ağının uygulamalı tasarımı.

3. Gerçek dövüşü öğrenen derin pekiştirme, kişisel olarak oyun ustalarını yenebilecek bir AI yazın.

4. Hata ayıklama, öğretmen cevapları, rehberlik ve iletişim.

Dördüncü gün: Eğitmen Guo Xian

1. Strateji gradyan yöntemi:

Öğretim içeriği şunları içerir: strateji gradyan yöntemine giriş, olasılık oranı strateji gradyanının türetilmesi ve önem örnekleme perspektif türetmesi, olasılık oranı strateji gradyanının sezgisel olarak anlaşılması, ortak strateji ifadesi, varyansı azaltmanın ortak yöntemi: temel fonksiyon yöntemini tanıtma, değiştirme Tahmini değer işlevi yöntemi

2. Programlama alıştırma sınıfı: arabanın ters sarkaç sistemini ve masa tenisi oyununu gerçekleştirmek için tensorflow ve spor salonuna dayanır

3. TRPO yönteminin tanıtımı ve türetilmesi: alternatif ödül fonksiyonunun oluşturulması, monoton iyileştirme stratejisi, TRPO pratik algoritmasının tanıtılması, uygun yönleri aramak için eşlenik gradyan yöntemi, PPO yöntemi, python'a dayalı TRPO yönteminin uygulanması dahil

4. Programlama kılavuzu, iletişim ve soruları yanıtlama.

Beşinci gün: Öğretim Görevlisi Guo Xian

1. AC yöntemi, özel içerik rastgele strateji ve deterministik strateji karşılaştırması, rastgele strateji AC yöntemi, deterministik strateji gradyan yöntemi, DDPG yöntemi ve uygulaması, A3C yöntemi açıklaması, python tabanlı DDPG yöntemi uygulaması içerir.

2. AC yöntemi ve DDPG, A3C gerçekleştirme.

3. Ters pekiştirmeli öğrenme sınıflandırması, çırak öğrenimi, MMP yöntemi, yapılandırılmış sınıflandırma yöntemi, sinirsel ters pekiştirmeli öğrenme, maksimum entropi ters pekiştirmeli öğrenme, göreceli entropi ters pekiştirmeli öğrenme ve derin ters pekiştirmeli öğrenme dahil olmak üzere ters pekiştirmeli öğrenmeye giriş.

4. Programlama kılavuzu, Soru-Cevap ve iletişim.

Kaydolmak için lütfen posterdeki QR kodunu tarayın.

İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~

Moğolistan ülke genelinde borçları geri ödemekte sıkışıp kaldı ve fiyatlar yükseliyor. Şimdi renminbi tarafından destekleniyor. İşte püf noktası
önceki
Yangcheng Gölü tüylü yengeçlerini unutun! Erkekler ve kadınlar daha fazla istiridye yemeli
Sonraki
Huawei cep telefonları nasıl ilk ve dünyada birincilik kazanabilir?
Nisan ayında büyük bir SUV dalgası piyasaya sürülecek! Baojun RS-5, yeni Q3, CS95 geliyor!
"Tek Bir Çatı Altında Dört Kuşak" kısa videosu tüm dünyaya yayılıyor, Çin tarzı aile sevgisi ve ağlayan yabancı netizenler
10 ülke altının iadesini duyurduktan sonra, Fed Almanya'nın altını inceleme talebini reddetti ve yeni gelişmeler var
Haidilao'nun kökeni burada mı? Bir kase koyun eti çorbası sayısız insan tarafından eşsiz hale geldi
İnsanlar neden batıl inançlılar?
Dökme demir motor ile alüminyum alaşımlı motor arasındaki fark nedir? Hangisi daha iyi?
Baba ve oğul yeni arabadan bahsetmeyi severler, havai fişekler karakolun yanına yerleştirilir ve bir çatırtıdan sonra ...
Çin, ABD borçlarını üç ayda en yüksek seviyeye çıkardı.Japonya biraz değişti ve ABD borç ihracı askıya alındı
Rusya, Çin'e nakit para gönderdikten ve Çinli alıcılara arazi sağlamaya istekli olduktan sonra, işler yeni bir ilerleme kaydetti.
İnan bana, seyahat seni mutlu edecek
Ortadaki penetrasyonu zayıflatmak, iletimi ve kontrolü terk etmek, yandan hücumu güçlendirmek ve "çirkin" Luneng doğru yolu seçmektedir.
To Top