Girişten ustaya kadar derin takviye öğrenimi: Giriş (Bölüm 1)

Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:

Pekiştirmeli Öğrenmeye Giriş

Yazar | Thomas Simonini

Tercüme | Stephen Ergouzi, Disillusion

Düzeltme | Stephen Ergouzi İnceleme | Sadece 2 Bitirme | Ananas Kız

Orijinal bağlantı:

https://medium.freecodecamp.org/an-introduction-to-reinforcement-learning-4339519de419

Girişten ustaya kadar derin takviye öğrenimi: Giriş (Bölüm 1)

Kullanacağınız bazı programlama ortamları

Bu makale, Tensorflow'u uygulama için kullanan derinlemesine pekiştirmeli öğrenme kursunun bir parçasıdır. Müfredatı görüntülemek için buraya tıklayın.

Takviye öğrenimi, temsilcinin işlemleri gerçekleştirerek ve sonuçları görüntüleyerek ortamda işlemlerin nasıl gerçekleştirileceğini anladığı önemli bir makine öğrenimi türüdür.

Son yıllarda, bu büyüleyici araştırma alanında birçok gelişme gördük. Örnekler arasında DeepMind'ın 2014'te Deep Q öğrenme mimarisi, AlphaGo'nun 2016'da Li Shishi'yi ve 2017'de OpenAI ve PPO'yu yendiğini sayabiliriz.

DeepMind DQN

Bu makale dizisinde, şu anda Q-öğrenme, Derin Q-öğrenme, Politika Gradyanları, Aktör Eleştirmen ve PPO dahil olmak üzere pekiştirmeli öğrenme problemlerini çözmek için kullanılan farklı mimarileri öğrenmeye odaklanacağız.

Bu ilk makalede şunları öğreneceksiniz:

  • Pekiştirmeli öğrenme nedir ve ödül mekanizması nasıl ana fikir haline gelir?

  • Takviye öğrenmenin üç yöntemi

  • Derinlemesine pekiştirmeli öğrenmenin "derinliği" ne anlama geliyor?

Derin Pekiştirmeli Öğrenme aracısını uygulamadan önce bu içeriklere hakim olmak çok önemlidir.

Pekiştirmeli öğrenmenin arkasındaki fikir, aracının çevre ile etkileşime girerek ve eylemleri gerçekleştirme karşılığında ödüller kazanarak çevreyi öğrenmesidir.

Çevre ile etkileşimden insanların doğal deneyimlerinden öğrenin. Oturma odasında bir çocuk olduğunuzu hayal edin. Bir şömine görüyorsun, ona yaklaşıyorsun.

Sıcak ve pozitiftir ve kendinizi iyi hissedersiniz (pozitif ödül +1). Ateşin iyi bir şey olduğunu hissediyorsun.

Ama aleve dokunmaya çalışıyorsun. Ah, ellerini yakacak (negatif ödül -1). Yeterince uzakta olduğunuzda ateşin aktif olduğunu anladınız çünkü sıcaklık üretir. Ama ona çok yaklaşmak seni yakar.

İnsanlar etkileşim yoluyla bu şekilde öğreniyor. Pekiştirmeli öğrenme, eylemden öğrenen hesaplamalı bir yöntemdir.

Takviye öğrenme süreci

Super Mario oynamayı öğrenen bir temsilci örneği görmeme izin verin. Takviye öğrenme (RL) süreci bir döngü olarak modellenebilir ve özel çalışma yöntemleri aşağıdaki gibidir:

  • Temsilci, S0 durumunu Ortamdan alır (bizim örneğimizde, oyunun ilk karesini (durum) Super Mario Bros.'tan (ortam) alır)

  • Bu S0 durumuna bağlı olarak, temsilci A0 işlemini gerçekleştirir (temsilcimiz sağa doğru hareket eder)

  • Çevre, yeni S1 durumuna geçiş yapar (yeni çerçeve)

  • Çevre, ajan R1'e bazı ödüller getiriyor (ölmemiş: +1)

Takviye öğrenme döngüsü durum, eylem ve ödül sırasını verir. Temsilcinin amacı, beklenen kümülatif ödülü (beklenen kümülatif ödül) maksimize etmektir.

Ödül hipotezi fonksiyonunun temel fikri

Temsilcinin amacı neden beklenen kümülatif ödülü en üst düzeye çıkarmaktır?

Aslında, pekiştirmeli öğrenme, ödül varsayımları fikrine dayanır. Tüm hedefler, beklenen kümülatif ödülü maksimize ederek tanımlanabilir.

Bu nedenle pekiştirmeli öğrenmede, en iyi davranışı elde etmek için beklenen birikimli ödülü maksimize etmemiz gerekir.

Her t adımındaki birikimli ödül şu şekilde tanımlanabilir:

Bu eşdeğerdir

Düzeltme için Pierre-Luc Bacon'a teşekkürler

Ancak, aslında böyle ödüller ekleyemeyiz. Erken ödüller (oyunun başında) gelecekteki ödüllerden daha tahmin edilebilir oldukları için daha kullanışlıdır.

Temsilcinizin bu küçük fare ve rakibinizin kedi olduğunu varsayalım. Amaç, ajan kedi tarafından yemeden önce en çok peyniri yemektir.

Şekilde de görebileceğimiz gibi, bir farenin kediye yakın peynirden daha yakın bir yerde peynir yemesi daha olasıdır (etken kediye ne kadar yakınsa, o kadar tehlikelidir).

Bu nedenle, kedinin yanındaki ödül, daha büyük (daha fazla peynir) olsa bile, indirimli olmalıdır. Çünkü ajanın onu yiyip yiyemeyeceğinden emin değiliz.

Ödülde indirim yapmak için bunu yapabilirsiniz:

  • Gama adı verilen bir indirim oranı tanımlıyoruz. 0 ile 1 arasında olmalıdır.

  • Gama ne kadar büyükse indirim o kadar küçük olur. Bu, öğrenmek anlamına gelir, temsilci daha çok uzun vadeli ödüllerle ilgilenir.

Öte yandan, gama ne kadar küçükse indirim o kadar büyük olur. Bu, temsilcimizin daha çok kısa vadeli ödüllerle (yeni peynir) ilgilendiği anlamına geliyor.

Birikmiş indirim beklenen ödüller şunlardır:

Düzeltme için Pierre-Luc Bacon'a teşekkürler

Basitçe söylemek gerekirse, her ödül gama zaman adımı boyunca katlanarak indirilecektir. Zaman adımı arttıkça, kedi temsilcimize gittikçe yaklaşır, bu nedenle gelecekteki ödüllerin gerçekleşmesi gittikçe daha az olasıdır.

Epizodik görev veya sürekli görev

Görev, pekiştirmeli öğrenme problemine bir örnektir.İki tür görev tanımlayabiliriz: epizodik ve sürekli.

Epizodik görevler

Bu durumda, pekiştirmeli öğrenme görevinin bir başlangıç noktası ve bir bitiş noktası (son durum) olacaktır. Bu bir olay örgüsü oluşturacaktır: Durumlar, Eylemler, Ödüller, Yeni Durumlar listesi

Örneğin, Super Mario Bros'u düşünün. Bir hikaye, yeni bir Mario karakterinin doğum noktası ortaya çıktığında başlar ve bittiğinde: Mario öldürüldüğünde veya seviyenin sonuna ulaştığında.

Yeni bir komplonun başlangıcı

Sürekli görev

Bunlar sonsuza kadar süren görevlerdir (son durumu yoktur). Bu durumda, temsilci en iyi eylemi nasıl seçeceğini ve aynı zamanda çevre ile nasıl etkileşim kuracağını öğrenmelidir.

Örneğin, acente otomatik hisse senedi ticareti yapar. Bu görev için başlangıç ve bitiş durumu yoktur. Temsilci, biz onu durdurmaya karar verene kadar idama devam edecek.

Monte Carlo ve TD öğrenme yöntemi

İki öğrenme yöntemimiz var:

  • Bölümün sonunda ödülleri toplayın ve ardından beklenen maksimum gelecek ödülünü hesaplayın: Monte Carlo yöntemi

  • Her adım için ödülün tahmin edilmesi: zamansal fark yöntemi

Monte Carlo

Bölüm sona erdiğinde (temsilci "son duruma" ulaştığında), temsilci nasıl performans gösterdiğini görmek için toplam birikimli ödülü kontrol edecektir. Monte Carlo yönteminde, ödül sadece oyunun sonunda alınır.

Sonra öğrendiğimiz bilgileri yeni bir oyuna başlamak için kullanırız. Temsilci, her yinelemede daha iyi kararlar verecektir.

Bir örnek alalım:

Labirent ortamını ele alırsak:

  • Daima aynı başlangıç noktasından başlayın.

  • Kedi fareyi yerse veya fare 20 adımdan fazla hareket ederse bölümü bitiririz.

  • Bölümün sonunda Eyalet, Eylemler, Ödüller ve Yeni Durumların bir listesi var

  • Toplam ödül Gt sayılır (farelerin nasıl performans gösterdiğine bakın).

  • Yukarıdaki formüle göre V (st) güncelleyin.

  • Sonra bu yeni bilgiyi yeni bir oyuna başlamak için kullanın.

Aracı, daha fazla bölüm çalıştırarak daha iyi öğrenecek ve daha iyi performans gösterecektir.

Zaman serisi fark yöntemi: her adımda öğrenme

TD öğrenimi, beklenen maksimum gelecek ödül tahminini güncellemek için bölümün sonuna kadar beklemeyecektir: deneyimde meydana gelen son olmayan durum St'in değer tahmini V'yi güncelleyecektir.

Bu yönteme TD (0) veya tek adımlı TD (herhangi bir tek adımdan sonra güncelleme değeri işlevi) adı verilir.

TD yöntemi, değer tahminini güncellemek için yalnızca bir sonraki adıma kadar bekler. T + 1 zamanında, TD hedefini hemen almak için gözlemlenen ödül Rt + 1'i ve mevcut tahmini V (St + 1) değerini kullanırlar.

TD hedefi bir tahmindir: aslında, önceki tahmin V (St) tek adımlı bir hedef olarak güncellenerek güncellenebilir.

Arama / geliştirme ödünleşimleri

Pekiştirmeli öğrenme problemlerini çözmek için farklı stratejiler incelemeden önce, çok önemli başka bir konuyu ele almalıyız: keşif / geliştirme ödünleşimi.

  • Keşif, çevre hakkında daha fazla bilgi bulmaktır.

  • Geliştirme, ödülleri en üst düzeye çıkarmak için bilinen bilgilerin kullanılmasıdır.

Unutmayın, RL temsilcimizin amacı beklenen birikimli ödülü en üst düzeye çıkarmaktır. Ancak yerel bir tuzağa düşebiliriz.

Bu oyunda, faremizde sınırsız sayıda küçük peynir (her biri +1) olabilir. Ama labirentin tepesinde büyük bir dilim peynir (+1000) var.

Ancak, yalnızca ödüllere odaklanırsa, temsilci asla büyük bir peynire ulaşamayacaktır. Bu kaynak küçük olsa bile (kullanılmış), yalnızca en yakın ödül kaynağını alır.

Ancak komisyoncumuz biraz keşif yaptıysa, büyük getiri sağlayabilir.

Bu, keşif / madencilik takası dediğimiz şeydir. Bu değiş tokuşun üstesinden gelmeye yardımcı olacak bir kural tanımlamalıyız. Gelecek makalelerde bununla başa çıkmanın farklı yollarını göreceğiz.

Takviye öğrenmenin üç yöntemi

Artık pekiştirmeli öğrenmenin ana unsurlarını tanımladığımıza göre, pekiştirmeli öğrenme problemlerini çözmenin üç yolunu tartışmaya devam edelim. Bunlar değerlere, stratejilere ve modellere dayalı yöntemlerdir.

Değere göre

Sayısal tabanlı RL'de amaç, V (s) değer fonksiyonunu optimize etmektir.

Değer işlevi, temsilcinin her durumda elde edeceği beklenen maksimum gelecekteki ödülü gösteren bir işlevdir.

Her eyaletin değeri, başlangıç noktası olarak eyalete, temsilcinin gelecekte biriken toplam ödül miktarına ilişkin beklentisine dayanır.

Temsilci, beklentisini en üst düzeye çıkarmak için durumu adım adım seçmek için bu işlevi kullanır.

Labirent örneğinde, hedefe ulaşmak için her adımda maksimum değeri alacağız: -7, sonra -6, sonra -5 (vb.).

Stratejiye dayalı

Politika tabanlı RL'de, değer işlevini kullanmadan politika işlevini (s) doğrudan optimize etmeyi umuyoruz.

Bu strateji, temsilcinin belirli bir zamandaki davranışını tanımlar.

eylem = politika (durum)

Bir strateji işlevini öğrenerek. Bu, her durumu ilgili en iyi işlemle eşlememize olanak tanır.

İki tür stratejimiz var:

  • Determinizm: Belirli bir durumdaki bir strateji her zaman aynı işlemi döndürecektir.

  • Rastgele: Ayrık eylem olasılığını çıktılar.

Burada gördüğümüz gibi, strateji her adım için en iyi eylem planını doğrudan işaret ediyor.

Model tabanlı

Model tabanlı RL'de ortamı modelliyoruz. Bu, bir çevresel davranış modeli oluşturduğumuz anlamına gelir.

Sorun, her ortamın farklı bir model temsili gerektirmesidir. Bu nedenle, ilerideki bir makalede bu tür pekiştirmeli öğrenmeden bahsetmeyeceğiz.

Derin pekiştirmeli öğrenmeye giriş

Derin pekiştirmeli öğrenme, pekiştirmeli öğrenme problemlerini çözmek için derin sinir ağlarını tanıtır - dolayısıyla "derin" adı da buradan gelir.

Örneğin, sonraki makalede Q-Öğrenme (klasik pekiştirmeli öğrenme) ve derin Q-Öğrenme üzerinde çalışacağız.

İkisi arasındaki farkı göreceksiniz. İlk yöntemde, her durum için işlemi bulmamıza yardımcı olabilecek bir Q tablosu oluşturmak için geleneksel algoritmayı kullanıyoruz.

İkinci yöntemde, bir sinir ağı kullanacağız (ödülü duruma göre tahmin ederek (q değeri)).

Udacity'nin Q öğrenme defteri yukarıdaki resme ilham verdi

Tebrikler! Bu makalede çok fazla bilgi var. Devam etmeden önce, yukarıdakilere gerçekten hakim olmalıyız. Eğlenceli kısma geçmeden önce şu unsurlarda uzmanlaşmak önemlidir: video oyunları oynayabilen yapay zeka yaratmak.

Önemli not: Bu makale, derinlemesine pekiştirmeli öğrenmeyle ilgili bir dizi ücretsiz blog gönderisinin ilk bölümüdür. Daha fazla bilgi ve kaynak için müfredata bakın.

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

Açmak için bağlantıya uzun basın veya [Başlangıçtan Ustaya: Giriş (Bölüm 1)] 'e tıklayın:

https://ai.yanxishe.com/page/TextTranslation/1390

AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak güncelliyor ve daha heyecan verici içerikler izliyor: Lei Feng Wang Lei Feng Wang Lei Feng Wang

Nesne algılama ve izleme için PyTorch kullanın

Python ile makine öğrenimi için toplanması gereken önemli bir kitaplık

Yeni başlayanlar için transfer öğrenimi için Keras nasıl kullanılır

Sizi WaveNet'e götürecek bir makale: Google Assistant'ın ses sentezleyicisi

Çevirmenizi bekliyorum:

Pekiştirmeli Öğrenme: Duygu Temelli Davranış Sistemine Doğru

LSTM modeli oluşturmak ve parametreleri ayarlamak için Keras nasıl kullanılır

Gelişmiş DQN'ler: Derin Pekiştirmeli Öğrenme ile Pac-Man Oynamak

Derin güçlendirme öğrenimi için yapılandırılmış kontrol ağı (ICML belgesinde açıklama)

Mi 9 arzı 1 milyon birimi aşıyor. Foxconn'un gezisi, "0'dan 1'e" tüm süreci tanık oluyor.
önceki
Zhang Binbin midilliyi tek öldürdü, netizenler tarafından gücün iyi mi yoksa gösteri etkisi mi olduğu sorgulandı.
Sonraki
Başka bir süper yüksek enerjili Kore draması geliyor, lütfen hayranlar için hazırlıklı olun!
Sadece kıskançlık için! DJ Khaled, KAWS x Air Jordan 4 aile ve arkadaşlarının sınırlı ayakkabılarını ortaya çıkardı!
Yeni Honda CR-V ayrıntılı konfigürasyonunun ortaya çıkışı: Üst düzey modeller harika
Olağanüstü an, 2018 FIFA Dünya Kupası'nın canlı aşaması "vivo 8 dakika"
"Ace Agent 2": Uzun zamandır beklenen harika filminiz nihayet burada!
Cav Empt 2017 sonbahar ve kış yepyeni hafta ürünleri şimdi göz atın!
BYD Tang II ile ilgili tüm bilgiler: 3,9 kırık yüz?
Geleneksel ev aletleri Xiaomi tarafından saldırıya mı uğradı? Xiaomi TV, Haziran ayındaki toplam satışlarının ülkenin ilkini geride bıraktığını duyurdu
Meizu 16s daha gerçek makine casus fotoğrafları çıktı: bu temelde tasarım
Doinb canlı yayınında PK kadın spiker, seksi ateşli dans, Ma Ge çok ateşli gönderdi!
Ma Huateng bu kişiyi 200 yuan ile ödüllendirdi!
Film İşe Alım: Arkadaş çevrenizdeki en iyi ağızdan ağza şaheser "Genius Gunner", sizi ücretsiz olarak izlemeye davet ediyor!
To Top