Pekiştirmeli öğrenmenin geleceği - birinci bölüm

Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:

Pekiştirmeli Öğrenmeyle Gelecek - 1. Bölüm

Yazar | Hunter Heidenreich

Tercüme | Hayal kırıklığı, lyminghaoo

Düzeltme | Soslu Armut Terbiye | Ananas Kız

Orijinal bağlantı:

https://towardsdatascience.com/the-future-with-reinforcement-learning-part-1-26e09e9be901

Pekiştirmeli öğrenmenin geleceği - birinci bölüm

Her bilgisayar sisteminin kişiliğinize göre özelleştirildiği bir dünya hayal edin. Başkalarıyla nasıl iletişim kurduğunuzu ve başkalarının sizinle nasıl iletişim kurmasını istediğinizin nüanslarını öğrenebilir. Bilgisayar sistemleriyle etkileşim her zamankinden daha doğrudan olacak ve teknoloji seviyesinin bir roket gibi ilerlemesine izin verecek. Gelecekte pekiştirmeli öğrenme norm haline geldiğinde, muhtemelen bu sonuçların ortaya çıktığını göreceksiniz.

Bu makalede, pekiştirmeli öğrenmeyi ayrıştırıp, pekiştirmeli öğrenme sisteminin bazı bileşenlerini analiz edeceğiz.

Takviye öğrenmeye yüksek düzeyde genel bakış

Daha önce pekiştirmeli öğrenmeyi (RL) hiç duymadıysanız endişelenmeyin! Bu konsept çok sezgiseldir. Çok yüksek bir seviyeden, pekiştirmeli öğrenme adildir: temsilci, çevreden alınan geri bildirim sinyallerine dayanarak çevre ile nasıl etkileşim kuracağını öğrenir. Bu, temsilcinin eğitim sürecinde doğru cevabı görebildiği diğer makine öğrenimi yöntemlerinden farklıdır. Ancak pekiştirmeli öğrenmede, temsilcimizin yalnızca nasıl performans gösterdiğini bilmesini sağlayan bir puan aldığını düşünebiliriz.

Bu düşünceyi bir video oyunuyla ifade edelim. "Süper Mario" oynamak için bir bilgisayar programımız olduğunu varsayalım. Rolü kontrol etmeyi öğrenir ve resimleri değiştirerek çevreden geri bildirim alır. Başarılı (veya başarısız) algoritmamıza dayanarak, çevre ile nasıl etkileşim kuracağını öğrenebilir ve aldığı geri bildirimleri iyileştirmek için kullanabilir.

İçinde bulunduğumuz ortamı öğrenmek için keşfetmemiz gerekiyor! "Kestane çocuk" un (resimdeki canavar) kötü olduğunu ve sahne donanımının iyi olduğunu bilmenin tek yolu deneme yanılma ve geri bildirimdir.

Pekiştirmeli öğrenme, insanların veya diğer zeki yaratıkların yeni çevre ile etkileşimlerini taklit etmeye çalışır: deneme yanılma. Bilgisayar bilimi, psikoloji, sinirbilim ve matematik gibi pek çok alanda yapılan araştırma sonuçları temelinde doğmuştur. Günümüz endüstrisinde pekiştirmeli öğrenme yaygın olmasa da, potansiyel etkisi çok büyük.

Pek çok alanın kesişim noktası olan pekiştirmeli öğrenme, optimizasyon ve davranış psikolojisi alanında uzun bir geçmişe sahiptir.

Size göstereceğim şey bu potansiyeldir.

"Super Mario" oyununda pekiştirmeli öğrenme kelimeleri

Video oyunları oynamak için pekiştirmeli öğrenmenin klasik örnekleriyle karşılaştık. Şimdi, "Süper Mario" örneğini kullanmaya devam edelim ve bu konsept fikrini ve ilgili kelime hazinesini daha derine inelim.

Danışman: Mario

İlk önce bir temsilcimiz var. Temsilcilerimiz algoritmalarımız ve programlarımızdır. Tüm işlemlerin "beyni" dir. Çevremizle etkileşime girecek. Bu örnekte, ajanımız Mario, tüm kontrolden o sorumlu olacak.

Danışmanımız: Mario

Çevre: Oyun seviyesi

Aracı bir ortamda (ortamda) var. Çevre, oynadığımız "Süper Mario" nun seviyesidir. Ekrandaki düşmanlar ve küpler dünyayı oluşturuyor. Zaman geçiyor ve puanlar artıyor (en azından öyle olmasını umuyoruz!). Temsilcimizin amacı, ödüller almak için çevre ile etkileşimde bulunmaktır.

Çevremiz: basit bir seviye

Eylemler: zıpla, atla ve ileri

Ödül nedir? Temsilcimiz bunu nasıl elde eder? Temsilcimiz çevre ile etkileşime girmeli. Etkileşimi tamamlamak için isteğe bağlı eylemler listesinden yasal bir işlem seçebilir. Belki de menajerimiz "Mario" yukarı atlamaya veya sola / sağa hareket etmeye karar verdi. Ayrıca ateş topu dekoru da olabilir, bu nedenle ajan bir tane başlatmaya karar verir. Mesele şu ki, bu eylemlerin her biri çevreyi etkileyecek ve belirli değişikliklere neden olacaktır. Temsilcimiz bu değişikliği gözlemleyebilir, geri bildirim sinyali olarak kullanabilir ve ondan bir şeyler öğrenebilir.

İnsanlar bu arayüzü eylemleri gerçekleştirmek ve çevreyi etkilemek için kullanabilir.

Durum: Mario + Aksiyon + Çevre = Durum

Temsilcimizin gözlemlediği değişiklikler, ortamın durumundaki değişikliklerdir. Temsilci tarafından gözlemlenen yeni durum bir "ödül" sinyali oluşturacaktır. Temsilci tarafından alınan eylemleri, durum değişikliğini ve durum değişikliğinden elde edilen potansiyel ödülleri birleştiren temsilci, keşfetmek istediği ortam için uygulanabilir bir model oluşturmaya başlar.

Durum, gözlemlediklerimizden ortamda meydana gelen tüm bilgileri içerir. Örneğin, karakterlerimizin nerede olduğu, mevcut puanlarımız ve resimdeki düşmanlar, hepsi mevcut çevremizle ilgilidir.

Ödül: puanlar + hayatta kal

Temsilci, zıpladığında ve bir düşmanın üzerine düştüğünde puanının artacağını ve artık düşman tarafından öldürülmeyeceğini öğrenirse, bu öğrenmeye değer bir şey olmalı! Ayrıca Mario deliğe düşerse oyunun biteceğini ve gelecekte daha fazla puan alma veya seviye kazanma şansı olmadığını öğrenebilir. Bunlar, temsilcinin zaman içinde öğrenebileceği şeylerdir. Çevre ile ne kadar çok etkileşim olursa o kadar çok şey öğrenir.

"Süper Mario" da, ödülleri ölçmenin iyi bir yolu puanlar olabilir!

Yukarıdaki içerik, pekiştirmeli öğrenme probleminin tüm ana bileşenlerine bir giriş içerir. Bu bölümde hatırlamanız gereken önemli şeyler şunlardır: temsilci, çevre, eylem, durum ve ödül ve bunların zihninizde kullanılabilir bir tanımını yapmaya çalışın.

Resimlerden öğrenmeye daha alışkınsanız, bu resim bu kavramları iyi bir şekilde birbirine bağlar.

Bir temsilcinin içinde bulunduğu ortamdan nasıl öğrendiğini oluşturmak için tüm parçalar birleştirilir!

O nasıl çalışır?

Artık bazı temel kelimeleri anladığımıza göre, onu bir aracının nasıl çalıştığını öğrenmek için kullanabiliriz. Temsilci, alacağı ödülü en üst düzeye çıkarmak için ne yapması gerektiğine nasıl karar verir?

İki ana dalı analiz etmemiz ve anlamamız gerekir: pekiştirmeli öğrenme aracılarına duyulan ihtiyaç ve alt unsurları.

Pekiştirmeli öğrenmeye duyulan ihtiyaç

Takviye öğrenme aracıları, belirsizlikle dolu bir ortamda neyin iyi bir eylem olduğuna karar vermeyi öğrenmelidir. Alınan geri bildirim, ödülün hesaplanabileceği gözlemlenen durum değişikliğinden gelen gecikmiş ödül sinyalidir. Temsilci, ödülün nedeni hakkındaki bu belirsizliği ve nedeni keşfedebilmelidir. Bunu yapmak için temsilcinin üç basit şeye ihtiyacı vardır: eylemler, hedefler ve algılar.

aksiyon

Eylemler, bir aracının herhangi bir anda ortamda çalışabileceği dizilerdir. Aracı, bir eylem gerçekleştirerek ortamını etkileyecek ve durumunu değiştirecektir. Bu mümkün değilse, temsilci hiçbir zaman devleti aktif olarak etkileyemez, çevreyi olumlu veya olumsuz etkileyen eylemlerinden yorumlanabilir herhangi bir ödül alamaz ve hatta gelecekte daha iyi adımlar atmayı öğrenemez.

Bir kişinin Atari kontrolöründe yapabileceği eylemlerin sırası.

Amaçları

Hedef, ödül sinyallerini nasıl tanımladığımızı ifade eder. Oyundaki puanlara göre ödülleri tanımlıyor muyuz? Veya bir seviyeyi tamamlayın? İyi ve kötü eylemler nelerdir? Takviye öğrenme bağlamında hedefleri tanımlarken bu konuları dikkate almalıyız. Bu, temsilciyi bir görevi tamamlaması için nasıl motive ettiğimizle ilgilidir.

Basit bir hedef belirleme. Baştan sona nasıl gidilir?

Algılamak

Temsilciler çevreyi gözlemlemek için algıyı kullanırlar. Bir video oyunu ortamında, ekrandaki nesneleri ve temsilcilerimiz harekete geçtiğinde bu nesnelerin nasıl değiştiğini gözlemlemek için bilgisayarla görme teknolojisini kullanmak mümkün olabilir. Belki skoru gözlemlemek için optik karakter tanıma (OCR) teknolojisini kullanabiliriz. Mesele şu ki, ajan çevreyi algılayamazsa, eylemlerinin çevreyi nasıl etkilediğini çıkaramaz. Bu nedenle, etkileşimde bulunduğumuz ortamı izlemek için algıya ihtiyacımız var.

Takviye öğrenme sisteminin alt unsurları

Şimdi, RL sisteminin alt unsurlarına geçebiliriz: strateji, ödül sinyali, değer işlevi ve çevre optimal modeli.

Strateji

Strateji, RL temsilcimizin özüdür. Temsilcimiz, belirli bir ortamın mevcut durumunda bu şekilde davranır. Ve belirli bir durumda alınan eylemler. Biyolojide stratejiyi, bir organizmanın aldığı uyaranlara nasıl tepki verdiği olarak düşünebiliriz. Temsilcilerimiz çevrenin durumunu gözlemler ve stratejiler öğrendikleri eylemlerdir. İyi bir strateji olumlu sonuçlar getirecektir.

Stratejimiz, ajanın belirli bir çevresel durumda ne yapacağını belirleyecektir. Bir ızgara verildiğinde bu stratejide temsilcimizin belirli bir yönde hareket edeceğini görebiliriz.

Ödül sinyali

Ödül sinyalleri, temsilcinin başarısını nasıl ölçtüğümüzle ilgilidir. Hedeflerimize ulaşmada ne kadar başarılı olduğumuzun sayısal bir göstergesidir. Ödül sinyalleri olumlu veya olumsuz olabilir, böylece temsilcimiz bir davranışın iyi mi kötü mü yoksa nötr mü olduğuna karar verebilir. Bunlar video oyunlarındaki skorlar veya temsilcinin hayatta kalma durumu olabilir. Önemli olan, temsilcimizin bu ödül sinyallerini alması, mevcut hedefin performansını ölçmesi ve stratejisini bu geri bildirimlere dayanarak formüle etmesidir, böylece gelecekte olası ödülleri en üst düzeye çıkarmak için ortamı daha da değiştirebilir.

Bunu, önceki hedef görseldeki gizli ödüllerin bir eşlemesi olarak düşünebiliriz. Temsilci, yalnızca ortamı keşfederek, hedef ızgaraya adım atmanın ödülünün 1 olduğunu bilebilir!

Değer işlevi

Ödül sinyallerini, bir davranışın iyi mi kötü mü olduğuna dair anlık bir gösterge olarak düşünebiliriz. Ancak, pekiştirmeli öğrenme yalnızca anlık olumlu veya olumsuz sonuçlarla ilgili değildir. Bunun yerine, bir görevi en iyi şekilde yerine getirmek uzun vadeli bir plandadır. Bu uzun vadeli performansı modellemek için, değer fonksiyonu adı verilen bir kavram getirdik. Değer fonksiyonu, temsilcimizin uzun vadeli başarı olasılığının bir tahminidir. Bunu tahmin etmek ve ölçmek zordur, ancak RL sorunumuzun en kritik bileşenlerinden biridir! Belirsiz bir ortamda, temsilcimiz, uzun dizinin davranışını ve durumunu devralmak için stratejiyi ve davranışı nasıl daha iyi şekillendireceğini öğrenerek, çoklu yinelemelerde değer tahminini değiştirmeye devam edecektir.

Temsilci tarafından oluşturulan değer işlevinin görselleştirilmesi. Kendi durumunda alabileceği uzun vadeli ödüllerden giderek daha emin hale geldiğinde, bu zorlukla başa çıkmanın bir yolunu bulabilir.

Optimal ortam modeli

Son olarak, pekiştirmeli öğrenme sistemimiz ortamı modelleyebilir. "Muhtemelen" diyorum çünkü tüm pekiştirici öğrenme aracıları çevreyi modellemiyor. Bazı temsilciler, deneme yanılma yoluyla öğrenirler ve iyi bir değerlendirme işlevi ve strateji kombinasyonu yoluyla bir şekilde örtük bir ortam modeli oluştururlar. Diğer aracılar, ortamın dahili bir modelini açıkça oluşturabilir ve temsilcinin doğrudan gerçekleştirmek istediği eylemlere dayalı olarak sonuç durumunu ve ödülleri tahmin etmesine izin verir. Bu çok iyi bir yöntem gibi görünmektedir, ancak oldukça karmaşık bir ortamda, böyle bir dahili model oluşturmak son derece zordur, bu nedenle temsilciler genellikle bu stratejiyi seçmezler.

Temsilci bir ortamı keşfettiğinde, gelecekte olası eylemleri anlamasına yardımcı olmak için çevredeki dünyanın 3B bir yorumunu oluşturabilir.

sonuç olarak

Bu temel kavramlarla donanmış olarak geleceğe bakmaya başlayabiliriz Bilgisayar sistemleri davranışlarımızdan ve tepkilerimizden öğrenecek ve onları kişiliğimize göre ayarlayacaktır. Tıpkı yukarıdaki örneğimizdeki "Mario" ajanı gibi, gelecekteki bilgisayar sistemlerinin eylemlerimizi ve tepkilerimizi okuyabileceğini hayal edebiliriz, tıpkı "Mario" karakterinin ortamı okuduğu gibi. Bizi daha mutlu ettiğinde ve hedeflerimize daha çabuk ulaşmamızı sağladığında, daha fazla ödül alacak. Gelecekteki bu sonucun yeteneklerimiz dahilinde olabileceğini görmek kolaydır.

Çok yakında: 2. Bölüm ve 3. Bölüm

Bütün bunlar bize pekiştirme (öğrenme) sisteminin nasıl çalıştığına dair temel bir fikir vermek için toplanır. Bu üst düzey temel, makalemizin ikinci bölümünde yardımcı olacaktır. Pekiştirmeli öğrenmenin diğer makine öğrenimi türleriyle karşılaştırıldığında nasıl olduğunu ve pekiştirmeli öğrenme problemini resmileştirdiğine inandığımız (kritik) faktörlerden bazılarını tartışacağız. Makalenin üçüncü bölümünde, pekiştirmeli öğrenme alanında bazı yeni başarıları ve açık araştırma sorularını göreceğiz.

Dinamik "Süper Mario" oyununu izleyin! Takviye öğrenme senaryosunda ihtiyaç duyulan tüm unsurları belirleyip belirleyemeyeceğinizi görün. (Lütfen İngilizce sütunundaki bağlantıya tıklayın)

Video Oyunları için MarI / O-Machine Learning

https://youtu.be/qv6UVOQ0F44

Bu makaleyi okumaktan hoşlanıyorsanız, lütfen bir mesaj bırakın veya makine öğrenimi araştırmama devam etmeme yardımcı olmak için GoFundMe'me bağışta bulunun!

İlk olarak 8 Ağustos 2018'de recast.ai'de yayınlandı.

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

Bağlantıya uzun basın ve alttaki [Güçlendirmeli Öğrenmenin Geleceği-Birinci Bölüm] 'ü açmak veya tıklayın:

https://ai.yanxishe.com/page/TextTranslation/1369

AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak güncelliyor ve daha heyecan verici içerikler izliyor: Lei Feng Wang Lei Feng Wang Lei Feng Wang

Doğal Dil İşlemede Kelime Gösterimi (Birinci Bölüm)

Doğal Dil İşlemede Kelime Gösterimi (Bölüm 2)

Görüntü semantik bölümleme derin öğrenme algoritmalarının kilit noktalarının gözden geçirilmesi

Trump kötü oynandı ve tek bir fotoğrafla canlı bir Memoji yapabilirsiniz

Çevirmeni bekliyorum:

Pekiştirmeli öğrenmenin geleceği - birinci bölüm

Yeni başlayanlar için transfer öğrenimi için Keras nasıl kullanılır?

Pekiştirmeli Öğrenme: Duygu Temelli Davranış Sistemine Doğru

Veri bilimini öğrenmek istiyorsanız, bu 7 kaynağı kaçırmamak gerekir

Huya Yıldız Töreninde, Wei Shen ve Sao Nan'ın savaş gücünün toplamı ondan daha iyi değil ve yeni bir kardeş Huya doğdu!
önceki
Son pişmanlığın nedir? Okuduktan sonra çok üzgünüm
Sonraki
Chevrolet Camaro ZL11LE Yeni Kuzey Tur Hızı 7: 16.04
Google Pixel 3 Lite / XL oluşturma pozlaması: patlama olmadan tam ekran
Duke, Alman Kupası'nda S6'ya geri döndü ve takımı şampiyonluğu kazanmaya yönlendirdi! S8'in ilk çıkışının neden onun olduğunu sorgulayan var mı?
Maserati GranTurismo Sport özel baskı resmi harita
"Peerless Master": İsmine bakarak rekabetçi bir basketbol filmi olduğunu düşünmüştüm, ancak "erkekler ve kadınlar için bir diyet" olduğu ortaya çıktı.
Bugünün Toutiao'su Hammer Technology'yi satın almayı planlıyor; Gionee'nin eski başkanı Xiaomi'ye katıldı; ev kayıtlarını kontrol etme uygulaması Apple App Store Lei Feng Morning Post'ta görünüyor
Dünyanın bir numaralı (sis) müzik çalarını almak için tıklayın
AïE, 2018 İlkbahar / Yaz serisini yayınlıyor, İngiliz alt kültürünü seviyorsanız gelin ve bir göz atın!
Müdür, tüm IG personelini yeniler! Bir yıl Duke, Ning Wang IG'de emekli mi oldu?
Li Bingxian'dan Song Zhongji'ye, Bayan Qiao gerçekten bir tanrıça hasatçısı, gerçek bir yaşam galibi!
Huawei 9S incelemesinin tadını çıkarın: Bin yuan süper geniş açılı AI üçlü kamera, genç ve renkli, sınırsız!
Oyunun çapası ve büyük V birlikte konuşuyor: GPU Turbo ile Huawei Mate 10 serisi yükseltilmiş süper büyülü deneyim gerçekten 666
To Top