"WeChat AI" Deep Reinforcement Learning Series 4: State Space Generalization ve DQN

Xinzhiyuan önerilir

Q-Learning incelemesi

Son bölümde, optimum stratejiyi çözmek için Q-Öğrenimi gerçekleştirmek için kullanılabilecek zaman-alan farkı öğrenme yönteminden bahsettik.

1) Her defasında ifade (s, a, r, s , a, r , s , a , r , s ...) olmak üzere birçok deney yaptığımızı varsayalım.

2) Q değerini güncellemek için her geçişin sonucunu (s, a, r, s ) kullanın,

Q (s, a) değerlerini depolayan tablo, aracı ve çevre arasındaki etkileşim yoluyla rasgele başlatılsa da, yinelemeli olarak ve nihayet optimal stratejiyi elde etmek için birleşecektir.

Keşif ve Sömürü

Bu, pekiştirmeli öğrenmede çok önemli bir kavramdır.

Takviyeli öğrenme, deneysel verilere dayalı en uygun stratejiyi öğrenmeyi umar, ancak aslında, model birleşmeden önce hangi stratejinin en uygun olduğunu bilmiyoruz. Bu nedenle, keşif ve sömürü arasında bir değiş tokuş yapmamız gerekiyor: belirli koşullar altında, şu anda bilinen "en iyi" stratejiye göre eylem (sömürü) gerçekleştiriyoruz, ancak diğer durumlarda, belki de yeni seçenekleri denememiz gerekiyor. Daha iyi sonuçlar alabiliriz (keşif).

Keşfi kontrol etmenin en kolay yolu, küçük olasılıkla rastgele bir eylem seçmek gibi rastgele bir olasılık belirlemektir.

Yüksek olasılık durumunda, eylem mevcut politikaya göre yürütülür.

Bu basit ve kaba yöntemle ilgili sorun, model yakınsamak üzereyken, yine de olasılığa göre her durumda rastgele eylemler seçmesidir, bu nedenle iyileştirilmiş bir yöntem, yineleme sayısı arttıkça kademeli olarak azalacaktır. Ancak stratejiyi çözme sürecine keşfi dahil etmek için daha iyi bir çözüm var.

1) Bir işlev tanımlayın

u bir değerdir (Q değeri veya durum değeri gibi), n duruma ulaşma sayısıdır ve k bir ödül katsayısıdır.

2) Q-Learning'deki Q değeri güncelleme adımlarını şu şekilde güncelleyin:

Q değerinin hesaplanmasında, sonraki birkaç zaman adımının etkisini hesaba katması gerektiğinden, n çok küçük olduğunda, Q değeri bilimsel olarak hesaplanmaz, bu nedenle k / n'ye dayanarak, denemek için belirli bir eylemi yürütmeyi seçeceğiniz belirli bir olasılık hala vardır; Yol tamamen denendiğinde, k / n çok küçük olacak ve önceki Q değeri ana etki bileşeni olacaktır.

Durum uzayının genelleştirilmesi

En temel Q-Öğrenme için, tüm Q değerlerini kaydetmek için (s, a) büyüklüğünde bir Q değeri tablosunun kaydedilmesi gerektiğini görebiliriz.

Fakat gerçek hayatta, durum aşırı derecede büyük hatta sonsuz olabilir, hepsinin üzerinden geçemeyiz ve hafızaya böylesine büyük bir Q tablosu yerleştirmek için çok fazla alan yoktur. Bu yüzden durumu, makine öğrenimi modeli geliştirmenin özellikleri gibi genelleştirmemiz gerekiyor.Örneğin, mevcut durumu açıklamak için bazı özellikleri kullanın, böylece benzer durumlar tanımlanabilir; aynı zamanda, Q-Learning için gerekli veri miktarı da olacaktır. çok azalır.

Yukarıdaki örnek, sorunu açıklamak için yeterlidir: üç farklı durumdadırlar, özellikle üçüncü ve ilk resimler, sağ üst köşede beyaz bir nokta eksiktir. Kesin olarak tanımlanırsa, üç farklı durum olmalıdır ve sonuç, önce çökeceğimizdir. Bu nedenle, benzer durumların genelleme yeteneğine sahip olması için bazı özelliklerin onları tanımlamak için kullanılması gerekir.

Durum özelliği ifadesi ve model eğitimi

Makine öğreniminin ilgili temeline sahipsek, burada söylemek kolaydır. Birkaç basit kelime, yukarıdaki resim gibi mevcut durumu tanımlamak için bazı elle çizilmiş özellikler yapmaktır: size en yakın fasulyenin uzaklığı, size en yakın hayaletin uzaklığı, mevcut küresel durumda kaç tane hayalet var, vb.

Özellik ifadesine dayanarak, durumun değeri ile durumun tanımının yakından ilişkili olduğunu varsayarsak (bu doğrudur), o zaman durumun özellikleri ile durum değeri arasında daha basit olan ve doğrusal bir ilişki kullanan bir dizi eşleme oluşturabiliriz:

Bunu Q-Learning ile birleştirerek, özelliğin ağırlık gradyanı, Q-Learning'in yinelemeli sürecinde üretilen hata ile güncellenebilir.

Süreç aşağıdaki gibidir:

1) Deneme geçişi alıyor (s, a, r, s )

2) Tanım

3) Q (s, a) ve w'yi güncelleyin:

Yukarıdaki süreç, anlamaya yardımcı olmak için doğrusal regresyona benzer şekilde kullanılabilir, ancak tamamen eşdeğer değildir.

Doğrusal regresyon için

, Hatayı hesaplamak için en küçük kareleri kullanmak hatayı şu şekilde alabilir:

W'nin kısmi türevi:

SGD güncellendi:

Aslında uzantıdaki hata

, Yaklaşım yukarıdaki Q değeri yinelemesinin farkı olarak yorumlanabilir.

Artık özelliklerin elle nasıl boyanacağı hakkında konuşulduğuna göre, kesinlikle aşırı uyan bir özellik olacaktır.Burada ayrıntılara girmeyeceğim.Makine öğrenimini anlayan insanların bir temeli var.

Derin Q Ağı

Yukarıdaki durumu açıklama yöntemi, uygulama senaryosuna açıkça çok ölümcül bir şekilde bağlıdır, çünkü özellik elle özelleştirilmiştir, bu nedenle bir tür problem bir modelle çözülemez. Örneğin, Atari video oyunları oynarken, her oyunun durumunun nasıl tanımlanacağı manuel özelleştirme gerektirir. Dolayısıyla, derin öğrenme ve Q-öğrenmeyi birleştirme fikri vardır.Derin öğrenme, Q (s, a) değerlerine uymak için kullanılır ve Q-öğrenme, hedefi hesaplamak ve geri verilmesi gereken hatayı elde etmek için kullanılır, böylece derin sinir ağını Daha iyi bir Q (s, a) modeli. Ağ parametrelerinin entegrasyonu göz önüne alındığında, Q'nun temsili artık şu şekilde yazılır

.

Q-değeri işlevine uymak için derin bir sinir ağı kullanılıyorsa, aşağıdaki iki yöntem vardır: a) Eylemin değerini ağın girdisi olarak kullanın ve doğrudan durumla modelleyin; b) Aynı girdiyi ve parametreleri kullanın ve her birini çıktı katmanına yerleştirin Eylemleri ayırın ve Q Değerlerini ayrı ayrı hesaplayın.

Doğrusal uydurma Q-değeri fonksiyonu ifadesi yukarıda yazılmıştır,

İlk form olarak görülebilir. Şimdi ikinci yöntem tavsiye edilmektedir, çünkü öğrenirken, tüm eylem numaralandırma değerlerine karşılık gelen Q Değerini elde etmek için yalnızca bir ileri hesaplamaya ihtiyacınız vardır ve aynı zamanda en büyüğünü de elde edebilirsiniz, bu tam olarak pekiştirmeli öğrenme için istediğimiz şeydir. nın-nin.

DeepMindın makalesinde açıklanan çözüme göre, Atari video oyunlarını oynamaya yönelik pekiştirmeli öğrenme modeli şu şekildedir: Giriş katmanı en son 4 resim karesini kullanır ve bunları 84 * 84 gri tonlamalı görüntüye dönüştürür ve bunları 4 kanal olarak ele alır. Görüntü, CNN'e girilir, üç evrişimli katmandan ve tam olarak bağlı iki katmandan sonra (özel parametreler için kağıda bakın), son katmandaki her nöron için çıktı için doğrusal bir aktivasyon işlevi kullanılır. Atari oyunu toplamda 18 isteğe bağlı eylem içerdiğinden, tüm ağın son katmanındaki çıkış düğümlerinin sayısı 18'dir. Her düğümün çıkış değeri, mevcut durumda karşılık gelen eylem seçildiğinde Q Değeri olarak kabul edilir.

Şimdi sorun, Q Değerinin doğrusal regresyon uydurma problemine geri dönüyor, çözümü optimize etmek için doğrudan en küçük kareler yöntemini kullanabilirsiniz:

Belirli adımlar aşağıdaki gibidir:

1. Belirli bir girdiden sonra, mevcut tüm eylemlerin QValues çıktısını almak için ileriye doğru bir hesaplama yapın;

2. Yürütülecek bir eylem seçtikten sonra, bu sefer yeni s durumuna gelecek ve bir r ödülü alacaktır. 1. adımı tekrarlayın, s 'için Q Değerlerini bir kez hesaplayın ve en yüksek çıktıya sahip olanı seçin

3. 2. adımın sonucuna göre hesaplayın a eyleminin uyması gereken hedef,

A dışındaki çıkış düğümleri için, 1. adımda çıkış değerine uymaları gereken hedefi ayarlayın, böylece aldıkları hata 0 olur;

4. BP algoritması aracılığıyla tüm CNN ağını güncelleyin.

Tekrar Oynatma Deneyimi

Artık Q-değeri işlevini derin bir sinir ağı aracılığıyla uydurmak mümkün olsa da, bu doğrusal olmayan uydurmanın özellikle kararlı olmadığı bulunmuştur. Aslında, bazı insanlar bu özellik genellemesinin daha önce yapılabileceğini öne sürdüklerinde sinir ağlarını denemiş olmalılar, ancak DeepMind neden etkili olabilir?

Deneyim tekrarı adı verilen çok önemli bir teknik kullandılar. Spesifik yöntem çok fazla yolu denemektir Jin < s, a, r, s > Hepsi, yeniden oynatma belleği adı verilen bir kapta saklanır. Tüm Q-değeri ağını eğitirken, esas olarak ifadeyi zaman adımıyla sınırlı değil, eğitmek istiyoruz, bu nedenle doğrudan tekrar hafızasından her bir mini partinin bir grubunu rastgele örnekliyoruz. < s, a, r, s > Örnek eğitim için çıktı. Bunun nedeni, BP için zaman adımına bitişik bir dizi örnek biriktirmek yerine, bu tür rastgele örneklenmiş, bağımlı olmayan örneklerin örnekler arasındaki benzerliği ortadan kaldırarak eğitim sürecinin yerel maksimuma düşmesini engelleyebilmesidir. mükemmel. Ve bu eğitim yöntemi gerçek dünyaya daha yakın.Başkalarının oyun oynamasını izlediğinizi hayal edin.Ayrıca, sürekli bir oyun örneğini ezberlemek yerine çeşitli sahnelerin işleme stratejilerini de ezberliyoruz.

Deneyim tekrarını tanıttıktan sonra, keşif-sömürü de dikkate alınır.Son eğitim süreci aşağıdaki gibidir:

1. Başlatılan ağa göre, durum s ile birleştirildiğinde, rastgele bir olasılıkla bir eylem seçin, aksi takdirde en büyük Q değerine sahip eylemi seçin;

2. Yürütülecek bir eylem seçtikten sonra, bu sefer yeni s durumuna gelecek ve bir r ödülü alacaktır. Koymak < s, a, r, s > Tekrar oynatma belleğine D yatırın;

3. D'den rastgele bir örnek grubu örnekleyin < ss, aa, rr, ss > DQN'ye gönderin ve her numune için iki Q değeri hesaplayın:

Ve her numuneden en yüksek çıktıya sahip olan

4. Kullanım

Tüm DQN modelini bir hata olarak eğitin.

Genişletilmiş içerik

Şu anda, ayrık durum MDP'sini tartıştık ve ayrıca ayrık olmayan durum tanımından bahsettik, ancak eylem alanı hala ayrıktır. Diyalog modelindeki bağlam tarafından tanımlanan diyalog durumuna dayalı olarak robotun nasıl yanıt vereceğini (hangi işlemi gerçekleştireceğini) nasıl seçtiğine ilişkin strateji açıklaması gibi sürekli eylem alanını nasıl tanımlayacağınız, ayrı bir alanda açıklamak o kadar kolay değildir. İlgili içeriğin daha fazla takviye edilmesi gerekiyor.

Xinzhiyuan İşe Alım

Pozisyon: Hesap Yöneticisi

Yıllık maaş pozisyonu: 120.000-250.000 (Maaş + ikramiye)

İş yeri: Pekin-Haidian Bölgesi

Departman: Müşteri Departmanı

Rapor: Hesap Direktörü

Çalışma hayatı: 3 yıl

Dil: İngilizce + Mandarin

Eğitim gereksinimleri: tam zamanlı lisans eğitimi

iş tanımı:

  • Müşteri ihtiyaçlarını ve şirket marka konumlandırmasını doğru bir şekilde kavrayın, işbirliği planlarını planlayın ve yazın;

  • Aktif düşünme, yaratıcı, güçlü metin kontrol yeteneği, PPT kullanımında uzman, iyi görsel değerlendirme ve performans yeteneği, mükemmel PS yeteneği en iyisidir;

  • Hevesli ve neşeli, kişiler arası iletişimde iyi, iyi iletişim ve işbirliği becerileri ve ekip ruhu;

  • Mükemmel aktivite hazırlama ve uygulama yeteneği, baskıya ve uyarlanabilirliğe karşı güçlü direnç, yüksek yoğunluklu çalışmaya uyum;

  • 4A, bir halkla ilişkiler şirketinde çalışma deneyimi tercih edilir

  • Özellikle yapay zeka başta olmak üzere yüksek teknolojiye yoğun ilgi duyanlar için bonus puan.

  • İş sorumlulukları:

    Planın uygulanmasını sağlamak için amir tarafından atanan projenin ilerlemesine katılın, yönetin ve takip edin. İlgili politika ve sistemlerin uygulanmasında üst seviyeye formüle edin, katılın veya yardımcı olun. Şirkete düzenli olarak doğru pazar bilgileri ve müşteri bilgileri sağlayın, müşteri ihtiyaçlarını analiz edin, belirlenen şirketin kilit müşterileriyle ilişkilerini sürdürün ve yeni işler geliştirmek için aktif olarak fırsatlar arayın. Müşteri veritabanını oluşturun ve yönetin, ilgili bilgileri izleyin ve analiz edin.

    Başvuru e-postası: jobs@aiera.com.cn

    HR WeChat: 13552313024

    Xinzhiyuan, yüksek ideallere sahip insanları görüşmeye davet ediyor, daha fazla işe alım pozisyonu için lütfen tıklayın Xinzhiyuan İşe Alım Görünüm.

    Deneyimli bir sürücü ile acemi bir sürücü arasındaki fark nedir? Trafik polisi: Ehliyetten kaç puan düşüldüğünü görebilirsiniz.
    önceki
    Bu Fransız romantik oteli nihayet Hangzhou'ya geldi! Gao Yuanyuan ve Karen Mok hayranlarıdır
    Sonraki
    Changjing Huang Yüksek Hızlı Demiryolu inşaatı bugün başlıyor! Şu andan itibaren Jingdezhen, Huangshan'a 30 dakika ve Nanchang'a 1 saat sonra varacak!
    Geleneksel CAD'den derin öğrenmeye dayalı görüntüleme sistemine: akıllı tıbbi bakımın uygulanması için üç büyük teknik zorluk
    Yeni araba yola çıktı, "yeşil etiket" düzgün bir şekilde asılmadı ve trafik polisi 3 puanın düşürüldüğünü gördü ve tartışmadı
    Renminbi keskin bir şekilde yükselmeye devam ediyor, ABD doları ve ABD borcu satılıyor, yabancı medya: renminbi tersine çevirmek için güç topluyor
    Güle güle, silahlı polis sınır muhafızı, merhaba, halk polisi
    Tang Yan Luo Jin düğün mekanının ifşa olduğundan şüpheleniliyor mu? Sıcak arayıştaki bu küçük kasaba o kadar güzel ki aldatılmaya hazırım
    Fiyat 130.000 ile 200.000 arasında. Bu dört hibrit otomobile bakmak daha iyi, 1 km'lik yakıt maliyeti 8 sent kadar düşük.
    Note Man Exclusive | Hu Haiquan: Evrim Yok, Crossover Yok
    PyTorch'un en son sürümü yayınlandı: API değişiklikleri, eklenen yeni özellikler, çoklu hesaplamalar ve yükleme hızı iyileştirmeleri
    Dünya dolar sıkıntısından daha acil bir krizle karşılaşabilir.Dünya bu 15 şehre ilgi gösteriyor
    Fransa'da bir günde yemek yemenin maliyeti nedir? İyi bir muhasebe işi yapalım ...
    WeChat dışında, Tencent'in bu hizmeti çoğu mobil İnternet kullanıcısı tarafından günlük olarak kullanılmaktadır.
    To Top