Profesör Chen Junlong, Macau Üniversitesi: Derin pekiştirmeli öğrenmeden kapsamlı pekiştirmeli öğrenmeye: yapı, algoritma, fırsat ve meydan okuma

Leifeng.com AI teknolojisi inceleme notu: 31 Mayıs - 1 Haziran 2018 tarihleri arasında Çin Otomasyon Derneği, Çin Bilimler Akademisi Otomasyon Enstitüsünde Akıllı Otomasyon üzerine 5. Sınır Çalıştayı'nı "Derin ve Genişlik Takviyeli Öğrenme" temasıyla başarıyla gerçekleştirdi.

Makinelere otonom öğrenme becerisinin nasıl kazandırılacağı, yapay zeka alanında her zaman bir araştırma noktası olmuştur. Gittikçe daha karmaşık gerçek dünya senaryolarında, büyük ölçekli girdi verilerinin soyut temsillerini otomatik olarak öğrenmek için derin öğrenme ve geniş öğrenmenin kullanılması gerekir ve problem çözme stratejilerini optimize etmek için bu temsile dayalı kendi kendini motive eden pekiştirmeli öğrenmeye ihtiyaç vardır. Oyunlar, robot kontrolü, parametre optimizasyonu ve makine görüşü alanlarında derinlik ve genişlik güçlendirme öğrenme teknolojisinin başarılı bir şekilde uygulanması, genel yapay zekaya doğru ilerlemenin önemli bir yolu olarak görülmesini sağlamıştır.

Bu atölye çalışmasında, Makao Üniversitesi Başkanı Chen Junlong, Çin Otomasyon Derneği Başkan Yardımcısı, Tsinghua Üniversitesi'nden Profesör Song Shiji, Pekin Jiaotong Üniversitesi'nden Profesör Hou Zhongsheng, Ulusal Savunma Teknolojisi Üniversitesi'nden Profesör Xu Xin, CRRC Baş Uzmanı Yang Ying Ying ve Çin Bilimler Akademisi Araştırmacısı Zhao Dongbin var. Tsinghua Üniversitesi'nden Profesör Ji Xiangyang, Xi'an Jiaotong Üniversitesi'nden Profesör Chen Badong, Zhejiang Üniversitesi'nden Profesör Liu Yong ve Tsinghua Üniversitesi'nden Doçent You Keyou'nun da aralarında bulunduğu on bilim adamı, oyunlar, robot kontrolü, parametre optimizasyonu, makine görüşü vb. Alanlarda derinlik ve genişlik takviyeli öğrenme teknolojisi üzerinde çalıştı. Rapordaki başarılı uygulamalar. Lei Feng.com AI Technology Review, ortak medya olarak konferans hakkında rapor veriyor. Konferansın genel içeriği için lütfen Leifeng.com'un raporuna bakın:

1. Gün: https://www.leiphone.com/news/201806/GlBY1r2LugLO8Hlo.html

2. Gün: https://www.leiphone.com/news/201806/UWOi5uIPcwuMZmTi.html

Bu makale atölye raporunun ilkidir.Makau Üniversitesi'nde profesör ve Çin Otomasyon Derneği'nin başkan yardımcısı Chen Junlong tarafından açıklanmıştır.Raporun konusu: Derin Güçlendirmeli Öğrenmeden Geniş Güçlendirmeli Öğrenmeye: Yapı, Algoritma, Fırsat ve Zorluk.

Chen Junlong: Makao Üniversitesi Başkanı Profesör, Bilim ve Teknoloji Okulu eski Dekanı, Çin Otomasyon Derneği Direktör Yardımcısı ve Üyesi, Makao Bilim ve Teknoloji Geliştirme Derneği Başkan Yardımcısı, IEEE Fellow, IAPR Fellow, American Association for the Advancement of Science AAAS Fellow, National Thousand Scholars, Ulusal Seçkin Uzman. Profesör Chen şu anda IEEE System Man-Machine and Intelligence Society'nin dergi direktörüdür. Derneğin uluslararası başkanı olarak görev yaptı. Profesör Chen'in araştırması, akıllı sistemler ve kontrol, hesaplamalı zeka, hibrit zeka ve veri bilimine odaklanıyor. 2018 yılında "Bilgisayar Bilimleri" alanında en çok alıntı yapılan makaleye sahip akademisyenler arasında dünyanın ilk 17'si arasında yer aldı. Profesör Chen veya IEEE Topluluğu, 4 Üstün Katkı Ödülü'ne layık görüldü ve Amerikan Mühendislik ve Teknoloji Eğitimi Akreditasyon Konseyi'nin (ABET) bir üyesidir. Macau Üniversitesi'nin mühendislik disiplinleri ve bilgisayar mühendisliği, Profesör Chen'in Makao'daki mühendislik eğitimine en yüksek katkısı olan uluslararası [Washington Anlaşması] tarafından akredite edilmiştir. Bir akademisyen olarak, Macau Üniversitesi'nin mühendislik ve bilgisayar disiplinlerini dünyanın en iyi 200 üniversitesine taşıdı. 2016 yılında mezun olduğu Purdue Üniversitesi'nden Üstün Elektrik ve Bilgisayar Mühendisliği Ödülü'nü kazandı.

Profesör Chen Junlong'un raporu kabaca üç kısma ayrılabilir. İlk olarak, Markov karar verme süreci, pekiştirmeli öğrenmenin matematiksel ifadeleri, strateji oluşturma, tahmin ve gelecekteki getirilerin tahmini dahil olmak üzere pekiştirmeli öğrenmenin yapısı ve teorisi tartışılır. Daha sonra, öğrenme sürecini ve özellik çıkarımını stabilize etmek için derin sinir ağı öğreniminin nasıl kullanılacağını ve pekiştirmeli öğrenmeyle birleştirmek için genişlik öğrenme yapısının nasıl kullanılacağını tartıştı. Son olarak, derin ve geniş pekiştirmeli öğrenmenin getirdiği fırsatlar ve zorluklar tartışılır.

Takviye öğrenme yapısı ve teorisi

Profesör Chen, pekiştirme öğrenme sürecini kısaca açıklamak için aşağıdaki diyagramı kullanır. Sözde pekiştirmeli öğrenmenin, aracı belirli bir görevi tamamladığında, eylem A yoluyla çevre ile etkileşime girmesi olduğunu belirtti. A eylemi ve çevre eylemi altında, ajan yeni bir durum oluşturacak ve çevre acil bir durum verecektir. Dönüş. Bu döngü, öğrenmenin birkaç yinelemesinden sonra devam eder, zeki beden nihayet ilgili görevi tamamlamak için en uygun eylemi öğrenebilir.

Pekiştirmeli öğrenmeye gelince, Q-Öğrenmeden bahsetmeliyim. Daha sonra Q-Öğrenmeyi pekiştirerek öğrenme ilkesini tanıtmak için bir örnek kullandı.

Q-öğrenme

Orijinal adres: https://blog.csdn.net/Maggie_zhangxin/article/details/73481417

Bir katta 5 oda olduğunu ve aşağıdaki şekilde gösterildiği gibi odaların bir kapı ile birbirine bağlandığını varsayalım. Oda numaraları 0 ~ 4'tür ve katın dışındaki 5 numaralı büyük bir oda olarak kabul edilebilir.

Yukarıda belirtilen odaları temsil etmek için bir grafik kullanılabilir, her oda bir düğüm olarak kabul edilir ve her kapı bir kenar olarak kabul edilir.

Herhangi bir odaya bir temsilci yerleştirmek ve bu binadan çıkmasını ummak da 5 numaralı odaya girmek olarak anlaşılabilir. Nihai hedef olarak oda 5'i girebilir ve hedef odaya doğrudan ulaşabilen kapılara 100'lük bir ödül değeri verebilirsiniz ve hedef odaya bağlı olmayan kapılara 0 ödül değeri verilir. O zaman aşağıdaki rakamı elde edebilirsiniz.

Yukarıdaki şekle göre, ödül tablosu aşağıdaki gibi elde edilebilir, burada -1 bir boş değeri temsil eder, bu da düğümler arasında kenar bağlantısı olmadığı anlamına gelir.

Temsilcinin deneyimden öğrendiği bilgiyi temsil etmek için benzer bir Q matrisi ekleyin. Matrisin satırları, aracının mevcut durumunu temsil eder ve sütunlar, bir sonraki duruma ulaşmak için olası eylemleri temsil eder.

Daha sonra Profesör Chen, Q-Öğrenme dönüştürme kuralını, yani Q (durum, eylem) = R (durum, eylem) + Gama * Maks (Q) 'yi tanıttı.

Bu formüle göre, Q matrisindeki bir elementin değeri, R matrisindeki karşılık gelen elementin değerinin toplamına ve öğrenme değişkeni Gama'nın bir sonraki duruma ulaşmak için tüm olası eylemlerin maksimum ödül değeriyle çarpımına eşittir.

Profesör Chen, Q-Learning'in spesifik olarak nasıl çalıştığını anlamak için birkaç örnek de verdi.

Önce Gamma'yı 0.8'e ayarlayın ve başlangıç durumu oda 1'dir.

Durum 1 için iki olası eylem vardır: durum 3'e ulaş veya durum 5'e ulaş. Rastgele seçim yoluyla, durum 5'e ulaşmayı seçin. Temsilci, 5. duruma ulaştı. Ne olacak? R matrisinin altıncı sırasını gözlemleyin. 1, 4 veya 5 durumuna ulaşmak için 3 olası eylem vardır. Q (1, 5) = R (1, 5) + 0.8 * Max = 100 + 0.8 * 0 = 100 formülüne göre, Q matrisi şu anda hala 0 olarak başlatıldığından, Q (5, 1), Q (5, 4), Q (5, 5) hepsi 0'dır, bu nedenle Q (1, 5) 'in sonucu 100'dür, çünkü anlık ödül R (1,5) 100'e eşittir. Sonraki durum 5 şimdi mevcut durum olur çünkü durum 5 hedef durumdur, bu nedenle tamamlanmış bir deneme olarak sayılır. Ajanın beyni artık güncellenmiş bir Q matrisi içeriyor.

Sonraki eğitim için, başlangıç durumu olarak rastgele durum 3'ü seçin. R matrisinin 4. satırını gözlemleyin. 1, 2 ve 4 durumlarına ulaşmak için 3 olası eylem vardır. Mevcut durum olarak durum 1'e ulaşmak için eylemi rastgele seçin. Şimdi, R matrisinin ikinci satırına baktığımızda, 2 olası eylem vardır: durum 3 veya durum 5'e ulaşmak. Şimdi Q'nun değerini hesaplayın: Q (3, 1) = R (3, 1) + 0.8 * Max = 0 + 0.8 * Max (0, 100) = 80, önceki denemede güncellenen Q matrisini kullanarak şunu elde ederiz: Q (1 , 3) = 0 ve Q (1, 5) = 100. Bu nedenle hesaplanan sonuç Q (3,1) = 80'dir. Şimdi, Q matrisi aşağıdaki gibidir.

Temsilci birden fazla deneyim yoluyla daha fazla bilgi öğrendikten sonra, Q matrisindeki değerler bir yakınsama durumuna ulaşacaktır. aşağıdaki gibi.

Q'daki sıfır olmayan tüm değerleri belirli bir yüzde oranında düşürerek standartlaştırılabilir ve sonuçlar aşağıdaki gibidir.

Q matrisi yakınsama durumuna yaklaştığında, temsilcinin hedef durumuna giden en iyi yolu öğrendiğini biliyoruz.

Şimdiye kadar, Profesör Chen kısaca Q-öğrenmeyi tanıttı. Takviye öğrenmenin altı özelliği, yukarıdaki giriş aracılığıyla kabaca özetlenebilir:

Denetim yok, sadece ödül sinyalleri

Öğrencilere talimat vermeye gerek yok

Deneme ve hata

Ödüller gecikebilir (daha uzun vadeli kazançlar karşılığında kısa vadeli kazançları feda edin)

Keşfetmeye ve keşfetmeye ihtiyacım var

Hedefe yönelik temsilciler ve belirsiz ortamlar arasındaki etkileşim küresel bir sorundur

Dört element:

1. Strateji: Ne yapmalı?

1) Stratejiyi belirleyin: a = (s)

2) Rastgele strateji: (a | s) = p, stS, atA (St), (a | s) = 1

2. Ödül işlevi: r (devlet aktarılırken, ortam temsilciye bir ödül geri gönderir)

3. Kümülatif ödül işlevi: V (bir stratejinin artıları ve eksileri, bu stratejinin uzun vadeli uygulamasından sonraki kümülatif ödüle bağlıdır) Yaygın uzun vadeli kümülatif ödüller aşağıdaki gibidir:

4. Model: Temsilcinin çevresini temsil etmek için kullanılır, soyut bir kavramdır ve eylem kararları için çok faydalıdır.

Tüm pekiştirmeli öğrenme görevleri Markov karar verme süreçleridir Profesör Chen'in MDP'ye girişi aşağıdaki gibidir.

Bir Markov karar süreci beş parçalı bir M = (S, A, p, , r) içerir. S durum kümesi, A eylem kümesi, p durum geçiş olasılığı, indirim faktörü ve r ödül fonksiyonudur.

Pekiştirmeli öğrenmeye girişin sonunda Profesör Chen, pekiştirmeli öğrenmenin karşılaştığı iki büyük zorluktan bahsetti.

Güvenilirlik dağılımı: önceki eylemler mevcut ödülleri ve küresel ödülleri etkileyecektir

Keşfedin ve keşfedin: mevcut stratejileri kullanın veya yeni stratejiler geliştirin

Q-Öğrenme, güvenilirlik dağılımı sorununu çözebilir. İkinci problem -açgözlü algoritma, SoftMax algoritması, Bayes bandit algoritması, UCB algoritması vb. Kullanılarak ele alınabilir.

Değer işlevi (gelecekteki ödülün bir tahmini) durum değeri işlevi ve davranış değeri işlevi olarak ikiye ayrılabilir.

1. Durum değer fonksiyonu V (s): s durumundan başlayarak, stratejisine göre aksiyonlar alınarak elde edilen beklenen getiri,

Bellman denklemi olarak da bilinir.

2. Davranış değeri fonksiyonu Q (s, a): s durumundan a davranışı aldıktan ve ardından stratejisine göre harekete geçtikten sonra, beklenen getiri,

Bellman denklemine eylem değeri fonksiyonu da denir.

Benzer şekilde, karşılık gelen optimal değer işlevi şu şekilde verilir:

Optimal değer işlevi V * (s), tüm stratejilerin maksimum işlevidir:

Optimal davranış değeri fonksiyonu Q * (s, a), tüm stratejilerdeki maksimum davranış değeri fonksiyonudur:

Böylece, Bellman optimal denklemi:

Ve buna karşılık gelen optimal strateji:

Profesör Chen, aşağıdaki iki duruma ayrılabilecek pekiştirmeli öğrenmeyi çözme yöntemini tanıttı:

Model bilinen yöntem: dinamik programlama

Bilinmeyen modellere sahip yöntemler: Monte Carlo yöntemi, zaman farkı algoritması

Profesör Chen ayrıca zaman farkı algoritmasında temel olarak iki farklı yöntemi tanıttı: Farklı strateji zaman farkı algoritmasının Q-öğrenmesi ve aynı strateji zaman farkı algoritmasının Sarsa.İki arasındaki temel fark + 1 seçiminde yatıyor.

Sıradan Q-öğrenme, durum uzayının ve eylem uzayının ayrık olduğu ve nispeten düşük boyutluluğa sahip olduğu durumlar için uygun olan tablo şeklinde bir yöntemdir; durum uzayı ve eylem uzayı yüksek boyutlu sürekli olduğunda veya daha önce hiç ortaya çıkmamış bir durum olduğunda, sıradan Q-öğrenme işlenemez. Profesör Chen, bu sorunu çözmek için derin pekiştirmeli öğrenme yöntemini daha da tanıttı.

Derin takviye öğrenme

Derin pekiştirmeli öğrenme, derin sinir ağları ve pekiştirmeli öğrenmenin bir kombinasyonudur. Değer işlevlerini tahmin etmek için derin sinir ağlarını kullanır ve güncelleme için pekiştirmeli öğrenme yöntemlerini kullanır. Farklı problem çözme fikirlerine göre, şu bölümlere ayrılabilir:

1. Değer tabanlı ağ: Durum, sinir ağının girdisi olarak kullanılır Sinir ağı analizinden sonra çıktı, mevcut durumun gerçekleştirebileceği tüm eylemlerin değer işlevidir, yani sinir ağı Q değerini oluşturmak için kullanılır.

2. Strateji tabanlı ağ: Durum, sinir ağının girdisi olarak kullanılır Sinir ağı analizinden sonra çıktı, mevcut durumun olası eylemleri (deterministik strateji) veya her olası eylemin olasılığıdır (rastgele strateji).

Profesör Chen ayrıca, Deepmind tarafından 2013 yılında Derin Güçlendirmeli Öğrenme (DRL) ile Oynama Atari'de önerilen DQN algoritmasından da bahsetti. Derin Q-öğrenme, derin bir sinir ağının uçtan uca uydurma Q değerini kullanır ve değer işlevi için Q-öğrenme algoritmasını kullanır. Güncelleme. DQN, takviye öğrenme sürecini eğitmek için deneyim tekrarını kullanır ve hedef ağı ayarlayarak zaman farkı algoritmasındaki TD sapmasını ayrı ayrı ele alır.

Yukarıdaki içeriğe dayanarak, Profesör Chen ayrıca, Actor'un politika aramasına atıfta bulunduğu değer işlevlerinin (Q öğrenme gibi) ve politika arama algoritmalarının (Policy Gradients) avantajlarını birleştiren başka bir klasik zaman farkı algoritması olan ActorCritic yöntemini de tanıttı. Algoritma, Eleştirmen, Qlearning veya diğer değere dayalı öğrenme yöntemlerini ifade eder.Critic değer temelli bir öğrenme yöntemi olduğundan, her adımın ödül ve ceza değerini hesaplamak için tek bir adımda güncellenebilir. Geleneksel PolicyGradients ile karşılaştırıldığında, iyileştirir Öğrenme verimliliği, strateji yapısı Aktör, esas olarak eylemleri seçmek için kullanılırken, değer işlevi yapısı Eleştirmen esas olarak Aktörlerin eylemlerini değerlendirmek için kullanılır. Temsilci, eylemleri Aktörün stratejisine göre seçer ve çevreye göre hareket ederken, Eleştirmen bunu çevreye göre verir. Anında ödül, değer fonksiyonunu anlık ödüle göre güncelleyin ve aynı zamanda değer fonksiyonunun zaman farkı hatası TD hatası hesaplayın.TDerror'u aktöre geri besleyerek, daha iyi eylemi yapmak için aktöre stratejiyi daha iyi güncellemesi için rehberlik edin Daha kötü eylemler için seçilme olasılığı azalırken, seçim olasılığı artar.

Genişlik öğrenme

Derin yapılı ağlar çok güçlü olmasına rağmen, çoğu ağ, son derece zaman alan eğitim prosedürleriyle boğuşmaktadır. İlk olarak, derin ağın yapısı karmaşıktır ve çok sayıda hiperparametre içerir. Ek olarak, bu karmaşıklık, derin yapıları teorik olarak analiz etmeyi son derece zorlaştırır. Öte yandan, uygulamada daha yüksek doğruluk elde etmek için, derin modelin ağ katmanlarının sayısını sürekli olarak artırması veya parametre sayısını ayarlaması gerekir. Bu nedenle, eğitim hızını artırmak için, genişlik öğrenme sistemi derin öğrenme ağlarına bir alternatif sağlar.Aynı zamanda, ağın genişletilmesi gerekiyorsa, model artımlı öğrenme yoluyla verimli bir şekilde yeniden yapılandırılabilir. Profesör Chen, doğruluğu artırmak açısından, genişlik öğrenmenin katman sayısını artırmak yerine düğüm sayısını artırmak olduğunu da vurguladı. Profesör Chen, pekiştirmeli öğrenmenin verimliliğine dayanarak, genişlik öğreniminin bir genişlik takviyeli öğrenme yöntemi üretmek için pekiştirmeli öğrenme ile birleştirilebileceğini ve ayrıca metin oluşturma, robotik kapma, yörünge izleme kontrolü ve diğer alanlara da uygulanabileceğini belirtti.

Raporun sonunda Profesör Chen, yoğun öğrenmenin gelecekte karşılaşacağı zorluklarda şu noktalara değindi:

Güvenli ve etkili keşif

Aşırı uyum sorunu

Çok görevli öğrenme problemi

Ödül işlevinin seçimi

Kararsızlık sorunları

Profesör Chen, pekiştirmeli öğrenmeyle ilgili kavramları basit ve basit bir şekilde tanıttı, ancak genişlik öğrenmeye pek çok giriş yok. Genişlik öğrenimi kavramı için lütfen şu iki makaleye bakın: Macau Üniversitesi Chen Junlong | genişlik öğrenme sistemi: derin bir yapı gerektirmeyen bir tür Son derece verimli bir artımlı öğrenme sistemi, Chen Junlong, Macau Üniversitesi: Dikey "derin" öğrenmeyi tersine çeviren geniş bir öğrenme sistemi, verimli artımlı öğrenme için yatay genişletmeyi nasıl kullanır? .

Yukarıdakiler, Leifeng.com'dan Profesör Chen Junlong'un raporunun tamamıdır.

Klasik sadelik büyük isimleri kaybetmez, UNIQLO 2017 sonbahar ve kış serisi Lookbook yayınlandı
önceki
Nubia, MWC konferansında ilk bağımsız görünümünü yapıyor: Z11, miniS ve diğer ürünleri sergilemek
Sonraki
HATA? Wei Shen gölgenin oyuncuyu öldürdüğünü gördüğünde şaşkın görünüyordu: Nasıl öldüm?
İki telefonun fiyatı aynı, biri tam ekran, diğeri tam ekran değil!
Minimum 120.000 olduğu sürece? Aslında istasyon vagonu o kadar pahalı değil
Double 11'de hangi filmler izlenmeli En çok aşk çekebilen yönetmenlerden biri, bu yüzden bu gün yalnız izlemek için uygun
MWC: Sony Xperia XZ'lerin piyasaya sürdüğü atalardan kalma 3 GB bellekten nihayet kurtulun
Wei Shen bir "periye" paraşütle atladı ve bir kutuya düştü. Zihniyeti çöktü. Açıkça şunları söyledi: Polisi arayacağım
Şov dünyası tarafından ertelenen Yu Entai, hisse senedi alım satımından birkaç yılda filme çekmekten daha fazla para kazandı!
Uzay aynı zamanda sert bir gösterge, test sürüşü Volvo S90 uzun dingil açıklığı versiyonu
Alibaba'nın arkasındaki en büyük hissedar, onun ataları Çinliydi!
Maruziyet Tablosu Soruşturma | Banklar, koniler, üç tekerlekli bisikletler ... restoranlarda "süslü" yol işgalinin arkasındaki park ikilemi
Kadın ünlüler neden kömür patronu ve zengin ikinci nesilden erkek ünlülere "yeniden evlenmek" istiyor?
Android 7.1 kampına bir üye daha: OnePlus 3 / 3T, Android 7.1.1 güncellemesini başlattı
To Top