Takviye öğrenme yaygın olarak kullanılan algoritmalar + pratik uygulamalar, bu temel noktalar elde edilmelidir

Kaynak: Xinzhiyuan

Bu makale hakkında 1700 kelime , Okumanız tavsiye edilir 5 dakika

Bu makale size pekiştirmeli öğrenmede en sık kullanılan algoritmaları tanıtmaktadır.

Pekiştirmeli öğrenme (RL), modern yapay zeka alanındaki en popüler araştırma konularından biridir ve popülaritesi hala artmaktadır. Bu makale, RL öğrenmeye başlamak için anlamanız gereken temel unsurları tanıtmaktadır. Daha fazlasını öğrenmek için sağdaki bağlantıya tıklayın!

Pekiştirmeli öğrenme, modern yapay zeka alanındaki en popüler araştırma konularından biridir ve popülaritesi hala artmaktadır.

Pekiştirmeli öğrenme nedir? Diğer makine öğrenimi teknolojilerinden farkı nedir?

Takviye öğrenme, temsilcilerin kendi davranışlarından ve deneyimlerinden geri bildirimleri kullanarak etkileşimli bir ortamda deneme yanılma yoluyla öğrenmelerini sağlayan bir makine öğrenimi tekniğidir.

Hem denetimli öğrenme hem de pekiştirmeli öğrenme, girdi ve çıktı arasındaki eşlemeyi kullansa da, denetimli öğrenmeyle temsilciye sağlanan geri bildirim, görevi yerine getirmek için doğru eylemler setidir; pekiştirmeli öğrenme, olumlu ve olumsuz davranışların sinyalleri olarak ödülleri ve cezaları kullanır.

Denetimsiz öğrenme, hedefler açısından farklıdır. Denetimsiz öğrenmenin amacı, veri noktaları arasındaki benzerlikleri ve farklılıkları bulmak iken, pekiştirmeli öğrenme durumunda amaç, ajanın toplam kümülatif ödülünü maksimize etmek için uygun bir davranış modeli bulmaktır.

Aşağıdaki şekil, genel pekiştirme öğrenme modelinin eylem ödülü geri bildirim döngüsünü göstermektedir.

Temel pekiştirmeli öğrenme soruları nasıl formüle edilir?

Pekiştirmeli öğrenme problemlerinin temel unsurlarını tanımlayan bazı temel terimler şunlardır:

  • Çevre - aracının çalıştığı fiziksel durum
  • Durum-temsilcinin mevcut durumu
  • Çevreden ödül-geri bildirim
  • Strateji-ajan durumlarını eylemlerle eşleştirme yöntemi
  • Değer - temsilcinin belirli bir eyalette gerçekleştirilen eylemler için alacağı gelecekteki ödül

Pekiştirmeli öğrenme problemleri en iyi oyunlarla açıklanabilir. Örnek olarak Pac-Man oyununu ele alalım: Temsilcinin (PacMan) amacı yolda beliren hayaletlerden kaçarken ızgarada yemek yemektir.

Bu durumda, ızgara dünyası, aracının hareket ettiği etkileşimli bir ortamdır. Temsilci, bereye geç kaldığı için ödüllendirilecek ve ajan hayalet tarafından öldürülürse (oyunu kaybetmesi) cezalandırılacaktır.

Durum değeri, temsilcinin grid dünyasındaki konumudur ve toplam birikimli ödül oyunu kazanır.

Temsilci, optimal bir politika oluşturmak için, genel gelirini en üst düzeye çıkarırken yeni bir eyaleti keşfetme ikilemiyle karşı karşıyadır.

İkisini dengelemek için, en iyi genel strateji kısa vadeli fedakarlıklar içerebilir. Bu nedenle, temsilci gelecekte en iyi genel kararı vermek için yeterli bilgiyi toplamalıdır.

Markov Karar Süreci (MDP), pekiştirmeli öğrenme ortamını tanımlayan matematiksel bir çerçevedir.Neredeyse tüm pekiştirmeli öğrenme problemleri MDP kullanılarak ifade edilebilir.

Bir MDP, sınırlı bir çevresel durum kümesi S, her durumda bir dizi olası eylem A, gerçek değerli bir ödül işlevi R ve bir geçiş modeli P (s , s | a) içerir.

Bununla birlikte, gerçek çevrenin çevresel dinamikler hakkında herhangi bir ön bilgiden yoksun olması daha olasıdır. Bu durumda, modelsiz pekiştirmeli öğrenme yöntemi çok kullanışlıdır.

Q öğrenme, kendi başınıza oynamak için bir PacMan ajanı oluşturmak için kullanılabilen, yaygın olarak kullanılan, modelsiz bir yöntemdir. S durumunda a eyleminin değerini temsil eden Q değerini güncelleme kavramı etrafında döner. Aşağıdaki değer güncelleme kuralları, Q öğrenme algoritmasının temelini oluşturur.

En sık kullanılan pekiştirmeli öğrenme algoritması nedir?

Q öğrenimi ve SARSA (durum-eylem-ödül-durum-eylemi), yaygın olarak kullanılan iki modelden bağımsız takviye öğrenme algoritmasıdır. Keşif stratejileri farklıdır, ancak kullanım stratejileri benzerdir.

Q-öğrenme, pekiştirmeli öğrenme yöntemidir. Q-öğrenme, öğrenilen politikaları kaydetmektir, böylece temsilciye hangi koşullar altında hangi eylemin en büyük ödül değerine sahip olacağını söyler. Q-öğrenmenin ortamı modellemesi gerekmez, hatta transfer işlevi veya rastgele faktörlerle ödüllendirme işlevi özel değişiklikler olmadan gerçekleştirilebilir.

Herhangi bir sonlu Markov Karar Süreci (FMDP) için, Q-öğrenme, tüm adımların ödül beklentisini en üst düzeye çıkarabilen bir strateji bulabilir.Kısmen rastgele bir strateji ve sınırsız keşif süresi verildiğinde, Q-öğrenme maksimum En iyi eylem seçim stratejisi. "Q" harfi, pekiştirmeli öğrenmedeki bir eylemin kalitesini temsil eder.

SARSA, değerlerin mevcut operasyonundan elde edilen değere dayalı olarak öğrenildiği stratejik bir yöntemdir a. Bu iki yöntemin uygulanması kolaydır, ancak çok yönlülükten yoksundur çünkü bilinmeyen durumun değerini tahmin edemezler.Bu, Q değerini tahmin etmek için sinir ağlarını kullanan Deep Q-Networks (DQN'ler) gibi daha gelişmiş algoritmalarla aşılabilir. Ancak DQN yalnızca ayrık düşük boyutlu çalışma alanlarını işleyebilir.

Derin Deterministik Politika Değişimi (DDPG), model içermeyen, politika içermeyen, aktör-eleştirmen bir algoritmadır ve bu sorunu, yüksek boyutlu sürekli bir operasyon alanında politikaları öğrenerek çözer. Aşağıdaki şekil, aktör-eleştirmen mimarisinin bir temsilidir.

Pekiştirmeli öğrenmenin pratik uygulamaları nelerdir?

Takviye öğrenimi çok fazla veri gerektirdiğinden, oyun ve robotik gibi simülasyon verilerinin kolayca elde edilebildiği alanlar için en uygun olanıdır.

Takviye öğrenme, bilgisayar oyunları oynamak için AI oluşturmak için yaygın olarak kullanılır. AlphaGo Zero, eski Çin Go oyununda dünya şampiyonunu yenen ilk bilgisayar programıdır. Diğerleri arasında ATARI oyunları, tavla vb. Robotik ve endüstriyel otomasyonda, takviye öğrenme, robotların kendi deneyimlerinden ve davranışlarından öğrenen etkili adaptif kontrol sistemleri oluşturmasını sağlamak için kullanılır. DeepMind'in "eşzamansız politika güncellemeleri yoluyla robot manipülasyonu için derin takviye öğrenimi" üzerine çalışması iyi bir örnektir.

Pekiştirmeli öğrenmenin diğer uygulamaları arasında soyut metin özetleme motorları, kullanıcı etkileşimlerinden öğrenebilen ve zamanla gelişebilen konuşma aracıları (metin, konuşma), sağlık hizmetlerinde en iyi tedavi stratejilerini öğrenme ve çevrimiçi hisse senedi ticaretine dayalı pekiştirme öğrenimi yer alır. Ajanın.

Editör: Yu Tengkai

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

"Bilişsel" zorlukla yüzleşmek ve "akıllı" işbirliğini güçlendirmek - Akademisyen Zhang Bo ve diğerleri sevgiyi paylaştı
önceki
Microsoft Peking Üniversitesi, yapay zeka yüz değiştiren FaceShifter ve sahte yüz algılama Yüz Röntgeni (bağlantı) öneriyor
Sonraki
Qingshu Big Data Industry Alliance'ın 2019 Konseyi düzenlendi
Temel mühendislik problemleri en yeni geometrik teori gerektiriyor mu?
Stanford'un en son araştırması: analistler ve diğer yüksek ücretli ve yüksek eğitimli pozisyonlar en çok AI'dan etkileniyor
AI haftanın en sıcak makalesi | CNN 101'in öğrenme sürümü, minimalist sinir ağı yavaş
AutoVis büyük veri görselleştirme tasarım çerçevesi: büyük veri görselleştirmeyi kolaylaştırın
Jeff Dean'in elle yazılmış Google AI 2019 envanteri: önemli açık kaynak algoritmalarını bir araya getiren günde 2 makale
Zhou Zhihua'nın 3 umudu var, Wu Enda ve 9 AI lideri 2020'yi tahmin ediyor
Veri bilimcileri için R neden gerekli bir kurs?
Huawei'in yeni derin öğrenme modeli DeepShift: Çarpma yerine kayma ve olumsuzlama
Python veri görselleştirme: Dağılım grafikleri çizmek ve kullanmak için 5 parça kod, toplamaya değer
Ulusal Bilim ve Teknoloji Ödülleri açıklandı! Tsinghua Üniversitesi, tamamlanan ilk birim olarak ödül sayısında ülkede birinci sırada yer alıyor
0108 Morning Post Jiangsunun yoksulluğu azaltma oranı% 99.99'un üzerinde, sadece 17 kişi kaldı
To Top