Eser sahibi: Aishwarya Srinivasan
Çeviri: Krem
Redaksiyon: Wang Yutong
Bu makale hakkında 4000 kelime , Okumanız tavsiye edilir 10 dakika.
Bu makale, pekiştirmeli öğrenmenin uygulama senaryolarını, temel kavramlarını ve matematiksel modellerini tanıtmaktadır.
DeepMind tarafından geliştirilen AlphaGo'nun (Go oynamak için AI sistemi) ortaya çıkışı, pekiştirmeli öğrenmede bir patlama yarattı. O zamandan beri birçok şirket, pekiştirmeli öğrenmeyi araştırmak için çok fazla zaman ve enerji harcadı. Şu anda, pekiştirmeli öğrenme, derin öğrenme alanındaki en sıcak konulardan biridir. Çoğu şirket, pekiştirmeli öğrenmenin pratik örneklerini veya bunu iş dünyasında uygulamanın yollarını bulmakta zorlanıyor. Şu anda, bu tür araştırmalar yalnızca sıfır riskli, gözlemlenebilir ve simülasyonu kolay alanlarda gerçekleştirilmektedir. Bu nedenle, finans endüstrisi, sağlık endüstrisi, sigorta endüstrisi ve teknoloji danışmanlığı şirketleri gibi endüstriler, pekiştirmeli öğrenmenin uygulanmasını keşfetmek için risk almaya istekli değildir. Buna ek olarak, pekiştirmeli öğrenmenin "risk yönetimi" kısmı araştırma üzerinde çok fazla baskı oluşturur. Coursera'nın kurucusu Andrew Ng bir keresinde şöyle demişti: "Makine öğreniminde, pekiştirmeli öğrenme, denetimli öğrenmeden çok daha fazla veriye dayanır. Takviye öğrenme algoritmalarını uygulamak için yeterli veri elde etmek bizim için zordur. Bu nedenle, iş uygulamalarına pekiştirmeli öğrenmeyi uygulayın. Çin'de hâlâ yapılacak çok iş var. "
Bu biraz kötümser düşünceye dayanarak, bu makalenin ilk bölümünde pekiştirmeli öğrenmeyi teknik seviyeden derinlemesine tartışacağız. 2. Bölümde, bazı potansiyel ticari uygulamaları tanıtacağız. Temel olarak, pekiştirmeli öğrenme, kısa vadeli veya uzun vadeli ödül optimizasyonu elde etmek için gözlemlenen gerçek koşulları ve ölçümleri (kümülatif ödüller) eylem setleriyle eşleştirmek için kullanılan karmaşık bir algoritmadır. Pekiştirmeli öğrenmenin temsilcisi, çevre ile etkileşim yoluyla sürekli olarak stratejileri öğrenir ve strateji, bir dizi eylemdir (ödül odaklı). Aslında, pekiştirmeli öğrenme, sonraki adımlar için anında ödüllere ve ödüllere (gecikmiş ödüller) odaklanır, çünkü ödül değeri, temsilcinin değişim stratejisini belirlemenin ana temelidir.
Takviye öğrenme modeli, her çevresel durumda bir eylem gerçekleştirerek durumunu değiştiren bir aracı içerir.Bu eylemin etkisi bir ödül işlevi ile temsil edilir. Temsilcinin amacı, uzun vadeli birikmiş ödülleri en üst düzeye çıkarmaktır. Her eylem gerçekleştirildikten sonra, temsilciye geri bildirim iletilir ve temsilci, mevcut ortamda bir sonraki en iyi eylemi değerlendirebilir. Tarihsel olarak benzer durumlarda en iyi eylemler yoluyla, sistem deneyimlerden öğrenecektir.
Şekil 1 Pekiştirmeli öğrenme modeliMatematiksel bir bakış açısından, pekiştirmeli öğrenmeyi bir durum modeli, özellikle tamamen gözlemlenebilir bir Markov Karar Süreci (MDP) olarak düşünebiliriz. MDP'nin arkasındaki olasılık teorisini anlamak için, önce Markov'un doğasını şu şekilde anlamalıyız:
"Gelecek yalnızca bugüne bağlıdır ve geçmişle hiçbir ilgisi yoktur."
Bu özellik, farklı davranışların sonuç olasılığının tarihsel durumla hiçbir ilgisinin olmadığı, ancak yalnızca mevcut duruma bağlı olduğu bir ortamda kullanılır. Bazı kişiler bu özelliği açıklamak için "hafızasız" kullanır. Gelecekteki sonuçları çıkarmak için geçmiş durumun gerekli olduğu durumlarda, Markov özelliği geçerli değildir.
Bu modelin ortamı, sonlu bir rastgele süreç, girdi aracısının eylemi ve çıktı olarak üretilen ödüldür. Toplam ödül işlevi (uzun vadeli kümülatif ödül işlevi) iki bölümden oluşur: anında ödül ve uzun vadeli indirim ödülü. Anında ödüller, temsilci belirli bir duruma ulaşmak için bir eylem gerçekleştirdiğinde elde edilen ölçülü ödüllerdir. Uzun vadeli indirim ödülü, bu eylemin gelecekteki durum üzerindeki etkisini temsil eder.
Uzun vadeli indirim ödülleri indirim faktörü kullanır use, 0 < < 1. İndirim faktörü ne kadar büyükse, sistemin eğilimi o kadar uzun vadeli olur; indirim faktörü ne kadar küçükse, sistem o kadar hızlı ödüller verir. t, t anındaki durumu temsil eder ve At, ajanın t anındaki eylemini temsil eder.
Durum geçiş olasılığı işlevi: aracı, mevcut t-1 durumunda A eylemini ve ortaya çıkan durumlar arasındaki geçiş olasılığını gerçekleştirir:
Aracı, rastgele bir işlem olarak simüle edilen sonlu durumlu bir makinedir ve mevcut durumu girer ve yürütülecek bir sonraki eylemi çıkarır. St, t anında, At eylemi t-1 zamanında gerçekleştirildikten sonra ulaşılan durumdur. Uzun vadeli kümülatif ödül maksimizasyonu stratejisi modeli altında t zamanında stratejidir.
Durum geçiş işlevi: Bir ajanın bir duruma geçişi, çevre ile etkileşimin sonucudur. Yani belirli bir andaki failin durumu, önceki andaki devletin, ödülün ve eylemin bir fonksiyonudur.
Strateji fonksiyonu: Strateji, St.Petersburg eyaletinde ödül optimizasyonu amacıyla yürütülecek bir eylemdir.
Temsilcinin amacı, uzun vadeli kümülatif indirim ödülünü maksimize eden bir strateji Ppi bulmaktır.
Markov karar verme sürecinde, temsilci mevcut durumdan başlamaya ve en büyük toplam ödül beklentisini elde etmeye çalışır. Bu nedenle, optimal değer fonksiyonunun elde edilmesi gerekir. Bellman denklemi, mevcut ödülün indirim değerine ve sonraki durum değerine ayrıştırılmış bir değer işlevi olarak kullanılır.
Bu makaleden pekiştirme öğrenimi hakkında teknik bilgi edinebileceğinizi umuyoruz! !
Orijinal başlık: Reinforcement Learning: The Business Use Case, Part 1 Orijinal bağlantı: https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.htmlÇevirmen Profili
İş arayan bir köpek olan Wang Power, Hong Kong Bilim ve Teknoloji Üniversitesi'nde büyük veri teknolojisi okudu. Veri biliminin çok zor ve ilginç olduğunu hissediyorum ve hala öğreniyorum (tu) ve öğreniyorum (tou). Bir kişinin karaciğerini hareket ettirmeyen bir belge, bir takipçiyi birlikte göndermek için verilere gelir.
- Bitiş -Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.