Münhasır Pekiştirmeli öğrenmenin ticari uygulamaları hakkında bir makale

Eser sahibi: Aishwarya Srinivasan

Çeviri: Krem

Redaksiyon: Wang Yutong

Bu makale hakkında 4000 kelime , Okumanız tavsiye edilir 10 dakika.

Bu makale, pekiştirmeli öğrenmenin uygulama senaryolarını, temel kavramlarını ve matematiksel modellerini tanıtmaktadır.

DeepMind tarafından geliştirilen AlphaGo'nun (Go oynamak için AI sistemi) ortaya çıkışı, pekiştirmeli öğrenmede bir patlama yarattı. O zamandan beri birçok şirket, pekiştirmeli öğrenmeyi araştırmak için çok fazla zaman ve enerji harcadı. Şu anda, pekiştirmeli öğrenme, derin öğrenme alanındaki en sıcak konulardan biridir. Çoğu şirket, pekiştirmeli öğrenmenin pratik örneklerini veya bunu iş dünyasında uygulamanın yollarını bulmakta zorlanıyor. Şu anda, bu tür araştırmalar yalnızca sıfır riskli, gözlemlenebilir ve simülasyonu kolay alanlarda gerçekleştirilmektedir. Bu nedenle, finans endüstrisi, sağlık endüstrisi, sigorta endüstrisi ve teknoloji danışmanlığı şirketleri gibi endüstriler, pekiştirmeli öğrenmenin uygulanmasını keşfetmek için risk almaya istekli değildir. Buna ek olarak, pekiştirmeli öğrenmenin "risk yönetimi" kısmı araştırma üzerinde çok fazla baskı oluşturur. Coursera'nın kurucusu Andrew Ng bir keresinde şöyle demişti: "Makine öğreniminde, pekiştirmeli öğrenme, denetimli öğrenmeden çok daha fazla veriye dayanır. Takviye öğrenme algoritmalarını uygulamak için yeterli veri elde etmek bizim için zordur. Bu nedenle, iş uygulamalarına pekiştirmeli öğrenmeyi uygulayın. Çin'de hâlâ yapılacak çok iş var. "

Bu biraz kötümser düşünceye dayanarak, bu makalenin ilk bölümünde pekiştirmeli öğrenmeyi teknik seviyeden derinlemesine tartışacağız. 2. Bölümde, bazı potansiyel ticari uygulamaları tanıtacağız. Temel olarak, pekiştirmeli öğrenme, kısa vadeli veya uzun vadeli ödül optimizasyonu elde etmek için gözlemlenen gerçek koşulları ve ölçümleri (kümülatif ödüller) eylem setleriyle eşleştirmek için kullanılan karmaşık bir algoritmadır. Pekiştirmeli öğrenmenin temsilcisi, çevre ile etkileşim yoluyla sürekli olarak stratejileri öğrenir ve strateji, bir dizi eylemdir (ödül odaklı). Aslında, pekiştirmeli öğrenme, sonraki adımlar için anında ödüllere ve ödüllere (gecikmiş ödüller) odaklanır, çünkü ödül değeri, temsilcinin değişim stratejisini belirlemenin ana temelidir.

Takviye öğrenme modeli, her çevresel durumda bir eylem gerçekleştirerek durumunu değiştiren bir aracı içerir.Bu eylemin etkisi bir ödül işlevi ile temsil edilir. Temsilcinin amacı, uzun vadeli birikmiş ödülleri en üst düzeye çıkarmaktır. Her eylem gerçekleştirildikten sonra, temsilciye geri bildirim iletilir ve temsilci, mevcut ortamda bir sonraki en iyi eylemi değerlendirebilir. Tarihsel olarak benzer durumlarda en iyi eylemler yoluyla, sistem deneyimlerden öğrenecektir.

Şekil 1 Pekiştirmeli öğrenme modeli

Matematiksel bir bakış açısından, pekiştirmeli öğrenmeyi bir durum modeli, özellikle tamamen gözlemlenebilir bir Markov Karar Süreci (MDP) olarak düşünebiliriz. MDP'nin arkasındaki olasılık teorisini anlamak için, önce Markov'un doğasını şu şekilde anlamalıyız:

"Gelecek yalnızca bugüne bağlıdır ve geçmişle hiçbir ilgisi yoktur."

Bu özellik, farklı davranışların sonuç olasılığının tarihsel durumla hiçbir ilgisinin olmadığı, ancak yalnızca mevcut duruma bağlı olduğu bir ortamda kullanılır. Bazı kişiler bu özelliği açıklamak için "hafızasız" kullanır. Gelecekteki sonuçları çıkarmak için geçmiş durumun gerekli olduğu durumlarda, Markov özelliği geçerli değildir.

Bu modelin ortamı, sonlu bir rastgele süreç, girdi aracısının eylemi ve çıktı olarak üretilen ödüldür. Toplam ödül işlevi (uzun vadeli kümülatif ödül işlevi) iki bölümden oluşur: anında ödül ve uzun vadeli indirim ödülü. Anında ödüller, temsilci belirli bir duruma ulaşmak için bir eylem gerçekleştirdiğinde elde edilen ölçülü ödüllerdir. Uzun vadeli indirim ödülü, bu eylemin gelecekteki durum üzerindeki etkisini temsil eder.

Uzun vadeli indirim ödülleri indirim faktörü kullanır use, 0 < < 1. İndirim faktörü ne kadar büyükse, sistemin eğilimi o kadar uzun vadeli olur; indirim faktörü ne kadar küçükse, sistem o kadar hızlı ödüller verir. t, t anındaki durumu temsil eder ve At, ajanın t anındaki eylemini temsil eder.

Durum geçiş olasılığı işlevi: aracı, mevcut t-1 durumunda A eylemini ve ortaya çıkan durumlar arasındaki geçiş olasılığını gerçekleştirir:

Aracı, rastgele bir işlem olarak simüle edilen sonlu durumlu bir makinedir ve mevcut durumu girer ve yürütülecek bir sonraki eylemi çıkarır. St, t anında, At eylemi t-1 zamanında gerçekleştirildikten sonra ulaşılan durumdur. Uzun vadeli kümülatif ödül maksimizasyonu stratejisi modeli altında t zamanında stratejidir.

Durum geçiş işlevi: Bir ajanın bir duruma geçişi, çevre ile etkileşimin sonucudur. Yani belirli bir andaki failin durumu, önceki andaki devletin, ödülün ve eylemin bir fonksiyonudur.

Strateji fonksiyonu: Strateji, St.Petersburg eyaletinde ödül optimizasyonu amacıyla yürütülecek bir eylemdir.

Temsilcinin amacı, uzun vadeli kümülatif indirim ödülünü maksimize eden bir strateji Ppi bulmaktır.

Markov karar verme sürecinde, temsilci mevcut durumdan başlamaya ve en büyük toplam ödül beklentisini elde etmeye çalışır. Bu nedenle, optimal değer fonksiyonunun elde edilmesi gerekir. Bellman denklemi, mevcut ödülün indirim değerine ve sonraki durum değerine ayrıştırılmış bir değer işlevi olarak kullanılır.

Bu makaleden pekiştirme öğrenimi hakkında teknik bilgi edinebileceğinizi umuyoruz! !

Orijinal başlık: Reinforcement Learning: The Business Use Case, Part 1 Orijinal bağlantı: https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.html

Çevirmen Profili

İş arayan bir köpek olan Wang Power, Hong Kong Bilim ve Teknoloji Üniversitesi'nde büyük veri teknolojisi okudu. Veri biliminin çok zor ve ilginç olduğunu hissediyorum ve hala öğreniyorum (tu) ve öğreniyorum (tou). Bir kişinin karaciğerini hareket ettirmeyen bir belge, bir takipçiyi birlikte göndermek için verilere gelir.

- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Luneng AFC rakipleri büyük bir geri dönüş yaptı! 0-3'ten 3-3'e, son 10 dakikada inanılmaz bir geri dönüş
önceki
Yeni Yılı kutlamak için Shandong'dan Jiangxi'ye dönüş: Köylüler, güzel olan "Yerel Bahar Şenliği Galası" nı yönetip gerçekleştirdiler!
Sonraki
Xia Chuanghao yeni terfi eden ata 120 milyon euro atıyor ve bu turu kaybediyor ve programın 5 tur öncesinde küme düşüyor!
Rapor-Liverpool Arsenal 4-0, Real Madrid 2-2 Valen, Milan 6 maçlık galibiyet serisi
Paylaşımlı konaklama endüstrisinin gelişimini standart hale getirmek ve teşvik etmek, otel konaklamalarını hizmet kalitesini iyileştirmeye zorlayacaktır.
Bir daha dönme! Arkadaş çevresinde çılgına dönen miyokard enfarktüsünü kendi kendine kurtarma yöntemi, takip ederseniz daha da korkunç. Günaydın Wuhan
emoi temel yaşamı havlu kardeşe cevap verir: o yıl intihal neredeyse temel yaşamı alt üst etti
10 Aralık'ta Chengbo'da görüşmek üzere! "İyi Yağmurlu Sezon" sergisi sizi kırk yıllık reformu ve açılımı hatırlamaya davet ediyor
Kuru Mal Mutabakat Algoritması ve Blokzincir Altyapısı İnşaatı (PPT ile)
Pekin'e evinde kaybeden Sichuan Erkek Voleybol Takımı sadece 6 puan kaybetti
Intelin hakimiyeti ciddi şekilde zorlandı ve Microsoftun bulut hizmetleri ARM işlemci mimarisini hedef alıyor
Yann LeCun Röportajı: Yetenekli olduğumu sanmıyorum, ancak her zaman akıllı insanlar arıyorum
Gözyaşları! Sichuan orman yangınında hayatını kaybeden itfaiyecinin başı aslında kancalı Ronaldo'ydu.
Li Feifei "dijital evrenin karanlık maddesine ışık tutuyor", ancak Google bulut hizmetleri hâlâ çok geride
To Top