Takviye öğrenmeye gelince, sadece AlphaGo'yu biliyor musunuz? Aslında, RL hala endüstride bu uygulamalara sahiptir

Orijinal: Ben Lorica

Tang Xu, Oreilly'den derlendi

Qubit Üretildi | Genel Hesap QbitAI

Yazar hakkında:

Ben Lorica, OReilly Media'nın baş veri bilimcisi ve Strata Veri Konferansı ve OReilly Yapay Zeka Konferansı proje direktörüdür.

AlphaGo Zero'nun ortaya çıkışı, insanların yeniden pekiştirmeli öğrenmeye olan ilgisini getirdi. Derin öğrenmenin ardından, pekiştirmeli öğrenme, AI alanındaki en sıcak konu haline geldi.

Çoğu şirket, pekiştirmeli öğrenmeyi araştırdı ve değerlendirdi, ancak çok az kişi ne yapabileceğini gerçekten anlıyor.

RL kavramının artık bir problemler ve teknolojiler karmaşasına karıştırıldığını düşünürsek, önce onu tanımlamamız gerekir.

Genel olarak konuşursak, RL'nin amacı, uzun vadeli ödülleri en üst düzeye çıkarırken gözlemleri ve ölçümleri bir dizi davranışla nasıl eşleştireceğinizi öğrenmektir. Bu kavram genellikle "aracının çevre ile etkileşime girdiği ve en iyi karar sırasını öğrendiği" uygulamaları içerir.

Aslında, RL'nin ilk uygulamalarının çoğu, uzun zamandır otomatik sıralı karar vermeyi amaçlayan alanlardadır.

Geleneksel çevrimiçi öğrenmeden farklı olarak - genellikle etkileşim sırasında ortamı etkileyen gecikmiş geri bildirimler, kıt ödüller ve aracıların bir kombinasyonunu alırsınız - RL tamamen farklı bir dizi önerir meydan okuma.

DL, birçok şirket tarafından çeşitli uygulamalarda kullanılmıştır.RL ile karşılaştırıldığında, uygulama alanı hala nispeten sınırlıdır ve ona bir envanter vermek istiyoruz.

Başlamadan önce, RL'nin pratikte karşılaştığı bazı zorluklardan bahsetmek istiyorum.

Wu Enda'nın San Francisco AI Konferansı'ndaki açılış konuşmasında söylediği gibi, RL'nin çok fazla veriye ihtiyacı var.Aynı zamanda simülasyon verilerini alabilen bu alanlarla (oyunlar ve robotlar gibi) bağlantı kurması gerekiyor.

Kağıttan besinleri çıkarmak ve bunları uygulamaya uygulamak kolay değildir: RL araştırmacıları için bile, sıradan veri bilimcileri bir yana, araştırma sonuçlarını tekrarlamak çok zordur; ve makine öğrenimi, Kritik görevlerde, tekrarlanabilirlik ve hataları tahmin etme yeteneği vazgeçilmez hale gelir.

Bu nedenle, en azından şimdilik, RL, sürekli kontrol gerektiren kritik görev uygulamaları için ideal olmayabilir.

Yine de, RL'ye dayanan birçok ilginç uygulama ve ürün var. Sıralı karar vermenin RL yardımıyla otomasyonu, kişiselleştirme ve açıkça tanımlanmış görev otomasyonu dahil olmak üzere birçok ayara fayda sağlayabilir.

Şirketler için ilk görevleri, çok karmaşık ve "yapay zekaya ihtiyaç duyan" büyük çukurları dolaştırmak yerine, bu açıklamaları birleştiren basit durumları çözmektir.

Pekala, RL'nin ortaya çıkmaya başladığı kilit alanları vurgulayayım.

Robotik ve endüstriyel otomasyon

Robotlar gibi yüksek boyutlu kontrol problemlerinde RL'nin uygulanması, akademi ve endüstride önemli bir araştırma konusu haline geldi. Aynı zamanda, bazı başlangıç şirketleri de endüstriyel robotlar için ürünler oluşturmak için RL'yi kullanmaya başladı.

Endüstriyel otomasyon bir diğer gelecek vaat eden alandır.

DeepMInd tarafından sağlanan RL teknolojisi, Google'ın veri merkezinin enerji tüketimini önemli ölçüde azaltmasına yardımcı olmuş gibi görünüyor. Startup'lar, otomasyon çözümleri alanında büyük bir pazar olduğunu fark ettiler.Bazı şirketler, bazı şirketler için RL ve diğer teknolojileri endüstriyel uygulamalarda kullanmalarını sağlayan araçlar yapıyor. Bonsai de bunlardan biri. . Bir örnek, makine ve ekipmanlarda hata ayıklamaktır ve bu alan şu anda insan uzmanlar tarafından tekelleştirilmiştir.

Endüstriyel sistemlerin aksine, Bonsai son zamanlarda "RL'yi kayıpsız olarak değerlendirmek" için aşağıdaki kriterleri listeledi:

1. Simülasyon yapıyorsunuz çünkü makineye testleri geçmeyi ve hataları önlemeyi öğretmeniz gerekiyor Sisteminiz ve işleminiz çok karmaşık.

2. Büyük bir durum uzayı ile karşı karşıyasınız.

3. İnsan analistlerine ve alan uzmanlarına operasyonel verimlilik optimizasyonu ve karar desteği sağlamak istiyorsunuz.

Veri bilimi ve makine öğrenimi

Makine öğrenimi kitaplıklarını kullanmak daha kolay hale geliyor, ancak veri bilimcileri için uygun bir model veya model mimarisi seçmek hala biraz zor.

Derin öğrenme, veri bilimcileri ve makine öğrenimi mühendisleri tarafından daha fazla kullanıldıkça, insanların sinir ağı mimarilerini oluşturmasına ve ayarlamasına yardımcı olabilecek araçlar, sıcak bir araştırma alanı haline geldi.

Birkaç araştırmacı grubu, sinir ağı mimarisi tasarlama sürecini daha açık hale getirmek için RL kullanmayı önerdi. Google'ın AutoML'si, bilgisayar görüşü ve dil modellemesi için makine tarafından üretilen en gelişmiş sinir ağı mimarisini oluşturmak için RL'yi kullanır.

AutoML ile ilgili makaleler

https://arxiv.org/abs/1611.01578

Makine öğrenimi oluşturma sürecini basitleştirmenin yanı sıra, bazı insanlar RL'nin yazılım mühendislerinin bilgisayar programları yazmasına yardımcı olabileceğine inanıyor.

Eğitim ve öğretim

Çevrimiçi platformlar, kişiselleştirilmiş deneyimler oluşturmak için makine öğrenimini kullanmayı zaten deniyor. Bazı araştırmacılar, özel ders sistemlerinde ve kişiselleştirilmiş öğrenmede RL ve diğer makine öğrenimi yöntemlerinin uygulamasını inceliyor.

RL kullanımı, rehberlik ve materyalleri öğrencilerin ihtiyaçlarına göre ayarlayabilecek yeni bir eğitim sisteminin ortaya çıkmasına yol açacaktır. Bir grup araştırmacı, gelecekteki eğitim sistemlerinin veri gereksinimlerini azaltmak için RL algoritmaları ve istatistiksel yöntemler geliştiriyor.

tıbbi sağlık

Çevre ile etkileşime giren ve RL'deki davranışa dayalı geri bildirim veren bir ajanın ortamı ile tıp bilimindeki tedavi planlarının öğrenme problemi arasında birçok benzerlik vardır.

Aslında, sağlık alanındaki birçok RL uygulaması en iyi tedavi planını bulmak içindir. Tıbbi cihazlarda, ilaç dozajlarında ve iki aşamalı klinik çalışmalarda pekiştirme öğreniminin uygulanmasını inceleyen birkaç yeni makale vardır, örneğin:

Yoğun Bakım Ünitelerinde Mekanik Ventilasyonun Sütten Kesilmesinde Takviyeli Öğrenme Yaklaşımı

https://arxiv.org/abs/1704.06300

Optimal olmayan klinik örneklerden optimum ilaç dozajı: derin bir pekiştirme öğrenme yaklaşımı

https://www.ncbi.nlm.nih.gov/pubmed/28268938

Pekiştirmeli öğrenme yoluyla sıralı klinik karar vermeyi bilgilendirme: ampirik bir çalışma

Metin, ses ve diyalog sistemi

İyi yapılandırılmamış metin kilit açma araçlarının her zaman alıcıları olacaktır.

Bu yılın başlarında, SalesForce'daki AI araştırmacıları, metin özetlerini çıkarmak için Deep RL'yi kullandı (orijinal metin belgelerinden soyutlanan içerikten otomatik olarak özetler oluşturan bir teknoloji). Birçok şirket şimdi daha iyi metin madenciliği çözümleri arıyor ve RL'nin bu alanda çok sayıda hayranı çekmesi bekleniyor.

RL ayrıca konuşma sistemlerinin (sohbet robotları gibi) kullanıcının etkileşimli davranışından öğrenmesine olanak tanır ve bu zamanla iyileşir (birçok ticari sohbet robotu artık karar ağaçlarını kullanır).

Medya ve reklam

Microsoft, geçtiğimiz günlerde Azure'da bulunan "Karar Hizmetleri" adlı dahili bir sistemi duyurdu. Makaleleri, içerik önerisinde ve reklamda "karar hizmeti" uygulamasını tanıttı. Daha genel bir ifadeyle, "karar hizmetleri", "geri bildirim döngüleri ve önyargılar, merkezi olmayan veri toplama, çevresel değişiklikler, zayıf izleme ve sorun giderme" gibi arıza modlarıyla karşılaşan makine öğrenimi ürünlerine yöneliktir.

Diğer RL uygulamaları, kanallar arası pazarlama optimizasyonu ve çevrimiçi reklam gösterimi için gerçek zamanlı teklif verme sistemlerini içerir.

parasal

Bu biraz garip. Eski bir veri analisti olarak, DL ve RL'yi değerlendiren birçok tüccar ve analistle tanıştım, ancak küçük yönergeler dışında, birkaç kişi bu araçları başka yerlerde kullanıyor. Bu konuda çok sayıda makale var, ancak çok az şirket bu tür yazılımlar yapıyor.

Bir istisna vardır: JPMorgan Chasein işlem yürütme sistemi. RL'ye dayanan bu sistem, işlemleri mümkün olan en hızlı ve en iyi fiyatla gerçekleştirmek için kullanılır.

Diğer tüm yeni teknolojiler gibi, RL'yi kullanmanın anahtarı, güçlü ve zayıf yönlerini anlamak ve ardından denemek için basit uygulama örnekleri bulmaktır. Ezici AI yutturmacasına aldanmayın.RL'yi, yalnızca belirli problemler için etkili olsa da, yararlı bir makine öğrenimi tekniği olarak düşünmelisiniz.

orijinal:

https://www.oreilly.com/ideas/practical-applications-of-reinforcement-learning-in-industry?imm_mid=0f9d5ccmp=em-data-na-na-newsltr_ai_20171218

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

İsrail'in çift yıldızları Yuexiu Dağı'nda parlıyor! Zahavi derin bir kendini suçladı ve Saba eksikliklerine dikkat çekti
önceki
Bir Jung-hwan'ın Serie A'ya çıkışı gerçekten yorucuydu
Sonraki
Batı yok edildi! JDG3: 0RW üçüncü oldu! Oyuncu: SMLZ kader şovunu yapıyor, takım arkadaşları pes ediyor
Yeni nesil Tang yakıtı / çift modlu beş koltuklu versiyon, 129.900 yuan'dan fiyatla piyasaya öncülük ediyor
Kara her zaman iyidir! Hamm her zaman orta saha oyuncusu mu oynar? Medya bile partinin en iyi kartını övdü ve savunma hattının nakavt olmasını eleştirdi
Zafer Kralı o kadar zalim ki kendini kopyaladı mı? Yeni kahraman aslında kardeşler oyununu kopyaladı, tamamen aynı
Eski Evergrande Magic Wing tak ve çalıştır, Cui Kangxi övdü! Maçtan sonra bir tarafın eşit olmasının nedenini söyledi
AI Challenger Global AI Challenge Concludes, kazanan ekip 2 milyon ödül paylaşıyor
Bu yerli yapım kar tavuğu oyunu 20 Eylül'de Steam'e gelecek! Çince'yi desteklemiyor mu? !
Guangzhou Otomobil Fuarı'nda yeni arabalar, listelenen modeller yolculuklarına başlıyor
Ar-Ge oyuncuları yere düştü ve saldırıya mı uğradı? Cui Kangxi: Sorun değil! Hamm nasıl bir performans sergiledi? Çiviyi kafasına vurdu
Yurtdışında eğitim gördükten sonra Çin liglerinin tüm seviyelerinde oynayan eski uluslararası oyuncu
Blizzard ne kadar alçakgönüllü! Oyuncunun gündelik önerisi, hemen oyunun yeni bir haritasını çıkardı!
Mağazayı keşfetme | Yeni nesil Fox hızla büyüyor ve tüketicilerin% 50'si bunun için ödeme yapıyor
To Top