Dinamik Sıfırdan derinlemesine pekiştirmeli öğrenmeye hızlı bir şekilde başlayın, OpenAI öğrenme kaynaklarını döndürüyor

AI Technology Review Editörün Notu : Birkaç gün önce OpenAI, anlaşılması kolay derin pekiştirmeli öğrenme kodu örnekleri, alıştırmalar, belgeler ve öğreticiler içeren derin bir pekiştirmeli öğrenme eğitim kaynağı olan Spinning Up'ı yayınladı. OpenAI tarafından yayınlanan bir bloga göre, sıfır tabanlı derin pekiştirmeli öğrenme "xiaobai", Spinning Up'ı kendi kendine çalışma yoluyla bu beceride hızlı bir şekilde ustalaşabilir ve hatta bu alanda bir uygulayıcı olabilir. AI Technology Review blog gönderisini şu şekilde derledi:

OpenAI tarafından yayınlanan derinlemesine pekiştirmeli öğrenme eğitim kaynağı olan Spinning Up, herkesin öğrendikten sonra derin pekiştirmeli öğrenme becerilerinde yetkin bir uygulayıcı olmasını sağlamayı amaçlamaktadır. Spinning Up, anlaşılması kolay derin pekiştirmeli öğrenme kodu örnekleri, alıştırmalar, belgeler ve öğreticiler içerir.

Derin pekiştirmeli öğrenmede öğrenmek için tasarlandı

OpenAI, derin öğrenmenin - özellikle derin takviye öğrenmenin - güçlü AI teknolojisinin geliştirilmesinde merkezi bir rol oynayacağına inanıyor. Derin öğrenme becerilerini hızla geliştirmek için birçok mevcut kaynak olmasına rağmen, derin pekiştirmeli öğrenmede ustalık daha zorlayıcı olacaktır. Bu bağlamda OpenAI, insanların bu teknolojileri kullanmayı öğrenmelerine ve bu teknolojiler hakkında farkındalık geliştirmelerine yardımcı olmak için Spinning Up kursunu tasarladı.

OpenAI'nin Spinning Up'ı geliştirmesi, akademisyenlerinin ve araştırmacılarının çalışmalarından esinlenmiştir. Bu süreçte, doğru rehberlik ve kaynakları alırlarsa, makine öğrenimi konusunda çok az deneyimi olan veya hiç deneyimi olmayan kişilerin hızla Bu alandaki uygulayıcılar. Derin pekiştirmeli öğrenmeye yönelik bu Spinning Up kaynağı, bu ihtiyaç göz önünde bulundurularak geliştirilmiştir. 2019'da akademisyenler ve araştırmacılardan oluşan ekibin kursuna entegre edilmiştir (https://blog.openai.com/openai-scholars-2019/ )içinde.

OpenAI ayrıca, pekiştirmeli öğrenme becerilerinde uzmanlaşmanın, insanların pekiştirmeli öğrenme ve diğer becerilerin birleşimini içeren AI güvenliği gibi disiplinler arası araştırma alanlarına katılmalarına yardımcı olabileceğini buldu. Ek olarak, pekiştirmeli öğrenmeyi sıfırdan öğrenmek için OpenAI'den rehberlik arayan pek çok kişi var, bu yüzden verdikleri gayri resmi önerileri sistematik hale getirmeye karar verdiler.

Derin takviye öğrenimi Spinning Up aşağıdaki temel içeriği içerir:

  • Pekiştirmeli öğrenme terimlerine giriş, çeşitli algoritmalar ve temel teoriler;
  • Pekiştirmeli öğrenme araştırmacısı olarak nasıl büyüyeceğinizin bir özeti;
  • Konuya göre düzenlenmiş önemli makalelerin listesi;
  • Çeşitli pekiştirmeli öğrenme algoritmalarının ve bunların bireysel uygulama yöntemlerinin tanıtımını mükemmel bir şekilde kaydeden bir kod belgesi. Bu algoritmalar şunları içerir: orijinal politika gradyanı (VPG), güven bölgesi politika optimizasyonu (TRPO), yakın uç politika optimizasyonu (PPO) ve politika gradyanının derinlik belirlemesi (DDPG) vb;
  • Bazı ısınma egzersizleri.

Uzun vadeli destek sağlayın

Bu proje için OpenAI aşağıdaki destek planlarına sahiptir:

Yüksek bant genişliğine sahip yazılım destek süresi: Yayınlandıktan sonraki ilk üç hafta içinde OpenAI, hata düzeltmelerini, kurulumları ve diğer sorunları hızlı bir şekilde ele alacak ve belgelerdeki hataları ve belirsizlikleri çözecek ve kendi kendilerine öğrenmek için Döndürmeyi kullanabilmeleri için kullanıcı deneyimini basitleştirmeye çalışacak.

Nisan 2019'da ana doğrulama: Spinning Up'ın yayınlanmasından yaklaşık altı ay sonra OpenAI, topluluktan alınan geri bildirimlere dayanarak yazılım paketinin durumunu dikkatlice doğrulayacak ve gelecekteki iyileştirmeleri duyuracaktır.

Dahili geliştirmenin kamuya açıklanması: OpenAI, akademisyenler ve araştırmacılarla çalışırken derin pekiştirmeli öğrenmede Spinning Up'ı değiştirirse, değişiklik halka açık rapora gönderilecek ve hemen herkese açık olacaktır.

OpenAI eğitimi

Derin Takviye Öğrenmenin Döndürülmesi, OpenAI'nin yeni eğitim girişiminin bir parçasıdır. Burada, "OpenAI Şartı" nın amaçlarından birinin gerçekleştirilmesini sağlamak için "dönüyorlar": "Küresel topluluğun sorunu çözmek için işbirliği yapmasına izin verecek bir yol arıyorlar" AGI'nin küresel mücadelesi. Spinning Up'ın daha fazla insanı derin takviyeli öğrenmeye alıştırmasını ve bunu güvenli ve geniş ölçüde yararlı yapay zekanın ilerlemesini teşvik etmek için kullanmasını umuyorlar.

2 Şubat 2019'da OpenAI San Francisco şubesinde 3 saatlik kurs açıklaması ve 5 saatlik yarı yapılandırılmış açık kaynak, proje geliştirme ve grup toplantıları dahil olmak üzere Derin Takviye Öğrenimi Döndürme semineri düzenleyecekler - tüm toplantı OpenAI teknisyenleri tarafından desteklenir. Katılımcıların yazılım mühendisliği deneyimine sahip olduğunu umuyoruz ve onlardan makine öğrenimi öğrenmelerini ancak resmi bir makine öğrenimi deneyimi yaşamamalarını istiyoruz. İlgilenen okuyucular kaydolmak için başvuru formunu (https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform) doldurabilir.

Ortak

OpenAI, insanlara bu kaynakları nasıl kullanacakları konusunda rehberlik etmek için diğer kuruluşlarla da işbirliği yapacaktır. İlk ortakları, University of California, Berkeley'den İnsan Uyumlu Yapay Zeka Merkezi (CHAI). İkisi, OpenAI'de düzenlenmesi planlanan Spinning Up seminerine benzer şekilde, 2019'un başlarında derin RL üzerine ortak bir seminer düzenleyecek. .

Selam Dünya

Derin takviyeli öğrenme algoritmalarının nasıl performans gösterdiğini anlamanın en iyi yolu onları çalıştırmaktır. Spinning Up ile, aşağıdaki kod kadar basit hale gelir:

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

Eğitimin son aşamasında, deneyden elde edilen verileri nasıl görüntüleyeceğiniz ve eğitimli temsilcilerin videolarını nasıl izleyeceğiniz konusunda talimatlar alacaksınız.

Spinning Up'ın uygulaması, Classic Control, Box2D ve MuJoCo görev süitlerinde Gym ortamıyla uyumludur.

Ek olarak, yeni başlayanlar göz önüne alındığında, OpenAI'nin Spinning Up kodunu tasarlama fikri, onu olabildiğince kısa, daha dostça ve öğrenmesi kolay hale getirmektir. OpenAI'nin amacı, derin pekiştirmeli öğrenme kitaplıklarında yaygın olan soyutlama ve bulanık katmanlardan kaçınarak, teorinin en az yürütme adımıyla nasıl kod haline geldiğini göstermektir. Kodun yeniden kullanılabilirliğini artıran modüler tasarımla karşılaştırıldığında, OpenAI açık ve okunması kolay koda daha fazla önem verir ve kodun yeniden kullanımı, günlük kaydı ve paralelleştirme araçlarıyla sınırlıdır. Spinning Up tarafından sağlanan kodların tümü yorumlanmıştır, böylece kullanıcılar şu anda nerede olduklarını her zaman anlayabilir ve ilgili okuma belgesi sayfasında arka plan malzemesi (ve sözde kod) desteğini alabilir.

Via: https://blog.openai.com/spinning-up-in-deep-rl/, AI Technology Review tarafından derlenmiştir

Julia'da ilkel türlerin nasıl yaratılacağını biliyor musunuz?
önceki
OnePlus 6T, yurtdışında 549 ABD dolarından başlayan fiyatlarla resmi olarak tanıtıldı
Sonraki
Ma Guoming'in bu yıl yarışa eşlik etmeye kararlı olduğu ve imparator birincilik ödülü olarak TVB'nin dört tökezleyen bloğunun şiddetle rekabet ettiği söyleniyor!
"Ode to Joy" u izledikten sonra kötü Çin dramasından şikayet ettim ama kimse "White Deer Plain" i izlemeye gitmedi.
Porsche 718 GTS resmi fotoğrafı: Hem dinamik hem de statik olan seksi bir sersemletici
Akıllı Sürüş Üyelik Programı 2018'in en güçlü refah dalgası! Çift 11, 4 büyük avantajımız var
Marka Yerelleştirilmiş yetenek eğitimi sistemini birleştirin ve BMW satış sonrası pazarında temel avantajlar yaratın
Para sıkıntısı çekmemenin yanı sıra, popüler bir sanatçı olmak için başka neye ihtiyacınız var?
TVB'nin kraliçesi "Jiao Jing" bir kez daha en üst sırayı aldı, aslında o zamanlar Clover'ın saf tanrıçasıydı!
Tüm Bentley modellerini üç ülkede sürmek rüya gibi bir deneyim!
OFF-WHITE kaykay kampına katılıyor mu? Supreme'in yeni rakipleri gittikçe şiddetleniyor!
İzleme Distribütörlerin hisse senedi satın almayı reddetmesi değişti ve "SAIC Audi" kaçınılmaz bir sonuç mu?
NIO, araba geliştirme, tek tıklamayla çalıştırma açma ve L3'ü atlama hakkında nasıl düşünüyor? | 2019 Şangay Otomobil Fuarı
Eski TVB Hong Kong kardeş şampiyonu metroya çarptı, milyonlarca borcu vardı ve şampiyonluğu koruyamadı
To Top