Göçmen Öğrenme Yarışması: OpenAI sizi "Sonic the Sonic" i incelemeye çağırıyor

OpenAI'den derlenen kök

Qubit Üretildi | Genel Hesap QbitAI

Uzun bir süre boyunca, tipik pekiştirmeli öğrenme araştırmasında, nostaljik oyunlar genellikle algoritmaları eğitmek için kullanılır.

Ancak algoritma eğitimi ve test ortamı aynıdır ve bu, hiperparametreli algoritmaların ve ezberlemenin iyi sonuçlar elde etmesini sağlayacaktır.

Bu sorunu çözmek için, OpenAI bir transfer öğrenme yarışması düzenledi ve eğitimli yapay zeka temsilcilerine Sega'nın klasik "Sonic Boy Sonic" i oynamasına ve daha önce hiç görülmemiş bir seviyede hangi akıllı vücudun en iyi performansa sahip olduğunu görmesine izin verdi. .

OpenAI size Sonic the Hedgehog için bir dizi seviye olan bir eğitim seti verecektir. Ardından, algoritmanızı değerlendirmek için bu rekabet için özel olarak hazırlanmış test setini kullanın.

Bu yarışma 5 Nisan'da başlayıp 5 Haziran'da bitiyor ve iki ay sürüyor.

Gym Retro yarışma için veri seti, klasik video oyunlarını Gym'e entegre eden yepyeni bir platformdur ve şu anda 30 Sega Genesis oyunu içermektedir.

Herkesin başlamasını kolaylaştırmak için OpenAI, Retro'nun temel performansını yayınladı, böylece herkes bu görevleri yürütmek için gelişmiş algoritmayı nasıl kullanacağını öğrenebilir.

Retro rekabet test setinin temel sonuçları, transfer öğrenmenin kullanımıyla bile, pekiştirmeli öğrenme algoritmasının performansının insan seviyesinin çok gerisinde olduğunu göstermektedir. Kırmızı yatay noktalı çizgi, bir saat boyunca oynayan insanların sonucu olan ve algoritmanın 18 saattir oynadığı insan oyuncuların performansıdır.

Eğitim sırasında herhangi bir ortamı ve veri setini kullanabilirsiniz. Ancak test sırasında sadece 18 saatte (1 milyon saatlik adımlarla) görmediğim her seviyeye gittim. Bir seviyeyi geçmek için 18 saat gibi geliyor kulağa çok uzun ama artık insan oyunculardan daha zayıf olan pekiştirmeli öğrenme modeli için bu eğitim süresi uzadı.

Sonic Boy

Kıyaslama performansını daha spesifik olarak tanımlamak ve bazı temel sonuçlar sağlamak için OpenAI teknik bir rapor verdi: Hızlı Öğrenin: RL'de Genelleme için Yeni Bir Kıyaslama.

Adres: https://storage.googleapis.com/agi-data/blog/gym-retro/contest-tech-report.pdf

Bu rapordaki kıyaslama performansına ek olarak, gökkuşağı DQN, PRO ve basit rastgele tahmin algoritması JERK çalıştırmanın sonuçlarını da görebilirsiniz.

JERK'in performansı, özellikle Sonic the Hedgehog için optimizasyon girişimleri yapmak üzere gerçekleştirilen bir dizi rastgele eylemi temsil eder. Eğitim süresi arttıkça, Sonic, daha sık yüksek puanlar alabilen eylemleri kullanacaktır.

Aynı zamanda OpenAI, eğitim sırasında kazanılan deneyimin testte PRO'nun performansını önemli ölçüde artırabileceğini de buldu.

Özellikle eğitim aşamasında önceden eğitilmiş bir ağ varsa ve test aşamasında ince ayarlar varsa, performansı en güçlü temel sonuçlardan bile daha iyi iki katına çıkabilir.

Bu, transfer öğrenmenin pekiştirmeli öğrenmeye başarılı bir şekilde uygulanmasının ilk örneği olmasa da, transfer öğrenmenin böylesine güçlü ve istikrarlı bir etkiye sahip olabileceğini görmek de çok heyecan verici.

Algoritmaların insan performansına ulaşması için hala uzun bir yol var.

Yukarıda belirtildiği gibi, insan oyuncuların yalnızca iki saat antrenman yapması gerekir ve test sırasında bir saat oynayarak elde edilen puanlar, transfer öğrenmeyi kullanan pekiştirmeli öğrenme algoritmasından çok daha yüksektir.

Gym Retro'nun beta versiyonu

OpenAI tarafından yayınlanan Gym Retro, pekiştirmeli öğrenme modelleri için bir ortam sağlamak üzere bir dizi klasik video oyununu bir araya getiren bir sistemdir. İlk sürümde Sega Genesis Steam'in eski oyun paketinden seçilen 30 oyun, Atari 2600 Arcade Öğrenme Ortamında 62 oyun yer alıyor.

Geçtiğimiz beş yılda, Arcade Öğrenme Ortamı, pekiştirmeli öğrenme araştırması için ana itici güç olmuştur. Yoğun öğrenme ve Atari 2600 etkileşimli arayüzlerden oluşan bir koleksiyondur. Bu Atari oyunları, takviye öğrenmenin önceki kriterlerinden daha karmaşık ve değişkendir.Ayrıca, insan oyuncuların hareket kontrol becerilerini ve problem çözme yeteneklerini sorgulamak için tasarlanmıştır.

Gym Retro'nun Beta sürümü, pekiştirmeli öğrenme araştırması için uygun oyunların sayısını ve karmaşıklığını artıran Atari'den daha gelişmiş bir konsol kullanır. Sega Creations'daki oyunun birçok seviyesi, fiziksel seviye, nesnelerin görünümü gibi birçok boyutta benzerdir, ancak malzemeler farklıdır.

Transfer öğrenimi için bu ideal bir test ortamıdır. Ayrıca Genesis'te daha iyi donanım kullanabilmesi açısından Atari oyunlarından daha iyidir.Örneğin, bellek kapasitesi Atari'nin 500 katıdır ve daha geniş bir kontrol girişi aralığı alabilir ve daha fazlasını destekleyebilir. İyi resim.

Gym Retro sistemi nostaljik öğrenme ortamından ilham almıştır, ancak daha karmaşık olacaktır. Örneğin, ortamı daha ayrıntılı olarak tanımlamak istiyorsanız, C ++ kullanmayı bırakıp sadece JSON dosyalarını kullanabilirsiniz. Yeni oyun entegrasyonu için bu daha kolaydır.

Gym Retro, OpenAI ekibinin büyük ölçekli bir takviye öğrenme ortamı veri seti oluşturmaya yönelik ikinci girişimidir. Bu kavramlardan bazıları 2016'nın ikinci yarısında Evren'den türetildi, ancak Evren ortamı senkronize değil, gerçek zamanlı olduğundan OpenAI ekibi tatmin edici sonuçlar elde edemiyor.

Evrene Giriş: https://blog.openai.com/universe

Gym Retro, Arcade Learning Environment modelini daha fazla oyuna uyarlamak için genişletir.

Spor Salonu Retro sistemi GitHub adresi: https://github.com/openai/retro#gym-retro

Bazen algoritma da çok iyidir. PRO tarafından eğitilen strateji gibi, Sonic'in sağa doğru hareket ederek doğrudan duvardan geçebileceği, böylece daha yüksek puanlar elde edilebileceği bulundu.

Bu, ödül mekanizmasının yapay zeka temsilcisinin bazı tuhaf davranışlar sergilemesine nasıl neden olduğunun tipik bir örneğidir.

BTW, iki test seti vardır, biri oyun sırasında sıralamayı etkilemek, diğeri ise sadece son sıralama içindir. Ayrıca OpenAI, katılımcıların test setinde ayrı eğitim setleri ve varsayılan seviyeler kullanmasını önerir.Tüm eğitim ve test sonuçlarını ve öğrenme eğrilerini teknik rapordan görebilirsiniz.

Giriş kuralları

Kodlu AI aracınızı Sonic the Hedgehog oynamak için eğitin ve ardından sonuçlarınızı OpenAI'ye gönderin (Docker konteynerlerini kullanarak). Ardından OpenAI, AI performansınızı ölçmek için yukarıdaki gizemli test setini kullanacak ve AI puanınızı liderlik tablosunda göreceksiniz. Tüm süreç için aşağıdaki resme bakın.

Son olarak, yarışmanın kayıt adresi eklenmiştir:

https://contest.openai.com/

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Sokak ping pongu başlamak üzere! Wang Liqin, Zhang Yining ve Li Xiaoxia basın toplantısında göründü
önceki
Tarihin en hızlı fenomen seviyesi oyunu! PlayerUnknown's Battlegrounds, aylık 1,09 milyon aktif oyuncu azaldı ve tam% 69 uzakta!
Sonraki
Bir BMW 5 Serisi ile tanıştığımda, kaputu açtım ve şaşkına döndüm: Motor bir Toyota standardını nasıl astı?
Liu Guoliang'ın oyunda en çok görmek istediği şey nedir? -Ping Pong Dünyası
Bu oyun 20 yıl önce efsaneyi yerle bir etti ve Ekin Cheng bunu onayladı! Ama tüm dış oyuncular tarafından yok edildi
İşte pekiştirmeli öğrenmeye bir giriş, bir giriş | kesinlikle acemi dostu
Yeniden inşa etmek için 800.000 yuan harcadıktan sonra 80.000 yuan'den az bir araba, şaşırtıcı bir şey oldu!
Guangzhou Evergrande tarihindeki en iyi beş atıcı olan yerel atıcılar, ilk dört yabancı oyuncuyu yendi ve birinci oldu
RNG paket servisi kaybeder ve ısıyı yakalamaya mı geliyor? MLXG ve UZI 1 yuan, ayda sadece 1 kopya olarak mı fiyatlandırılıyor?
Arabanın sahibi, Wuling Hongguang'ı kızdırmak için ellerini ve ayaklarını sessizce hareket ettirdi ve AE86 onu görmekten korktu!
Asla bir atın kıçının arkasında durma! "Red Dead Redemption 2" komik koleksiyonu
Uzaylılar nerede? Plymouth Üniversitesi'nin bölüm dışında yapay zeka arayan yeni yaşam sistemi
King of Glory resmi bir hile cihazı mı başlattı? Kostümleri yerinde öğretin ve takım arkadaşları tarafından ağlayan oyuncuları cesaretlendirin!
Tarihteki en büyük robot "yüz" araştırması: 157 yüzün ardındaki insan duyguları
To Top