Oyuna AI "Gu Tut" denebilir! OpenAI, büyük ölçekli çok aracılı oyun ortamını yayınlıyor

Son zamanlarda, OpenAI, kalıcı bir açık görevde çok sayıda ve değişken sayıda aracının kullanılmasını destekleyen "Neural MMO" adlı büyük ölçekli bir çok aracılı oyun ortamı yayınladı. Çok sayıda ajan ve türün eklenmesi, daha iyi keşiflere, farklı nişlerin oluşumuna ve daha büyük genel yeteneklere yol açmıştır.

Son yıllarda, çok temsilcili ortamlar, derin takviyeli öğrenme için etkili bir araştırma platformu haline geldi. Bu ilerlemelere rağmen, çok ajanlı pekiştirmeli öğrenme hala iki büyük zorlukla karşı karşıyadır. Karmaşıklık sınırı yüksek olan açık görevler oluşturmamız gerekiyor: mevcut ortam ya karmaşık ama kapsamı çok dar ya da açık ama çok basit. Kalıcılık ve büyük ölçekli nitelikler anahtardır, ancak büyük ölçekli ve kalıcı öğrenme ilerlemesini ölçmek için daha fazla kıyaslama ortamına da ihtiyacımız var. Ve bu sefer devasa çok oyunculu çevrimiçi oyunlar (MMO'lar), farklı sayıdaki oyuncuların kalıcı ve kapsamlı bir ortamda hayatta kalmak için rekabet ettiği büyük bir ekosistemi simüle ediyor.

Bu zorlukların üstesinden gelmek için OpenAI, aşağıdaki standartları karşılayan bir nöro MMO geliştirdi:

1. Kalıcılık: Ortamı sıfırlamaya gerek yoktur ve aracı, diğer öğrenme aracılarının varlığında eşzamanlı olarak öğrenir. Strateji, uzun vadeli kapsamı dikkate almalı ve diğer ajanların davranışındaki potansiyel olarak hızlı değişikliklere uyum sağlamalıdır.

2. Ölçek: Ortam, çok sayıda değişken varlığı destekler. OpenAI deneyi, 100 eşzamanlı sunucunun her birinde 128 eşzamanlı aracının en uzun 100 milyon yaşam süresi olarak kabul edildi.

3. Verimlilik: Giriş hesaplaması için eşik çok düşüktür. OpenAI, tek bir masaüstü CPU üzerinde etkili stratejiler eğitebilir.

4. Genişletme: Mevcut MMO'lara benzer şekilde, OpenAI, yeni içeriği güncellemek için Neural MMO'yu tasarladı. Mevcut temel işlevler, yöntemsel olarak kiremitli arazi, yiyecek ve su toplama sistemleri ve stratejik savaş sistemlerini içerir. Açık kaynak odaklı genişlemenin gelecekte fırsatları vardır.

Bu oyun ortamında, oyuncular (aracılar) herhangi bir mevcut sunucuya (ortama) katılabilir ve her sunucu (ortam), yapılandırılabilir boyutta otomatik olarak oluşturulmuş döşemeli bir arazi oyun haritası içerir. Yenilebilir orman yer karoları ve çim karoları gibi bazı yer karoları hareketlidir. Su ve katı taş gibi diğerleri değildir. Aracı programları, ortamın kenarındaki rastgele konumlarda oluşturulur. Sağlıklarını korumak için yiyecek ve su temin etmeli ve diğer ajanların zarar görmesinden kaçınmalıdırlar. Orman yer karoları üzerine veya su karolarının yakınına basmak, sırasıyla ajanın yiyecek veya su kaynağının bir kısmını yeniden dolduracaktır. Bununla birlikte, orman yer karolarının yiyecek arzı sınırlıdır ve yiyecekler zamanla yavaş yavaş yenilenecektir. Bu, ajanların yiyecek tuğlaları için rekabet ederken, su kaynaklarını sınırsız su tuğlalarından periyodik olarak yenilemeleri gerektiği anlamına gelir. Oyuncular dövüşte yakın dövüş (yakın dövüş), nişancı (uzun menzilli fiziksel saldırı) ve büyücü (uzun menzilli büyü saldırısı) temsil eden üç dövüş stili kullanır.

(Kaynak: OpenAI)

Bu platform, değer işlevlerinin aracıya bağımlılığını gerçekleştirmek, erişim dağılımlarını haritalamak ve öğrenme stratejileri için prosedürel bir ortam oluşturucu ve görselleştirme araçları sağlar. Temel, eğitim için 100'den fazla dünya politika gradyanını kullanır.

Basit bir temel ekip olarak, değer işlevi temeli ve ödül indirimleri tek iyileştirme olan küçük, tamamen bağlantılı bir mimariyi eğitmek için sıradan politika gradyanlarını kullanın. Temsilci, belirli bir hedefe ulaştığı için ödüllendirilmez, yalnızca yaşam döngüsüne (yörünge uzunluğu) göre optimize edilir - yani yaşam döngüsü boyunca her tıklama 1 ödül alır. Ekip, değişken uzunluktaki gözlemleri (çevredeki oyuncuların listesi gibi) tek uzunluklu bir vektöre dönüştürmek için tüm oyuncuların maksimum değerini hesaplar (OpenAI Five da bu tekniği kullanır). Kaynak sürüm, tamamen dağıtılmış eğitim dahil olmak üzere PyTorch ve Ray uygulamasına dayanmaktadır.

Şekil Verimliliği artırmak için strateji 16 temsilciden oluşan gruplar arasında paylaşılır. Testte, ikili deneylerde öğrenilen popülasyonlar birleştirilir ve hayatta kalma süresi sabit bir popülasyon büyüklüğü altında değerlendirilir ve sadece yiyecek arama değerlendirilir, çünkü savaş stratejilerini doğrudan karşılaştırmak daha zordur. Daha büyük bir popülasyonda eğitilen temsilciler her zaman daha iyidir (Kaynak: OpenAI)

Temsilcinin stratejisi, farklı popülasyonlardaki aracılar mimariyi paylaşır, ancak yalnızca aynı popülasyondaki aracılar ağırlıkları paylaşır. Ön deneyler, çoklu ajanların etkileşimi arttıkça, ajanların yeteneklerinin giderek arttığını göstermektedir. Maksimum eşzamanlı oyuncu sayısını artırmak, keşfi güçlendirecektir; popülasyon sayısındaki artış, nişlerin oluşumunu, yani haritanın farklı alanlarındaki nüfus dağılımını ve yiyecek arama eğilimlerini güçlendirir.

Mmo'nun eski sürümünde, sunucular arasında ilgili oynatıcı yeteneklerini değerlendirmek için standart bir prosedür yoktu. Bununla birlikte, MMO sunucuları bazen birden fazla sunucudan gelen oyuncu tabanlarının tek bir sunucuya yerleştirildiği konsolidasyon yaşar. Ekip, farklı sunucularda eğitilmiş oyuncu tabanını birleştirerek bir "turnuva" tarzı değerlendirmesi uyguladı. Bu, ekibin farklı deneysel ortamlarda öğrenilen stratejileri doğrudan karşılaştırmasına olanak tanır. Ekip, test zaman çerçevesini değiştirdi ve daha büyük bir ortamda eğitilen aracıların, her zaman daha küçük bir ortamda eğitilen aracılardan daha iyi olduğunu buldu.

Doğada, hayvanlar arasındaki rekabet, çatışmalardan kaçınmak için yayılmasına neden olur. OpenAI, eşzamanlı aracıların sayısı arttıkça eşleme kapsamının da arttığını gözlemler. Temsilci öğrenir ve araştırır çünkü diğer ajanların varlığı bunu yapmak için doğal bir motivasyon sağlar.

Şekil Tür sayısı (popülasyon sayısı) niş oluşumunu güçlendirir. Ziyaret haritası oyun haritasını kapsar; farklı renkler farklı türlere karşılık gelir. Tek bir popülasyonu eğitmek genellikle tek bir derin keşif yolu ile sonuçlanır. 8 popülasyonun eğitimi, birçok sığ yola götürür: popülasyonlar, türler arasındaki rekabeti önlemek için dağılır (kaynak: OpenAI)

Yeterince geniş ve kaynak açısından zengin bir ortamda ekip, nüfus arttıkça diğer ajanlarla rekabet etmekten kaçınmak için farklı ajan popülasyonlarının harita boyunca dağıldığını buldu. Varlıklar kendi popülasyonlarındaki diğer ajanlarla (yani onlarla ağırlık paylaşan ajanlar) rekabet edemediklerinden, haritada nüfuslarını korumak için yeterli kaynak içeren alanlar bulma eğilimindedirler. DeepMind, eşzamanlı çok etmenli araştırmalarda bağımsız olarak benzer etkileri gözlemledi.

Şekil Her bir kare harita, karenin merkezinde bulunan ajanın çevresindeki ajanlara verdiği cevabı gösterir. Yem arama haritasını ilk kullanıma hazırlama ve eğitimin ilk aşamalarında gösteriyoruz; ek bağımlılık eşlemeleri farklı yiyecek arama ve savaş formüllerine karşılık gelir (kaynak: OpenAI)

OpenAI, ajanı hayali eşleme mahsulünün ortasına sabitleyerek ajan-ajan bağımlılığını görselleştirir. Ajan tarafından görülebilen her konum için, OpenAI, o konumda ikinci bir ajan varsa değer işlevinin ne olacağını gösterecektir. OpenAI, yiyecek arama ve savaş ortamlarında ajan öğreniminin diğer ajanların stratejilerine bağlı olduğunu buldu. Temsilciler, haritalardan kaçınmak için "hedef tahtası" nı öğrenirler ve birkaç dakikalık eğitimden sonra daha etkili bir şekilde aramaya başlayabilirler. Temsilciler çevredeki savaş mekaniğini öğrendiklerinde, etkili angajman aralığını ve yaklaşma açısını doğru bir şekilde değerlendirmeyi öğrenmeye başlarlar.

Sonuç olarak, OpenAI'nin Neural MMO'su, önceki oyun ortamına dayanan iki temel sınırlamayı çözüyor, ancak hala çözülmemiş birçok sorun var. Gelecekte daha fazla ilerleme bekleyebiliriz.

Yirmili yaşlarınızın başında geleceği göremiyor musunuz? İlk 500 CEO size yolun nerede olduğunu söylüyor
önceki
Dragon ve Phoenix Heming: Kahramanın Kış Şampiyonasını kazanmak için uzun süredir devam eden yarışması.Sistem teorisi, bireysel yeteneklerle bozulur
Sonraki
Foxconn için Endüstri 4.0 Oscar'ını kazandı ve Endüstriyel İnternet'in iki büyük çukurunu ortaya çıkardı.
Softbank Pepper'ı kıyaslayan i-bao robotları, hizmet robotları olarak açık platform modunu kullanarak evlere ve okullara yöneliktir
Finansman haberlerinden dolayı muhabirlerden rahatsız olan Musk'ın "beyin-bilgisayar bağlantısı" girişimi Neuralink neden bu kadar gizemli?
Önümüzdeki haftanın 28. sayısının kapağı | "Sanatın tanıtımı" sanat öğrencilerini utandırıyor, evren gizemli bir sinyal gönderiyor
Konuk savaş şövalyesi! Sihirbazlar Quicken Loans Arena'ya gelecek
İhanete mi uğradınız? Microsoft'un yeni Edge tarayıcısı Chrome'a çok benziyor!
Amazon Bezos, 5 yılın en zengin adamı olmak için Gates'i kısa bir süre geride bıraktı
Resmi "damga": Hastalıkları iyileştirmek ve yaşlanmayla mücadele etmek için gençlerin kanını değiştirmeye çalışmayın!
Kadın, çiftinin avatarını tek bir fotoğrafa dönüştürdü ve erkek arkadaşı tarafından tekmelendi
"Güzel sokak görünümünü gösterme" çevrimiçi oylamaya başlar, kalbinizdeki "en güzel sokak görünümünü" seçin
Bu siyah evcil hayvan teknolojilerini izledikten sonra, sonraki hayatımda bir köpek olarak reenkarne olmaya karar verdim ...
İPhone siparişleri kurudukça, Foxconn çalışanlarının maaşları düşüyor ve büyük ölçekli bir istifa dalgası geliyor!
To Top