DOTA 5v5 AI'nın en önemli özelliği nasıl "öğrenileceği" değil, nasıl "öğretileceği" dir

Leifeng.com AI Teknolojisi Yorumu: Hepimiz OpenAI'nin 5v5 DOTA AI "OpenAI Five" ın bir kez daha insanları yendiğini biliyoruz.

ABD saatine göre 5 Ağustos Pazar öğleden sonra, OpenAI (OpenAI bunu "OpenAI Five Benchmark" olarak adlandırdı) tarafından düzenlenen çevrimdışı yarışmada toplam dört oyun düzenlendi. İlk turda sahada 5 seyirciden oluşan bir yoldan geçen ekip, orta yolun ikinci kulesi tarafından 7 dakikada, yüksek zeminde 9 dakikada ezildi ve 12 dakikada iki yol kırıldı. Baş oranı 26: 4'tür ki tamamen ezildiği söylenebilir.

Sonraki üç oyun öne çıkan maçlar, "OpenAI Five" 4 eski profesyonel oyuncudan (Blitz, Cap, Fogged, Merlini) ve 1 mevcut profesyonel oyuncudan (MoonMeander) oluşan bir usta takıma karşı. İlk maç hala berbat bir yenilgiydi, 21 dakikada ikinci yüksek rekoru kırdı.İnsan oyuncu 39: 8 kafa oranıyla GG oynadı. İkinci turda, insan oyuncular daha güçlü kontrol ve daha agresif bir oyun seçtiler, ancak 41:12 kafa oranıyla yalnızca 24 dakika kaldılar. Bu şekilde, üç maçlık iki galibiyetli oyun kaybedildi.

İnsan ustalarının ikinci oyununun ardından, OpenAI CTO'su Greg Brockman sırayla 5 (eski) profesyonel oyuncuyu kucaklamak için öne çıktı.

Kazanan bölündü ve üçüncü oyun bir eğlence oyunu oldu Seyirci "OpenAI Five" için 5 daha az güçlü kahraman seçti ve insan oyuncular oyunu kazandı.

Bununla birlikte, oyun puanlarına ek olarak, pekiştirmeli öğrenme araştırmacılarının ve yapay zeka meraklılarının çoğunun, bu tür AI'nın nasıl eğitildiği konusunda hala derin bir sorusu var.

Kuşkusuz, DOTA oyununun karmaşıklığı Go'dan daha yüksek ve geri bildirim oldukça az. OpenAI'nin "Hızlı" elde etmek için geliştirdiği büyük ölçekli dağıtılmış PPO'yu seçsek bile, "yeterli eğitim olduğu sürece" sezgisel olarak inanmamız zor. Zaman çok zengin bir oyun davranışını öğrenebilir. " Örneğin, "OpenAI Five" ekip çalışması, İnsanlarla birlikte çekirdek ve yardımcı kahramanlar arasındaki aynı net ayrım Örneğin, OpenAI araştırmacılarına göre "OpenAI Five" da Roshan'ı seçecek , Sadece bu iki şeyin insan olduğunu söylemek için bilinçli stratejik yargılama ve uygulama yapmaları gerekiyor. Pekiştirmeli öğrenme algoritmaları artık bu kadar yüksek bir düşünme seviyesine mi sahip? Olası değil.

5 günlük oyunda aşağıdaki anlar da eğlenceye değer:

Maçın 20. dakikasında, Lich of AI Roshan'ı görmeye gitti. Aslında, AI kahramanları oyun boyunca zaman zaman Roshan'ı ziyaret edecek

Blitz'in Shadow Fiend'i, Shadow Amulet ile AI Gank tarafından görünmezdi.AOE'ye sahip iki kahraman olan AI helikopteri ve Ice Girl, yakındaki bir AI takım arkadaşıyla doğrudan geri çekildi. Yerinde yorumda "sadece görünmez nesnelerin insan tarafından kötüye kullanılmasıdır" yorumu yapıldı

Blitz's Shadow Fiend, aynı zamanda Radiant Fang, AI Fang'in orman etrafındaki gözleriyle görüldü. Şu anda, Tianhui Fangxialu'nun 2 kulesinin çoktan kaybolduğunu ve Dire Fang'ın gözlerinin Direxialu'daki kuleden çok uzağa yerleştirilmediğini belirtmek gerekir. Bu göz pozisyonu çok muhafazakar ve çok garip kabul edilebilir

Yapay zekanın silahşörleri buluşmayı ve ona vermeyi sever, Blitzin kanlı gölge iblisleri büyüktür. Bu strateji aslında çok etkilidir. Takım savaşlarında, insan tarafındaki buzlu kız genellikle takım savaşı başlamadan önce yarı kana dövülür. , Ve sonra takım kavgasının başında hemen öldürüldü

22. dakikada, AI tarafındaki buzlu kız altın bir el yaptı, ancak sonraki 3 dakika boyunca kullanmadı.

Pekiştirmeli öğrenme paradigması, "yüksek geri bildirim sağlamaya yardımcı olabilecek davranışların" öğrenilmesinin daha kolay olacağını belirler. DOTA'nın karmaşıklığı, birçok davranışın ve nihai oyun sonuçlarının yakından ilişkili görünmesi ve çoğu durumda bunlar Belki de son sözü söyleyen davranışı insanların kendisi açıklayamaz. AlphaGo'nun tekrarlanan kendi kendine eşleştirmede daha iyi bir strateji bulabileceğine inananlar bile, DOTA gibi karmaşık bir ortamda, konumlandırmayı, bölmeyi, askerleri doldurmayı, ilk elden ve izlemeyi öğrenebileceklerine mutlaka inanmazlar. Roshan, Suyan vb. Diziler.

OpenAI tarafından yayınlanan bilgilerin bir kısmını ve yarışma sitesinde "OpenAI Five" geliştirme ekibi tarafından gerçekleştirilen röportajları birleştiren Leifeng.com AI Technology Review, daha iyi anlamamıza yardımcı olabilecek "her gün bir bilgisayar kümesinde 180 yıllık oyun süresine eşdeğer" dışında bir şey buldu. Belirli AI uygulama sürecine ilişkin bazı ipuçları. Bunların "yoğun öğrenim araştırmaları için küçük beceriler" olduğunu söylemek yerine, bunların "insan öğretimi için küçük beceriler" olduğunu düşünüyoruz; "OpenAI Five" eğitiminde modelin kendi keşif davranışına kıyasla, önemin daha önemli olduğunu düşünüyoruz. İnsanlar kendi bilgi ve deneyimlerini "OpenAI Five" a başarıyla öğretmeyi başardılar .

  • Geri bildirim olarak yalnızca son oyun sonuçlarını kullanın, bu çok seyrek olduğundan, OpenAI hala İnsan oyuncuların performansını değerlendirmek için yaygın olarak kullanılan bazı göstergeler eklendi Toplam servet, öldürme sayısı, ölüm sayısı, asist sayısı, vuruş sayısı vb. Bu göstergelerin iyileştirilmesi, oyunun kazanılması veya kaybedilmesiyle birlikte geri bildirimin iyileştirilmesini de getirecek ve modelin öğrenilmesini teşvik edecektir (geçersiz öğrenme alanında uzun süre kalmamak için).

  • Ancak aynı zamanda, yapay zekanın kısa vadeli stratejilere yönelik önyargılı bu verilere çok fazla dikkat etmesini önlemek için, OpenAI'nin gösterge tabanlı geri bildirim tasarımı "gösterge ne kadar büyükse o kadar iyi" değil, Yapay zekayı yalnızca bu yönlerden ortalama insan oyuncu seviyesine ulaşmaya teşvik edin . Bu ustaca tasarım, yapay zekanın takım savaşlarında farklı kahramanların farklı konumlarını öğrenmesine de yardımcı olabilir: ortalama insan oyuncu seviyesi açısından tüfek, yüksek hasar verimi, yüksek tazminat, yüksek kafalar, düşük asistlere sahip olması gereken çekirdek kahramandır. Düşük yardım davranışları, buzlu kızlar düşük düzeltme, düşük kafalar, yüksek asistler ve yüksek asistlerle davranmalıdır. Farklı veri göstergeleri, farklı eylem stratejilerine yol açabilir.

  • DOTA'daki kahramanlar kendi konumlarına ek olarak aralarında bir grup tutmak ve kuleleri almak için insanları öldürmek gibi işbirliğine de ihtiyaç duyarlar. OpenAI, AI'lar arasında açık bir iletişim kanalı tasarlamaz. Şu anda bir Adlı "Takım Ruhu" nun hiperparametreleri , 0 ile 1 arasındaki bu değer, her bir kahramanın dikkatinin kendi bireysel geri bildirimlerine ve tüm ekibin geri bildirimlerine olan oranı yansıtacaktır. OpenAI, eğitim sırasında tavlama yoluyla bu değerin belirli boyutunu optimize eder.

  • "OpenAI Five" piyasaya çıktığında Roshan'ı desteklemediğini hatırlayabilirsiniz. Roshan'ı kısa süre sonra destekledikten sonra, herkes OpenAI ekibinin yaptığı iyileştirmelerle çok ilgilendi. 5. evdeki oyun sitesindeki OpenAI araştırmacıları cevabı verdi: Normal keşifte, beş kahramanın hepsinin Roshan çukuruna geldiğini ve ardından olumlu geri bildirim almak için Roshan'ı yendiğini bulmak zordur, bu nedenle model öğrenmeye rehberlik etme yöntemleri, Roshan'ın HP'sini eğitim sırasında rastgele ayarla Yani kahraman, keşif sürecinde Roshan ile çok düşük bir HP ile karşılaşırsa, açıkça kolayca yüksek geri bildirim alabilir. Yapay zekayı Roshan'a dikkat etmeye başlaması için teşvik edin . Ancak aynı zamanda, Roshan'ın her zaman savaşması gerekmiyor.Rastgele HP ayarı, AI'nın yalnızca Roshan ile savaşabileceğini düşündüğünde savaşmasını sağlayacaktır.

  • Uzun vadeli öğrenme perspektifinden, AI için çeşitli davranışları keşfetmek için yeterli eğitim süresi olduğu sürece, insanların yararlı bulduğu her türlü oyun operasyonu, sonunda öğrenme fırsatına sahip olacaktır (yapay bacak kesmek ve uyuşturucu almak veya et dövmek gibi. Mountain), ancak AI yeterince zaman yapmadan önce etkili öğrenme oluşturulamaz. Dolayısıyla, insanların yapay zekanın hızlı bir şekilde öğrenmesini istedikleri davranış, bazı olumlu geri bildirimler tasarlayarak öğrenmeyi teşvik edebilir; Öte yandan, sıklıkla meydana gelmeyen durumlar, derin öğrenme modellerine yönelik normal beklentilerimiz gibi olacaktır.YZ ne yapacağını bilmez uğraşmak.

  • Ekipman ve gözlerle ilgili olarak, OpenAI araştırmacıları, AI'nın şu anda AI satın alımları için komut dosyaları yazmak için API'leri kullandığını ve AI'nın kendi başına seçmesine gerek olmadığını; özellikle gözler için, mevcut komut dosyası gözler CD'de olduğu sürece satın almaya ayarlandığını ortaya koydu. Elbette böyle bir ortam, eğitimin zorluğunu azaltır, yapay zekanın istikrarlı görünümlerin keyfini çıkarmasına izin verir ve ayrıca yardımcı kahramanlara ilginç bir durum getirir: gözleri varsa onları satın almaları gerektiğinden, ızgaralarını işgal edecekler ve er ya da geç temizlenmeleri gerekecek. Bu onlar için bir motivasyon oldu Aslında, "göze" eylemin kendisi için gerçekten geri bildirim tasarlamak istiyorsanız, OpenAI araştırmacıları, gözün iyi yerleştirilip yerleştirilmediğini ölçmek için herhangi bir gösterge bulmayı gerçekten zor buluyor. Yani böyle bir tasarım gerçekten basit ve hızlı bir çözümdür.

Artık OpenAI'nin bu "öğretme" yöntemlerini bildiğinize göre, geri dönün ve yukarıda bahsedilen "OpenAI Five" ın oyun performansını görün. Daha makul ve daha nazik görünüyor mu?

"OpenAI Five" geliştirme ekibinin yapay zekayı insan benzeri stratejiler ve işlemlerle DOTA oynamaya teşvik etmenin birçok yolunu düşündüğü söylenebilir, ancak üst performans sınırına net bir sınır koymuyor. İnsan oyuncular oyunu bu kadar uzun süre keşfettikten sonra, insan deneyimi yardımıyla verimsiz oyun alanlarından hızla kaçınmak kesinlikle iyi bir fikirdir. Bu perspektiften, OpenAI'nin şu anki "OpenAI Five" önceki AlphaGo'ya benziyor, geçmiş insan oyunlarından öğrenmeye dayalı ve daha sonra iyileştirmeye ve yenilik yapmaya çalışıyor.

Daha sonra, bu sistem optimize edilmeye devam ettikten sonra, şu andaki (belki de Ana sürüm) "OpenAI Five" dan açıkça daha kapsamlı olan DOTA2 International Invitational'da (TI) aktif profesyonel oyunculara karşı nasıl performans gösterebilir ve hatta tüm kısıtlamaları kaldırabilir. Keşfedilen "OpenAI Five" Zero versiyonu gelecekte hala mümkün mü? Bekleyip göreceğiz.

Lei Feng.com AI teknolojisi inceleme raporu.

Zavallı yaratıcının Stealing Tower Stream kullanımına ayrıntılı giriş
önceki
Cameronın Hazine Kızı "Alita", hareket yakalama ve yeni görsel efektlerle teknoloji açısından yükseltildi
Sonraki
Vans ile 7 kez mi? Balon ayakkabı mağazası Sole, Los Angeles'ta Pop-Up Store'u açıyor!
AMG'yi buzda ve karda sürmek nasıl bir deneyim?
Gionee Tam Ekran Tayland'a Giriyor, Tayland'ın Popüler "Aktristi" Kesinlikle Onaylıyor
Xiaomi yöneticileri, fotoğraf çektiği için Huawei'nin P serisini övdü ve Xiaomi Mi 9'un bir Pro sürümü başlatabileceğini açıkladı!
Madencilik boşlukları = madencilik? Blok zinciri güvenliği için bir kitle testi topluluğu kurdular
Redmi Redmi Note 7 deneyim değerlendirmesi: yeniden tanımlanmış bin yuan makine kralı
Geniş alan ve yüksek konfigürasyona sahip SUV sadece Tiguan L değil
VLONE London limited mağazası dışarıda çok popüler! Bir sokak moda şovu canlı ayarlayın
Güçlü savaşçı Tachibana Ukyo'nun yeni versiyonunun hala güçlü olup olmadığına dair büyük bir analiz
En büyük yerel gümüş madeni felaketi: 50 can kaybı! Fon özel sermayesi gök gürültüsüne bastı, 40.000 hissedar yaralandı
Huawei P30 serisi, arkadan görüntüleme için 112 puanla denizaşırı pazarlarda giriş yaptı ve DxO listesine bir kez daha hakim oldu!
Süper pil ömrü, geniş görüş açılı çift kamera ilginç: ASUS Electric God 4 deneyim değerlendirmesi
To Top