Endüstri | Özel bir OpenAI Five nasıl eğitilir?

AI Technology Review Press: Geçtiğimiz hafta sonu Dota 2 dünya şampiyonu OG takımını başarıyla mağlup eden OpenAI Five, bir kez daha dünya çapında ilgi gördü. Zaferin ardında, OpenAI Five'ın bilinmeyen hikayeleri nelerdir? OpenAI resmi blogu geçtiğimiz günlerde perde arkasını içeren bir yorumlama makalesi yayınladı, bunu aşağıdaki gibi derliyoruz.

OpenAI Five, bir e-spor oyununda bir dünya şampiyonunu başarıyla mağlup eden ilk yapay zekadır ve bu hafta sonu Dota 2 dünya şampiyonu takımı OG ile son düelloda üst üste iki maç kazandı. Geçmişte, hem OpenAI Five hem de DeepMindın AlphaStar'ı özel sektörde olağanüstü profesyonel oyuncuları yendi, ancak canlı profesyonel oyunlarını kaybetti. Bu nedenle, bu etkinliği yapay zekanın e-spor uzmanlarını canlı yayında ilk kez mağlup etmesi olarak da görebiliriz.

OpenAI Five ve insan dünya şampiyonu arasındaki son düelloda iki beklenmedik sürprizle karşılaştık:

  • OpenAI Five, insan takım arkadaşlarıyla işbirliği yapmak için kendi temel becerisini geliştirdi, ancak eğitim sürecimiz esas olarak diğer robotları nasıl yeneceğimize odaklanıyor. Rekabetçi yapay zekayı işbirlikçi yapay zekaya dönüştürme olasılığı, bize gelecekteki yapay zeka sisteminin aktif geliştirme çalışmasıyla insanlığa nasıl fayda sağlayacağına dair umut veriyor.

  • 18 Nisan'dan 21 Nisan'a kadar OpenAI Five'ı dünyanın dört bir yanındaki DOTA2 oyuncularına açacağız.Rakip veya işbirlikçi olarak herkes OpenAI Five'a karşı çevrimiçi oynayabilir. Nihai test sonuçları, önemli bir araştırma sorusuna cevap verecektir - OpenAI Five, insanlar tarafından ne ölçüde kullanılabilir ve güvenilebilir. Bu, insanların bilinçli olarak etkileşime girebileceği, tarihteki en büyük yüksek yoğunluklu derin takviye öğrenme aracılarının konuşlandırılması olabilir.

  • İlgilenen çocuk ayakkabıları, OpenAI Five ile rekabet etmek için aşağıdaki URL'yi tıklayabilir:

    https://arena.openai.com/#/

    Neden Dota?

    OpenAI Five araştırmasına başlamamızın nedeni, mevcut derin pekiştirmeli öğrenme algoritmalarının başaramadığı sorunu çözmektir. Mevcut yöntemlerle çözülemeyen bu sorun üzerinde çok çalışmayı umuyoruz.Karmaşık algoritma fikirleri gibi araçların performansını büyük ölçüde geliştirmemiz gerektiğini düşündük (örneğin: hiyerarşik pekiştirmeli öğrenme), ancak son bulgular bizi şaşırttı: İhtiyaç duyulan temel iyileştirme ölçektir. Bu ölçeğe nasıl ulaşılacağı ve nasıl kullanılacağı kolay değildir ve araştırma çalışmalarımızın da ana içeriği budur!

    OpenAI Five dünyayı, bu sayılar ister Dota'yı (yaklaşık 20.000 sayı) veya robotik kolları (yaklaşık 200 sayı) temsil etsin, aynı evrensel öğrenme kodlarını kullanarak deşifre edilmesi gereken bir grup sayı olarak ele alır.

    OpenAI Five'ı oluşturmak için, PPO'yu benzeri görülmemiş bir ölçekte çalıştırmamızı sağlayan Rapid adlı bir sistem yarattık. Nihai sonuç en yüksek beklentilerimizi aştı.Herhangi bir temel performans sınırlaması olmaksızın dünya standartlarında bir Dota robotu başarıyla ürettik.

    Günümüzün RL algoritmasının inanılmaz gücü, çok fazla deneyime mal olur ve bunu oyun veya simülasyon ortamı dışında uygulamak pratik değildir. Tabii ki, bu sınırlama göründüğü kadar kötü olmayabilir - örneğin, blokları hünerli bir şekilde hareket ettirmek için Rapid sistemi aracılığıyla bir robotik kolu kontrol edebilir, önce tamamen simüle edilmiş bir ortamda eğitim alabilir ve ardından fiziksel bir robot üzerinde çalıştırabiliriz. Bununla birlikte, deneyime olan bağımlılığın nasıl azaltılacağına inanıyoruz, RL için bir sonraki zorluk.

    Bugün OpenAI Five'ın rekabetçi bir yapay zeka olarak kullanımdan kaldırıldığını duyurduk, ancak ilerlemesi ve teknolojik ilerlemesi gelecekteki çalışmalarımızı teşvik etmeye devam edecek. Kısacası, bu Dota çalışmamızın sonu değil - mevcut standart ortama kıyasla Dota'nın RL geliştirme için daha ilginç ve zor olduğuna inanıyoruz (şimdi iyi anlaşıldı!).

    İşlem gücü

    OpenAI Five'ın Cumartesi günkü zaferini The International 2018'in mağlubiyetleriyle karşılaştırdığınızda, zaferin bu büyük değişikliğe dayandığını göreceksiniz: eğitim hesaplamalarının 8 katı. Projenin birçok erken aşamasında, eğitimin ölçeğini artırarak araştırma sürecini teşvik ettik. Ancak The International'dan bu yana, projenin hesaplama gücünün çoğunu tek bir OpenAI Five modelini eğitmek için kullandık. Bu nedenle, hesaplama ölçeğini yalnızca mümkün olan tek yolla artırabiliriz: daha uzun eğitim süresi.

    OpenAI Five'ın TrueSkill'i, ek eğitim hesaplama gücünün eklenmesi nedeniyle, ana sistem değişikliklerini böler (tek teslimat; LSTM'nin boyutunu 4096 birime yükseltme; 7.20 ve 7.21 yama sürümlerine yükseltme; ve geri alım öğrenmeye başlama). Grafik kabaca doğrusaldır, bu da OpenAI Five'ın ek hesaplama gücünden yararlanmaya devam ettiği anlamına gelir (lütfen bunun bir log-log grafiği olduğunu, x ekseninin hesaplamanın logaritması olduğunu ve TrueSkill'in kabaca üslü sayıya karşılık geldiğini unutmayın. ilerleme). Bu çizelge, eski oyun kurallarına göre eğitilmiş olanlar dahil olmak üzere tüm robotların son oyun kurallarındaki (1 kurye, 7.21 yama vb.) Performansını değerlendirir. Bunlardan sonraki herhangi bir dik eğim, OpenAI Five'ın bu değişikliğe uyum sağladığını gösterir; bu değişikliğe dayalı olarak, değerlendirme önceki sürüme biraz haksızlık olabilir.

    Toplamda, OpenAI Five'ın şu anki sürümü 800 petaflop / s-gün tüketmiş ve 10 gerçek zamanlı ayda yaklaşık 45.000 yıllık Dota kendi kendine oynama deneyimi yaşamıştır (The International'ın 1.5 gerçek zamanlı ayından başlayarak). Yaklaşık 10.000 yıllık bir terfi ise), bu günde ortalama 250 yıllık simülasyon deneyimidir. TI sürümüyle karşılaştırıldığında, OpenAI Five'ın son sürümünün kazanma oranı% 99,9'dur.

    Transfer öğrenimi

    Model boyutu ve oyun kuralları değişmiş olsa da (bazı önemli oyun yaması güncellemeleri ve yeni uygulanan özellikler dahil), OpenAI Five'ın mevcut sürümü Haziran 2018'den beri sürekli olarak eğitilmektedir. Her durumda, modeli aktarabilir ve açık bir zorluk olan diğer alanlarda RL'yi eğitmeye devam edebiliriz. Bildiğimiz kadarıyla bu, bir RL acentesinin ilk uzun vadeli eğitimidir.

    Bunu başarmak için, eğitilmiş parametrelerle başlayıp mimariyi temelden değiştirmeye devam edebilmek için araçlarımızı geliştirmeye devam ediyoruz.

    Daha fazla kahraman

    Kahramanların 5'ten 18'e eğitim hızlarının pek yavaşladığını gördük. Daha fazla kahramanın aynı duruma sahip olacağını varsayıyoruz ve uluslararası olarak yeni kahramanları entegre etmek için çok çaba sarf ettik.

    Birkaç hafta boyunca 25 kahramandan oluşan bir kahraman havuzunu eğiterek bu kahramanları yaklaşık 5.000 MMR'ye (DOTA oyuncularının yaklaşık% 95'i) getirdik. Hala gelişiyor olsalar da, öğrenme hızları final öncesi profesyonel seviyeye ulaşacak kadar hızlı değil. Sebepleri araştırmak için zamanımız yok, ancak nedenlerin model yetenekler, genişletilmiş kahraman havuzuna daha iyi uyma ihtiyacı, yeni kahramanların eski kahramanlara yetişmeleri için daha fazla eğitim süresi ihtiyacı vb. Olabileceğini düşünüyoruz.

    Bu sorunların temelden çözülebileceğine inanıyoruz ve bunları çözmenin başlı başına çok ilginç olduğuna inanıyoruz. Final versiyonu 17 kahramanla oynandı. Lich'i kaldırdık çünkü yetenekleri DOTA7.20 versiyonunda önemli ölçüde değişti.

    İşbirliği modeli

    Çok iyi hissettiriyor, yeraltı dünyam Yalong bir noktada benim için canını verdi. Bana yardım etmeye çalıştı, "Ne yaptığını bildiğinden eminim" diye düşündü, ama belli ki bilmiyorum. Ama biliyorsun, bana çok güveniyor. (İnsan) takım arkadaşları hakkında pek bir şey bilmiyorum. Her ne olursa olsun

    OpenAI Five'ın insanlarla oynama yeteneği, yapay zeka ile insan etkileşiminin geleceği için güzel bir vizyon sağlar.Gelecekte, yapay zeka sistemleri insanlarla işbirliği yapacak ve insan deneyimini geliştirecek. Testçilerimiz robot takım arkadaşları tarafından desteklendiklerini ve bu gelişmiş sistemlerle oynama sürecinden öğrendiklerini söylediler ve genel olarak ilginç bir deneyim oldu.

    OpenAI Five'ın sıfır örneklemli aktarım öğrenmesini gösterdiğini belirtmek gerekir - tüm kahramanların kendi kopyası tarafından kontrol edilmesine izin vermek için eğitilmiştir, ancak insanlarla yoldaş veya düşman olan bir kahraman alt kümesini kontrol edebilir. Bu işin bu kadar iyi yapılmasına şaşırıyoruz. Aslında, uluslararası bir yarışmada ortak bir maç düzenlemeyi düşündük, ancak bu özel eğitim gerektiriyor.

    Arena

    Halka açık bir deney olan OpenAI Five Arena'yı başlatacağız ve herkesin OpenAI Five'ı rekabetçi ve işbirliğine dayalı bir şekilde oynamasına izin vereceğiz. 1v1 botlarımız akıllı stratejilerle kullanılabilir, ancak OpenAI Five'ın bunu ne ölçüde yapabileceğini bilmiyoruz. Topluluğu bunu keşfetmemize yardımcı olmaya davet etmekten mutluluk duyuyoruz!

    Arena 18 Nisan Pasifik saatiyle 18: 00'de açılacak ve 21 Nisan saat 23: 59'da kapanacak. Lütfen bölgenizin yeterli sunucu kapasitesine sahip olduğundan emin olabilmemiz için bir hesap açın! Tüm maçların sonuçları otomatik olarak Arena'nın genel liderlik tablosuna bildirilecektir.

    DOTA topluluğunun son iki yılda bize verdiği tüm desteklerden dolayı çok minnettarız ve Arena'nın da topluluğun geri dönüşü için küçük bir yol olabileceğini umuyoruz. iyi eğlenceler!

    Sıradaki ne

    Openai Five Arena'nın sonuçlarını inceledik ve ardından Openai Five'ın daha teknik bir analizini yayınlayacağız.

    Bundan sonra OpenAI'de DOTA2 ortamını kullanmaya devam edeceğiz. Geçtiğimiz iki yılda, RL yeteneklerinin hızlı gelişimine tanık olduk ve DOTA 2'nin gelecekteki araştırmaları ilerletmemize yardımcı olmaya devam edeceğine inanıyoruz - ister daha az veriyle daha iyi performans elde etmek ister insan ve yapay zekayı gerçekten gerçekleştirmek olsun. İşbirliği.

    https://openai.com/blog/how-to-train-your-openai-five/ aracılığıyla

    Tıklamak Orijinali okuyun , Görüntüle Dünya şampiyonasını kazanmak şaşırtıcı değil, DOTA'da yapay zeka ile yan yana savaşmak karışık ve heyecan verici

    Araba alev aldı ve boş bir kabuğa dönüştü ve aslında içine havai fişek atan iki "ayı çocuğu" idi.
    önceki
    LaCrosse'un normal sürümüyle karşılaştırıldığında, LaCrosse Avenir'i özel kılan nedir?
    Sonraki
    Fiyatı okuduktan sonra ağlamak ister misin? ! BURBERRY x Wu Yifan ortak serisi resmi olarak piyasaya sürüldü!
    Vivo X23, 2798 yuan fiyatla 6 + 128 GB yeni bir Symphony sürümü ekler
    Yeni enerji araçlarına girmek için yüz milyarlar harcayan "üç yenilik" Changan'ın otonomide en üst noktaya dönmesine yardımcı olabilir mi?
    Sahne güzel, oyunculuk becerileri mükemmel ve "Deniz Hayvanları Yetiştiriciliği" nin başarısı, ulusal dramanın resmi olarak sofistike olanla uyumlu olduğunu gösteriyor.
    Night Reading | Adam 2.500 saç teli ekmesi için 25.000 kredi verdi | Güveç gerçekten kültürsüz mü? Hot Pot Museum küratörü aynı fikirde değil
    Bütün dünyayı kandıracak kadar iyi mi? Bu melek Victoria's Secret'e hamile, bilmiyor musun?
    iOS 12.1.1 Geliştirici Önizlemesi Beta 3, performans iyileştirmeleri getiriyor
    46 ay üst üste pazar segmentinde 1 numara olan yeni Golf ailesi, hatchback'in yarısını konsolide etmek için halka açıldı
    "Ningbo Tiger Yamyamlığı" nın son gelişmesi, kaplanın ne kadar şiddetli olduğunu okuduktan sonra anlayacaksınız.
    Chongqing'deki kadın üniversite öğrencileri için özel bir çift seçim toplantısı düzenlendi ve çoğu başvuru sahibi, ilk işin yüksek maaş gerektirmediğini söyledi.
    Çalışanları Android kullanmaya zorluyor musunuz? Facebook: sahte, biz sadece teşvik ediyoruz
    "Apollo Projesi" nin ilk iniş arabası olmak için Baidu ile el ele vererek, yeni Freddy ihtişamını yeniden kazanabilecek mi?
    To Top