g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Haberler | Sadece bir gün açık, 16 takım OpenAI Five'ı başarıyla mağlup etti

AI Technology Review Press: OpenAI'nin yeni versiyonu TI8 şampiyonu OG'yi arka arkaya iki kez mağlup etmesine rağmen, bugün OpenAI'nin halka açılmasından sadece bir gün sonra, 16 takım OpenAI'nin yeni versiyonunu başarıyla mağlup etti ve bunlardan 5'i hala arka arkaya ikiden fazla kazandı. (Savaş kaydı URL'si: https://arena.openai.com/#/results)

Açılış deneyimi saati 21 Nisan (Pasifik Standart Saati) 23: 59'da kapanacak. OpenAI Five'a meydan okumak isteyen arkadaşlar acele etmeli ve ekip oluşturmalı!

Geçtiğimiz hafta sonu, Dota 2 dünya şampiyonası takımı OG'yi başarıyla mağlup eden OpenAI Five, bir kez daha dünyanın dikkatini çekti. Zaferin ardında, OpenAI Five'ın bilinmeyen hikayeleri nelerdir? Resmi OpenAI blogu geçtiğimiz günlerde kamera arkası yorumuyla ilgili bir makale yayınladı ve aşağıdaki gibi derliyoruz.

OpenAI Five, bir e-spor oyununda bir dünya şampiyonunu başarıyla mağlup eden ilk yapay zekadır.Bu hafta sonu Dota 2 dünya şampiyonası takımı OG ile yaptığı son düelloda iki ardışık oyun kazandı. Geçmişte, hem OpenAI Five hem de DeepMind's AlphaStar, özel sektörde seçkin profesyonel oyuncuları mağlup etti, ancak canlı profesyonel maçları kaybetti.Bu nedenle, bu etkinliği yapay zekanın e-spor uzmanlarını canlı yayında ilk kez mağlup etmesi olarak da değerlendirebiliriz.

OpenAI Five ve insan dünya şampiyonu arasındaki son düelloda iki beklenmedik sürprizle karşılaştık:

OpenAI Five, insan takım arkadaşlarıyla işbirliği yapmak için kendi temel becerisini geliştirdi, ancak eğitim sürecimiz esas olarak diğer robotları nasıl yeneceğimize odaklanıyor. Bu rekabetçi yapay zekayı işbirlikçi yapay zekaya dönüştürme olasılığı, gelecekteki yapay zeka sisteminin aktif geliştirme çalışmasıyla insanlığa nasıl fayda sağlayacağına dair bize umut veriyor.

18 Nisan'dan 21 Nisan'a kadar OpenAI Five'ı dünyanın her yerindeki DOTA2 oyuncularına açacağız.Rakip veya işbirlikçi olarak herkes OpenAI Five'a karşı çevrimiçi oynayabilir. Nihai test sonuçları, önemli bir araştırma sorusuna cevap verecektir - OpenAI Five, insanlar tarafından ne ölçüde kullanılabilir ve güvenilebilir. Bu, insanların bilinçli olarak etkileşime girebileceği, tarihteki en büyük yüksek yoğunluklu derin takviye öğrenme aracılarının konuşlandırılması olabilir.

İlgilenen çocuk ayakkabıları, OpenAI Five ile rekabet etmek için aşağıdaki URL'yi tıklayabilir:

https://arena.openai.com/#/

Neden Dota?

OpenAI Five araştırmasına başlamamızın nedeni, mevcut derin pekiştirmeli öğrenme algoritmalarının başaramadığı sorunu çözmektir. Mevcut yöntemlerle çözülemeyen bir sorun üzerinde çok çalışmayı umuyoruz.Karmaşık algoritma fikirleri gibi araçların performansını büyük ölçüde iyileştirmemiz gerektiğini düşündük (örneğin: hiyerarşik pekiştirmeli öğrenme), ancak son bulgular bizi şaşırttı: İhtiyaç duyulan temel iyileştirme ölçektir. Bu ölçeğe nasıl ulaşılacağı ve nasıl kullanılacağı kolay değildir ve araştırma çalışmamızın da ana içeriği budur!

OpenAI Five dünyayı, bu sayılar ister Dota'yı (yaklaşık 20.000 sayı) veya robotik kolları (yaklaşık 200 sayı) temsil ediyor olsun, aynı evrensel öğrenme kodlarını kullanarak deşifre edilmesi gereken bir grup sayı olarak ele alır.

OpenAI Five'ı oluşturmak için, PPO'yu benzeri görülmemiş bir ölçekte çalıştırmamızı sağlayan Rapid adlı bir sistem yarattık. Nihai sonuç, en yüksek beklentilerimizi aştı.Herhangi bir temel performans sınırlaması olmaksızın dünya standartlarında bir Dota robotu başarıyla ürettik.

Günümüzün RL algoritmasının şaşırtıcı gücü, çok fazla deneyime mal olur ve bunu oyun veya simülasyon ortamı dışında uygulamak pratik değildir. Elbette, bu sınırlama göründüğü kadar kötü olmayabilir - örneğin, blokları ustaca hareket ettirmek için Rapid sistemi aracılığıyla bir robotik kolu kontrol edebilir, önce tamamen simüle edilmiş bir ortamda eğitim alabilir ve ardından fiziksel bir robot üzerinde çalıştırabiliriz. Bununla birlikte, deneyime bağımlılığın nasıl azaltılacağına inanıyoruz, RL için bir sonraki zorluk.

Bugün OpenAI Five'ın rekabetçi bir AI olarak kullanımdan kaldırıldığını duyurduk, ancak ilerlemesi ve teknolojik ilerlemesi gelecekteki çalışmalarımızı teşvik etmeye devam edecek. Kısacası, bu Dota çalışmamızın sonu değil - mevcut standart ortama kıyasla Dota'nın RL geliştirme için daha ilginç ve zor olduğuna inanıyoruz (şimdi iyi anlaşıldı!).

İşlem gücü

OpenAI Five'ın Cumartesi günkü zaferini The International 2018'in mağlubiyetleriyle karşılaştırdığınızda, zaferin bu büyük değişikliğe dayandığını göreceksiniz: 8 kat daha fazla antrenman hesabı. Projenin birçok erken aşamasında, eğitim ölçeğini artırarak araştırma sürecini teşvik ettik. Ancak The International'dan beri, projenin hesaplama gücünün çoğunu tek bir OpenAI Five modelini eğitmek için kullandık. Bu nedenle, hesaplama ölçeğini yalnızca uygulanabilir şekilde artırabiliriz: daha uzun eğitim süresi.

OpenAI Five'ın TrueSkill'i, ek eğitim hesaplama gücünün eklenmesi nedeniyle, ana sistem değişikliklerini böler (tek teslimat; LSTM'nin boyutunu 4096 birime yükseltin; 7.20 ve 7.21 yama sürümlerine yükseltme; ve geri satın almayı öğrenmeye başlayın). Grafik kabaca doğrusaldır, bu da OpenAI Five'ın ek hesaplama gücünden yararlanmaya devam ettiği anlamına gelir (lütfen bunun bir log-log grafiği olduğunu, x ekseninin hesaplamanın logaritması olduğunu ve TrueSkill'in kabaca üslüğe karşılık geldiğini unutmayın. ilerleme). Bu çizelge, eski oyun kurallarına göre eğitilmiş olanlar dahil olmak üzere tüm robotların son oyun kurallarındaki (1 kurye, 7.21 yama vb.) Performansını değerlendirir. Bunlardan sonraki herhangi bir dik eğim, OpenAI Five'ın bu değişikliğe uyum sağladığını gösterir; bu değişikliğe dayalı olarak, değerlendirme önceki sürüme biraz haksızlık olabilir.

Toplamda, OpenAI Five'ın mevcut sürümü 800 petaflop / s-gün tüketti ve 10 gerçek zamanlı ayda (The International'ın 1.5 gerçek zamanlı ayından başlayarak) yaklaşık 45.000 yıl Dota kendi kendine oynama deneyimi yaşadı. Yaklaşık 10.000 yıllık bir terfi ise), yani günde ortalama 250 yıllık simülasyon deneyimi. TI sürümü ile karşılaştırıldığında, OpenAI Five'ın son sürümü% 99,9'luk bir kazanma oranına sahip.

Transfer öğrenimi

Model boyutu ve oyun kuralları değişmiş olsa da (bazı önemli oyun yaması güncellemeleri ve yeni uygulanan özellikler dahil), OpenAI Five'ın mevcut sürümü Haziran 2018'den beri sürekli olarak eğitilmektedir. Her durumda, modeli aktarabilir ve açık bir zorluk olan diğer alanlarda RL'yi eğitmeye devam edebiliriz. Bildiğimiz kadarıyla bu, bir RL acentesinin ilk uzun vadeli eğitimidir.

Bunu başarmak için, mimariyi temelden değiştirene kadar eğitimli parametrelerle başlayabilmemiz için araçlarımızı geliştirmeye devam ediyoruz.

Daha fazla kahraman

Kahramanların 5'ten 18'e eğitim hızlarının pek yavaşladığını gördük. Daha fazla kahramanın aynı duruma sahip olacağını varsayıyoruz ve uluslararası olarak yeni kahramanları entegre etmek için çok çaba harcadık.

Birkaç hafta boyunca 25 kahramandan oluşan bir kahraman havuzunu eğiterek bu kahramanları yaklaşık 5.000 MMR'ye (DOTA oyuncularının yaklaşık% 95'i) getirdik. Hala gelişiyor olsalar da, öğrenme hızları final öncesi profesyonel seviyeye ulaşacak kadar hızlı değil. Sebepleri araştırmak için zamanımız yok, ancak nedenlerin model yetenekler, genişletilmiş kahraman havuzuna daha iyi uyma ihtiyacı, yeni kahramanların eski kahramanlara yetişmesi için daha fazla eğitim süresi ihtiyacı vb. Olabileceğini düşünüyoruz.

Bu sorunların temelden çözülebileceğine inanıyoruz ve bunları çözmenin kendi içinde çok ilginç olduğuna inanıyoruz. Final versiyonu 17 kahramanla oynandı. Lich'i kaldırdık çünkü yetenekleri DOTA7.20 versiyonunda önemli ölçüde değişti.

İşbirliği modeli

Çok iyi hissettiriyor, yeraltı dünyam Yalong bir noktada benim için canını verdi. Bana yardım etmeye çalıştı, "Eminim ne yaptığını biliyor" diye düşündü, ama açıkçası bilmiyorum. Ama biliyorsun, bana çok güveniyor. (İnsan) takım arkadaşları hakkında pek bir şey bilmiyorum. Her ne olursa olsun

OpenAI Five'ın insanlarla oynama yeteneği, yapay zeka ile insan etkileşiminin geleceği için güzel bir vizyon sağlar.Gelecekte, yapay zeka sistemleri insanlarla işbirliği yapacak ve insan deneyimini geliştirecek. Testçilerimiz robot takım arkadaşları tarafından desteklendiklerini ve bu gelişmiş sistemlerle oynama sürecinden öğrendiklerini söylediler ve genel olarak ilginç bir deneyim oldu.

OpenAI Five'ın sıfır örneklemli aktarım öğrenmesini gösterdiğini belirtmek gerekir - tüm kahramanların kendi kopyası tarafından kontrol edilmesine izin vermek için eğitilmiştir, ancak insanlarla yoldaş veya düşman olan bir kahraman alt kümesini kontrol edebilir. Bu işin bu kadar iyi yapılmasına şaşırıyoruz. Aslında, uluslararası bir yarışmada kooperatif maçı yapmayı düşündük, ancak bu özel eğitim gerektiriyor.

Arena

Herkese açık bir deney olan OpenAI Five Arena'yı başlatacağız ve herkesin OpenAI Five'ı rekabetçi ve işbirliğine dayalı bir şekilde oynamasına izin vereceğiz. 1v1 botlarımız akıllı stratejiler aracılığıyla kullanılabilir, ancak OpenAI Five'ın bunu ne ölçüde yapabileceğini bilmiyoruz. Topluluğu bunu keşfetmemize yardımcı olmaya davet etmekten mutluluk duyuyoruz!

Arena, 18 Nisan Pasifik saatiyle 18: 00'de açılacak ve 21 Nisan saat 23: 59'da kapanacak. Lütfen bölgenizin yeterli sunucu kapasitesine sahip olduğundan emin olabilmemiz için bir hesap açın! Tüm maçların sonuçları otomatik olarak Arena'nın genel liderlik tablosuna bildirilecektir.

DOTA topluluğunun son iki yılda bize verdiği tüm desteklerden dolayı çok minnettarız ve Arena'nın da topluluğun geri dönüşü için küçük bir yol olabileceğini umuyoruz. iyi eğlenceler!

Sıradaki ne

Openai Five Arena'nın sonuçlarını inceledik ve ardından Openai Five'ın daha teknik bir analizini yayınlayacağız.

Bundan sonra OpenAI'de DOTA2 ortamını kullanmaya devam edeceğiz. Geçtiğimiz iki yılda, RL yeteneklerinin hızlı gelişimine tanık olduk.DOTA 2'nin, daha az veri ile daha iyi performans elde etmek veya insan ve yapay zekayı gerçekten gerçekleştirmek olsun, gelecekteki araştırmaları ilerletmemize yardımcı olmaya devam edeceğine inanıyoruz. İşbirliği.

https://openai.com/blog/how-to-train-your-openai-five/ aracılığıyla