AI Kumarbazları yükseltmesi! Eğitim sadece 8 gün sürdü ve 6 oyunculu Texas Hold'em oyunu dünya şampiyonu oldu

Pluribus ile düello sırasında, Darren Elias hiç bu kadar korkusuz bir rakiple karşılaşmamıştı. Deneyimli bir poker oyuncusu, iki vale olduğunda dikkatli davranacaktır. Ancak Elias'ın rakibi ne yapacağını bilmiyor gibiydi. Elias blöf yapmaya karar verdiğinde bile bahsi oynarken kendinden emin görünüyordu ve rakibi onu devam etmeye teşvik ediyor gibiydi! Hiç korkmuş görünmüyordu.

2017'nin başında Texas Hold'em'deki insan-makine beyin-yapay zeka savaşı Carnegie Mellon Üniversitesi'nde (CMU) sona erdi. 4 profesyonel insan oyuncudan oluşan insan beyni, Libratus yapay zeka programına kapıldı.

Zaferin ardından, Libratus insanlarla da acımasızca alay edildi.

Ama o zamanlar Libratus, yalnızca bire bir oyunlarda hakimiyet kurabilen süper bir oyuncuydu.İnsanların en çok sevdiği altı oyunculu oyunun "büyük sahnesi" için, Libratus henüz giriş biletini almamıştı.

Ve daha dün, Facebook ve CMU öğrencileri Noam Brown ve Tuomas Sandholm-Pluribus'un en son araştırma sonuçları, en yaygın, sınırsız Texas Hold'em 6 oyunculu oyunda en iyi insan oyuncuları yendi.

Darren Elias (18 Kasım 1986 doğumlu), dört Dünya Poker Turu şampiyonluğu kazanan Amerikalı bir profesyonel poker oyuncusu.

Pluribus ile düello sırasında, Darren Elias hiç bu kadar korkusuz bir rakiple karşılaşmamıştı.

Deneyimli bir poker oyuncusu, iki vale olduğunda (biri açık, diğeri gizli, bir el ne iyi ne de kötü), dikkatli bir şekilde ilerleyecektir. Ancak Elias'ın rakibi ne yapacağını bilmiyor gibiydi. Elias blöf yapmaya karar verdiğinde bile bahsi oynarken kendinden emin görünüyordu ve rakibi onu devam etmeye teşvik ediyor gibiydi! Hiç korkmuş görünmüyordu.

Sonunda, Elias'ın blöfü işe yaramadı ve kaybetti.

Elias'ın farkına vardığı gibi Darren Elias, Pluribus ne zaman blöf yapacağını biliyor, başkalarının ne zaman blöf yaptığını biliyor ve aynı zamanda davranışını ne zaman değiştireceğini de biliyor, böylece diğer oyuncular kendi stratejilerini belirleyemiyor. 32 yaşındaki Elias şunları söyledi: İnsanların yapması zor şeyler yapıyor.

Yapay zeka insanlarla oyun oynamadan önce, ya satranç, dama vb. Gibi iki oyunculu bir oyundu ya da iki taraf arasında sıfır toplamlı bir oyundu (bir taraf kazanır ve diğeri kaybedildi). AI, oyunda Nash dengesi stratejisini bulabilir. Kaybetmeyeceğim.

Nash denge stratejisi (Nash dengesi) ile ilgili olarak, oyun teorisi kategorisine aittir (Not: Nash, karma stratejilere izin verilirse, katılımcı sayısı sınırlı olduğu ve katılımcıların seçebileceği saf stratejiler de sınırlı olduğu sürece, o zaman bu Oyunun en az bir Nash dengesi vardır).

Klasik "taş, kağıt, makas" oyununu örnek olarak alırsak, yapay zeka rakibin zayıflığını ve oyunda son zaferi elde etmeyi öğrenmek için sıkça kullanılan jestleri bulabilirken, çok oyunculu poker, oyuncu sayısında ve daha karmaşık olarak artış anlamına gelir. Oyunda, AI'nın Nash dengesi ile nasıl mücadele edileceğini belirlemesi zordur; rakibin sabit stratejiler kullanılarak hızlı bir şekilde gözlemlenemeyen stratejik eğilimi ve oyundaki birden fazla oyuncunun stratejisindeki değişiklikleri izleme ihtiyacı, bu AI çok oyunculu poker oyunları içindir. , Bir meydan okumadır.

Çok oyunculu oyun göz önüne alındığında, kart oynama alışkanlıklarını ve birden fazla oyuncunun diğer özelliklerini öğrenmek için eğitim veri entegrasyonu çok büyükse, Pluribus'un burada benimsediği strateji, insan rakiplerin verilerini model eğitimi için girdi olarak kullanmadan kendi kendine oynamaktır. Başlangıçta oyunu rastgele seçin ve sürekli eğitimle performansınızı artırın. Burada kullanılan oyun stratejisi, yinelemeli Monte Carlo CFR'nin (MCCFR) geliştirilmiş bir versiyonudur. Kendi kendine oyun yoluyla, sol ve sağ eller birbirini oynar ve kendi elinizi yapın Bir plan stratejisi (plan stratejisi) ve son olarak, teklif verilecek veya oynanacak bir sonraki davranışı belirlemek için karar ağacını arayarak olası her durumun olasılık dağılım istatistikleri.

CFR, yinelemeli bir kendi kendine oyun algoritmasıdır. AI tamamen rastgele bir oyundan başlar ve daha sonra kendisinin önceki sürümünü yenmeyi öğrenerek kademeli olarak gelişir.

Algoritmanın her yinelemesinde, MCCFR, bir oyuncuyu yinelemedeki mevcut stratejisini güncellemek için bir işaretçi olarak atar. Yinelemenin başlangıcında, MCCFR, tüm oyuncuların mevcut stratejisine (başlangıçta tamamen rastgele) dayalı olarak bir el poker kartı simüle eder. Simülasyon tamamlandığında, yapay zeka her oyuncunun verdiği kararı gözden geçirecek ve ardından diğer mevcut eylemleri seçerek kararın ne kadar iyi olduğunu tahmin edecek.

Pluribus oyuncu oyun ağacı

Eksik haber oyununda arama sorununu çözerken Pluribus, stratejisinin mevcut duruma ulaşma olasılığına göre her eli takip eder. Pluribus'un gerçekte sahip olduğu kartlardan bağımsız olarak, önce olası her bir eli nasıl kullanacağını hesaplar ve rakip için öngörülemezliği korumak için tüm stratejileri dikkatlice dengeler.

Pluribus'ta anında arama

İnsanları bire bir oyunlarda yenen Libratus, daha sonra Pentagon'da çalışmaya başladı ve Savunma Bakanlığı, bu stratejik yapay zekanın onlara strateji geliştirmede yardımcı olabileceğine inanıyor.

Pluribus projesinden sorumlu araştırmacı Noam Brown, "Pluribus'un teknolojisi Wall Street işlemlerinde, müzayedelerde, siyasi görüşmelerde ve siber güvenlik faaliyetlerinde kullanılabilir. Bu faaliyetler poker gibidir ve gizli mesajlar içerir çünkü her zaman gerçek dünyayı bilmiyorsunuz. durum. "

Google gibi şirketler "kötü olmayın" inancına sahip olsalar da, insan stratejilerini anlayabilen bu tür bir yapay zekanın yine de halkın yapay zeka konusunda belirli bir korkusunu tetiklemesi kaçınılmazdır. ABD'nin yapay zekası askeri kararlarda ne kadar ciddi kullanılacak?

Sony giyilebilir klima, ısı dalgalarını önlemek için 13 derece soğuyabilir ve soğuk havalarda ısıtıcı olarak kullanılabilir
önceki
İnsan sürüşüne% 10 otonom araçların dahil edilmesi, trafik hacmini% 30'dan fazla artırabilir
Sonraki
Chenghua'nın ilk yılında "Tengxia Halk İsyanı" ndan başlayarak, Han Yong'un reformundan önce ve sonra doğru ve yanlış hakkında konuşun
Ming Hanedanı'nda ZTE'nin efendisi olan "Ölümünden sonra hukukun imparatoru" Ölümünden sonra gelen adından tam olarak görebilir
Tam sadakatten ordudaki isyana - Datang'ı neredeyse altüst eden Pugu Huai'en İsyanı (2. Kısım)
Almanya yeniden birleştiğinde, Gorbaçov buna şiddetle karşı çıkmaya başladı, neden bir yıldan kısa bir süre içinde yeniden birleşmeyi kabul etti?
Güney Kore'de 300.000 kişinin hayranlık duyduğu Han halkının atası kimdir? Dong Zhuo onu bastırdı, Cao Cao ona saygı duydu
Jingkang felaketinden kurtulan prenses 7 imparatordan geçti ve oğlunun 8 resmi unvanı var, neden memnun değil?
Mısır eski zamanlarda bir İslam ülkesi değildi, Firavunun torunları nereye gittiler? Statüko iyimser değil
Çin'le derin bağları olan bir krallık. Kral yurtdışında eğitim görmeden 4 gün önce vurularak öldürüldü. Bu neden beklemede olan bir dava?
22 yaşındaki Büyük İmparator neden bir sır olarak öldü? Kraliçeye zalimce bir şey söyledi, ama çağlar boyunca bir imparator yarattı
Elli yıl önce, Sovyet tarihinin en ciddi devlet başkanının öldürülmesi Sovyetler Birliği'nin gelişmesi üzerinde herhangi bir etki yarattı mı?
Şarap var, hikayeler var ve eski Çin şarabı kültürle bağlantılı ... Belki eski ünlü cümlelerde bir "şarap tadı" var?
Çin'le dost olan küçük ülke, Sovyetler Birliği'ne baskı yapmaya cesaret etti ve Varşova Paktı'ndan ilk çekilen ülke oldu, Sovyetler Birliği neden asker göndermedi?
To Top