Alman pokerinde yapay zeka kumar hakimiyetinin sırrı Science tarafından "açığa çıktı"

Xia Yi içbükey tapınaktan çiftçilik yapmayı sordu

Qubit Üretildi | Genel Hesap QbitAI

Texas Hold'em arenasına hakim olan kumarbazların tanrısı Libratus, bu yılın en dikkat çekici yapay zeka yıldızlarından biri.

Şu anda, "Science" tarafından yayınlanan en son önceden basılmış makale, AI Kumarbazlar Tanrısı'nın arkasındaki sistemin tam resmini ayrıntılı olarak açıkladı. Önceki NIPS 2017 konferansında, en iyi makale Libratus ekibine verildi, ancak bu konferans makalesi yalnızca bu Alman punk yapay zekasındaki alt oyun çözme algoritmasına odaklandı.

Son gazetede Teke tek limitsiz poker için Superhuman AI: Libratus, en iyi profesyonelleri geride bırakıyor Makalede, Carnegie Mellon Üniversitesi'nde (CMU) doktora öğrencisi olan Noam Brown ve Profesör Tuomas Sandholm, Tepu AI'nın oyunları hesaplanabilir ve yönetilebilir parçalara ayırarak insan performansını nasıl aşabileceğini ayrıntılı olarak anlattı. Ayrıca, rakibin durumuna bağlı olarak potansiyel stratejik zayıflıkları düzeltebilir.

Libratus tarafından kullanılan teknoloji, ne alan uzmanı bilgisi ne de insan verileri gerektiriyor, hatta poker için özel olarak tasarlanmış. Diğer bir deyişle, Bu teknikler, çeşitli kusurlu bilgi oyunlarına uygulanabilir.

Kusurlu oyun, Alman pokerinin temel özelliklerinden biridir. Go, Satranç ve Dama gibi satranç oyunları mükemmel bilgilendirme oyunlarıdır.Oyundaki iki taraf her an tüm durumu bilir. Buna karşılık, Texas Hold'em, aşağıdakiler de dahil olmak üzere pek çok gizli bilgiye sahiptir: Rakip hangi eli tutuyor ve rakip blöf yapıyor?

Libratus'u açıklayın

En son makaleye göre, Libratus esas olarak üç modül içermektedir.

İlk modül, kartların hesaplanmasının basitleştirilmesinden sorumludur , 10161 durumları ile bire bir limitsiz poker, nispeten basit bir oyuna soyutlanmıştır. Daha sonra, bu modül ilk iki tur için ayrıntılı bir strateji ve son iki tur için kaba bir strateji geliştirir. Oyunun bu soyut, basitleştirilmiş versiyonunun çözümüne plan stratejisi denir.

Bu soyutlama iki yönden somutlaşmıştır, biri bahis miktarı ve diğeri tahtadadır.

Bahis miktarı açısından 100 ABD doları ile 101 ABD doları arasında hemen hemen hiç fark yoktur, bu nedenle algoritma 100 ABD dolarının altındaki farkı yuvarlayabilir. Aynı zamanda, benzer kartların aynı kategoride ele alınması, hesaplama karmaşıklığını da azaltabilir.

Libratus'un oyunun sonraki iki turunda çözümün soyut versiyonunu takip etmeyeceği unutulmamalıdır.Bu iki turdaki plan stratejisinin rolü, yalnızca oyuncunun alt oyundaki her kart için ne alması gerektiğini tahmin etmektir. Ödül verin ve ardından gerçek oyunda daha kesin bir strateji oluşturmak için bu tahmini değere bakın.

Bu "daha kesin strateji" İkinci modül: yuvalanmış güvenli alt oyun çözme (İç içe geçmiş güvenli alt oyun çözme). Oyunun ilerleyen aşamalarında, bu modül mevcut kart yüzeyine dayalı yeni ve daha rafine bir soyutlama oluşturacak ve bu alt oyunun stratejisini gerçek zamanlı olarak hesaplayacaktır.

Alt oyun çözme

Yukarıdaki şekil, Libratus'un alt oyununun çözüm sürecidir. Üst kısım, oyun sırasında bir alt oyunun ortaya çıktığını gösterir ve orta kısım, algoritmanın bu alt oyun için daha ayrıntılı bir strateji oluşturduğunu gösterir.Her yinelemede, rakip rastgele bir kart eli çıkarır.Opsiyonel beklenen değer eski soyuttan gelebilir (kırmızı ), yeni, daha rafine bir soyutlamadan (yeşil) da gelebilir. Yeni soyutlamadan beklentiler gelirse, her iki oyuncunun da stratejileri değişecektir. Bu, Libratus'u daha rafine bir strateji geliştirmeye zorladı. Yukarıdaki şeklin alt kısmı eski stratejinin yeni stratejiyle değiştirilmesini göstermektedir.

İç içe alt oyun çözme şeması

Libratus'un alt oyun strateji hesaplamaları, mükemmel bilgi oyunlarınınkilerle aynı değildir.Bu alt oyunların hassas çözüm yöntemlerinin tüm oyunun plan stratejisi ile çelişmemesini ve tek başına çözülememesini sağlamalıdır.

Üçüncü modülün anlamı, oyun ilerledikçe kişinin kendi plan stratejisini geliştirmesidir. Profesör Sandholm, yapay zekanın rakiplerin stratejik hatalarını bulmak ve bunlardan yararlanmak için genellikle makine öğrenimini kullandığını söyledi. Ancak bu aynı zamanda AI'nın kendi zayıflıklarını ortaya çıkarmasına ve rakipler tarafından kullanılmasına da izin verecektir.

Aradaki fark, Libratus'un kendini geliştirme modülünün, rakibin bahis boyutunu kendi plan stratejisindeki olası boşlukları tespit etmek için analiz etmesi ve ardından kendi eksikliklerini telafi etmesidir.

İnsan ustalarıyla savaşmadan önce Sandholm ve Brown, Libratus'ta kullanılan çeşitli teknolojileri test etmek için genel süreci basitleştirilmiş bir poker sürümüyle test ettiler ve ardından yapay zekayı bire bir sınırsız Texas Hold'em'in tam sürümüne uyguladılar. Daha önce geliştirdikleri Baby Tartanian8 ile rekabet edin.

2016'da Baby Tartanian8 bilgisayar tabanlı Alman poker turnuvasını kazandı, ancak Libratus 63 ± 28 büyük kör bahis / bin el (mbb / el) rekoru ile onu yendi.

Sandholm ve Brown, "Geliştirdiğimiz teknoloji büyük ölçüde alandan bağımsızdır, bu nedenle oyun alanıyla sınırlı kalmayan diğer kusurlu bilgi stratejisi uygulamalarına da uygulanabilir," diye sonuçlandırdı: Gerçek dünyadaki stratejik çatışmada, bilgiyi saklayacak hiçbir yer yok. Hayır, Libratus tarafından sunulan paradigma, yapay zekanın gelecekteki gelişimi ve referansı için kritiktir.

Şu anda, bu teknoloji Sandholm tarafından kurulan şirkete lisanslanmıştır.

Kağıt adresi

Özel diyalog

Bu yılın Mart ayında Qubit, Sandholm ve Brown'ı ziyaret etmek için CMU'ya özel bir gezi yaptı. O sırada, üç modülün tasarım fikirlerini içeren Libratus kavramı hakkında konuştular.

Burada ayrıca kübit tarafından bildirilen içeriğin bir alıntı aşağıdaki gibidir.

kendi kendini yetiştirmiş

Libratus'un Alman pokeri konusunda bir ustası yok.

Sandholm ve Brown, AI'ya yalnızca Texas Hold'em'in temel kurallarını anlattılar ve daha sonra Libratus, poker oyununu "göğüs göğüse" öğrenmeye başladı. AlphaGo'dan farklı olarak, Libratus, insan-makine savaşından önce insanların Texas Hold'em'i nasıl oynadıklarını araştırmadı ya da insan profesyonel oyuncularla herhangi bir savaş yapmadı.

Libratus, gerçek bir savaşa girmeden önce, çoğu özel amaçlı oyunsonları olan milyonlarca ele karşı oynadı. Asıl makineden makineye dövüş yaklaşık yüz binlerce eldi.

Bu nedenle AI, insanlardan çok farklı bir marka tarzı oluşturmuştur.

Yapay Zeka Mühendisliği Enstitüsü İnovasyon Atölyesi Teknik Başkan Yardımcısı Li Tianfang, "Alman poker oyunlarında, en iyi oyuncular rakiplerinin zayıflıklarını bulmaya ve saldırılar başlatmaya çalışacaklar" dedi. Li Tianfang teknik bir geçmişe sahiptir ve aynı zamanda usta bir poker oyuncusudur.

Dong Kim, bu yılın Ocak ayında Alman Fighting Man-machine Battle'da insan bir oyuncuydu. 28 yaşındaki Koreli Amerikalı, Libratus'un her gün gelişeceğini ve insan oyuncuların zayıf yönlerini veya boşluklarını bulmasının zor olduğunu hatırladı. Bir tane bulsanız bile, ertesi gün kaybolur. Bu onu çaresiz hissettirdi.

Ama belki de yanlış hissetti. Brown, "Bazı insan oyuncular boşluklar bulduklarını söylüyorlar, ancak bu mutlaka doğru değil," dedi Brown, "Bu, rakibin stratejisini bozmak için bir Libratus taktiği olabilir."

Brown'un arkasında onun bilgisayarı var

AI, insan düşüncesi ile ölçülemez. Sandholm'un hafızasında hâlâ taze olan şey, AI'nın çok ileride olduğu ve herkesin Libratus'un daha muhafazakar olacağına inandığı Ocak ayında Alman Savaşan İnsan-Makine Savaşı'nın sona ermiş olmasıdır.

"Ama giderek daha agresifleşiyor," dedi Sandholm, özellikle de çok beklenmedik olan son birkaç maç.

Örneğin, All in'i küçük bir pot için itmek veya bahis miktarı potun yalnızca onda biridir. "Bazen Libratus'un stratejisi kötü bir el olarak kabul edilir", ancak daha sonra Sandholm, Depu AI'nın çeşitli blöf stratejileri de dahil olmak üzere birçok harika yöntemi denediğini söyledi.

Blöf yapmak insanlar tarafından değil, makinenin kendisi tarafından öğretilir.

Nasıl ögrenilir? Brown, Qubit'e "Blöf yapmak özellikle önemli bir beceridir. Sistem, kötü bir el varsa, doğrudan blöfün daha fazla kazanabileceğini, böylece öğrendiğini öğrenirken buldu," dedi.

Brown CMU'nun standart önceki nesil Aeron koltuğunda otururken "AI'nın özellikle harika olduğu yer burası," dedi. "Birçok kişi Libratus blöfünü görüyor ve bunun harika olduğunu düşünüyor." Ancak bu doktorun gözünde blöf yapıyor Bu görünüşte psikolojik olarak ilişkili insan becerisini blöf etmek, algoritmalar aracılığıyla makineler tarafından öğrenilebilir.

Üç modül

Libratus önceki nesilden neden daha iyidir ve gelişme nerede? Brown iki örnek verdi.

Örneğin, K-High Flush (en yüksek kart bir K floştur) ve Q-High Flush (en yüksek kart bir Q floştur) için, bu iki el Claudico için eşdeğerdir, oysa Libratus kesin Ayrım. Aslında, Libratus her eli ayrı ayrı ele alarak farklı kartlara göre farklı stratejiler geliştirecektir.

Başka bir örnek olarak, 250 yuan'lık bir bahis için 200 yuan mı yoksa 300 yuan mı hesaplanır? 249 veya 251 ne olacak? Aslında, Libratus kümelenmeye çalışmaz, ancak en büyük kazanma şansı olan stratejiyi elde etmek için anında gerçek zamanlı olarak hesaplar.

Sandholm, soğuk çarpıntı ustasını açıklıyor

Sandholm, Libratus'un beynini küresel bir perspektiften açtı ve bu poker yapay zekasının üç ana modülünü tek tek açıkladı. Bunlardan biri oyun öncesi, ikisi oyunda kullanılıyor.

Modül 1: Rekabet öncesi Nash denge yaklaşımı

Bu modül, belirli bir ele karşılık gelen strateji gibi en önemli oyun bilgilerini çıkarır ve daha sonra iyileştirme ve iyileştirme aramaya devam etmek için pekiştirmeli öğrenme ve diğer yöntemleri uygular. Burada yeni bir algoritma kullanılmaktadır: Monte Carlo karşı olgusal pişmanlık minimizasyonu. Bu modelin yardımıyla, Libratus pokeri kendisi öğrendi ve eskisinden daha hızlıydı.

Modül 2: Oyunsonu çözme (oyunsonu çözme)

Sandholm, Libratus'un en önemli kısmı budur dedi. Aslında, Claudico'da da bu modül var, ancak bu sürüm pek çalışmıyor. Yeni sürüm artık rakip için boşluk bırakmayacak.Bu süreç devam ediyor.Rakip yeni bir hamle yaptıktan sonra yeni bir oyunsonunu çözmeye devam edecek.Buna İç içe Oyun Sonu Çözme deniyor.

Alman pokeri gibi kusurlu bilgi oyunları, bağımsız olarak çözülebilen alt oyunlara bölünemez. Bu nedenle, Libratus tarafından benimsenen oyunsonunu çözme yöntemi, daha derine inmek istiyorsanız, Brown ve Sandholm'un makalesine bakabilirsiniz.

Üçüncü modül: Sürekli kendini geliştirme

Oyunda, insan ustaları Libratus'taki güvenlik açıklarını arayacak ve hedefli saldırılar başlatacak. Bu modülün işlevi sorunu bulmak, kendini güçlendirmek için daha fazla ayrıntı bulmak ve ardından daha iyi bir Nash dengesi elde etmektir.

"Üç modülün tümü yeni algoritmalar kullanıyor." Sandholm, ilk modülün yeni algoritmasının daha fazla ayrıntı çıkarabildiğini ve orijinal algoritmadan daha hızlı olduğunu; ikinci modülün algoritmasının yepyeni ve üçüncüsü olduğunu söyledi. Modülün tamamen yeni bir konsepti var, biraz benzer: savunma en iyi hücumdur.

Libratus, insan rakiplerinin güvenlik açıklarını keşfetmeye ve onlardan yararlanmaya artık çalışmıyor, aksine, AI, insanların keşfettikleri zayıflıkları gözlemlemeye ve ardından hedeflenen düzeltmeler ve iyileştirmeler yapmaya başlıyor. Sonuç olarak, Libratus'un zayıf yönleri, insan oyuncular oyunu kazanmak istemenin neredeyse imkansız bir görev haline geldiği için hayal kırıklığına uğradıklarını fark edene kadar gittikçe azaldı.

Saldırmak için inisiyatif almazsanız, kusurlarınızı nadiren açığa çıkarırsınız.Li Tianfang, Libratus'a karşı oynamanın duvara çarpmak gibi olduğunu söyledi.En iyi sonuç, kazanmak temelde imkansız olan bir beraberlik olabilir. Nash dengesinin kendisi bir tür dengedir.

Libratus, savunma ustasıdır.

Derin öğrenme tek değil

Go master AlphaGo ile karşılaştırıldığında, Libratus'un birçok farklılığı vardır. Aralarında: Libratus şu anda çok sıcak olan derin öğrenme teknolojisini kullanmamaktadır.

"Derin öğrenme çok iyi bir teknolojidir, ancak bunu bu projede uygulamadık çünkü derin öğrenme mutlak garanti veremez. Örneğin, kedilerin resimlerini tanımak için verilen resimlerin% 95'i kedilerdir, ancak Mutlak garanti ve algoritmamız en iyi sonuçları garanti edebilir ", dedi.

Elbette, yapay zeka ile meşgul olmak için derin öğrenmeyi kullanan ekipler de var.

Kanada'daki Alberta Üniversitesi, Prag'daki Charles Üniversitesi ve Çek Teknoloji Üniversitesi'nden araştırmacılar, derin öğrenme teknolojisine dayalı Texas Holdem Yapay Zeka DeepStack'i geliştirdi.

İki Alman poker yapay zekası için, onları karşılaştırmanın daha iyi bir yolu yok.Şu anda, sadece Libratus tarafından mağlup edilen rakiplerin DeepStack'inkilerden daha yüksek bir seviyede olduğu söylenebilir. Diğerleri burada tartışılmayacak, ekip ayrıca ilgili makaleler yayınladı.

Sandholm, "Bu tür bir görev için çözümümüz derin öğrenmeden daha iyidir," dedi Sandholm, mevcut derin öğrenme çözümünün sorunu gerçekten çözmediğini ve Libratus sisteminin "ne kadar uzun sürerse, mükemmelliğe o kadar yakın olabileceğini" söyledi.

Bu soruyla ilgili olarak CMU Makine Öğrenimi Departmanından Profesör Xing Bo'ya sorduk ve derin öğrenmenin makine öğreniminin geleceği olduğu sonucuna varmak için henüz çok erken olmaması gerektiğini belirtti.

"Profesör Sandholm aslında derin öğrenme yapmıyor. Kullandığı yöntem aslında geleneksel yapay zeka olarak kabul ediliyor, ancak bu kadar güçlü işlevler gerçekleştirebilir." Xing Bo qubitlere bunun güçlü bir kanıt olduğunu söyledi: yapay zeka değil Derin öğrenmeye eşit olarak, birçok yeni yöntemin araştırılması ve anlaşılması gerekir.

Libratus kayıt incelemesi

Bu yılın Ocak ayında, Pittsburgh Rivers Casino'da 20 günlük bir Zeka vs Yapay Zeka yarışması düzenlendi. Libratus, bire bir, sınırsız Alman poker savaşında en iyi dört insan oyuncuyu yendi ve toplamda 1,766 milyon ABD doları kazandı. Pazarlık fişleri. Alman poker terimlerine göre, Libratus ve insan ustalar arasındaki boşluk 147 büyük kör bahis / bin eldir (mbb / el), bu da oyun başına 14,7 büyük kör bahis.

Bu yılın Nisan ayında, İnovasyon Çalışmaları Başkanı ve CEO'su Kai-Fu Lee ve İnovasyon Çalışmaları Yapay Zeka Mühendisliği Enstitüsü Dekanı, Libratus ve ekibini soğuk usta adına Ejderhalar Ekibi ile rekabet etmek üzere Çin'e davet etti.

Bu beş günlük düelloda Lengpu ustası, 792327 puan tablosuna liderlik ederek ve 100 elde 15,8 ile büyük kör bahsi yöneterek insan rakibini yendi. 2 milyon ödül kazandı.

O sırada Kai-Fu Lee, yapay zekanın özünde kusurlu bilgi oyunuyla Texas Hold'em'i fethettikten sonra, yapay zekanın oyun alanında insanlardan daha güçlü olduğuna dair hiçbir şüphe olmadığını söyledi. İnsan-makine savaşının sonucu, yapay zekanın düşündüğümüzden daha hızlı olduğunu kanıtladı. Odaklanmamız gereken bir sonraki şey, iş, tıp ve diğer alanlarda yapay zekanın uygulanması olmalı.

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! İlgili ayrıntılar için lütfen QbitAI diyalog arayüzünde "işe alım" kelimesini yanıtlayın.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Bundesliga'nın "Küçük Çelik Savaş Topu" nu kazanabilen tek kişi o.
önceki
Kaplan kardeşle savaş! Liaoning futbol taraftarları bu ayrıntıyla futbol şehrine dokundu, taraftarlar: Liaoning Derbisi'ni dört gözle bekliyoruz
Sonraki
WEcondi, bir kadın hayranı olan kız arkadaşı tarafından aldatıldı! Eski kız arkadaşı tarafından kulübe maruz kaldıktan sonra, oyuncu: Bulantı
Pazara "sihirli pençelerden" bir pot verin, Fox'un yeni nesil listesi yakında "kırılıyor"
Fransa'nın zamansız en büyük kalecisi Domenech tarafından on yıldan fazla bir süredir dışarıda bırakıldı
% 17.1 yıllık gelir! Hisse senetlerinin temellerine bakan bu yapay zeka biraz güçlü
Hamsik: Çin Süper Ligi, Serie A'dan daha düşük! Özledim İtalyan yemekleri ve arkadaşları çok
PlayerUnknown'ın Battlegrounds kar haritası ortaya çıktı! Oyuncular buz üzerinde savaşabilir veya kızak araçları fırlatabilir
90'lar sonrası için hangi arabayı seçeceğiz? "Tavuk yeme" gösterisi bize cevabı söyleyecek
Cannes sadece film festivali değil, aynı zamanda birçok futbol yıldızı, sonuncusu dünyanın en iyisi
Muhabir: Li Xuepeng'in yaralanması iyi mi? Kashuai: Gao Lin sol bek de oynayabilir! Gao Lin: Ben de yapabilirim
CS oyunlarında ilk kişi! Oyunda 17 yıldır devam eden, Çin'deki ilk CS dünya şampiyonasını kazandı!
Zidane'nin halesinin altında gizlenmiş iki usta
Qin Sheng cezadan muaftır ve Jianye yeniden temyizde bulunacak + dış yardım sayısını artırmayı umuyor! Futbol Federasyonu bu emsali belirlemeye cesaret mi ediyor?
To Top