"Blockbuster" AI, Texas Hold'em'de insan profesyonel oyuncuları ilk kez yendi. Yeni algoritma, makineye (kağıtla) "sezgi" veriyor

1 Xinzhiyuan derlemesi

Kanada ve Çek Cumhuriyeti'nden birkaç bilgisayar bilimi araştırmacısı kısa süre önce arXiv hakkında bir makale yayınladı ve kusurlu bilgiler için (poker gibi) yeni bir algoritma sundu.DeepStack, bilgi asimetrisiyle başa çıkmak için döngüsel akıl yürütmeyi birleştirerek Hesaplama, ilgili karar verme sürecine odaklanır ve tek oyunculu bir oyundan herhangi bir poker durumunun sezgisel bir biçimini otomatik olarak öğrenmek için derin bir öğrenme teknolojisi kullanır. . Araştırmacı gazetede, düzinelerce katılımcının yer aldığı 44.000 el poker turnuvasında DeepStack'in profesyonel poker oyuncularını bire bir limitsiz Texas Hold'em'de yenen ilk bilgisayar programı olduğunu belirtti.

Kusurlu bilgi oyunu

Oyunlar uzun zamandır yapay zekanın ilerlemesini ölçmek için bir kriter olarak kabul edildi. Geçtiğimiz 20 yılda tavla, dama, satranç, Jeopardy, Atari video oyunları ve Go gibi birçok oyunda insanları geride bırakan birçok oyun programına tanık olduk. Bilgisayar programlarının bu yönlerdeki başarısı, bilginin simetrisini içerir, yani mevcut oyun durumu için, tüm oyuncular aynı deterministik bilgiyi elde edebilir. Kusursuz bilginin bu özelliği, oyunlarda yerel aramalar gibi bu programları başarılı kılan algoritmaların da merkezinde yer alır.

Modern oyun teorisinin yaratıcısı ve bilgisayar öncüsü von Neumann bir keresinde oyunlardaki akıl yürütme davranışını mükemmel bir bilgi olmadan açıklamıştı: "Gerçek dünya bundan farklıdır. Gerçek dünya pek çok bahis, bazı aldatıcı taktikler içerir ve başkalarının nasıl olacağını düşünmenizi gerektirir Ne yapacağınızı bir düşünün. "Von Neumann'ın en saplantılı oyunlarından biri pokerdir. Bu oyunda oyuncular, kendi kartlarını aldıktan ve rakiplerinin görmesine izin verdikten sonra sırayla bahis oynayacaklar. Ya görürler ya da çekilirler. Poker kusurlu bir bilgi oyunudur.Oyuncular oyunun durumunu sadece ellerindeki kartların sağladığı asimetrik bilgilere göre değerlendirebilirler.

AI, sınırlı bahis Texas Hold'em bire bir maçlarda (yani, sadece iki oyuncu) bir miktar başarı elde etti. Ancak, bire bir sınırlı bahis Texas Hold'em'de, tüm karar puanları 10 üzeri 14. kuvvet arasındadır. Aksine, bilgisayarlar Go'da profesyonel insan oyuncuları çoktan geride bıraktı. Go, yaklaşık 10 ila 170 karar noktası içeren mükemmel bir bilgi oyunudur.

Kusurlu bilgi oyunları daha karmaşık muhakeme becerileri gerektirir. Belirli bir anda doğru karar, rakibin açığa çıkardığı kişisel bilgilerin, genellikle eylemlerinde ortaya çıkan olasılık dağılımına bağlıdır. Bununla birlikte, rakibin davranışının onun bilgisini nasıl ima ettiği, aynı zamanda onun özel bilgilerimiz hakkında ne kadar bilgi sahibi olduğuna ve davranışımızın ne kadar bilgiyi açığa çıkardığına da bağlıdır. Bu döngüsel mantık, bir kişinin tek başına oyunun durumu hakkında akıl yürütmesinin zor olmasının nedenidir, ancak mükemmel bir bilgi oyununda bu, yerel arama yönteminin özüdür.

Eksik bilgi oyunlarında, daha rekabetçi AI yöntemi, genellikle tüm oyun hakkında akıl yürütmek ve daha sonra tam bir öncelik stratejisi bulmaktır. CFR (Karşı-olgusal pişmanlık minimizasyonu), döngüsel akıl yürütme gerçekleştirmek için kendi kendine oyunu kullanan, yani birden fazla başarılı döngüde kendi kendine karşı savaşmak için kendi stratejisini kullanan taktiklerden biridir. Oyun doğrudan çözülemeyecek kadar büyükse, yaygın yöntem önce daha küçük, konsantre oyunları çözmektir. Son olarak, ilk büyük ölçekli oyunu oynamak istiyorsanız, oyunun orijinal versiyonunda tasarlanan simülasyon ve davranışı daha "yoğunlaştırılmış" bir oyuna aktarmanız gerekiyor.

Bu yöntem, bilgisayarların HUNL gibi oyunlarda çıkarım yapmasını mümkün kılmakla birlikte, HUNL altındaki 10. 160. sahneyi 10. 14. kısaltılmış sahneye sıkıştırarak elde edilir. Bu yöntemin bilgi kaybetme olasılığı yüksektir ve bu tür programların tümü profesyonel insan oyuncular düzeyinden uzaktır.

2015 yılında, bilgisayar programı Claudico profesyonel poker oyuncularından oluşan bir takıma yenildi ve önemli bir dezavantajla oyunu kaybetti. Ayrıca, son zamanlarda yıllık bilgisayar poker yarışmasında, "yoğunlaşmaya" dayalı bilgisayar programlarının pek çok eksiği olduğu keşfedildi. 2016'dan beri en iyiler arasında olanlar da dahil olmak üzere bu yöntemi kullanan bilgisayar programlarından dördünün, bir stratejinin ne kadar kaybedebileceğine karar vermek için yerel bir optimal yanıt tekniğini kullandığına inanılıyor. Alt sınıra daha yakın bir yanıt üretin. "Yoğunlaştırma" yöntemine dayalı dört programın tümü perişan bir şekilde kaybedilebilir.Kantifikasyon açısından, her oyunun dört katıdır.

DeepStack tamamen farklı bir yaklaşım benimsiyor. Bilgi asimetrisi problemiyle başa çıkmak için sürekli olarak CFR'de döngüsel akıl yürütme kullanır. Bununla birlikte, oyun için tam bir öncelik stratejisi hesaplamaz ve saklamaz, bu nedenle kısaca iyileştirilmesine (yoğunlaştırılmasına) gerek yoktur. Aksine oyunda ortaya çıktığında her özel sahneyi dikkate alacak, ancak bağımsız değil.

Belirli bir derinlik hesaplaması yerine hızlı bir yaklaşık tahmin kullanarak, oyunun geri kalanı hakkında akıl yürütmekten kaçınabilir. Bu tahmin, DeepStack'in sezgisi olarak görülebilir: olası herhangi bir poker durumunda, olası herhangi bir kişisel kart yüz boyutunu tutma sezgisi.

Sonunda, DeepStack'in bir dereceye kadar insanlara benzeyen sezgisinin eğitilmesi gerekiyor. Derin öğrenmeyle eğitmek için rastgele oluşturulmuş poker senaryoları kullandık. Sonunda DeepStack'in teorik olarak uygulanabilir olduğunu kanıtladık. "Yoğunlaştırma" esaslı yöntemle karşılaştırıldığında özünde daha az keşif gerektiren stratejiler üretebilir.Aynı zamanda dünyanın ilk HUNL oyunudur. İnsan profesyonel oyuncuları ortalama 450 mbb / g'nin üzerinde kazanma oranıyla yenen bilgisayar programları. (Mbb / g, milli-big-blinds oyun başına, poker oyuncularının performansını ölçmek için kullanılan bir indekstir, 50 mbb / g daha büyük bir avantaj olarak kabul edilebilir, 750mbb / g her oyunda rakibin katlama oranıdır. .)

Sinir ağı makine öğrenimi sistemi, insan profesyonel oyuncuları ilk kez alt ediyor

Profesyonel oyuncularla yüzleşme

DeepStack'i insan uzmanlarla karşılaştırmak için, International Federation of Poker'den profesyonel poker oyuncularını işe aldık. Oyuncular 4 haftada 3000 oyun tamamladı. Oyuncuları motive etmek için (AIVAT'ta) en yüksek sıralamaya sahip ilk üçe, sırasıyla 5000 Kanada doları, 2500 Kanada doları ve 1250 Kanada doları verildi. Turnuva 7 Kasım ile 12 Aralık 2016 tarihleri arasında çevrimiçi olarak gerçekleştirildi. Poker oyuncuları aynı anda 4 oyuna kadar oynamayı seçebilirler, bu çevrimiçi olarak çok yaygındır. 17 ülkeden toplam 33 oyuncu DeepStack ile yarıştı. DeepStack'in herkese karşı performansı Tablo 1'de gösterilmektedir:

Tablo 1: Profesyonel poker oyuncuları ile AIVAT tarafından ölçülen ve kazanılan fişler mbb / g cinsinden yapılan yarışma sonuçları.

Tablo 2: Hangi turda spesifik analizlere göre ileri ayrışım. F, C, 1 / 2P, P, 2P ve A aşağıdaki kısaltmalardır: pas (Fold), follow up (Call), pot büyüklüğünde bir bahsin yarısı, dip Pot büyüklüğünde bir bahis (pot büyüklüğünde bir bahis), bir çift pot bahsi (pot büyüklüğünde bir bahisin iki katı) ve bir all in (All in). Son sütun, derinlik sınırı aşıldığında hangi sinir ağının kullanıldığını gösterir: flop ağı, dönüş ağı veya yardımcı ağ.

Yarış hızı

Ayrıştırma hesaplaması ve sinir ağı değerlendirmesi bir GPU'da uygulanır. Bu, karşı-olgusal değer ağında birden çok alt-genel ağacın aynı anda toplu olarak çağrılmasını mümkün kılar. DeepStack'i daha hızlı yapmanın anahtarı budur. Torch7'de geliştirilmiştir ve NVIDIA GeForce GTX 1080 grafik kartında çalışır. Yukarıdaki uygulama yöntemlerinin çoğu, DeepStack'in ideal olarak kart oynayan insanlar kadar hızlı çalışmasını sağlamaktır. Tablo 3, bir önceki adımdan sonra ve bir sonraki adımı göndermeden önce DeepStack ile insanlar arasındaki ortalama süreyi göstermektedir. Ortalama olarak DeepStack, insan oyunculardan çok daha hızlıdır. Ancak, insan oyuncuların aynı anda 4 oyun oynayabileceğini akılda tutmalıyız (birkaç kişi aynı anda ikiden fazla oyun oynasa da), bu nedenle insan oyuncunun oynama sırası geldiğinde, bu başka bir oyunda olabilir.

Tablo 3: İnsanların ve DeepStack'in düşünme süresi Ön flopun ilk turunda DeepStack'in ortalama süresi süper hızlıdır, bu da ilk bahis turunun durumunun genellikle önbelleğe çarptığını gösterir.

Tablo 4: Farklı programlar en düşük yerel en iyi yanıt derecesini kullanır (LBR: yerel en iyi yanıt). LBR, her tur için yalnızca aşağıdaki tabloda listelenen eylemleri değerlendirir. F, C, 1 / 2P, P, 2P ve A kısaltmaları yukarıdaki ile aynı anlama sahiptir.

En İyi Yanıt Değerleri ve Kendi Kendine Oynama Değerleri

DeepStack, sürekli ayrıştırma hesaplamalarında en iyi geri bildirim değerlemesi yerine kendi kendine oynatma değerlemesini kullanır. Önceki tahminler, daha küçük eşleşmeleri çözmek için CFR-D'yi denedi, bu da kendi kendine oyun değerlendirme ile oluşturulan stratejilerin genellikle daha az agresif olduğunu gösteriyor.En iyi geri bildirim değerlemesiyle oluşturulan stratejilerle karşılaştırıldığında, akıllı ajanların performansını bire bir test ediyorlar. daha iyi. Şekil 5, belirli bir beşinci kart oyununda farklı sayılarla DeepStack'in ayrıştırma yinelemelerinin agresifliğinin bir örneğini göstermektedir. Kararlılığının teorik bir değerlendirmesinin olmaması dışında, kendi kendine oynama değerlemesi, en iyi geri bildirim değerlemesi gibi görünür ve sonunda düşük agresif bir stratejiye yakınlaşır.

Şekil 5: DeepStack'in beşinci kartın başlamasından önceki belirli bir genel durumdaki saldırganlığı ile ayrıştırma yinelemelerinin sayısı arasındaki denklem.

Algoritma DeepStack: Makinenin "sezgisine" sahip olmasına izin verin

DeepStack, büyük bir sıralı kusurlu bilgi oyunları sınıfı için genel bir algoritmadır. DeepStack'in HUNL'deki (heads-up no-limit) Texas Hold'em'deki rolünü açıklayacağız. Poker oyununun durumu, oyuncunun özel bilgilerine, yani iki kartın elinde kapalı olarak ve açık açık kartlar ve oyuncunun bahis sırası dahil olmak üzere kamuya açık duruma bölünebilir. Oyundaki olası genel durum dizisi bir genel ağaç oluşturur ve her bir genel durumun ilişkili bir alt-genel ağacı vardır. Aşağıdaki Şekil 6'ya bakın:

Şekil 6: HUNL genel ağacının bir parçası. Kırmızı ve göl mavisi, oyuncu eylemlerini temsil eder. Yeşil, açılan ortak kartı temsil eder.

DeepStack algoritması, oyun oynamak için düşük bir kullanım stratejisi hesaplamaya, yani yaklaşık bir Nash dengesini (Nash dengesi) çözmeye çalışır. DeepStack bu stratejiyi kart oynatma sırasında hesaplar ve genel ağacın durumu Şekil 7'de gösterilmektedir. Bu yerel hesaplama, DeepStack'i mevcut algoritma için çok büyük olan oyunlarda anlaşılabilir kılıyor çünkü oyunun soyutlanması gereken 160. karar noktası, 10'un 14. kuvvetine düşüyor, bu da algoritmayı Kullanımı kolaydır.

Şekil 7: DeepStack'e Genel Bakış. (A) DeepStack, alt ağaç değerinin hesaplanmasında, kart oynamadan önce rastgele oluşturulmuş poker durumları aracılığıyla eğitimli bir derin sinir ağı (b) kullandığı derinlik sınırlı önden okuma kullanarak her bir genel durumdaki eylemleri yeniden çözer. Eğitimin son durumu (c) Şekil 3'te gösterilmektedir.

DeepStack algoritması üç bölümden oluşur: mevcut genel durum için yerel strateji hesaplaması, herhangi bir poker durumunun öğrenme değeri işlevini kullanarak derinlemesine sınırlı bakış ve sınırlı bir dizi öngörülen eylem.

Sürekli Yeniden Çözme

  • Kendi Eylemi: Rakibin karşı olgusal değerini, kendimiz için bir eylem seçme çözüm stratejisinde hesaplanan değerle değiştirin. Hesaplama stratejileri ve Bayes kuralları kullanarak kendi eylem yelpazemizi güncelleyin.

  • Şans Eylemi: Rakibin karşı olgusal değerini, bu eylem için son ayrıştırmadan hesaplanan karşı olgusal değerle değiştirin. Herhangi bir yeni ortak kartta imkansız olan el aralığını temizleyerek kendi menzilimizi güncelleyin.

  • Rakip Eylem: Yapacak hiçbir şey yok.

Sınırlı Bakış Açısı ve Seyrek Ağaçlar

Sürekli yeniden çözme teoride uygulanabilir, ancak pratikte pratik değildir. Oyun sona yaklaşmadığı sürece tam bir strateji sağlamaz, kendini yeniden çözmek çok zordur. Örneğin, ilk eylemin yeniden çözülmesi tüm oyun için geçici olarak yaklaşık bir çözüm hesaplamalıdır.

Derin Karşı-Olgusal Değer Ağları

Derin sinir ağlarının (DNN) görüntü ve konuşma tanıma, otomatik müzik oluşturma ve oyun oynama gibi görevler için güçlü modeller olduğu kanıtlanmıştır. DeepStack, derinliği sınırlı bakış açısı ve değer işlevi olarak DNN ve özelleştirilmiş mimariyi kullanır. Şekil 8'de gösterildiği gibi. İki bağımsız ağı eğitin: biri ilk üç ortak kart işlendikten sonra karşı olgusal değeri tahmin eder (flop ağı) ve diğeri dördüncü topluluk kartını işledikten sonra karşı olgusal değeri tahmin eder (ağı çevirin). Herhangi bir ortak kart dağıtılmadan önce önceki eylemlerin yeniden çözülmesini hızlandırmak için yardımcı bir ağ kullanılır.

Şekil 8: Derin Karşı-Olgusal Değer Ağları. Ağın girdisi potun boyutu, ortak kart ve oyuncu aralığıdır ve oyuncu aralığı ilk olarak kova aralığı olarak işlenir. Çıktı, tamamen bağlantılı yedi gizli katmandan gelir ve değerin sıfır toplamlı kısıtlamayı karşıladığından emin olmak için sonradan işlenir.

CMU tekrar kesildi

Son zamanlarda, Xinzhiyuan bir raporda "İnsan Beynine Karşı Yapay Zeka: Takip Et ya da Değil" adlı etkinliğin 11 Ocak'ta Pittsburgh'daki Rivers Casino'da başlayacağından bahsetti. Oyun sırasında profesyonel poker oyuncuları Jason Les, Dong Kim, Daniel McAulay ve Jimmy Chou, 20 gün içinde CMU bilgisayar programı ile 120.000 el bire bir sınırsız bahis Texas Hold'em oynayacak.

CMU'nun yapay zeka sistemi Libratus olarak adlandırılıyor ve geçen yıl başarısız olan Claudico ile karşılaştırıldığında stratejisi nihayet değişti. Libratus, Claudico gibi son oyunlara güvenmek yerine, yeni oyun sonu çözümlerini ve algoritmalarını gerçek zamanlı olarak hesaplamak için Bridges bilgisayarını kullanacak.

Buna ek olarak, Claudico'nun yaygın olarak kullanılan stratejisi, yükseltmek veya pes etmek yerine görmek için arama ve karıştırma anlamına gelen bir poker terimi olan topallamaktır. Ve Libratus bunu ara sıra yapar.

Yukarıda bahsedilen DeepStack gibi, üstesinden gelmeyi umdukları şeyin bire bir (iki oyuncu) sınırsız Texas Hold'em problemi olduğu görülebilir.Bu, 10'dan 160'a kadar güç bilgisine sahip son derece karmaşık bir oyundur. Setler - her setin oyuncunun anlayışına göre farklı bir yolu vardır. Bu devasa bilgi kümesi, tüm evrendeki atom sayısından fazladır.

Ancak iki kurumun girişlerini birleştirerek kullanılan yöntemler de benzerdir, yani gerçek zamanlı hesaplamalar kullanılır. CMU yarışması 11'inde yapıldı ve buradaki makale arXiv'de yayınlandı .. Görünüşe göre CMU tekrar kesildi.

[Xinzhiyuan'ın resmi hesabını girin, kağıdı indirmek için iletişim kutusuna "0110" girin]

Xinzhiyuan İşe Alım

Operasyon Direktörü

Yıllık maaş pozisyonu: 360.000-500.000 (maaş + ikramiye)

İş yeri: Pekin-Haidian Bölgesi

Departman: Operasyon Departmanı

Raporlama nesnesi: COO

Astların sayısı: 2

Yaş gereksinimi: 25 ila 35 yaş arası

Cinsiyet gereksinimleri: sınırsız

Çalışma yılları: 3 yıldan fazla

Dil: İngilizce seviye 6 (denizaşırı geçmiş tercih edilir)

iş tanımı

  • Büyük ölçekli fuar sponsorlarından ve katılımcılardan, potansiyel müşterilere, vb. Genişleme, dokunma, yapay zeka ve robotik endüstri yönü sorumlusu

  • Pazarları açmada ve potansiyel müşterilerle iyi kişiler arası ilişkiler kurmada iyidir

  • Yapay zeka ve robotik endüstrisi ile ilgili piyasa koşullarının derinlemesine anlaşılması ve pazar trendlerini yakından takip edin

  • Departmanlar arasında proje işbirliğini aktif olarak koordine edin, departmanlar arası işbirliği organize edin ve iyi bir etkiye sahip olun

  • Ekibe satış hedefini tamamlamak ve proje durumunu izlemek ve yönetmek için liderlik edin

  • Şirketin platform operasyonları için stratejik planların ve işbirliği planlarının formülasyonundan ve uygulanmasından sorumlu

  • iş gereksinimleri

  • Lisans derecesi veya üstü, yüksek lisans derecesi tercih edilir, yüksek İngilizce iletişim becerileri gereklidir

  • 3 yıldan fazla iş geliştirme deneyimi, ekip yönetimi deneyimi, işletme departmanının genel yönetimine aşina

  • Geleneksel halkla ilişkiler, geleneksel entegre iletişim genel planları ve stratejik genel planlar hakkında derinlemesine bilgiler

  • Keskin pazar bilgisi ve doğru müşteri analizi yetenekleri, güçlü ekip yönetimi yetenekleri ile

  • Mükemmel zaman yönetimi, stres direnci ve çoklu görev planlama ve yürütme yeteneklerine sahip olun

  • TMT alanında geniş ağ kaynakları, Parti A'nın pazarlama departmanında çalışma deneyimi tercih edilir

  • Medya reklamcılığı departmanı, pazarlama departmanı, ilk 20 halkla ilişkiler şirketi pazar geliştirme departmanı tercih edilir

  • Xinzhiyuan, yüksek ideallere sahip kişilerin görüşmeye gelmesini memnuniyetle karşılıyor. Daha fazla işe alım pozisyonu için lütfen Xinzhiyuan'ın resmi hesabını ziyaret edin.

    IMF ayrıca Çin ve Amerika Birleşik Devletleri, yabancı medyadaki ekonomik büyüme beklentilerini de düşürdü: küresel ekonomi için 8 büyük risk olabilir.
    önceki
    Korkunç "damgayı" gördünüz mü?
    Sonraki
    RMB döviz kuru 7. markaya yakın, yabancı medya: en büyük kısa pozisyon A hisseleridir
    Saatte 10.000 kelime yazmak için hızlı yazma becerileri Notes Academy
    CCTV'nin maruz kaldığı A4 kağıdı yanıyor: 2018'e sadece 100 gün kaldı, lütfen boşa harcamayın!
    Şiirler l Yuan Zhen'in "romantik yetenek" in en iyi on klasik dizesi, ruhani ve sakin, derin sanatsal anlayışa sahip!
    Fang Yongfei: Tapınağın "iş modeli" en gelişmiş modeldir
    Meipian'ın kurucusu Tang Qi: Bir kuruş harcamadan aylık 500 milyon sayfa görüntülemesi nasıl elde edilir?
    Araba konfigürasyonu tamamen yeniden doğdu Bu dört konfigürasyonu kullananlar temelde eski sürücülerdir.
    CNN tarafından seçilen Çin'deki en güzel destinasyonları tek bir rotaya yoğunlaştıran Tibet, sonbaharda böyle oynamalı
    Kırsal kesimden kadroların dikkatine! Köydeki şeyler o kadar "belirleyici" olamaz | Belirli kurallar
    Xiao Baozong bugün "büyük düğünü" için bu ultra niş adayı seçti ve adada düğün yapan ilk kişi oldu.
    İş kurmak için uygun olup olmadığınız buna bağlıdır.
    Makine karar verme süreçlerini anlamaya yardımcı olmak için kendinden açıklamalı AI algoritmalarını araştırın ve önerin
    To Top