Microsoft'un en güçlü Mahjong AI'si teknik ayrıntıları ilk kez ortaya koyuyor! Profesyonel on segment seviyesi veya finansal tahmin için kullanılır

Akıllı şeyler (genel hesap: zhidxcom) düzenlendi | Dong Wenshu

Smart Things, 3 Nisan'da Microsoft'un geçen yıl Ağustos ayında Suphx adlı bir mahjong yapay zeka sistemi başlattığını ve mahjong oyun topluluğu Tenhou'da test ettiğini bildirdi. Tenhou'nun 350.000'den fazla aktif kullanıcısı ile dünyanın en büyük Mahjong topluluklarından biri olduğu bildiriliyor.

Test sonuçlarına göre Suphx'in en yüksek puanı 10 segmenttir. Bu şimdiye kadar 10 segment seviyesine ulaşan dünyanın ilk ve tek yapay zekası. Tenhou topluluğundaki insan oyuncular da Suphx'in süper öğrenme yeteneklerine sahip olduğunu doğruladı ve oyuncuların% 99,99'u modelin performansının eğitimden sonra arttığına inanıyor.

Bu hafta, Microsoft ekibi Suphx'e kapsamlı bir giriş sağlayan gözden geçirilmiş bir ön baskı belgesi yayınladı. Bu araştırma şu anda akademik web sitesi arXiv'de yayınlanmaktadır, makalenin başlığı "Suphx: Derin Güçlendirmeli Öğrenme ile Mahjong'da Mastering" şeklindedir.

Makaleye bağlantı: https://arxiv.org/pdf/2003.13590.pdf

1. Mahjong: karmaşık kurallara sahip eksik bilgi oyunu

Mahjong, birden fazla oyuncunun katıldığı ve birden fazla kart turunun olduğu tamamlanmamış bir bilgi oyunudur.

Her Mahjong oyunu birçok tur içerir. Bir oyunun sonucu, biriken tur puanlarına göre belirlenir Bir turu kaybetmek, oyuncuların tüm oyunları kaybetmesi anlamına gelmez. Nihai zaferi garantilemek için oyuncu kasıtlı olarak bir oyunu kaybedebilir.

Ek olarak, mahjong oyunlarında birçok "hu kartı" vardır. Farklı "hu kart" yöntemlerinde kartlar da çok farklıdır. Buna bağlı olarak, oyunun her turunun puanı da farklıdır.

Sözde eksik bilgi oyunu, katılımcıların oyunun tüm durumunu anlamadığı anlamına gelir. Bir Mahjong oyununda, her oyuncunun diğerlerine görünmeyen 13'e kadar kartı vardır. Kart duvarındaki 14 kart tüm oyuncular için görünmezdir. Ayrıca masanın ortasında 70 kart var. Kartın bu kısmının yüzü sadece oyuncu tarafından dokunduğunda veya oynandığında görünür.

Bu kurala göre, bir oyuncu her seçim yaptığında, bir sonraki elde 10'dan fazla yön olabilir. Bir oyuncunun bir sonraki eylemi elindeki kartlara göre yargılaması zordur, ancak dikkatlice düşünülmeli ve tartılmalıdır.

Mahjong için bir yapay zeka modeli oluşturmanın tam olarak zorluğu budur: Yapay zekanın ödül sinyallerini gözlemlenen bilgilerle ilişkilendirmesi zordur.

2. Suphx: İki günde 150 kez antrenman yapın, 5 modda ustalaşın

Microsoft araştırmasında, araştırmacılar Suphx modelini Japon 4 kişilik Mahjong (Riichi Mahjong) kurallarını kullanarak eğitmeyi seçtiler ve eğitim verileri Tenhou topluluğundan geldi.

Eğitim süreci iki gün sürdü Araştırmacılar modeli 44 grafik işlem birimi ve 1,5 milyon oyun üzerinde eğitti.

1. Prototip: Derin Evrişimli Sinir Ağı

Go ve Satranç gibi oyunlarda derin evrişimli sinir ağları kullanılmış ve güçlü temsil yetenekleri doğrulanmıştır. Suphx ayrıca prototip olarak derin bir evrişimli sinir ağını seçti.

Tahta oyunlarının aksine mahjong oyuncuları tarafından elde edilen bilgiler doğal bir görüntü formatında değildir. Bu amaçla araştırmacılar, gözlemlenen bilgileri derin evrişimli sinir sisteminin anlayabileceği bir forma kodlamak için bir dizi özellik tasarladılar.

Araştırmacılar, her oyuncunun özel kartlarını 4 kanala kodladı. Şekilde 4 sıra ve 34 sütun vardır, her sıra bir kanala karşılık gelir ve her sütun bir kart türüne karşılık gelir. N'inci kanaldaki m'inci sütun, oyuncunun elinde n türünde n karta sahip olduğunu gösterir. Her bir kart 34 boyutlu bir vektör olarak gösterilebilir.

Aynı zamanda, araştırmacılar hesaplama karmaşıklığını da azalttılar: Derin bir arama yaparken önce olası kazananların bulunması şart koşuluyor; Suphx rakibin davranışını dikkate almıyor ve sadece olası kazanan kartları bulmaya odaklanıyor.

2. Eğitim yöntemi: denetimli öğrenme + hiyerarşik pekiştirmeli öğrenme, 5 mod öğrenin

Eğitim sürecinde, prototip önce denetimli öğrenmeyi gerçekleştirmek için insan profesyonel oyuncuların verilerini kullanır ve ardından kendi kendine oyun pekiştirmeli öğrenme gerçekleştirir. Araştırmacılar, hiyerarşik pekiştirmeli öğrenme için politika gradyan algoritması tasarlar ve uygular.

Suphx, farklı durumların üstesinden gelmek için 5 mod öğrendi. Bunlar: atma modu, Riichi modu, Chow modu, Pong modu ve Kong modu.

Tüm modlar ağ yapısı ile temsil edilir. Atma modu 34 karta karşılık gelir ve 34 çıkış nöronu vardır. Diğer modlarda, sırasıyla işlemleri gerçekleştiren veya gerçekleştirmeyen yalnızca iki çıkış nöronu vardır.

3. GRU ağı + Oracle aracısı + pMCPA

Yukarıdaki ayarlara ek olarak, Microsoft ekibi ayrıca birkaç başka teknolojiyi de tanıttı:

Küresel ödül belirleyici (GRU ağı). Tahminci, oyunun nihai sonucunu önceden tahmin edebilir, etkili öğrenme sinyalleri sağlayabilir ve strateji ağını yürütülebilir hale getirebilir.

Oracle temsilcisi. Güçlü bir hile yazılımı, oyuncuların rakibin kartlarını görmesine yardımcı olabilir. Suphx model öğrenme sürecinde araştırmacılar, Oracle aracısının bazı işlevlerini kaldırarak, onu yalnızca görünür bilgiler girebilen sıradan bir aracıya dönüştürdü. Standart derin öğrenme süreciyle karşılaştırıldığında, Oracle aracısının eğitim için kullanılması modelin öğrenme sürecini hızlandırır.

Parametreli Monte Carlo Stratejisi Uyarlamalı Algoritma (pMCPA). Karmaşık mahjong kuralları, Monte Carlo ağaç arama teknolojisinin uygulanmasını engelleyen düzensiz oyun ağaçlarına neden olur. Bu sorunu çözmek için, araştırmacılar parametreleştirilmiş bir Monte Carlo Stratejisi Uyarlamalı Algoritma (pMCPA) geliştirdiler. pMCPA, çevrimdışı öğrenme stratejisini ani oyun planlarına uyum sağlamak için sürekli olarak ayarlayacaktır (örneğin, 4 oyuncu atılan topluluk kartları).

4. Yargı modelini kazanma ve kaybetme

Suphx, sonucu değerlendirmek için kurala dayalı bir model kullanır. Model, diğer oyuncular tarafından oynanan kartların ve güçlü kartların kazanan bir kart oluşturup oluşturamayacağını kontrol edebilir. Kazanan bir elin oluştuğunu varsayarsak, model aşağıdaki kurallara göre karar verir:

Bu oyunun son turu değilse, mevcut oyuncunun bu turu kazanacağını ilan edin;

Bu oyunun son turuysa, ancak mevcut oyuncunun toplam puanı dört oyuncu arasında en düşükse, ilan edilmeyecektir. Aksi takdirde, mevcut oyuncunun bu turu kazandığını beyan edin.

3. Karar verme süreci: Kartlar çekin ve kartları kurallara göre oynayın ve sonucu model belirleyecektir

Oyunda mahjong oyuncularının harekete geçmesi gereken iki durum vardır: duvardan kart almak ve kağıt oynamak. Aynısı Suphx için de geçerli.

1. Kart duvarından kartları alın

Kart duvarından bir kart çekerken, Suphx tarafından çekilen kart, kazanan bir kart yapmak için kendi özel kartıyla birleştirilebiliyorsa, kazan-kayıp değerlendirme modeli kazanıp kazanmayacağını belirler. Kazanırsan oyun biter.

Çekilen kart, Kong'un yüzünü (ClosedKong veya AddKong) oluşturmak için özel kartla birleştirilebilirse, kong modu hangi kartın oluşturulacağını belirleyecektir. ClosedKong ise, Kong işlemini kapatın ve çekiliş adımına geri dönün; AddKong ise, diğer oyuncular kullanabilir.

Kong uydurulamazsa, Riichi adımına ilerleyin. Özel kartların Riichi kartlarında düzenlenebilmesi nedeniyle, Riichi modu bu sonucun beyan edilip edilmeyeceğine karar verir. Beyan etmezseniz doğrudan atma adımına gidin; beyan ederseniz beyannameden sonra atma adımına geçin.

Katlama adımında, model ilgili kartı oynatır. Oyun, kart duvarındaki kartlar oynanıncaya kadar devam eder.

2. Diğer oyuncular çekilir

Diğer bir durum, diğer oyuncuların çekilmesidir. Suphx, kazanan bir el oluşturmak için kıvrımları ve özel kartları kullanabilirse, değerlendirme modeli tarafından belirlenir. Model kazanmaya karar verir ve oyun biter. Model başarısız olursa, Suphx Chow, Pong veya Kong kartlarını oluşturmaya çalışacaktır. Bu üç kart oluşturulamazsa sıra diğer oyunculara geçer.

4. Değerlendirme: Suphx, en güçlü mahjong AI olur

Tenhou platformunda Uzman Odası ve Phoenix Odası olmak üzere iki oyun odası bulunmaktadır. Uzman odası, yapay zeka ve seviye 4 ve üzeri insan oyunculara açıktır; Phoenix odası yalnızca seviye 7 ve üzeri insan oyuncuları kabul eder. Bu yönetmeliğe göre araştırmacılar Suphx'i uzman odasında değerlendirdi.

Uzman odasında Suphx 5760 oyun oynadı, en yüksek rekor 10 dans ve ortalama skor 8.74 dans oldu. Tenhou platformundaki istatistiklere göre, 350.000 kullanıcısı arasında sadece 180 oyuncu 10 seviye seviyesine ulaşabilir.

Gazetede, araştırmacılar Suphx'i savunmada "çok güçlü" olarak nitelendirdiler. Kendi oynanışını geliştirmiştir ve kendi özel kartlarının güvenliğini sağlarken kazanabilir.

Sonuç: Suphx, büyük bir uygulama potansiyeline sahiptir veya finansal tahmin için kullanılabilir

Suphx modeli öğrendikten sonra mahjong oyununun kurallarına hakim olabilir ve oyunda daha iyi sonuçlar elde edebilir, bu da süper öğrenme yeteneğine sahip olduğunu gösterir.

Araştırmacılar, bu öğrenme yeteneğinin diğer birçok alanda rol oynayabileceğine inanıyor. Örneğin, bir şirketin işleyişinde Suphx, ortak ancak bilişsel görevlerin üstesinden gelmeye yardımcı olabilir ve böylece çalışan üretkenliğini özgürleştirebilir.

Ek olarak, model finansal tahmin için kullanılabilir. Makalede şöyle yazıyordu: Finansal piyasa tahmini ve mantık optimizasyonu gibi gerçek dünyadaki sorunların çoğu, Mahjong ile aynı özelliklere, yani karmaşık kurallara ve kusurlu bilgiye sahiptir. Bu nedenle, Suphx modeli gerçek dünya için büyük bir uygulama potansiyeline sahiptir. ".

Makalede şöyle yazıyordu: "İleriye dönük olarak, Suphx'e daha fazla yeni teknoloji tanıtacağız ve mahjong yapay zekası ve eksik bilgi oyun oyunları üzerine en son araştırmaları ilerletmeye devam edeceğiz."

Makale kaynağı: VentureBeat, arXiv

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

Hubei anti-salgın kahramanlarının eve gitmesine yardım etmeye hoş geldiniz
önceki
Dünya çapında bir milyondan fazla yeni taç pnömonisi teşhisi, HUAWEI CLOUD küresel anti-salgın eylemi başlatıyor
Sonraki
Hohhot, İç Moğolistan: "Bulut" sınıfı, somut olmayan kültürel mirası miras alıyor
Yinchuan, Ningxia: "Retrograd" Wuhan kamyon sürücüleri övüldü ve ödüllendirildi
Uluslararası Olimpiyat Komitesi: Olimpiyatların ertelenmesi "Olimpiyat Tüzüğü" nü ihlal etmez ve Pekin Kış Olimpiyatları'na fırsatlar getirir
Wuyi, Zhejiang: Mingqian Çayını Kapmak İçin Makine İkamesi
Henan Baofeng: Çiftçilerin gelirlerini artırmalarına yardımcı olmak için yenilebilir mantarlar geliştirin
Taicang, Jiangsu: Demiryolu yeniden başlatma inşaatı "hızlanıyor"
Hebei tıbbi yardım ekibinin üçüncü partisi Handan'a döndü
Genel haberler | Federer, Wimbledon'u dünya tenisinin kederini iptal etmesi için şok etti
Qingming Festivali sırasında kokulu kueh
İnternet ünlülerinin ilk kız kardeşi + yatak endüstrisindeki ilk sıcak ürün olan Xilinmen, fenomen düzeyinde bir sıcak ürün yaratmak için Wei Ya ile işbirliği yaptı!
Wuhan: Bahar esintisinde dans etmeyi de görün
Tengger Çölü'nde kum kontrolünde meşgul
To Top