AlphaZero Evolution Theory: Sıfırdan tüm masa oyunlarına hakim olun

2017'nin sonunda DeepMind, satranç, shogi (satrancın Japonca sürümüne benzer) ve Go becerilerini sıfırdan bağımsız olarak öğrenebilen ve böylece çeşitli etkinliklerin dünya şampiyonlarını geride bırakan AlphaZero'yu piyasaya sürdü.

Bu sistemin getirdiği ilk sonuçlar için, şirketin tüm Ar-Ge personeli çok heyecanlandı ve satranç camiasının üyelerinin coşkulu tepkilerini görmekten çok memnun oldular. AlphaZero'nun satranç sanatında son derece dinamik ve "gelenekselden farklı" bir oyun tarzı buldular, bu da onu geçmişte var olan herhangi bir satranç oyunu motorundan tamamen farklı kıldı.

Bugün, AlphaZero ünlü "Science" dergisinde yer aldı ve bunu kapak kağıdı olarak yayınladı. Arkasındaki şirket DeepMind, bu sistemin en son başarılarının ayrıntılı bir analizini sağlamak için resmi blogda bir makale yazdı. InfoQ tam metni çevirecek Aşağıdaki gibi düzenlenmiştir:

Bugün, AlphaZero'nun eksiksiz değerlendirme raporunu yayınlamaktan mutluluk duyuyoruz. Bu makale Science dergisinde yayınlandı:

İnceleme editörü bu ön sonuçları onayladı ve güncelledi. Makale, AlphaZero'nun her bir satranç türünü nasıl hızlı bir şekilde öğrendiğini anlatıyor; buna oyunun sadece temel kurallarıyla rastgele bir oyundan başlamak, ancak yerleşik bir rehberlik olmadan ve şimdiye kadarki en güçlü satranç oyuncusuna adım adım büyümek dahil.

Her oyunu sıfırdan öğrenme becerisi, insanın doğasında olan düşüncesi tarafından kısıtlanmamaktadır, bu nedenle geleneğin aksine benzersiz, ancak son derece yaratıcı ve dinamik bir oyun tarzı üretir. Çok sayıda satranç Matthew Sadler (Matthew Sadler) ve kadın satranç ustası Natasha Regan (Natasha Regan), gelecek yıl Ocak ayında yayınlanacak olan "Game Changer" kitabında analiz edildi. AlphaZero binlerce satranç oyunu oynadı ve tarzının herhangi bir geleneksel satranç motorundan farklı olduğunu gördü. Matthew, "Eski satranç ustalarının sırlarını keşfetmek gibi." Dedi.

Dünyanın bilgisayar satranç şampiyonu Stockfish ve IBMin tanınmış "Lacivert" i dahil olmak üzere geleneksel satranç motorları, en iyi insan satranç oyuncuları tarafından sağlanan binlerce kurala ve buluşsal yöntemlere dayanır. Bu bilgi, oyundaki her olasılığı açıklamaya çalışır. Shogi de bu prensibi izler ve programı yalnızca Shogi'nin kendisine uygulanabilir, ancak satranç programlarına benzer arama motorları ve algoritmalar kullanır.

AlphaZero tamamen farklı bir yaklaşım benimsiyor: Bu el yapımı kuralları değiştirmek için bir dizi derin sinir ağı ve çok sayıda genel amaçlı algoritma kullanıyor ve bu algoritmalar satrancın temel kuralları dışında hiçbir şey bilmiyor.

Satrançta AlphaZero, Stockfish'i yalnızca 4 saatte başarıyla yendi; shogi'de Elmo'yu yenmek yalnızca 2 saat sürdü; Go'da AlphaZero, 2016 dünya şampiyonu Lee Sedol'u 30 saatte yendi. AlphaGo sürümü. Not: Her eğitim adımı 4096 tahta pozisyonunu temsil eder.

Her satranç türünü öğrenmek için, bu eğitimsiz sinir ağı, pekiştirmeli öğrenme adı verilen bir deney ve deneme yanılma süreci aracılığıyla milyonlarca kendi kendine oynanan oyunu tamamlayacak. İlk başta tamamen rastlantısaldı; ancak zamanla, sistem galibiyetlerden, yenilgilerden ve berabere kalmadan öğrenecek ve sinir ağı parametrelerini gelecekteki seçimlerde olumlu kararlar verme olasılığını artıracak şekilde ayarlayacak. Ağ için gereken eğitim miktarı, satranç oyununun tarzına ve karmaşıklığına bağlıdır, yaklaşık 9 saat sürer, yaklaşık 12 saat sürer ve Go 13 gün sürer.

Bu eğitimli ağ, Monte Carlo Ağaç Araması (kısaca MCTS) adı verilen bir arama algoritmasına, oturmak ve mevcut tahtadaki en avantajlı hareketi seçmek için kılavuzluk etmek için kullanılır. Her hamle için, AlphaZero'nun ihtiyaç duyduğu konum arama hacmi, geleneksel satranç motorunun sadece küçük bir parçasıdır. Örneğin, satrançta AlphaZero'nun saniyede yalnızca 60.000 pozisyon araması gerekirken, Stockfish'in yaklaşık 60 milyon pozisyon araması gerekir.

Kapsamlı bir eğitimden sonra, bu sistem en güçlü geleneksel satranç (Stockfish) ve shogi (Elmo) motorlarıyla savaşmak için kullanılır ve hatta dünyanın en güçlü Go oyuncusu olan AlphaZero'nun en büyük kardeşi AlphaGo'yu içerir.

  • Her program özel olarak tasarlanmış donanım üzerinde çalışır. Stockfish ve Elmo 44 CPU çekirdeği kullanırken (TCEC Dünya Şampiyonası'ndaki duruma uygun) AlphaZero ve AlphaGo Zero, 4 birinci nesil TPU ve 44 CPU çekirdeği ile donatılmış bir makine kullanıyor. Birinci nesil TPU'nun çıkarım hızı kabaca Nvidia'nın Titan V GPU'su gibi ticari donanıma benziyor - elbette iki mimari oldukça farklı ve doğrudan karşılaştırılamaz.
  • Tüm oyunlar, her hareket için ek 15 saniye ile 3 saatlik tek bir oyun kullanır.
  • AlphaZero, tüm çatışmalarda rakibi tartışmasız bir şekilde yendi:
  • Satrançta AlphaZero, 2016 TCEC (Sezon 9) Dünya Şampiyonası Stockfish'i mağlup etti - burada AlphaZero 155 maç kazandı ve mağlubiyet oranı 1.000 üzerinden sadece 6 idi. AlphaZero'nun sağlamlığını doğrulamak için, insan rutini açılışının oluşturduğu her iki taraf için de bilinçli olarak bir oyunsonu hazırladık. Ne tür bir oyunsonu olursa olsun, AlphaZero, Stockfish'i sorunsuz bir şekilde yenebilir. Ek olarak, 2016 TCEC Dünya Şampiyonalarına da katıldık ve oyunda Stockfish'in yeni yükseltilmiş versiyonuna karşı oynadık - Stockfish varyantlarından biri çok güçlü bir açılış hamleleri kombinasyonu kullanıyor, ancak AlphaZero yine de istisnasız kazanıyor. .
  • Shogi açısından AlphaZero, 2017 CSA Dünya Şampiyonasını kazanan Elmo versiyonunu% 91,2'lik bir kazanma yüzdesi ile yendi.
  • Go'da AlphaZero, AlphaGo Zero'yu% 61'lik kazanma yüzdesi ile yendi.

Ancak daha da etkileyici olan, AlphaZero'nun oyun sırasında gösterdiği satranç stili. Örneğin, satrançta AlphaZero, kendi kendine öğrenme ve eğitimde, şahı savunmak ve piyon oluşumu gibi yaygın insan satranç modellerini bağımsız olarak keşfetti ve kullandı. Bununla birlikte, kendi kendine öğretilmesi ve geleneksel kavramlardan tamamen etkilenmemesi nedeniyle AlphaZero, kendi sezgisini ve stratejisini de geliştirdi. Ortaya koyduğu heyecan verici ve yeni fikirler dizisi, insanlığın satranç stratejisi anlayışını yüzyıllar boyunca büyük ölçüde genişletti.

Satranç oyuncularının fark ettiği ilk şey AlphaZero'nun satranç stili olmalı. Matthew Sadler, "Hareketleri amaçlı ve saldırgan ve her zaman rakibin kralı etrafında plan yapıyor" dedi. Buna dayanarak, AlphaZero ayrıca en üst düzeye çıkaran son derece dinamik bir oyun yeteneğine de sahiptir. Rakibin taşlarının esnekliğini ve hareketliliğini büyük ölçüde sınırlarken satranç yaklaşımının esnekliğini ve hareketliliğini geliştirin. Sezginin aksine, AlphaZero piyon rolüne daha az dikkat ediyor gibi görünüyor. Modern spor etkinliklerinin temel bir özelliği, tüm katılımcıların bir değeri vardır. Bir oyuncunun tahtadaki taşlarının değeri rakibinkinden daha yüksekse, bu, taşların rolünde ilkinin bir avantaja sahip olduğu anlamına gelir. Ancak bundan farklı olarak AlphaZero, daha uzun vadeli durumsal faydalar elde etmek için bu satranç taşlarını oyunun başında feda etmeyi tercih ediyor.

Matthew, "Etkileyici olan şey, çeşitli rollerde ve pozisyonlarda böylesine güçlü bir satranç stili sergilemesidir." Ayrıca AlphaZero'nun çok bilinçli bir şekilde "ilk aşamada insanlarla birlikte geleceğini" gözlemledi. Açılışı tasarlamak için çok benzer bir niyet.

Matthew, "Geleneksel motorlar çok kararlıdır ve bariz hatalar göstermez. Ancak belirli ve referans verilebilir bir çözümün olmadığı bir konumla karşılaşıldığında çaresiz görünür. Buna karşılık AlphaZero böyle bir yerde olabilir. "Hissetme", "içgörü" veya "sezgi" yi ifade eder. "

Bu eşsiz yetenek, diğer geleneksel satranç motorlarında mevcut değildir ve ayrıca son Dünya Satranç Şampiyonasında satranç hayranlarına yeni fikirler ve ilhamlar getirmiştir. Bu, Magnus Carlsen ve Fabiano Caruana arasındaki "Oyunu Değiştirenler" kitabında daha ayrıntılı olarak tartışılan maçta yansıtılıyor. . Natasha Reagan, "AlphaZero'yu, en iyi satranç motorlarını ve hatta en iyi ustaların satranç yöntemlerini analiz etmek büyüleyici" dedi.

AlphaZero'nun getirdiği deneyim, AlphaGo ve efsanevi Go ustası Li Shishi arasındaki 2016 oyununu da yansıtıyor. Bu oyunda, AlphaGo kazanmak için pek çok yaratıcı yoldan çıktı, ikinci oyunu yalnızca 37 hamle ile kazanmak da dahil olmak üzere - bu, yüzlerce yıldır insanlığın Go oyun anlayışını tamamen alt üst etti. Bu hareketler, Li Shishi'nin kendisi de dahil olmak üzere birçok satranç oyuncusu tarafından klasik vakalar olarak kabul edildi. 37. adımla ilgili yorum yaparken Li Shishi, "Her zaman AlphaGo'nun bir tür olasılık temelli hesaplama aracı olduğunu düşünüyorum. Sonuçta, bu sadece bir makine. Ancak bu adımı görünce fikrimi değiştirdim. AlphaGo'nun gerçek olduğu inkar edilemez. Yaratıcılık."

Go gibi biz de AlphaZero'nun satranç alanındaki yaratıcılığından heyecan duyuyoruz. Bilgisayar çağının başlangıcından bu yana satranç, yapay zeka teknolojisi için temel zorluk olmuştur - Babbage, Turing, Shannon ve von Neumann gibi birçok öncü satranç problemini çözmek için tasarım yapmak için çok çalışıyor. Plan. Ancak AlphaZero, satranç, shogi veya go ile sınırlı değildir. Çeşitli gerçek dünya sorunlarını çözebilecek akıllı bir sistem oluşturmak için, onun esnek olmasını ve çeşitli yeni durumlara uyum sağlayabilmesini istiyoruz. Bu hedefe ulaşmada bir miktar ilerleme kaydetmiş olsak da, yapay zeka araştırmalarında hala büyük bir zorluktur. Mevcut sistem belirli becerilerde çok yüksek bir standartta ustalaşabilse de, genellikle biraz değiştirilmiş görevleri bile çözemez.

AlphaZero'nun üç farklı karmaşık satranç kategorisinde ustalaşma yeteneği (ve hatta muhtemelen tüm mükemmel bilgi öğelerini kapsama), bu sorunun üstesinden gelmede önemli bir adımı temsil ediyor. Bu, tek bir algoritmanın farklı belirli kurallar altında yeni bilgileri öğrenmenin ve keşfetmenin tamamen mümkün olduğunu kanıtlıyor. Ek olarak, henüz geliştirmenin ilk aşamalarında olmasına rağmen, AlphaZero'nun yaratıcı içgörüleri, AlphaFold gibi diğer projelerde gözlemlediğimiz heyecan verici sonuçlarla birleştiğinde, evrensel bir öğrenme sistemi oluşturma hedefinde kendimize güvenmemizi sağlıyor. Bu, en önemli ve karmaşık bilimsel problemlerin üstesinden gelmek için daha yeni çözümler keşfetmemizin beklendiği anlamına gelir.

Belgeyi indirin:

https://deepmind.com/documents/260/alphazero_preprint.pdf

Orijinal bağlantı:

https://deepmind.com/blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/

Mac mini deneyimi: Gözlerimde Apple'ın en büyük "kara atı"
önceki
Maoyan, "iade kapısı" üzerine bir tartışma toplantısı düzenledi: geri ödeme oranı çok yüksek değil ve geçmişte bu tür birçok durum yaşandı.
Sonraki
Nanjing'de dolaşırken, bazı fotoğraflar
Bahar Şenliği burada! Gelin birlikte "bir bebek bulalım". Lise okuduğunu anlama soruları orijinal yazarı yener
State Grid Meilishan II. Aşama Projesi - Amazon Yağmur Ormanlarında Görülmemiş Kahramanlar
2018'de Önerilen Kore Filmleri (belirli bir sırayla yok)
"Kara Cuma" promosyon sezonu, bu dijital ürünlerin fiyatları iyi
PyTorch 1.0, istekli ve grafik modları arasında sorunsuz dönüşümü destekleyen resmi olarak yayınlandı
2019 Çin Kuzeybatı Turizm Pazarlama Konferansı başarıyla sona erdi
"Ultimate Street Fighter 2" NS'ye inecek, yeni ayarlamalar ve yeni karakterler eklenecek
"Gerçek Aşkın Sözde Sanatı" filmi efsanevi bir biyografi
"EXO" "Paylaşım" 190330 Mutlu olduğunuzda, hemen gideceksiniz ve insanlar geri dönecek ve gülecek.
"Ethan'ın Randevu Günlüğü" Cilt 1 İlkbahar Gibi Sonbahar
Rihanna'nın aile tarihinin dördüncü bölümü: aile içi şiddet uygulayan ve yine tartışmaya atıfta bulunan eski erkek arkadaşıyla yeniden bir araya geldi.
To Top