AlphaGo'dan Master'a "Öğretmen Şifresini Çözme", en büyük avantaj genel algoritmadır

Xinzhiyuan Derlemesi

Kağıt adresi:

Go to AI'nın zorluğu, 10170 konumsal durum alanı içeren pano alanının boyutunda yatmaktadır. Karşılaştırma için satrancın durum uzayı yaklaşık 1043'tür. Bu tür oyunların tümü, mevcut durumda olası hamle sayısı olan yüksek dallanma faktörüne sahiptir. Go'daki olası oyun senaryolarının sayısı, evrendeki atomların sayısından fazladır.

AlphaGo'nun geliştiricileri bu sorunu çözmeyi başardı. Tasarladıkları sistem, ağaç aramaya dayanıyor ve bir sinir ağı tarafından yönlendiriliyor. Ancak, tüm bu teknolojiler yeni değildir ve diğer Go AI geliştiricileri tarafından da kullanılmaktadır.

Peki, AlphaGo'yu bu kadar özel yapan nedir?

Almanya ve Rusya'dan birçok araştırmacı, bu konuyu "AlphaGo'dan Öğrenilen Dersler" başlıklı makalede tartıştı. Go AI'nın gelişimi bağlamında AlphaGo'nun tasarımını tartıştılar. AlphaGo mimarisini göstererek. Makale, AlphaGo uygulamasının her ayrıntısının yıllarca süren araştırmaların sonucu olduğunu ve bunların entegrasyonunun AlphaGo'nun başarısının anahtarı olduğunu gösteriyor.

Go binlerce yıllık bir geçmişe sahiptir ve çok popüler bir entelektüel oyun ve rekabettir. Satranç ve dama gibi, Go da mükemmel bir bilgi oyunudur. Diğer bir deyişle, oyunun sonucu tamamen iki oyuncunun stratejilerine bağlıdır. Bu, Go problemini hesaplama perspektifinden çözmeyi çok çekici kılıyor çünkü en iyi oyun stratejisini bulmak için makineye güvenebiliriz. Ancak, geniş arama alanı nedeniyle bu görev çok zordur. Bu nedenle Go, AI için ideal sınır olarak kabul ediliyor ve on yıl içinde insanlara karşı zafer kazanamayacağı öngörülüyordu.

Aslında, bir yıldan biraz daha uzun bir süre önce, çok sayıda Go AI olmasına rağmen, profesyonel satranç oyuncularıyla rekabet etmeyi bırakın, insan ustalarının seviyesine neredeyse hiç ulaşamadılar. Ancak 2016'nın başlarında Google DeepMind, AlphaGo'nun profesyonel satranç oyuncularını yenebileceğini belirten bir makale yayınladı. Birkaç ay sonra AlphaGo resmi oyunda Go'nun dünya şampiyonunu mağlup etti Bu çok önemli bir olaydı çünkü "büyük meydan okuma" tamamlandı.

AlphaGo'nun CNN'sinin giriş kısmı mevcut oyundur ve çıktı kısmı ise insan rakibin bir sonraki hamlesinin tahminidir.

Sinir ağlarını kullanmanın asıl amacının, Go oynarken insanların düşünme sürecini simüle etmek olduğunu hatırlayın. AlphaGo, insan rakiplerinin hareketlerini tahmin etmek için sinir ağlarını kullanır. Buna dayanarak, AlphaGo'nun CNN'sinin giriş kısmı mevcut oyundur ve çıktı kısmı ise insan rakibin bir sonraki hamlesinin tahminidir.

Daha kesin olmak gerekirse, AlphaGo'nun geliştiricileri CNN'i eğitmek için Go sunucusu KGS'de 30.000 oyun seçti ve oyunun konumunu ve oyuncunun her oyundan sonraki hamlelerini rastgele seçti. Bu karşılık gelen hareketler, sinir ağı tahminlerinin hedefleridir.

Giriş pozisyonu, her kesişme noktasındaki satranç taşlarının rengini, "boş" komşu pozisyonların sayısını ve diğer bazı bilgileri temsil eden 48 özelliğe dönüştürülür. Bu özellikler, önceki araştırmaların sonuçlarına göre seçilmiştir.

Bu nedenle, girdi katmanı, satranç tahtasındaki her kesişme noktasındaki her bir özelliğin değerini içeren 19 × 19 × 48'lik bir istiftir. CNN, her biri 256 filtreye sahip 13 gizli katmana sahiptir. Çıktı katmanının boyutu 19 × 19'dur ve çıktıdaki her birim, bir kişinin satranç taşını karşılık gelen kesişme noktasına yerleştirme olasılığını içerir.

Sinir ağı, standart geri yayılımla eğitilir. Yukarıdaki şema denetimli bir öğrenme yöntemini temsil eder, bu nedenle ortaya çıkan ağa bir SL ağı diyoruz. Bununla birlikte, AlphaGo ayrıca pekiştirmeli öğrenmeyi kullanır.

Sinir ağı ve Monte Carlo'nun (MCTS) birleşimi

Şekil: AlphaGo'da Monte Carlo ağacı araması. Seçim aşamasında, karar verme esas olarak SL ağında (a) elde edilen olasılıklardan etkilenir.

AlphaGo'daki sinir ağı ne için kullanılır? SL ağı, keşfi teşvik etmek için MCTS'nin seçim aşamasında kullanılır. İyi bir seçim kuralı, bilinen hareketleri optimize edecek ve yeni hareketleri keşfedecektir. AlphaGo, eylemleri seçmek için çeşitli farklı UCT kuralları kullanır ve x (a) + u (a) denklemini optimize eder, burada x (a) eylemin (hareket) değerlendirmesidir. u (a), SL sinir ağı tarafından tahmin edilen olasılık olan P (a) 'nın bir parçasıdır. Bir senaryoda, CNN, yeni hareketler denemek için MCTS'ye karşı önyargılı olacaktır.Bu hareketler genellikle çok nadirdir, ancak CNN için en uygun çözümdür.

Şekil: AlphaGo'daki öğrenme kanalı. SL, denetimli öğrenmeyi ifade eder; RL, pekiştirmeli öğrenmeyi ifade eder.

Takviye öğrenme ağının SL ağından daha güçlü olduğu kanıtlanmış olsa da, hareket seçimi SL ağı tarafından iyileştirildiğinde, AlphaGo'nun genel performansı daha iyi olacaktır. Bu fenomeni açıklayabilecek bir gerçek var-SL ağı daha çok insana benziyor, gerçek insan oyunuyla eğitiliyor. İnsanlar her zaman daha açgözlü olma eğilimindedir, bazen oyundaki hatalardan, bazen de şevkten dolayı.

Yine de, gelişmiş öğrenme ağı, AlphaGo'nun diğer bölümlerinde yerini buldu. Yani, değer işlevini değerlendirmek için kullanılan değer ağı.

AlphaGo'nun en büyük avantajı, genel algoritmaların uygulanmasıdır

Bu makale, Go oyununda yetkin ilk yapay zeka olan AlphaGo'nun ilgili fenomenini araştırıyor. İşte yeniden ifade edilecek bazı önemli noktalar. Go kurallarını belirledikten sonra bilgisayarın oyun ağacını geçerek oyuna hakim olduğunu anlattık. Bununla birlikte, Go'nun oyun ağacı o kadar büyük ki, MCTS gibi istatistiksel yöntemlerin uygulanmasını gerektiriyor. MCTS'ye birkaç iyileştirme ekledik ve ardından AlphaGo'nun MCTS'yi daha da geliştirmek için evrişimli sinir ağları kullandığını gördük.

AlphaGo'nun en büyük avantajının Go alanıyla sınırlı algoritmalar yerine genel algoritmaları uygulaması olduğu söylenebilir. AlphaGo, Go gibi karmaşık sorunların ileri teknoloji ile çözülebileceğini kanıtladı. Derin öğrenme, görüntü ve doğal dil işleme, biyotıp ve diğer alanlara başarıyla uygulandı. AlphaGo'nun geliştiricileri tarafından kullanılan yöntemler yukarıdaki alanlara da uygulanabilir.

Hayatınızın geri kalanında sadece uzaklaşan bir yolculuk, hikayesi olan bir insan olun
önceki
Vietnam mucizesi ortaya çıktıktan sonra, emlak spekülatörleri kilitlenebilir, yabancı medya: "kurban" haline gelebilir
Sonraki
Tang Yan ve Luo Jin iki gündür evlendikleri için, böyle bir hazine şehri için ateşli bir arayış olan Viyana'da.
Fan Deng: Neden bazı insanlar stresi motivasyona çevirebiliyor ama bazıları eziliyor?
Erkekler "tip" ister! 200.000-300.000 SUV size kasları gösterebilir, onu kontrol edebilir misiniz?
Qiang, 2018'de en güçlü yorumu aldı!
"Yaşama Özlem" ten daha güzel daha yavaş bir varyete şovu yayınlanmaya başlıyor! Wang Han ve Li Dan'in yemek pişirmek için yerel malzemeleri aldıklarını izleyin
Zeng Ming: On yıla baktığımızda, potansiyel nerede? Bir yıl çalış, ne anlamı var?
2018'deki en yüksek değerli on SUV'un envanteri, netizenler: Sadece sonuncuyu bekleyin!
Suudi Arabistan aniden ABD dolarına resmen hayır dedi veya RMB'ye yaklaşıyor, yabancı medya: bu fırsat kaçırılmamalı
Girişimcilikten hayata bu mantığı takip edin
Kışın asla kilo vermeyin!
Şaşırtıcı manzara, son derece nadir, görülmesi hızlı!
Fed'in geri göndermeyi reddetme hakkı yok Yabancı basın, Çin'in ne kadar altın rezervi olduğunu sıcak bir şekilde tahmin ediyor?
To Top