Her hafta bir YouTube kanalı Arxiv Insights videosu seçin
Çeviri | Liu Bin redaksiyon | Yuhang bitirme | Zhang Yifei
Lei Feng'e göre: AlphaGo ve AlphaGo Zero aptalca belirsiz mi? Bugün, Leifeng.comun özel çeviri videosu AlphaGo Zero Nasıl Çalışır sizi AlphaGo Zero'nun öne çıkan beş özelliğini incelemeye götürüyor.
AlphaGo'nun önceki sürümüyle karşılaştırıldığında, AlphaGo Zero tamamen bağımsız olarak çalışıyor. Bu, insan profesyonel oyuncuların satranç verilerini kullanması gerekmediği anlamına gelir, doğrudan Go oyunu aracılığıyla öğrenir.
Önceki yöntem çok sayıda yapay olarak tanımlanmış Go özelliği kullanır, yeni yöntem bu özellikleri kullanmaz, ancak doğrudan kartın durumundan öğrenir.
Bu makale, standart hacimli sinir ağından, Resnet ağı olduğunu düşündüğüm artık ağa döndü.
Bu ağ, orijinal iki farklı strateji ağından ve değerlendirme ağından, orijinal iki ağın işlevlerini yerine getiren bir birleşik ağa dönüşmüştür.
Yeni sürüm, Monte Carlo yöntemini terk ediyor ve bunun yerine basit bir iki aşamalı arama yöntemini benimsiyor ve durumu tahmin etmek ve etkili hamleler yapmak için bu yöntemi bu ağa uyguluyor.
Go özelliklerini kullanmayın, doğrudan satrançta öğrenin
İlk olarak, yönetim kurulunun Go'daki konumunu tanıtalım. Satranç tahtası 19 * 19 kareden oluşur, bu nedenle 19 * 19 pozisyon vardır ve her pozisyon beyaz veya siyah olabilir veya hiçbir şekilde yerleştirilebilir. DeepMind ekibi, siyah ve beyaz için ayrı ayrı oluşturulan ayrı bir özellik haritası oluşturdu, bu da satranç tahtasındaki tüm beyazlar için 19 * 19 ikili bir matris elde edileceği anlamına geliyor.
Konumda bir beyaz varsa, matrisin karşılık gelen öğesi 1'dir; satranç tahtası konumunda beyaz yoksa, karşılık gelen matris öğesi 0'dır. Güneş lekelerinin haritalama matrisi aynı sonucu verir. Satranç tahtası konumunda güneş lekeleri varsa, karşılık gelen matris öğesi 1'dir. Güneş lekesi yoksa, karşılık gelen matris elemanı 0'dır.
Bu şekilde, bu iki matris mevcut satranç tahtası konumunu temsil eder Benzer şekilde, AlphaGo Zero kağıdı, satranç tahtasının geçmiş durumunun tanıtılabilmesi için geçmiş 7 aşamalı satranç tahtası durumunu temsil eden diğer karakteristik yüzeyleri sunar.
Standart evrişim yapısı artık kullanılmaz ve artık ağ kullanılır
AlphaGo Zero'nun yeni sürümü standart evrişim yapısını terk eder ve bunun yerine bir artık ağ kullanır. Bu, her katmanda, bir evrişim işleminden geçmeden, girdiden çıktıya doğrudan bir yol olduğu anlamına gelir. Bunun ana nedeni, artık bağlantı işi etkisinin gradyan sinyallere izin vermesidir, aslında bu bağlantı doğrudan ağ katmanından geçer. Evrişimli ağın erken ağ eğitim sürecinde etkili bir çalışma yapması zorsa, diğer katmanların ayarlanabilmesi için bu ağ katmanları aracılığıyla etkili öğrenme verileri yürütülmeye devam eder.
Bu nedenle, satranç tahtası temsilini girdi olarak almak, artık ağ üzerinden öznitelik vektörleri elde etmek ve bu vektörlerden iki şey elde etmek: Birincisi, değerlendirme fonksiyonu, değerlendirme fonksiyonu çok basittir ve 0 ile 1 arasında bir tamsayıdır. Bu sayı, mevcut durumda kazanma olasılığını temsil eder.Ağın ikinci kısmı strateji vektörüdür.Bu vektör aslında bir olasılık dağılımıdır.Bu dağılım tüm olası eylemlerin olasılığını verir. Mevcut durumda, insanların açıkça ihtiyaç duyduğu şey, daha iyi oyun davranışları yapmak için bir eğitim sistemidir, yani tüm satranç tahtası, iyi bir oyun oynamak için daha yüksek bir olasılık ve kötü bir oyun oynamak için daha düşük bir olasılık seçme ihtiyacını gösterir. Yukarıdakiler, tüm sistemin eğitim sürecidir.
Monte Carlo yöntemini terk edin ve iki aşamalı basit bir arama yöntemine geçin
Eğitim iki aşamaya ayrılmıştır: ilk aşama, denetimli öğrenim için profesyonel oyuncuların veri setini kullanır ve ikinci aşama eğitimli ağ kendi kendine öğrenmeye başlar. AlphaGo Zero sisteminin yeni sürümü veri setlerini kullanmaz ve herhangi bir profesyonel oyuncunun oyun kayıtlarını kullanmaz ve tamamen kendi kendine oynar.
Makale çok ilginç bir grafik veriyor, bu grafik AlphaGo'nun farklı sürümlerinin performansını gösteriyor. Lee Sedol'u kazanan versiyonun parlak mavi olduğunu görebiliyoruz. En soldaki histogram en düşüktür, çünkü kötü sonuçların Monte Carlo olmadan alınabileceğini gösterir.
Bu eğitimli ağı kullanırsanız, bu ağı yalnızca bir kez kullanırsanız, satranç tahtası durumuna karşı önlem vektöründen ağa girin, başka şeyler yapmadan en iyi hareket planını elde edersiniz.
Evrişimli ağdan artık ağa geçtikten sonra, soldaki sütunun artık ağ olduğunu, sağın orijinal ağ olduğunu ve kırmızı sütunun, değerlendirme işlevi ile strateji vektörünü birleştirmek için evrişimli sinir ağını kullanmanın sonucu olduğunu görebiliriz. Artık ağa geçtikten sonra büyük ölçüde iyileştirildi ve aynı gelişme, orijinal kağıttaki evrişimli sinir ağını artık ağa geçirdikten sonra da elde edilecek. Aynı zamanda, değerlendirme fonksiyonu ve karşı önlem vektörünü birleştirerek, son sistemin performans sonucu olan mor sütunu da görebiliriz.
Lei Fengin altyazı grubu çeviri boru kanalı Arxiv Insights haftalık seçimi olan Lei Feng.comu teknik bir bakış açısıyla takip edin, sizi kolay ve derin öğrenmeye götürür.