En iyi kendi kendini yetiştiren oyuncular nasıl olur? AlphaGo Zero'nun beş önemli noktasının video incelemesi | Arxiv Insights

Her hafta bir YouTube kanalı Arxiv Insights videosu seçin

Çeviri | Liu Bin redaksiyon | Yuhang bitirme | Zhang Yifei

Lei Feng'e göre: AlphaGo ve AlphaGo Zero aptalca belirsiz mi? Bugün, Leifeng.comun özel çeviri videosu AlphaGo Zero Nasıl Çalışır sizi AlphaGo Zero'nun öne çıkan beş özelliğini incelemeye götürüyor.

  • AlphaGo'nun önceki sürümüyle karşılaştırıldığında, AlphaGo Zero tamamen bağımsız olarak çalışıyor. Bu, insan profesyonel oyuncuların satranç verilerini kullanması gerekmediği anlamına gelir, doğrudan Go oyunu aracılığıyla öğrenir.

  • Önceki yöntem çok sayıda yapay olarak tanımlanmış Go özelliği kullanır, yeni yöntem bu özellikleri kullanmaz, ancak doğrudan kartın durumundan öğrenir.

  • Bu makale, standart hacimli sinir ağından, Resnet ağı olduğunu düşündüğüm artık ağa döndü.

  • Bu ağ, orijinal iki farklı strateji ağından ve değerlendirme ağından, orijinal iki ağın işlevlerini yerine getiren bir birleşik ağa dönüşmüştür.

  • Yeni sürüm, Monte Carlo yöntemini terk ediyor ve bunun yerine basit bir iki aşamalı arama yöntemini benimsiyor ve durumu tahmin etmek ve etkili hamleler yapmak için bu yöntemi bu ağa uyguluyor.

  • Go özelliklerini kullanmayın, doğrudan satrançta öğrenin

    İlk olarak, yönetim kurulunun Go'daki konumunu tanıtalım. Satranç tahtası 19 * 19 kareden oluşur, bu nedenle 19 * 19 pozisyon vardır ve her pozisyon beyaz veya siyah olabilir veya hiçbir şekilde yerleştirilebilir. DeepMind ekibi, siyah ve beyaz için ayrı ayrı oluşturulan ayrı bir özellik haritası oluşturdu, bu da satranç tahtasındaki tüm beyazlar için 19 * 19 ikili bir matris elde edileceği anlamına geliyor.

    Konumda bir beyaz varsa, matrisin karşılık gelen öğesi 1'dir; satranç tahtası konumunda beyaz yoksa, karşılık gelen matris öğesi 0'dır. Güneş lekelerinin haritalama matrisi aynı sonucu verir. Satranç tahtası konumunda güneş lekeleri varsa, karşılık gelen matris öğesi 1'dir. Güneş lekesi yoksa, karşılık gelen matris elemanı 0'dır.

    Bu şekilde, bu iki matris mevcut satranç tahtası konumunu temsil eder Benzer şekilde, AlphaGo Zero kağıdı, satranç tahtasının geçmiş durumunun tanıtılabilmesi için geçmiş 7 aşamalı satranç tahtası durumunu temsil eden diğer karakteristik yüzeyleri sunar.

    Standart evrişim yapısı artık kullanılmaz ve artık ağ kullanılır

    AlphaGo Zero'nun yeni sürümü standart evrişim yapısını terk eder ve bunun yerine bir artık ağ kullanır. Bu, her katmanda, bir evrişim işleminden geçmeden, girdiden çıktıya doğrudan bir yol olduğu anlamına gelir. Bunun ana nedeni, artık bağlantı işi etkisinin gradyan sinyallere izin vermesidir, aslında bu bağlantı doğrudan ağ katmanından geçer. Evrişimli ağın erken ağ eğitim sürecinde etkili bir çalışma yapması zorsa, diğer katmanların ayarlanabilmesi için bu ağ katmanları aracılığıyla etkili öğrenme verileri yürütülmeye devam eder.

    Bu nedenle, satranç tahtası temsilini girdi olarak almak, artık ağ üzerinden öznitelik vektörleri elde etmek ve bu vektörlerden iki şey elde etmek: Birincisi, değerlendirme fonksiyonu, değerlendirme fonksiyonu çok basittir ve 0 ile 1 arasında bir tamsayıdır. Bu sayı, mevcut durumda kazanma olasılığını temsil eder.Ağın ikinci kısmı strateji vektörüdür.Bu vektör aslında bir olasılık dağılımıdır.Bu dağılım tüm olası eylemlerin olasılığını verir. Mevcut durumda, insanların açıkça ihtiyaç duyduğu şey, daha iyi oyun davranışları yapmak için bir eğitim sistemidir, yani tüm satranç tahtası, iyi bir oyun oynamak için daha yüksek bir olasılık ve kötü bir oyun oynamak için daha düşük bir olasılık seçme ihtiyacını gösterir. Yukarıdakiler, tüm sistemin eğitim sürecidir.

    Monte Carlo yöntemini terk edin ve iki aşamalı basit bir arama yöntemine geçin

    Eğitim iki aşamaya ayrılmıştır: ilk aşama, denetimli öğrenim için profesyonel oyuncuların veri setini kullanır ve ikinci aşama eğitimli ağ kendi kendine öğrenmeye başlar. AlphaGo Zero sisteminin yeni sürümü veri setlerini kullanmaz ve herhangi bir profesyonel oyuncunun oyun kayıtlarını kullanmaz ve tamamen kendi kendine oynar.

    Makale çok ilginç bir grafik veriyor, bu grafik AlphaGo'nun farklı sürümlerinin performansını gösteriyor. Lee Sedol'u kazanan versiyonun parlak mavi olduğunu görebiliyoruz. En soldaki histogram en düşüktür, çünkü kötü sonuçların Monte Carlo olmadan alınabileceğini gösterir.

    Bu eğitimli ağı kullanırsanız, bu ağı yalnızca bir kez kullanırsanız, satranç tahtası durumuna karşı önlem vektöründen ağa girin, başka şeyler yapmadan en iyi hareket planını elde edersiniz.

    Evrişimli ağdan artık ağa geçtikten sonra, soldaki sütunun artık ağ olduğunu, sağın orijinal ağ olduğunu ve kırmızı sütunun, değerlendirme işlevi ile strateji vektörünü birleştirmek için evrişimli sinir ağını kullanmanın sonucu olduğunu görebiliriz. Artık ağa geçtikten sonra büyük ölçüde iyileştirildi ve aynı gelişme, orijinal kağıttaki evrişimli sinir ağını artık ağa geçirdikten sonra da elde edilecek. Aynı zamanda, değerlendirme fonksiyonu ve karşı önlem vektörünü birleştirerek, son sistemin performans sonucu olan mor sütunu da görebiliriz.

    Lei Fengin altyazı grubu çeviri boru kanalı Arxiv Insights haftalık seçimi olan Lei Feng.comu teknik bir bakış açısıyla takip edin, sizi kolay ve derin öğrenmeye götürür.

    Başlıca Japon Üreticilerinden Yeni Yıl Mesajları: 2019, Daha Fazla Yeni Oyun
    önceki
    GE: Çin'deki yeni fırsatların yaratıcısı olun || İş Gözlemi
    Sonraki
    360 derece tam projeksiyon! AI sanatını açmanın doğru yolu: sizi yıldızları ve denizi deneyimlemeye götürür
    Manfrotto, Nitrotech N8 ve VR çözümlerini piyasaya sürdü
    Li Bin, hisselerin 1 / 3'ünü temettü ödemesi için kullanıcılara bağışladı, bu gerçekten listeleme için bir pazarlık çipi kazanmak mı?
    Japon oyun ünlülerinin 2018'deki favori oyunu: "Küçük Örümcek" kazandı
    Chongqing'deki bu topluluk parkları basit değil, değeri ve anlamı var! Beğenmeli!
    Harvard Erkek Anne Ebeveynlik Notları 8: Dürüstlük ve Sevgi || Dost Yaşam
    Zigbee Alliance Guangzhou Uluslararası Bina Elektrik Teknolojisi ve Akıllı Ev Sergisinde
    "Mutluluk Geliyor" galası, Feng Gongtu, sevgilisi Jia Ling ve Zhang Xiaofei'yi övdü
    HyperX Pulsefire Backfire FPS Oyun Faresi İncelemesi
    Twitter Japonya'nın 2018 Popüler Konular Ödülleri açıklandı: "Strange Hunting" en popüler oyun konusunu kazandı
    Elektrikli spor otomobil geleceğinin K50'sinin yıkıcı tasarımları nelerdir?
    "Cicada'dan Kaçış 2" Stallone'un "Reignited Prisonfire" adlı eseri, yüksek teknolojili hapishane savaş oyununa liderlik etmek için geri dönüyor
    To Top