g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

En iyi kendi kendini yetiştiren oyuncular nasıl olur? AlphaGo Zero'nun beş önemli noktasının video incelemesi | Arxiv Insights

Her hafta bir YouTube kanalı Arxiv Insights videosu seçin

Çeviri | Liu Bin redaksiyon | Yuhang bitirme | Zhang Yifei

Lei Feng'e göre: AlphaGo ve AlphaGo Zero aptalca belirsiz mi? Bugün, Leifeng.comun özel çeviri videosu AlphaGo Zero Nasıl Çalışır sizi AlphaGo Zero'nun öne çıkan beş özelliğini incelemeye götürüyor.

AlphaGo'nun önceki sürümüyle karşılaştırıldığında, AlphaGo Zero tamamen bağımsız olarak çalışıyor. Bu, insan profesyonel oyuncuların satranç verilerini kullanması gerekmediği anlamına gelir, doğrudan Go oyunu aracılığıyla öğrenir.

Önceki yöntem çok sayıda yapay olarak tanımlanmış Go özelliği kullanır, yeni yöntem bu özellikleri kullanmaz, ancak doğrudan kartın durumundan öğrenir.

Bu makale, standart hacimli sinir ağından, Resnet ağı olduğunu düşündüğüm artık ağa döndü.

Bu ağ, orijinal iki farklı strateji ağından ve değerlendirme ağından, orijinal iki ağın işlevlerini yerine getiren bir birleşik ağa dönüşmüştür.

Yeni sürüm, Monte Carlo yöntemini terk ediyor ve bunun yerine basit bir iki aşamalı arama yöntemini benimsiyor ve durumu tahmin etmek ve etkili hamleler yapmak için bu yöntemi bu ağa uyguluyor.

Go özelliklerini kullanmayın, doğrudan satrançta öğrenin

İlk olarak, yönetim kurulunun Go'daki konumunu tanıtalım. Satranç tahtası 19 * 19 kareden oluşur, bu nedenle 19 * 19 pozisyon vardır ve her pozisyon beyaz veya siyah olabilir veya hiçbir şekilde yerleştirilebilir. DeepMind ekibi, siyah ve beyaz için ayrı ayrı oluşturulan ayrı bir özellik haritası oluşturdu, bu da satranç tahtasındaki tüm beyazlar için 19 * 19 ikili bir matris elde edileceği anlamına geliyor.

Konumda bir beyaz varsa, matrisin karşılık gelen öğesi 1'dir; satranç tahtası konumunda beyaz yoksa, karşılık gelen matris öğesi 0'dır. Güneş lekelerinin haritalama matrisi aynı sonucu verir. Satranç tahtası konumunda güneş lekeleri varsa, karşılık gelen matris öğesi 1'dir. Güneş lekesi yoksa, karşılık gelen matris elemanı 0'dır.

Bu şekilde, bu iki matris mevcut satranç tahtası konumunu temsil eder Benzer şekilde, AlphaGo Zero kağıdı, satranç tahtasının geçmiş durumunun tanıtılabilmesi için geçmiş 7 aşamalı satranç tahtası durumunu temsil eden diğer karakteristik yüzeyleri sunar.

Standart evrişim yapısı artık kullanılmaz ve artık ağ kullanılır

AlphaGo Zero'nun yeni sürümü standart evrişim yapısını terk eder ve bunun yerine bir artık ağ kullanır. Bu, her katmanda, bir evrişim işleminden geçmeden, girdiden çıktıya doğrudan bir yol olduğu anlamına gelir. Bunun ana nedeni, artık bağlantı işi etkisinin gradyan sinyallere izin vermesidir, aslında bu bağlantı doğrudan ağ katmanından geçer. Evrişimli ağın erken ağ eğitim sürecinde etkili bir çalışma yapması zorsa, diğer katmanların ayarlanabilmesi için bu ağ katmanları aracılığıyla etkili öğrenme verileri yürütülmeye devam eder.

Bu nedenle, satranç tahtası temsilini girdi olarak almak, artık ağ üzerinden öznitelik vektörleri elde etmek ve bu vektörlerden iki şey elde etmek: Birincisi, değerlendirme fonksiyonu, değerlendirme fonksiyonu çok basittir ve 0 ile 1 arasında bir tamsayıdır. Bu sayı, mevcut durumda kazanma olasılığını temsil eder.Ağın ikinci kısmı strateji vektörüdür.Bu vektör aslında bir olasılık dağılımıdır.Bu dağılım tüm olası eylemlerin olasılığını verir. Mevcut durumda, insanların açıkça ihtiyaç duyduğu şey, daha iyi oyun davranışları yapmak için bir eğitim sistemidir, yani tüm satranç tahtası, iyi bir oyun oynamak için daha yüksek bir olasılık ve kötü bir oyun oynamak için daha düşük bir olasılık seçme ihtiyacını gösterir. Yukarıdakiler, tüm sistemin eğitim sürecidir.

Monte Carlo yöntemini terk edin ve iki aşamalı basit bir arama yöntemine geçin

Eğitim iki aşamaya ayrılmıştır: ilk aşama, denetimli öğrenim için profesyonel oyuncuların veri setini kullanır ve ikinci aşama eğitimli ağ kendi kendine öğrenmeye başlar. AlphaGo Zero sisteminin yeni sürümü veri setlerini kullanmaz ve herhangi bir profesyonel oyuncunun oyun kayıtlarını kullanmaz ve tamamen kendi kendine oynar.

Makale çok ilginç bir grafik veriyor, bu grafik AlphaGo'nun farklı sürümlerinin performansını gösteriyor. Lee Sedol'u kazanan versiyonun parlak mavi olduğunu görebiliyoruz. En soldaki histogram en düşüktür, çünkü kötü sonuçların Monte Carlo olmadan alınabileceğini gösterir.

Bu eğitimli ağı kullanırsanız, bu ağı yalnızca bir kez kullanırsanız, satranç tahtası durumuna karşı önlem vektöründen ağa girin, başka şeyler yapmadan en iyi hareket planını elde edersiniz.

Evrişimli ağdan artık ağa geçtikten sonra, soldaki sütunun artık ağ olduğunu, sağın orijinal ağ olduğunu ve kırmızı sütunun, değerlendirme işlevi ile strateji vektörünü birleştirmek için evrişimli sinir ağını kullanmanın sonucu olduğunu görebiliriz. Artık ağa geçtikten sonra büyük ölçüde iyileştirildi ve aynı gelişme, orijinal kağıttaki evrişimli sinir ağını artık ağa geçirdikten sonra da elde edilecek. Aynı zamanda, değerlendirme fonksiyonu ve karşı önlem vektörünü birleştirerek, son sistemin performans sonucu olan mor sütunu da görebiliriz.

Lei Fengin altyazı grubu çeviri boru kanalı Arxiv Insights haftalık seçimi olan Lei Feng.comu teknik bir bakış açısıyla takip edin, sizi kolay ve derin öğrenmeye götürür.

Başlıca Japon Üreticilerinden Yeni Yıl Mesajları: 2019, Daha Fazla Yeni Oyun

GE: Çin'deki yeni fırsatların yaratıcısı olun || İş Gözlemi

: 360 derece tam projeksiyon! AI sanatını açmanın doğru yolu: sizi yıldızları ve denizi deneyimlemeye götürür

: Manfrotto, Nitrotech N8 ve VR çözümlerini piyasaya sürdü

: Li Bin, hisselerin 1 / 3'ünü temettü ödemesi için kullanıcılara bağışladı, bu gerçekten listeleme için bir pazarlık çipi kazanmak mı?

: Japon oyun ünlülerinin 2018'deki favori oyunu: "Küçük Örümcek" kazandı

: Chongqing'deki bu topluluk parkları basit değil, değeri ve anlamı var! Beğenmeli!

: Harvard Erkek Anne Ebeveynlik Notları 8: Dürüstlük ve Sevgi || Dost Yaşam

: Zigbee Alliance Guangzhou Uluslararası Bina Elektrik Teknolojisi ve Akıllı Ev Sergisinde

: "Mutluluk Geliyor" galası, Feng Gongtu, sevgilisi Jia Ling ve Zhang Xiaofei'yi övdü

: HyperX Pulsefire Backfire FPS Oyun Faresi İncelemesi

: Twitter Japonya'nın 2018 Popüler Konular Ödülleri açıklandı: "Strange Hunting" en popüler oyun konusunu kazandı

: Elektrikli spor otomobil geleceğinin K50'sinin yıkıcı tasarımları nelerdir?

: "Cicada'dan Kaçış 2" Stallone'un "Reignited Prisonfire" adlı eseri, yüksek teknolojili hapishane savaş oyununa liderlik etmek için geri dönüyor

video

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

En iyi kendi kendini yetiştiren oyuncular nasıl olur? AlphaGo Zero'nun beş önemli noktasının video incelemesi | Arxiv Insights

İlgili bilgi

Sony Xperia XZP, faizsiz 12 dönemin keyfini çıkarmak için 5699 yuan'a satışa çıktı

Erhai Gölü'nde ses ve görüntü ile doğa-PANEL AUDIO görünmez sinemanın mükemmel birleşimi

"Spider-Man: New Era" fragmanı üç kötü adamı ortaya koyuyor, ilk kadın Spider-Man çıkış yapıyor

Tamamen elektrik ekibi genişletilmiş programa katılırsa plug-in hibritler için pazar olmayacak mı?

Endüstri 4.0 fırsatları geliyor, endüstriyel Ethernet satışları ilk kez fieldbus'ı geçti

Duvar havuzu Belki küçük sarı resimleri de seviyorsunuz?

Beni öldüremezsin, beni güçlendiremezsin || Xiaoqian Kanalı

Ning Hao, sesini ilk kez "Tıp Tanrısı" için açtı ve Xu Zheng'in "Ben Tıp Tanrısı değilim" şarkısını söyledi.

Boyut sınırlaması altında yüz milyarlarca kara elektrik piyasası: JMGO lazer TV resmi olarak çığır açıyor

90'lardan sonra Çin'in konut fiyatları hakkında bir soru-cevap ve sağduyu || Xiaoqian Kanalı