g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

DeepMind, AlphaGo Go öğretim aracını başlattı, yeni bir Go öğrenme çağı mı geliyor?

Leifeng.com AI Technology Review News, 11 Aralık akşamı Pekin saatinde DeepMind, Twitter'da AlphaGo Teach öğretme aracının başlatıldığını duyurdu.

Yukarıdaki şekilde, beyaz bir daire ile işaretlenmiş siyah daire önceki eli temsil eder, kesikli daire AlphaGo'nun olası bir sonraki hareketini temsil eder, içi dolu daire insan oyuncunun bir sonraki olası hareketini temsil eder ve daire içindeki sayı AlphaGo tarafından değerlendirilen güneş lekesinin kazanma oranını temsil eder.

Resmi web sitesinden, aracın modern Go tarihindeki 6000 ortak açılışı, insan oyunculara karşı 231.000 insan oyuncu oyunundan ve 75 AlphaGo oyunundan elde edilen verileri kullanarak analiz edebildiği görülebilir. Bu araçla herkes Go'nun gizemlerini keşfedebilir, AlphaGo'nun profesyonel oyuncular ve amatör oyuncularla oynama yöntemlerinin sayısını karşılaştırabilir ve ondan öğrenebilir.

Resmi web sitesinde araçların kullanımına ilişkin ilgili talimatlar da bulunmaktadır:

Bu araç nasıl kullanılır?

Satranç tahtasındaki renkli dairelere tıklayın veya satranç tahtasının altındaki gezinme araçlarını kullanarak farklı açılış değişikliklerini ve AlphaGo'nun her hareket için siyah satranç kazanma oranı tahminlerini keşfedin.

Çemberdeki sayı siyah satranç hamlesinin kazanma yüzdesini temsil eder. Hareket etmek için siyahın dönüşü olduğunda, değer 100'e ne kadar yakınsa, siyahın avantajı o kadar büyüktür; beyazın dönüşü olduğunda, değer 0'a ne kadar yakınsa, beyazın avantajı o kadar büyük olur. 50, güç dengesi anlamına gelir.

AlphaGo'nun kazanma oranı tahminini anlayın

AlphaGo'nun hamleleri her zaman en yüksek kazanma oranına sahip olmayabilir, çünkü her hareketin kazanma oranı tek bir 10 milyon simüle edilmiş aramadan elde edilir. AlphaGo'nun araması rastgele olduğundan, AlphaGo farklı aramalarda yakın kazanma oranına sahip başka bir yöntem seçebilir.

Fan Hui, bir DeepMind Go elçisi ve AlphaGo'nun "koçu" olarak resmi web sitesindeki kısa tanıtıma ek olarak, kişisel Weibo'da "AlphaGo öğretim araçlarının nihayet çevrimiçi olduğunu" duyurdu.

Dedi

Öğretim araçlarında 20.000'den fazla değişiklik ve 370.000'den fazla hareket var.AlphaGo'nun bakış açısıyla, Go'ya başlamak için birçok yolu analiz ediyor ve öneriyoruz. Aynı zamanda, AlphaGo her hareket için kendi kazanma oranı analizini verecektir.Umarım AlphaGo'nun benzersiz Go anlayışı bize biraz ilham verebilir.

Bu öğretim aracı tarafından kullanılan sürüm AlphaGo Master'dır. Spesifik bilgiler ana sayfada görülebilir ve araç, basitleştirilmiş Çince dahil olmak üzere birden çok dile sahiptir.

Fan Hui aynı zamanda AlphaGo'nun öğretilerinden birkaç ilginç örnek verdi ve esprili bir açıklama yaptı. "Aşağıdaki resimler binlerce değişiklikten daha etkili bulduğum resimlerdir. Benzer birçok değişiklik var. Bunları kendiniz bulabilirsiniz."

İkinci Land Rover'ın o kadar iyi olmadığı ortaya çıktı!

Mini China Stream ile başa çıkmanın yeni bir yolu!

Xiaolin Liu sadece Dafeihang değil!

Buraya uçabildiğiniz ortaya çıktı!

İblis kılıcı final stili!

Fan Hui'nin Weibo'sunu gördükten sonra, herkes de her türden dalga geçmeye başladı.

@ , "Başlangıçtan ustaya kadar 21 günlük bir kurs dizisi var mı?"

@ Ben yüzen bulutum, "Bitti, on danlık oyuncuların sayısı önemli ölçüde arttı."

@ Otomatik otoyol, "Bir uygulama yaparsanız, bir Go oyunu için dolandırıcı olabilirsiniz."

@ Yu Biaofeng, "Go iyileştirme sınıfındaki öğretmen artık öğretemez." (Go öğretmeni tuvalette ağlayarak başının döndüğünü söyledi)

Herkesin alayını izledikten sonra profesyonel oyuncuların ne dediğini görelim.

Go'nun dünya şampiyonu ve profesyonel bir dokuz duan oyuncusu olan Chang Hao, öğretim araçlarının zorunlu olarak standart cevap olmadığını, aksine bize sınırsız düşünme alanı verdiğini söyledi.

Bailing Aito Cup World Go Open açılışının şampiyonu Zhou Ruiyang, "Sadece stilleri veya her neyse öğrenmeyin. Aletlerle bazı ileri teknikler gördükten sonra, tekrar uçabileceğimi hissediyorum." Dedi.

3. Elmas Kupa Ejderhası Yıldız Savaşlarının şampiyonu Li Zhe de bu öğretim aracının adil bir değerlendirmesini yaptı: Pek çok insan gelecekte düzenin standardizasyonu konusunda endişelenecek, ancak endişelenmelerine gerek yok. Öğretme aracı size "sadece bu şekilde oynayabilirsiniz" demiyor, "bazı yöntemlerin iyi olmadığını" ve "böyle oynayabileceğinizi" söylüyor. Simülasyonun rastgeleliği nedeniyle resimde olmayan bazı hareketler dahil edilmemiştir, yüksek kazanma oranına sahip birçok puan içerir, bu yüzden yine de cesurca deneyebilirsiniz.

Ayrıca, bu yılın Mayıs ayında AlphaGo Master tarafından mağlup edilen Ke Jie, Weibo'yu ilk kez "Go'yu yeniden öğren" diyerek yeniden yayınladı (ayrıca mütevazı bir doge ifadesi kullandı)

Ve bu araç iyi olsun ya da olmasın, kendiniz deneyimleyebilirsiniz.

Resmi web sitesinin İngilizce adresi aşağıdaki gibidir: https://alphagoteach.deepmind.com/

Çince adresi aşağıdaki gibidir: https://alphagoteach.deepmind.com/zh-hans

Ekteki David Silver, AlphaGo Master'ın geliştirilmesinin anahtarını sunar:

AlphaGo Master neden bu kadar güçlü?

AlphaGo'nun kendimize karşı oynamasına izin verdik. Bu, pekiştirmeli öğrenmeye dayanmaktadır ve artık insan satranç oyunlarından öğrenmiyoruz. AlphaGo kendi kendini eğitir ve kendi kendine öğrenir. Pekiştirmeli öğrenme yoluyla, nasıl geliştirileceğini öğrenir.

Oyunun her turunda, AlphaGo, hamleler veya planlar için öneriler üretmek için tam bir güçlü arama yapar. Bu adımı seçtiğinde, uyguladığında ve yeni bir turda birleştiğinde, yine de strateji ağına ve değer ağına dayalı olarak aramayı tekrar çalıştıracak, arama ateş gücü ile dolu, bir sonraki adım planını oluşturacak ve bu böyle devam edecek. Oyun bitti. Büyük eğitim verileri oluşturmak için bu işlemi sayısız kez tekrarlar. Daha sonra bu verileri yeni sinir ağlarını eğitmek için kullanırız.

İlk olarak, AlphaGo kendi başına satranç oynarken, bu eğitim verilerini yeni bir strateji ağı eğitmek için kullanın. Aslında, AlphaGo bir arama yapmadan ve bir çözüm seçmeden önce elde edebileceğimiz en yüksek kaliteli verilerdir.
Bir sonraki adımda, stratejik ağın aynı çözümü üretip üretemeyeceğini görmek için herhangi bir arama yapmadan sadece kendisini kullanmasına izin verin. Buradaki fikir şudur: Stratejik ağın kendine güvenmesine izin verin, tüm AlphaGo arama sonuçlarıyla aynı yerleşim planını hesaplamaya çalışın. Bu şekilde, böyle stratejik bir ağ AlphaGo'nun önceki sürümünden çok daha güçlüdür.

Değer ağını da benzer şekilde eğitiyoruz. Eğitim için en iyi strateji verilerini kullanır ve bu veriler AlphaGo'nun tam sürümünden ve satranç oynarken kazanan verilerinden elde edilir. Tahmin edebileceğiniz gibi, AlphaGo kendi başına çok satranç oynadı. En temsili oyun, kazanan verilerini çıkarmak için seçilir. Bu nedenle, bu kazanan verileri, oyunun ilk turlarındaki ayak hareketlerinin çok yüksek kaliteli değerlendirmeleridir.
Son olarak, bu süreci birçok kez tekrarlıyoruz ve sonunda yepyeni bir strateji ve değer ağı elde ediyoruz. Eski versiyondan çok daha güçlüler. Ardından, AlphaGo'nun eskisinden daha güçlü olan yeni bir sürümünü edinmek için stratejinin ve değer ağının yeni sürümünü AlphaGo'ya entegre edin. Bu, ağaç aramada daha iyi karar vermeye, daha yüksek kaliteli sonuçlara ve verilere yol açar ve yeni ve daha güçlü stratejiler ve değer ağları elde etmek için geri dönüştürülür, bu da yine daha güçlü bir AlphaGo'ya yol açar, vb.

Daha ayrıntılı bilgi için lütfen Leifeng.com AI Technology Review tarafından yazılan bir önceki makaleye bakın: Live | David Silver'ın orijinal konuşması: AlphaGo algoritmasının yeni sürümünü ve eğitim ayrıntılarını aydınlatmak

Lei Feng'in AI Teknoloji İncelemesinin takibi de sürekli raporlar getirecek.

Hangzhou'da balkondan dolayı sadece balık tutabilmek için bir süit satın aldım

Eski Olimpik matematik şampiyonu Borgward Automobile'in başkanı Yang Song'un marka sorununu nasıl çözdüğünü görelim.