Alpha Dogs Yeniden Evrimleşiyor: Öğretmensiz üç gün ve yaşlı köpeği yenmek için kendi kendine öğrenme 100: 0 | Ek: Makalenin ayrıntılı yorumu

18 Ekim 18: 00'de, Londra'da yerel saatle (19'da 01:00, Pekin saati), AlphaGo bir kez daha dünyanın en iyi bilimsel dergisi olan "Nature" da yer aldı.

Bir yıldan daha uzun bir süre önce, AlphaGo 28 Ocak 2016'da güncel sayının kapak yazısıydı. Deepmind, Avrupa Go şampiyonu Fan Hui'yi mağlup eden bu yapay zeka programını tanıtan gişe rekorları kıran bir makale yayınladı.

Bu yılın Mayıs ayında, Çinli satranç oyuncusu Ke Jie'yi 3: 0'lık bir skorla yendikten sonra, AlphaGo emekli olduğunu açıkladı, ancak DeepMind araştırmasını durdurmadı. DeepMind ekibi, 18 Ekim Londra yerel saatinde, AlphaGo Zero kod adlı AlphaGo'nun en güçlü sürümünü duyurdu. Eşsiz sırrı "kendi kendine öğretilir". Dahası, sıfır temel öğrenmeyle boş bir kağıtla başladı ve sadece 3 günde en iyi usta oldu.

Ekip, AlphaGo Zero seviyesinin AlphaGo'nun önceki tüm sürümlerini aştığını söyledi. AlphaGo Zero, Güney Koreli bir oyuncu olan Lee Sedol'un AlphaGo versiyonuna karşı 100: 0'lık ezici bir rekor kırdı. DeepMind ekibi AlphaGo Zero ile ilgili araştırmayı 18 Ekim "Nature" sayısında bir makale şeklinde yayınladı.

AlphaGo ve DeepMind'in babası, "AlphaGo iki yıl içinde şok edici sonuçlar elde etti. Şimdi, AlphaGo Zero, çok gelişme gösteren en güçlü sürümümüz. Zero, hesaplama verimliliğini artırdı ve hiçbir insan Go verisi kullanmadı," Demis Hassabis (Demis Hassabis), "Nihayetinde, protein katlama veya yeni malzemeler tasarlama gibi çeşitli acil gerçek dünya sorunlarını çözmeye yardımcı olmak için algoritmik atılımlarını kullanmak istiyoruz. Geçersek AlphaGo bu konularda ilerleme kaydedebilir, ardından insanların yaşam anlayışını geliştirme ve yaşamlarımızı olumlu yönde etkileme potansiyeline sahiptir. "

Artık insan bilgisiyle sınırlı değil, sadece 4 TPU kullanılıyor

AlphaGo'nun önceki sürümü, milyonlarca insan Go uzmanının satranç kayıtlarını ve kendi kendine eğitim için pekiştirmeli öğrenmenin denetimli öğrenimini birleştiriyor.

İnsan profesyonel Go oyuncularını yenmeden önce, birden fazla makineye ve 48 TPU'ya (derin sinir ağlarının bilgi işlem gücünü hızlandırmak için Google tarafından geliştirilen bir çip) güvenerek birkaç aylık bir eğitimden geçti.

AlphaGo Zero'nun yeteneği bu temelde niteliksel olarak geliştirildi. En büyük fark, artık insan verilerine ihtiyaç duymamasıdır. Başka bir deyişle, başından beri insan satranç kayıtlarına hiç maruz kalmadı. Ar-Ge ekibi tahtada özgürce satranç oynamasına izin verdi ve sonra kendi oyununu oynadı. AlphaGo Zero'nun aynı zamanda çok "düşük karbonlu" olduğunu, yalnızca bir makine ve 4 TPU kullandığından bahsetmeye değer, bu da kaynakları büyük ölçüde korur.

AlphaGo Zero pekiştirmeli öğrenme altında kendi kendine oyun

Birkaç günlük eğitimin ardından AlphaGo Zero, yaklaşık 5 milyon kendi kendine oyunu tamamladı ve şimdiden insanları geçebilir ve AlphaGo'nun önceki tüm sürümlerini yenebilir. DeepMind ekibi resmi blogda Zero'nun yeniden organize etmek için güncellenmiş sinir ağını ve arama algoritmasını kullandığını belirtti.Eğitim derinleştikçe sistemin performansı yavaş yavaş artıyor. Kendi kendine oyun oynama performansı gittikçe daha iyi hale geliyor ve sinir ağı daha doğru hale geliyor.

AlphaGo Zero'nun bilgi edinme süreci

"Bu teknik ayrıntıların önceki sürümden daha güçlü olmasının nedeni, artık insan bilgisiyle sınırlı kalmamamız ve Go alanındaki en yüksek oyuncudan - AlphaGo'nun kendisinden öğrenebilmemizdir." AlphaGo takım lideri David Silva (Dave Sliver) Söyle.

David Silva'ya göre AlphaGo Zero, kendisini bir öğretmene dönüştürmek için yeni bir pekiştirmeli öğrenme yöntemi kullanıyor. Başlangıçta, sistem Go'nun ne olduğunu bile bilmiyordu, ancak tek bir sinir ağından başladı ve sinir ağının güçlü arama algoritması aracılığıyla kendi kendine oyun oynadı.

Kendi kendine oyun arttıkça, sinir ağı bir sonraki adımı tahmin etme yeteneğini geliştirmek için kademeli olarak ayarlanır ve sonunda oyunu kazanır. Dahası, eğitimin derinleştirilmesiyle DeepMind ekibi, AlphaGo Zero'nun oyunun kurallarını bağımsız olarak keşfettiğini ve eski Go oyununa yeni bakış açıları getiren yeni stratejiler geliştirdiğini keşfetti.

3 gün boyunca kendi kendine çalışma, eski AlphaGo'yu yendi

Yukarıdaki farklılıklara ek olarak, AlphaGo Zero da önceki sürümden üç açıdan önemli ölçüde farklıdır.

AlphaGo-Zero'nun eğitim zaman çizelgesi

Her şeyden önce, AlphaGo Zero giriş olarak tahtada yalnızca siyah ve beyazı kullanırken, önceki nesil yapay olarak tasarlanmış özellik girişinin küçük bir bölümünü içeriyordu.

İkinci olarak, AlphaGo Zero yalnızca tek bir sinir ağı kullanır. Önceki sürümlerde, AlphaGo bir sonraki hareketi seçmek için bir "strateji ağı" ve her hareketten sonra kazananı tahmin etmek için bir "değer ağı" kullanıyordu. Yeni sürümde, bu iki sinir ağı bir araya getirilerek daha verimli bir şekilde eğitilmesine ve değerlendirilmesine olanak tanıyor.

Üçüncüsü, AlphaGo Zero hızlı, rastgele yürüme yöntemlerini kullanmaz. Önceki sürümde AlphaGo, mevcut durumdan oyunu hangi oyuncunun kazanacağını tahmin etmek için hızlı hareket yöntemini kullanıyordu. Bunun yerine, yeni sürüm satranç durumunu değerlendirmek için yüksek kaliteli sinir ağına güveniyor.

AlphaGo'nun çeşitli sürümlerinin sıralaması

Hassabis ve Silva'ya göre, bu farklılıklar AlphaGo'nun yeni sürümünün sistemi iyileştirmesine yardımcı oluyor ve algoritma değişiklikleri sistemi daha güçlü ve daha etkili hale getiriyor.

AlphaGo Zero, sadece 3 günlük kendi kendine eğitimden sonra, daha önce Li Shishi'yi yenen AlphaGo'nun eski versiyonunu 100: 0 rekorla yendi. 40 günlük kendi kendine eğitimden sonra AlphaGo Zero, AlphaGo Master versiyonunu yendi. "Usta" dünyanın en iyi Go oyuncularını, hatta dünyanın bir numaralı Ke Jie'sini yendi.

Görevi insan toplumunun ilerlemesini desteklemek için yapay zekayı kullanmak olan DeepMind için Go, AlphaGo'nun nihai anlamı değildir.Onların amacı, her zaman AlphaGo'yu evreni keşfetmek için evrensel ve nihai bir araç yaratmak için kullanmaktır. AlphaGo Zero'nun iyileştirilmesi, DeepMind'ın insanlığın kaderini değiştirmek için yapay zeka teknolojisini kullanmada bir atılım görmesini sağladı. Şu anda tıbbi verimliliği ve enerji verimliliğini artırmak için İngiliz tıp kurumları ve güç ve enerji sektörü ile aktif olarak işbirliği yapıyorlar.

Aşağıdaki, kağıdın derinlemesine bir yorumunu yeniden yazdırıyor, içeriğin bir kısmı önceki bölümle tekrarlanacak

Makalenin derinlemesine yorumlanması

Yazar: Aydınlanmış Doğa Şangay Ofisi

Bir yapay zeka satranç oyuncusu olan AlphaGo, en iyi iki Go ustası Li Shidong ve Ke Jie'yi yendi. Bu şiddetli fırtına dünyayı kasıp kavurduktan sonra, AlphaGo artık başkalarıyla satranç oynamayacağını duyurdu. Ancak yaratıcısı bu nedenle durmadı, AlphaGo hala büyüyor ve Deepmind bugün Nature dergisinde AlphaGo hakkında yeni bir makale yayınladı.

Deepmind, AlphaGo in Nature hakkındaki ilk makaleyi 28 Ocak 2016'da yayınladı ve

Bu makaledeki AlphaGo yepyeni, Ke Jie'yi yenen en güçlü Üstat değil ama ikiz kardeş. Adı AlphaGo Zero'dur. Önceki AlphaGo ile karşılaştırıldığında:

Herhangi bir insan deneyimi olmadan sıfırdan öğrenin

Daha iyi sonuçlar elde etmek için daha az bilgi işlem gücü kullanın

Yeni bir Go stili keşfetti

Politika ağını ve değer ağını birleştirin

Derin artık ağ kullanımı

Beyaz tahta teorisi (Tabula rasa)

AlphaGo Zero'nun en büyük atılımı, beyaz tahta teorisinin gerçekleşmesidir. Beyaz tahta teorisi felsefede iyi bilinen bir felsefedir.Bebeklerin bir beyaz tahta olarak doğduğuna ve sürekli eğitim ve büyüme yoluyla bilgi ve zeka kazandıklarına inanılmaktadır.

AI alanında bir öncü olarak Turing bu fikri kullandı. Ünlü "Turing Testi" ni öneren makalede, bebekten beyaz tahta olarak başladı ve yapay zekanın bir makineyle yapılabildiği ve bir çocuğunkine benzer şekilde eğitilebildiği sürece, bir yetişkininkine benzer bir zeka elde edilebileceğine ve hatta insan zekasını geçebileceğine inanıyordu. AI.

Modern bilim durumun böyle olmadığını anlar.Bebekler bazı doğuştan gelen yeteneklerle doğarlar.Yüksek kalorili yiyecekleri tercih ederler ve acıktıklarında ağlayarak ilgi çekmeyi umarlar. Bu, canlı organizmaların yüz milyonlarca yıllık evrim boyunca öğrendikleri şeydir.

Denetimli öğrenme ve denetimsiz öğrenme

Bilgisayar tamamen farklıdır, yüz milyonlarca yıldır evrim geçirmemiştir ve bu nedenle doğuştan gelen bu bilgiye sahip değildir, gerçek bir "beyaz tahta parçası" dır. Denetimli Öğrenme ve Denetimsiz Öğrenim aynanın iki yüzüdür. Her ikisi de aynı sorunu çözmek ister - makinelerin sıfırdan nasıl istihbarat almasını sağlar?

Denetimli öğrenme, insanların kendi deneyimlerini makinelere öğretmesi gerektiğine inanır. Kedileri köpeklerden ayıran yapay zekayı ele alalım, örneğin binlerce fotoğraf hazırlamanız ve ardından makineye elinizle hangi fotoğrafın kedi, hangi fotoğrafın köpek olduğunu öğretmeniz gerekiyor. Makine, ondan kedilerin ve köpeklerin tüylerinden gözlerine ve kulaklarına kadar ayrıntılarını ayırt etmeyi öğrenecek ve daha sonra hiç görmediği bir fotoğrafın kedi mi yoksa köpek mi olduğunu belirlemek için çıkarımlar kullanacak.

Ve denetimsiz öğrenme, makinenin kanunu kendi başına keşfetmesi ve bulması gerektiğine inanır. İnsan deneyimi, makinelerin zekaya hakim olmasına yardımcı olabilir, ancak belki de insan deneyimi kusurludur.Makinenin kendi başına yeni ve daha iyi kuralları keşfetmesine izin vermek daha iyidir. İnsan deneyimini bir kenara koyun.

Cehaletten yenilmezliğe

Bu yeni makalede anlatıldığı gibi. AlphaGo Zero, denetimsiz öğrenmenin bir ürünüdür ve ikiz kardeşi Master, denetimli bir öğrenme yöntemi kullanır. AlphaGo Zero, 72 saatlik eğitimin ardından, AlphaGo Lee'nin birkaç ay süren eğitimine kıyasla Lee Sedol'u yenen AlphaGo Lee'yi yenmeyi başardı. Ve 40 gün sonra, tüm insan efendileri 89:11 skorla mağlup eden Üstad'ı geride bırakmayı başardı.

AlphaGo Zero, 0'dan başlayan bir öğrenme eğrisine sahiptir. Sinir ağının bu versiyonu 40 modülden oluşmaktadır.

Turing'in beyaz tahta hipotezi insanlar üzerinde kullanılamasa da AlphaGo Zero, beyaz tahta yapay zekasının insanların ötesine geçme ustası olarak eğitilebileceğini kanıtlıyor.

Takviye öğrenme

Pekiştirmeli Öğrenme, insanların öğrenme şeklini taklit eden bir modeldir ve temel yöntemi şudur: Makine iyi bir sonuç alırsa ödüllendirilebilir ve kötü bir sonuç alırsa cezalandırılır. AlphaGo Zero, önceki kardeşleri gibi insan Go bilgisiyle eğitilmemiştir. Sadece kendisinin farklı versiyonlarıyla satranç oynar ve ardından yeni versiyonu eğitmek için kazananın fikirlerini kullanır ve bu böyle devam eder.

AlphaGo Zero, yeni başlayan bir insan gibidir, keşfetmek biraz zaman alır. Farklı eğitim aşamalarında kendi kendine oynanan üç oyunda

Bu yöntem sayesinde AlphaGo Zero, açılış, kapanış ve sonlandırma gibi daha önce insanlığın bildiği Go bilgisini tamamen çözdü ve ayrıca bir dizi yeni trend keşfetti.

Algoritma ve performans

Bilgi işlem kaynakları verimli ve makul bir şekilde nasıl kullanılır? Bu, algoritma tarafından çözülmesi gereken önemli bir sorundur. AlphaGo Lee 48 TPU kullanıyordu, AlphaGo Fan'ın önceki sürümü (Fan Hui'yi yenen sürüm) 176 GPU kullanıyordu, Master ve AlphaGo Zero sadece 4 TPU kullanıyordu, bu da bir bilgisayarın yeterli olduğu anlamına geliyor!

Donanım ve algoritmalardaki gelişmeler nedeniyle, AlphaGo gittikçe daha verimli hale geldi.

AlphaGo Zero, AlphaGo Lee'yi 72 saat içinde geçebilir ve ayrıca mükemmel algoritmaların yalnızca enerji tüketimini azaltmakla kalmayıp aynı zamanda verimliliği büyük ölçüde artırabileceğini de gösterir. Ek olarak, bu aynı zamanda Go sorununun karmaşıklığının büyük ölçekli bilgi işlem gücünün kullanılmasını gerektirmediğini de göstermektedir ki bu sadece bir israftır.

AlphaGo Zero'nun algoritmasının iki temel optimizasyonu vardır: strateji ağı (çocuğun olasılığını hesaplar) ve değer ağı (kazanma oranını hesaplar) bu iki sinir ağı Aslında, ilk AlphaGo makalesinde bu iki ağ kullanılmıştır. Benzer mimari. Ek olarak, Derin Artık Ağının (Derin Artık Ağ) tanıtımı, önceki çok katmanlı sinir ağından daha iyidir.

Deepmind'ın yolculuğu

Bu, Deepmind'ın Nature'da ilk yayınladığı makale değil, aynı zamanda Nature'da da yayınladılar. "Go Master Olmak İçin Derin Sinir Ağlarını ve Arama Ağaçlarını Kullanma" Ve "İnsan Oyuncu Seviyesine Ulaşmak için Derin Pekiştirmeli Öğrenmeyi Kullanma" (kağıt bağlantısı: ve "Sinir ağı ve dinamik harici bellek kullanan hibrit bilgi işlem modeli" Üç makale, Deepmind ayrıca Nature Neuroscience hakkında birçok makale yayınladı.

Deepmindın düşüncesine bir göz atabiliriz. İnsanların henüz ilkeleri anlamadıkları oyunları arıyorlar. Oyunlar gerçek dünyadaki sorunlardan çok daha basittir. Ardından iki yol seçtiler, biri algoritmayı optimize etmek, diğeri ise makineyi önyargılı insan deneyiminden korumak.

Bu iki yolun kesişme noktasının sonu, insanları gerçekten geçebilecek yapay zekadır.

Sonuç

Bu AlphaGo'nun finali ve yepyeni bir başlangıç ... İlgili teknolojiler insanlığa fayda sağlamak, bilim insanlarının protein katlanmasını anlamalarına yardımcı olmak, inatçı hastalıklar için ilaçlar yapmak ve daha iyi ürünler yapmak için yeni malzemeler geliştirmek için kullanılacak.

Genç olmak için 80.000 ila 200.000 butik crossover SUV burada!
önceki
Zhejiang Taizhou polisi şüpheliyi tutukladı ve kahramanca feda etti! Şimdi, şüpheli yakalandı
Sonraki
Bu altı SUV, benzer fiyatlara ve yüksek konfigürasyona sahip ikizler gibidir, bu yüzden sadece güzel görünenleri seçebilirsiniz!
2017 Çin Elektronik Fuarı NB-IoT Teknolojisi İnovasyon Yakınsama Uygulama Forumu
Jiangsu'daki tüm antik kentler burada, çoğu ücretsiz ve küçük bir tatile çıkmak, acele etmek ve toplamak tam da doğru.
Yeni model eski modele göre daha iyi görünümlü ve daha ucuz .. Araç sahipleri mantıklı nereye gidebilir?
Sadece "Çin tarzı Route 66" değil, Hebei'deki bu 30 yer de gözleri yakmak için çok güzel!
400,000 satın almak mı? Güçlü bir arabaya binen bir adam, Camaro ve Mustang birbirleriyle kavga ediyor
Arabadaki siyah teknoloji, bu üç şirket harika!
En yüksek maliyet performansıyla Avrupa'ya gidin, Akdeniz'deki bu gizli "ada ülkesi" ayrıca Çin'e varışta ücretsiz vize sunmaktadır.
Amkor'a Katılın ve Kendinizi Başarın | Amkor 2018 Okul İşe Alım Online Sunumu Sadece Bugün
1 Mayıs tatili etrafı dolaşmak için yeterli, doğru yeri seçmek yurtdışına gitmekten daha kötü değil
"Tavuk Yemek" oyunundaki en temsili modelleri biliyor musunuz?
Son haberler: Nehrin dibine düşüyor! Chongqing Zhuijiang Otobüs Hattı 22'de 2 ceset bulundu ve Kamu Güvenliği Bakanlığı olay yerine koşacak
To Top