Yapay zekayı daha hızlı ve daha güçlü yapan nedir? Cevap: merak

[Lieyun.com (WeChat ID :)] 7 Kasım raporu (derleyici: Halcyon)

Yazının başında bir soru sordum: Video oyunları oynadığınızda, aklınızı koyarsanız hiç duramayacağınızı göreceksiniz, buna sebep olan nedir?

Bu soru biraz geniş olabilir ve kesin bir cevap veremez. Ancak bir dizi yeni görevi, yükseltmeyi veya başka bir oyunu özetlemek istiyorsanız, en basit açıklama "meraktır" - sadece sonra ne olacağını görmek istersiniz. Gerçekler, merakın yapay zekayı video oyunları oynamaya yönlendirirken çok etkili bir motivasyon olduğunu kanıtladı.

Kâr amacı gütmeyen yapay zeka araştırma şirketi OpenAI tarafından bu hafta yayınlanan bir çalışma, meraklı bir AI ajanının klasik 1984 Atari oyunu Montezuma's Revenge'in üstesinden nasıl gelebileceğini açıklıyor. Montezuma'nın İntikamına hakim olmak, yapay zekada büyük bir ilerlemedir, ancak Go veya Dota 2'yi yenmede bir kilometre taşı ile eşitlenemez. Google'a bağlı bir yapay zeka şirketi olan DeepMind, 2015 yılında yapay zekanın birçok Atari oyununda derin öğrenme yoluyla nasıl yüksek puanlar elde edebileceğini ve güçlü insan oyuncuları yenebileceğini açıklayan çığır açan bir makale yayınladı.Montezuma's Revenge, 0 puan alan tek oyundur. Algoritma bu oyunun nasıl oynanacağını öğrenemedi.

Oyunun zorluğunun yüksek olmasının nedeni, çalışma yönteminin yapay zeka aracısının öğrenme yöntemiyle uyuşmaması ve bu da makine öğreniminin kör noktalarını ortaya çıkarmasıdır.

Elektronik oyunların oynanışında ustalaşmak için, AI ajanlarının genellikle pekiştirmeli öğrenme eğitim yöntemlerine güvenmesi gerekir. Bu tür bir eğitimde, temsilci sanal dünyaya yerleştirilecek ve bazı sonuçlar için ödüllendirilecek (puan artırma gibi) veya cezalandırılacaktır (bir can kaybetmek gibi). AI Agent rastgele oyunlar oynamaya başlar ve deneme yanılma sonrasında stratejisini geliştirmeyi öğrenebilir. Pekiştirmeli öğrenme, genellikle akıllı robotlar oluşturmak için anahtar bir yöntem olarak kabul edilir.

Montezuma's Revenge ile ilgili sorun, AI ajanları için düzenli ödüller sağlayamamasıdır. Bu bir bulmaca oyunudur.Oyuncular yeraltı piramitlerini keşfetmeli, tuzaklardan ve düşmanlardan kaçınmalı ve kapıların ve özel eşyaların kilidini açmak için anahtarları toplamalıdır. Bu oyunu fethetmek için bir yapay zeka ajanı eğitiyorsanız, çeşitli odalardan canlı olarak geçip anahtarları topladığında ona belirli bir ödül verebilirsiniz. Ama ona diğer öğelerin anahtarlarını kaydetmeyi ve bu öğeleri tuzakları aşmak ve seviyeleri tamamlamak için kullanmayı nasıl öğretirsiniz?

Cevap: merak.

OpenAI'nin araştırmasında, ajanları yalnızca sivri uçların üzerinden atladıkları için değil, aynı zamanda piramidin yeni bölümlerini keşfettikleri için de ödüllendiriliyor. Yeni bölümleri keşfetme merakı büyük bir motivasyon ve aynı zamanda temsilcinin oyundaki üstün performansına da katkıda bulundu Robot 9 geçişte ortalama 10.000 puan aldı (ortalama insan puanı 4000 idi). OpenAI, temsilcinin tek seferde ilk geçişi bile geçtiğini iddia ediyor.

OpenAI'den Harrison Edwards, The Verge'e şunları söyledi: "Çok sayıda odayı keşfedebilen, birçok ödül alabilen ve ara sıra ilk seviyeyi geçebilen bir sistem geliştirdik." Oyunun diğer seviyelerinin birinci seviyeye benzediğini ekledi. Oyunu temizlemek "sadece bir zaman meselesi."

"GÜRÜLTÜLÜ TV SORUNU" nun üstesinden gelin

OpenAI bu yaklaşımı deneyen ilk laboratuvar değil AI araştırmacıları, onlarca yıldır "merak" kavramını bir teşvik olarak kullanıyorlar. Bunu daha önce Montezumanın İntikamına uygulamışlardı, ancak yapay zekaya insan örneklerinden öğrenme talimatı vermeden bu kadar başarılı olamazdı.

Bununla birlikte, buradaki genel teori oluşturulmuş olsa da, spesifik bir çözüm oluşturmak hala zordur. Örneğin, tahminlere dayalı merak, yalnızca belirli oyun türlerini öğrenirken yararlıdır. Mario gibi oyunlar için uygundur.Oyun sırasında keşfedilecek çok yer var, birçok seviye belirlenmiş ve daha önce hiç görülmemiş canavarlarla dolu. Ancak Pong gibi basit oyunlar için, AI ajanları rakiplerini gerçekten yenmek yerine uzun süren savaşlarda savaşmaya daha isteklidir. (Belki de oyunu kazanmak, oyundaki topun yolundan daha tahmin edilebilir olduğu içindir.)

Başka bir deney de, yeni deneyimler bulmak için programlanmış AI ajanlarının, statik gürültüye ayarlanmış TV gibi rastgele modellere bağımlı olduğu "Gürültülü TV sorunu" dur. Bunun nedeni, temsilcinin "ilginç" ve "yeni" duygusunun geleceği tahmin etme yeteneklerinden kaynaklanmasıdır. Belirli eylemleri yapmadan önce, oyundan sonra ne olacağını tahmin ederler. Doğru tahmin ettilerse, muhtemelen bu seviyeyi daha önce görmüşlerdir. Bu mekanizmaya "tahmin hatası" denir.

Ancak statik gürültü öngörülemez olduğu için, AI ajanı deneyde labirente konur ve görev en yüksek ödülü alan nesneyi bulmaktır. Ortamda bir de TV var.TV'deki kanallar uzaktan kumanda ile rastgele değiştirilebilir, çünkü her kanal değişikliğinin sonucu tahmin edilemez ve şaşırtıcıdır.Böyle bir TV (veya benzeri öngörülemeyen uyaranlar) karşısında, AI ajanı değişir Çok karışık. OpenAI, bu sorunu kumar makinelerine bağımlı olan insan kumarbazlarla karşılaştırdı.İnsanlar bundan sonra ne olacağını bilmiyorlar, bu yüzden ayrılmaya isteksizler.

OpenAI tarafından yapılan bu yeni araştırma, yapay zekanın geleceği tahmin etme şeklini değiştirerek bu sorunu akıllıca önledi. Kesin yöntem (Random Network Distillation olarak adlandırılır) çok karmaşıktır, Edwards ve meslektaşı Yuri Burda, bunu oyunun her arayüzünde bazı gizli bilgiler yerleştirerek yapay zekanın kazmasını beklediğini açıkladı. Bu gizli görev rastgele ve anlamsızdır (örneğin, Edwards'ın önerdiği gibi, "Ekranın sol üst köşesindeki renk nedir?"), Ancak aracı gürültülü TV tuzaklarına karşı çok savunmasız hale getirmeden oyunu keşfetmeye devam etmeye motive edebilir etkiler.

Bu motivasyon faktörünün çok fazla hesaplama gerektirmediğini belirtmekte fayda var ki bu çok önemli. Takviye öğrenme yöntemi, AI aracısını eğitmek için büyük miktarda veriye dayanır, bu nedenle eğitimdeki her adımın olabildiğince çabuk tamamlanması gerekir.

Aynı zamanda makine öğreniminde uzman olan Unity'den bir yazılım mühendisi olan Arthur Juliani, bunun OpenAI araştırmasının en önemli noktası olduğunu söyledi. Juliani, The Verge'e şunları söyledi: "OpenAI tarafından kullanılan yöntem çok basit ama çok etkili. Geçmişte oyunlarda kullanılan keşif yöntemlerine bakıldığında karmaşık olmaktan çok daha fazlası ve temelde teknoloji çemberine pek etkileyici sonuçlar getirmedi. Aksine, OpenAI Yöntem çok daha basit. "

Juliani, Montezumanın İntikamının farklı seviyeleri arasındaki benzerlikler göz önüne alındığında, OpenAI'nin şimdiye kadar yaptığı çalışmanın temelde tüm oyunu fethetmeye eşdeğer olduğunu söyledi. Ancak ekledi: "Aslında, her seferinde ilk seviyeyi geçebileceklerini garanti edemezler, bu da hala bazı zorlukların olduğu anlamına gelir." Juliani ayrıca OpenAI yönteminin, nispeten zor olan 3D oyunlar için uygun olup olmadığını bilmek istiyor. Diğerleri daha büyük olabilir, görsel özellikler daha inceliklidir ve oyundaki birinci şahıs bakış açısı arayüzün çoğunu gizler.

Juliani, "3D oyunlarda, ortamın çeşitli bölümleri arasındaki farklar, keşfedilmesi gereken senaryolarda daha incedir ve bu yöntemin gerçek performansı çok iyi olmayabilir" dedi.

merak

Ama neden ilk etapta meraklı bir yapay zekaya ihtiyacımız var? İnsanlar gibi, meraklı AI'lar da rastgele kalıplara kolayca bağımlı hale gelir.

En büyük neden, merakın bilgisayarların kendi kendine öğrenmesine yardımcı olmasıdır.

Günümüzde yaygın olarak kullanılan makine öğrenme yöntemleri kabaca iki gruba ayrılabilir: Birincisi, makinelerin büyük miktarda veriye göz atarak öğrenmesi ve benzer sorunlara uygulanabilecek kalıpları hesaplaması; ikincisi ise makinelerin ortama konması ve kullanılmasıdır. Pekiştirmeli öğrenme yöntemleri belirli başarılar elde eder ve böylece ödüller alır, yani makine öğrenimini ödül uyarımı şeklinde teşvik eder.

Bu yöntemlerin her ikisi de belirli görevlerde etkilidir, ancak tamamen makinenin kendisine bağlı değildir.Eğitim verilerini işaretlemek ya da sanal bir ortam için bir ödül işlevi tasarlamak olsun, büyük miktarda el emeği zorunludur. Yapay zeka sistemine keşif için iç teşvikler sağlanarak bazı görevler ortadan kaldırılır.İnsanların makine öğrenimine eskisi gibi çok fazla enerji harcamasına gerek kalmaz, teşvikler kapsamında makineler bağımsız olarak öğrenebilir.

OpenAI'den Edwards ve Burda, bu tür bir merak odaklı öğrenme sisteminin gerçek dünyada çalışan bilgisayar programları tasarlamaktan ve geliştirmekten çok daha iyi olduğunu söyledi. Sonuçta, tıpkı Montezumanın İntikamı gibi, gerçek hayatta genellikle çok az ödül vardır ve ödüllendirilmek için hepimizin uzun saatler boyunca çalışmaya, çalışmaya ve keşfetmeye ihtiyacımız var. Merak, devam etmemize yardımcı olabilir ve belki bilgisayarlara da yardımcı olabilir.

"Annem insanları kurtaracak" 95 yıllık ölümün ardından annesi gömüldü ve yaklaşık bin kişi gönderildi
önceki
Geceleri içmek güzel mi? Beslenme uzmanı bazı önerilerde bulunur
Sonraki
Tuandai.com'un kamu mevduatlarını yasadışı olarak emdiğinden şüpheleniliyor ve soruşturuluyor
Dünyayı şok eden bilim adamı baba, oğlunu öldürdükten sonra 7 yıl süren kavgadan sonra ofiste intihar etmeyi seçti.
Gerçek hamleler devam ediyor! Merkez bankası, Yargıtay ve Yüksek Savcı, özel girişimlerin baharının geldiğini yoğun bir şekilde haykırıyor!
Chengdu Mutluluk Kodunun Deşifre Edilmesi: Qingming tatili sırasında neden yeşil yolu seçtiler?
Zhang Haichao'nun "Açık Göğüs ve Akciğer Testinden" Sonra
Akşam yemeğinde iyi beslenin, akşam yemeğinde bu 5 noktaya dikkat edin, daha sağlıklı olabilirsiniz
Hikaye · 40 yıllık reform ve açılım
Chengdu, kirliliğin önlenmesi için "on zorlu savaşı" başlatıyor! Motorlu Taşıtlar için Ulusal Altı Standart Temmuz ayında uygulanacak
Chengdu, kirliliğe karşı savaşmak için yenilikçi önlemlerden oluşan bir "paket" sunar.
Yibin'deki Qingming Festivali'nin atalarına tapınmaya giderken trafik kazasında 7 ölü ve 3 yaralı
Sichuan, Leshan'daki Jiazhou Lvxin Parkında başka bir yangın var mı? Panik yapmayın, sadece kapsamlı bir orman yangını tatbikatı
Chengdu trafik polisi, acil durum şeritlerini ihlal eden yasadışı araçları açığa çıkardı, drone yakalamalarına dikkat edin!
To Top