AlphaGo'nun en üst sürümünün arkasındaki teknolojinin en son başarısı: İnsanların beynin çalışma mekanizmasını kavrayışı yanlış

İçbükey tapınaktan Lai Ke Qianming 13 Qubit Raporu | Genel Hesap QbitAI

Yapay zeka genellikle insan düşüncesinden ilham alır.

Ama şimdi tam tersi!

Yapay zekanın gelişimi, beynin nasıl öğrendiğini ortaya çıkarmak için ilham kaynağı oldu.

Bu, DeepMind'in en son araştırması, sadece Nature üzerinde, araştırma kanıtlıyor:

AlphaGo'nun Alpha Zero ve AlphaStar'ın en üst sürümlerinin arkasındaki temel teknoloji olan dağıtılmış pekiştirmeli öğrenme, beyindeki ödül yolunun nasıl çalıştığına dair yeni bir açıklama sağlıyor.

Böyle bir sonuç DeepMind'in kurucusu Hassabis'i de çok heyecanlandırdı ve tweet attı:

Makine öğrenimindeki araştırmamız, beynin çalışma mekanizmasını yeniden anlayabilir ki bu çok heyecan verici!

Kesinlikle heyecanlanmak için bir sebebi var.

Uzun vadede, bu aynı zamanda DeepMind tarafından önerilen algoritmanın beynin mantığına benzer olduğunu kanıtlıyor, bu da karmaşık gerçek dünya problemlerini çözmek için daha iyi genişletilebileceği anlamına geliyor.

Ve baştan sona, Hassabis'in amacı genel yapay zeka yaratmaktır.

Alpha serisinin arkasındaki silah: dağıtılmış pekiştirmeli öğrenme

Takviye öğrenme, temsilcinin bilinmeyen bir ortamda bazı eylemler yapmasına, ardından ödülleri toplamasına ve bir sonraki duruma geçmesine izin vermektir.

Zamansal fark öğrenme (TD) algoritmasının pekiştirmeli öğrenmenin merkezi olduğu söylenebilir.

Gelecekteki değere dayalı olarak belirli bir durumun değerini nasıl tahmin edileceğini öğrenmenin bir yöntemidir.

Algoritma, yeni tahmini beklenti ile karşılaştırır.

İkisinin farklı olduğu bulunursa, bu "zaman farkı" eski tahmini yeni tahmine göre ayarlayarak sonucu daha doğru hale getirir.

Gelecek belirsiz olduğunda, gelecekteki getiriler bir olasılık dağılımı olarak ifade edilebilir. Bazıları iyi sonuçlar (mavi-yeşil) ve bazıları kötü (kırmızı) olabilir.

Belirli bir davranışın getireceği gelecekteki ödüllerin sayısı genellikle bilinmez ve rastgeledir. Bu durumda, standart TD algoritması gelecekteki getirinin ortalama olduğunu tahmin etmeyi öğrenir.

ve Dağıtılmış pekiştirmeli öğrenme Tahmin edecek daha karmaşık bir tahmin yöntemidir Gelecekteki tüm ödüllerin olasılık dağılımı .

İnsan beyninin dopamin ödül mekanizması nedir?

Sonra araştırmanın prototipi DeepMind araştırmacılarının zihninde kök saldı.

Çalışmazsan, bilmiyorsun, bir çalışma gerçekten "şok olur".

Geçmişte insanlar dopamin nöronlarının tepkisinin aynı olması gerektiğini düşünüyorlardı.

Biraz korodaki gibi, herkes aynı notaları söylüyor.

Ancak araştırma ekibi, bireysel dopamin nöronlarının farklı göründüğünü buldu - sunulan pozitiflik çok çeşitli.

Bu nedenle araştırmacılar, fareleri bir görevi yerine getirmeleri için eğitti ve onlara çeşitli boyutlarda ve öngörülemeyen ödüller verdi.

Farelerde ventral tegmental alanda (dopaminin limbik ve kortikal alanlara salınmasını kontrol eden orta beyin yapısı) "dağıtılmış pekiştirme öğrenme" kanıtı buldular.

Bu kanıtlar, ödül tahmininin eş zamanlı olduğunu göstermektedir. paralel Tarafından yere Çoklu Gelecekteki sonuçlar ifade edilir.

Bu, dağıtılmış makine öğrenimi ilkesine çok benzer, değil mi?

Beynin dopamin sistemini açıklamak

Deney kullanıldı Optik tanıma teknolojisi Fare beyninin ventral tegmental bölgesindeki tek bir dopamin nöronunun tepkisini kaydetmek için.

Ventral tegmental alan, dopamin ve serotonin sinirleri açısından zengindir ve iki ana dopamin sinir kanalının bir parçasıdır.

Takviye öğrenme teorisine dayanan araştırma, beyindeki dopamin için bir ödül tahmin hatası (RPE) olduğunu varsaydı.

Bir sinyal, bir ödül tahminine neden olur Ödül tahmini, dağıtımın ortalamasından daha düşük olduğunda, negatif bir RPE'ye neden olur ve daha büyük bir ödül, pozitif bir RPE'ye neden olur.

Genel takviye öğrenmede, ortalama dağılımın altında elde edilen ödül genliği, negatif (negatif) bir RPE'ye neden olurken, daha büyük bir genlik, pozitif (pozitif) bir RPE'ye yol açacaktır (yukarıdaki şekil a'nın solunda gösterildiği gibi).

Dağıtılmış pekiştirmeli öğrenmede, her kanal farklı bir RPE değer tahmini taşır ve farklı kanallar farklı pozitiflik derecelerine sahiptir.

Bu değerlerin tahmini, sırayla farklı RPE sinyalleri için bir referans noktası sağlar. Nihai sonuçta, tek bir ödül sonucu hem pozitif (pozitif) RPE hem de negatif RPE'yi uyarabilir (yukarıdaki şekil a'nın sağında gösterildiği gibi).

Kayıt sonuçları, fare beynindeki dopamin nöron geri dönüş noktalarının pozitiflik derecesine göre değiştiğini göstermektedir. Dağıtılmış pekiştirmeli öğrenmenin özelliklerine uygundur (yukarıdaki Şekil b'de gösterildiği gibi).

Nöronal yanıt çeşitliliğinin rastgele olmadığını doğrulamak için araştırmacılar daha fazla doğrulama yaptı.

Veriler rastgele iki yarıya bölünecek ve geri dönüş noktaları her iki yarıda bağımsız olarak tahmin edilecektir. Geri dönüş noktalarının yarısının diğer yarısı ile ilgili olduğu ortaya çıktı.

Ödül tahmininde nöron işleme yöntemini ilerletmek için. Araştırmacılar, nöronlara üç farklı sinyal uyarıcısı verdi.

Ödül olasılığı sırasıyla% 10,% 50 ve% 90'dır ve dört dopamin nöronunun tepkileri aynı anda kaydedilir.

Her yörünge, başlangıç zamanı sıfır saat olmak üzere, üç ipucundan birine ortalama bir yanıttır.

Sonuçlar, bazı hücrelerin ipuçlarının% 50'sini ipuçlarının% 90'ı olarak kodladığını, bazılarının ise ipuçlarının% 10'unu ipuçlarının% 10'u olarak kodladığını gösterdi.

Son olarak, araştırmacılar, ödül dağılımını dopamin hücrelerinin ateşleme hızından çözmeye çalışarak da doğruladılar.

Akıl yürütme yoluyla, farelerin katıldığı görevlerdeki ödüllerin gerçek dağılımıyla eşleşen bir dağıtımı başarıyla yeniden oluşturduk.

Fare beyninin dağıtılmış pekiştirmeli öğrenme mekanizmasının ön doğrulaması, araştırmacılara daha fazla düşünce getirdi:

Asimetrik çeşitliliğe hangi devre veya hücre düzeyinde mekanizma neden olur?

Farklı RPE kanalları anatomik olarak karşılık gelen ödül tahminiyle nasıl birleştirilir?

Bu beyin gizemlerinin daha iyi anlaşılması gerekiyor.

Ve bu araştırmanın sonuçları da önceki Dopamin dağılımının bağımlılık ve depresyon gibi ruhsal bozuklukların mekanizmalarına etkisi Hipotez.

Hem depresyon hem de bipolar bozukluğun gelecekle ilgili olumsuz duygular içerebileceğine dair teoriler var.

Bu duygular, gelecekteki olumsuz tahmin önyargısı ile ilgilidir ve önyargı, RPE kodlamasındaki28 ve 29'daki asimetriden kaynaklanabilir.

Ancak daha önemli olan, mevcut makine öğrenimi teknolojisinin gelişimini teşvik etmektir.

DeepMind Nörobilim Araştırma Başkanı Matt Botvinick, "Beyin tarafından kullanılan algoritmanın yapay zeka çalışmasında kullandığımız algoritmaya benzer olduğunu kanıtladığımızda güvenimizi artıracak." Dedi.

Disiplinlerarası araştırma ekibinin sonuçları

Bu makalede toplam 3 ortak yazar bulunmaktadır ve bu aynı zamanda disiplinler arası bir ekibin araştırma sonucudur.

İlki, DeepMind'de kıdemli araştırma bilimcisi Will Dabney.

Will Dabney

Amerika Birleşik Devletleri Oklahoma Üniversitesi'nden lisans derecesi ile mezun oldu ve Massachusetts Amherst Üniversitesi'nden doktora derecesi aldı.

DeepMind'a katılmadan önce Amazon'un Echo ekibinde çalıştı.

DeepMind'a 2016 yılında katıldı.

İkinci ortak yazar, DeepMind'da bir araştırma bilimcisi olan Zeb Kurth-Nelson'dur.

Zeb Kurth-Nelson

Minnesota Üniversitesi'nden doktora derecesi ile mezun oldu ve 2016'da DeepMind'a katıldı.

Üçüncü ortak yazar, moleküler ve hücre biyolojisi profesörü olan Harvard Üniversitesi'nden Naoshige Uchida'dır.

Naoshige Uchida

Ayrıca DeepMind kurucusu Hassabis de yazarlar arasında yer alıyor.

Her zaman yapay zeka alanındaki atılımların temel bilimsel problemlerin üstesinden gelmemize yardımcı olacağını ummuştur.

Mevcut araştırma, kendilerini adadıkları araştırma yönünün insanlara beyni incelemeye ilham verebileceğini ve bu da şüphesiz araştırma güvenlerini güçlendirdiğini buldu.

Bir şey daha

Bu makalenin Nature'da yayınlanması gibi, aynı dergide başka bir DeepMind çalışması yayınlandı.

Bilimsel keşfi hızlandırmak için yapay zeka kullanan bir sistem olan DeepMind tarafından Aralık 2018'de başlatılan AlphaFold.

Sadece proteinin gen dizisine bağlı olarak, proteinin 3 boyutlu yapısı tahmin edilebilir ve sonuç önceki modellerden daha doğrudur.

DeepMind, bunun bilimsel keşif alanındaki ilk önemli kilometre taşı olduğunu ve biyolojinin temel zorluklarından birinde önemli ilerleme kaydettiğini söyledi.

Şimdiye kadar, DeepMind AlphaGo'dan AlphaZero'ya, AlphaStar'a ve şimdi AlphaFold'a Alpha serisini tamamen Nature'da önerdi.

Ne yazık ki ... en iyi araştırma kurumlarının mutluluğu çok iddiasız ve sıkıcı.

Portal

https://www.nature.com/articles/s41586-019-1924-6

- Bitiş -

Qubit QbitAI · Toutiao İmzalı

Bize dikkat edin ve en son teknolojideki en son gelişmeleri alın

Shangtang, Deepfake'i çevrelemek ve bastırmak için oyuna giriyor: bugüne kadarki en büyük yüz sahteciliği algılama veri setini başlatıyor
önceki
5G çağındaki hizmet etkileşimi devrimi, bu banka başı çekiyor
Sonraki
24 yıl önce Yu Chengdong tarafından Huawei'ye alındı ve şu anda dördüncü en büyük iş grubunun başında.
Birçok yapay zeka şirketi İK / görüşmeci haberi verdi: Makine öğrenimi mühendislerini nasıl işe aldık
Karaciğer vücut olmadan 7 gün yaşayabilir! Bu, hasarın onarılabildiği en son teknolojik atılımdır.
Peking Üniversitesi Sun Xu araştırma grubu, Adam optimizer'ın yüksek öğrenme oranını sınırlamak için belleği kullanarak yeniden geliştirildiğini öne sürdü
Clippers, Bucks ve Yeşilleri yendi, en iyi forvet grubu hücum ve savunma yöntemleriyle parçalandı.
Lu Dağı'nda çiçekler açar, ilkbaharda çiftçilik meşgul
Küresel otomobil pazarı / fabrika kapanışlarında azalan arz ve talep Kore hükümeti yerel otomobil endüstrisine destek sağlayacak
Yeni enerji pazarına tam anlamıyla girin / çeşitli elektrikli modelleri zorlayacak Peugeot 2030'a kadar sıfır emisyon elde edecek
Rolls-Royce giriş otomobili ortaya çıktı ve amiral gemisi modeli Mirage'a dönüştü
Gizemli SUV casino ortaya çıktı, Çin'e girmesi bekleniyor! Nissan'ın yeni Qijun'u veya yeni bir LOGO başlatacak
İlk olarak ortaya yerleştirilmiş süper otomobillerde kullanılan Aston Martin, yeni V6 motor geliştirdi
Yepyeni 3 Serisi için yeterli alan var mı? Manevra kabiliyeti ile uzun eksen arasında fark var mı? Cevap burada
To Top