DeepMind Harvard'ın inanılmaz keşfi! Beyinde dopamin tarafından yönlendirilen dağıtılmış pekiştirici öğrenme vardır

[Xinzhiyuan Rehberi] İnsan beyni, AI'yı bizden daha iyi anlayabilir. Son zamanlarda, DeepMind ve Harvard Üniversitesi tarafından yapılan yeni bir çalışma, beyinde "dağıtılmış pekiştirmeli öğrenme" olduğunu ve beyindeki pekiştirmeli öğrenmenin "mutluluk kaynağı" dopamin tarafından yönlendirildiğini kanıtladı. Yapay zeka sistemine benzer şekilde, beyin gelecekteki olası getirileri "ortalama" bir şekilde değil, "olasılık dağılımı" yoluyla tahmin eder. "Refah: Bu gece saat 19: 00'da, Tencent WeChat'te kıdemli bir yapay zeka araştırmacısı olan Qian Qiao, size" Öneri Sistemi ve Veri Düşünme "öğretecek. Daha fazla bilgi edinmek için sağdaki bağlantıya tıklayın!"

Öğrenci olarak Pavlov ve köpeğin hikayesini duymuş olmalısınız:

Köpeği beslemeden önce her seferinde bir zil sallayın. Köpek zamanla çanları yemenin başlangıcı olarak kullanmayı öğrendi. Daha sonra, zil çalar çalmaz, yanında yiyecek olup olmadığına bakılmaksızın köpek salya akmaya başlayacaktır. Bu öğrendiklerini gösterir "Tahmin ödülleri".

İlk deneyde Pavlov, ürettikleri tükürük miktarını ölçerek beklentilerini tahmin etti. Ancak son yıllarda bilim adamları beynin bu tahminleri öğrenme şeklini deşifre etmeye başladılar. Aynı zamanda, bilgisayar bilimcileri AI sistemlerinde pekiştirmeli öğrenme için algoritmalar geliştirdiler. Bu algoritmalar, AI sisteminin harici rehberlik olmadan karmaşık stratejileri öğrenmesini sağlar ve öğrenme süreci ödül tahmin mekanizması tarafından yönlendirilir.

DeepMind tarafından yapılan yeni bir çalışma, beynin iç işleyişini deşifre etmek için belki de YZ'nin öğretmenimiz olduğunu gösteriyor.

Nature'da yeni yayınlanan bu çalışmada, DeepMind ve Harvard Üniversitesi araştırmacıları, dağıtılmış pekiştirmeli öğrenmeyle ilgili son AI araştırmalarından ilham aldılar ve Dopamin bazlı pekiştirmeli öğrenme yöntemi .

Onlar düşünür: AI sistemine benzer şekilde, beyin gelecekteki olası getirileri tahmin etmek için "ortalama değeri" kullanmaz, ancak gelecekteki olası getirileri tahmin etmek için "olasılık dağılımı" yöntemini kullanır ve böylece beyinde "dağıtılmış pekiştirmeli öğrenmenin" varlığını kanıtlar.

Beyin, en iyi AI algoritmalarına benzer şekilde pekiştirmeli öğrenme gerçekleştirir

Makalenin ilk yazarı Will Dabney, "Beyindeki dopamin bir sürpriz sinyalidir" dedi ve "İşler beklenenden daha iyi olduğunda, daha fazla dopamin salınır."

Birlikte ele alındığında, bu dopamin nöronlarının hepsi aynı şekilde tepki verir. Ancak araştırmacılar, her bir dopamin nöronunun farklı göründüğünü buldular: "mutlu" veya "üzgün" derecesi her nöron için farklıdır. " Daha çok bir koro gibi, farklı notalar söylüyorlar ve birbirleriyle koordineli çalışıyorlar. "Dabney dedi.

Bu keşif, dağıtılmış pekiştirmeli öğrenme adı verilen bir süreçten ilham aldı. Evet, AI'nın Go ve StarCraft 2 gibi oyunlarda ustalaşmak için kullandığı teknolojilerden biridir. .

En basit ifadeyle, pekiştirmeli öğrenme bir ödüldür, onu kazançlı kılan davranışı güçlendirebilir. Bu, mevcut eylemlerin gelecekteki getirilere nasıl yol açtığını anlamayı gerektirir. Örneğin, bir köpek "otur" komutunu öğrenebilir çünkü yaptığı zaman ödüllendirilecektir.

Daha önce, yapay zeka ve sinirbilimdeki pekiştirmeli öğrenme modellerinin her ikisi de gelecekteki "ortalama" getirileri tahmin etmeyi öğrenmeye odaklanıyordu. Dabney, "Ancak bu gerçeği yansıtmıyor," dedi.

Ayrıca bir örnek verdi: "Örneğin, bir kişi piyango oynadığında, kazanmayı veya kaybetmeyi bekler, ancak ara bir sonuç beklemezler."

Gelecek belirsiz olduğunda, olası sonuçlar bir olasılık dağılımı ile temsil edilebilir: bazıları olumlu ve bazıları olumsuzdur. Dağıtılmış pekiştirmeli öğrenme algoritmalarını kullanan yapay zeka, tüm olası ödülleri tahmin edebilir.

Ekip, beynin dopamin ödül yolunun dağıtım yoluyla da çalışıp çalışmadığını test etmek için farelerdeki tek tek dopamin nöronlarının tepkilerini kaydetti. Fareleri bir görevi tamamlamaları için eğittiler ve onlara farklı boyutlarda ve öngörülemeyen ödüller verdiler.

Araştırmacılar, farklı dopamin hücrelerinin değişen derecelerde sürprizler gösterdiğini buldular. Başka bir deyişle, AI algoritmaları, sinirsel tepkilerde ne arayacağımızı bize bildirir.

Daha sonra Xin Zhiyuan, bu araştırmanın içini ve dışını herkes için analiz ediyor.

Zaman farkı öğrenme algoritması: mükemmel pekiştirmeli öğrenme tahmin zinciri

Takviye öğrenme, sinirbilim ve yapay zekayı birbirine bağlayan en eski ve en güçlü fikirlerden biridir. 1980'lerin sonlarında, bilgisayar bilimi araştırmacıları, yalnızca karmaşık davranışların nasıl gerçekleştirileceğini öğrenmek için sinyal olarak yalnızca "ödülleri ve cezaları" kullanan bir algoritma geliştirmeye çalıştılar.

Bu ödül mekanizmasının tahmini, bazı insan davranışlarına çok benzer. Örneğin, sınavlarla başa çıkmak için çok çalışan öğrenciler daha yüksek sınav puanlarıyla ödüllendirilir. Genel olarak, mevcut davranışın gelecekteki getirilerini tahmin etmek bu algoritmanın temel mekanizmasıdır.

Ödül tahmin problemini çözmede önemli bir atılım, gelecekteki toplam getiriyi hesaplamayan, ancak sadece bir sonraki anda anlık ödülü tahmin etmeye çalışan Zaman Farkı Öğrenme (TD) algoritmasıdır.

Bir sonraki anda yeni bilgiler göründüğünde, yeni tahmini beklenenle karşılaştırın. İkisi farklıysa, getirilerdeki farkı hesaplayın ve bu "anlık farkı" eski tahmini yeni tahmine ayarlamak için kullanın, böylece beklenen tahmin gerçekle eşleşir ve tüm tahmin zinciri kademeli olarak daha doğru hale gelir.

Aynı zamanda, 1980'lerin sonlarından 1990'ların başına kadar, sinirbilimciler de dopamin nöronlarının davranışını anlamak için çalışıyorlardı. Bu nöronların ateşlenmesi ödül mekanizmasıyla ilgilidir, ancak tepkileri aynı zamanda duyusal girdiye ve deneyimle değişikliklere de bağlıdır.

Yavaş yavaş, bazı araştırmacılar sinirbilimi AI'daki en son keşiflerle ilişkilendirmeye başladı. Araştırmacılar, belirli dopamin nöronlarının yanıtlarının ödül tahmininde bir hata olduğunu bulmuşlardır: yani, hayvan beklenenden daha fazla veya daha az ödül aldığında dopamin nöronları ateşlenir.

Buna dayanarak, bu araştırmacılar insan beyninin de TD öğrenme algoritmasını kullandığını düşünüyor: ödül tahmin hatasını hesaplayın ve dopamin sinyalleri yoluyla beyne yayınlayın. O zamandan beri, dopaminin ödül tahmin hatası teorisi binlerce deneyde test edildi ve doğrulandı ve sinirbilimdeki en başarılı nicel teorilerden biri haline geldi.

"Mutluluğun kaynağı" dopamin dağıtım kodunu kırmak

Dağıtılmış TD algoritması yapay sinir ağlarında çok güçlü olduğu için doğal olarak bir problem ortaya çıkar: Dağıtılmış TD algoritması beyinde de kullanılıyor mu?

DeepMind, farelerin dopamin hücre kayıtlarını analiz etmek için bir Harvard Üniversitesi laboratuvarı ile işbirliği yaptı. Kayıtlar, fareler tahmin edilemeyen ödüller aldıkları iyi öğrenilmiş görevleri gerçekleştirdikten sonra elde edildi (Şekil 4). Dopamin nöronlarının aktivitesinin standart TD veya dağıtım TD ile tutarlı olup olmadığını değerlendirdik.

İlk soru, bu ödül tahmininin sinirsel verilerde bulunup bulunmadığıdır.

Geçmişte, dopamin hücrelerinin bir tahmin hatasını belirtmek için boşaltma oranlarını değiştirdiğini biliyorduk, yani alınan ödül tahmin edilen ödülle tamamen aynı olduğunda, tahmin hatası sıfır olmalıdır, böylece boşaltma hızı değişmez. Her bir dopamin hücresi için, ateşleme oranını değiştirmeyen bu kritik ödülü belirledik. Biz buna "dönüş noktası" diyoruz.

Sonraki soru, farklı dopamin hücrelerinin "geri dönüş noktası" ödüllerinin farklı olup olmadığıdır. Aşağıdaki şekil, bazı hücrelerin çok büyük ödüller öngördüğünü ve bazı hücrelerin çok az tahmin ettiğini ve farkın derecesinin açıkça rastgele farkı aştığını gösteriyor.

Şekil 1: Bu görevde, farelere içme suyu ödülü rastgele belirlenir ve miktar değişkendir.

Ödül tahminindeki bu farklılıklar, pozitif veya negatif ödül tahmin hatalarının seçici olarak yükseltilmesinden kaynaklanır. Farklı dopamin hücrelerinin gösterdiği "pozitif" ve "negatif" tahminlerin genişleme derecesindeki farkı ölçerek, farklı hücreler arasında gürültünün kapsamının ötesine geçen önemli farklılıklar bulundu.

Şekil 2: Öğrenmeyi kodlayan dopamin hücrelerinin ödül dağılımı. Ödül dağılımı, boşaltma hızına göre çözülebilir. Gri gölgeli alan, görevdeki ödüllerin gerçek dağılımıdır. Her açık mavi iz, kod çözme prosedürünün bir örneğini gösterir. Koyu mavi, ortalama çalışma süresidir.

Son soru, ödül dağılımının dopamin hücrelerinin ateşleme hızından çözülüp çözülemeyeceğidir. Yukarıdaki şekilde gösterildiği gibi, ödül dağılımını (mavi) yalnızca gerçek ödül dağılımına (gri alan) çok yakın olan dopamin hücrelerinin ateşleme oranını kullanarak yeniden yapılandırmanın gerçekten mümkün olduğunu bulduk.

Sonuç: Dağıtılmış pekiştirmeli öğrenme, daha gelişmiş yapay zeka için parlak bir yoldur

Bu çalışma, hem yapay zeka hem de sinirbilim için anlamlı olan, beyindeki AI modeline benzer bir dağıtılmış pekiştirmeli öğrenme mekanizması olduğunu kanıtlıyor.

İlk olarak, dağıtılmış pekiştirmeli öğrenmenin daha gelişmiş AI yetenekleri için parlak bir yol olduğunu doğrular.

DeepMind Neuroscience Research Direktörü ve makalenin ana yazarlarından biri olan Matthew Botvinick, "Beyin kullanıyorsa, bu iyi bir fikir olmalı" dedi ve "Bize bunun gerçek dünyada genişletilebilecek bir bilgisayar teknolojisi olduğunu söylüyor. , Diğer hesaplama süreçlerine iyi bir şekilde adapte edilecektir. "

İkincisi, Bu keşif, sinirbilim için yeni sorular ortaya çıkarıyor. Ruh sağlığını ve motivasyonu anlamak için yeni bilgiler sağlar.

Örneğin, "üzgün" ve "mutlu" dopamin nöronlarına sahip olmak ne demektir? Beyin birini veya diğerini seçici olarak dinlerse, kimyasal dengesizliğe neden olur ve depresyona neden olur mu?

Temel olarak, beynin daha fazla deşifre edilmesi sürecinde, araştırma sonuçları aynı zamanda insan zekasını oluşturan faktörleri de ortaya çıkarır. Botvinick, "Günlük yaşamdaki beyin aktivitesine yeni bir bakış açısı sağlıyor." Dedi.

Son olarak, araştırmacılar bu soruların nörobilim alanındaki teknolojik ilerlemeyi teşvik etmek için gündeme getirilip cevaplanacağını ve sonuçlarının erdemli bir döngü elde etmek için AI araştırmalarına geri besleneceğini umuyorlar.

Referans bağlantısı:

https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/

https://www.vox.com/future-perfect/2020/1/15/21067228/ai-brain-protein-folding-google-deepmind

https://www.technologyreview.com/s/615054/deepmind-ai-reiforcement-learning-reveals-dopamine-neurons-in-brain/

Zaobao: iPhone SE 2 sürüm planı tekrar ertelendi mi? Moto G8 açıklandı
önceki
Wuhan'da savaşan "tanrıça" ya kutsamalar gönderin: Dokuz soğuk gündür seyahat ediyorsunuz ve şimdi bahar çiçek açıyor
Sonraki
C başlangıcı! C dili güçlü düşman Python'u yener ve "2019 Yılının Programlama Dili" unvanını kazanır
12 yaşındaki çocuğun sözleri insanları ağlattı ve annesi de kurtarıldı
Beş yıl sonra GitHub tekrar Android pazarında: 40 milyon geliştirici nihayet resmi sürümü kullanıyor
Altın madalya Tsinghua'ya önerilir, WeChat AI uzmanları öneri sistemini açıklar: Tencent staj fırsatlarını kazanmaya katılın
God in Computing: Dünyanın ilk "yaşayan robotu" araştırma ekibi, soruları çevrimiçi olarak yanıtlıyor
17 yaşındaki bir lise öğrencisi, NASA'daki stajının üçüncü gününde, Dünya'dan 7 kat daha büyük yeni bir gezegen keşfetti.
% 100 kurbağa genleri! Dünyanın ilk yaşayan robotu doğdu: ikiye bölerek ikiye dikilebilir
BERT trenine 76 dakika! Google'ın derin öğrenme yüksek hacimli optimizasyon araştırması ICLR 2020 tarafından kabul edildi
Lei Jun, ödüllü mühendise milyonlarca dolar harcıyor, Cui Baoqiu, Xiaomi teknoloji türlerinin on yıllık dönüşümünü ortaya koyuyor
Einstein'dan esinlenen "Geometrik derin öğrenme": Yapay zekanın daha yüksek boyutları görmek için düzlemden kurtulmasına izin verin
Huawei'in yeni derin öğrenme modeli DeepShift: Çarpma yerine vardiya ve olumsuzlama, maliyetleri büyük ölçüde düşürüyor
Üç satır kod otomatik olarak SOTA modellerini oluşturur! Amazon, AutoGluon'u başlattı
To Top