"Doğa" son araştırması: beyinde dağıtılmış pekiştirmeli öğrenme mekanizması var

Yazar | DeepMind Derleme | AI Teknoloji İncelemesi

Editörün notu: Yapay zeka ile sinirbilim / beyin bilimi arasında bir ilişki vardır. Yapay zekanın doğuşundan bu yana, araştırmaları, yapay sinir ağları, pekiştirmeli öğrenme ve diğer birçok algoritma dahil olmak üzere sinirbilimden derinden etkilendi; daha popüler olan beyinden ilham alan hesaplama, son zamanlarda "beyin ilhamı" fikrini ortaya koydu. Bununla birlikte, yapay zeka araştırmalarının sinirbilim / beyin biliminden ilham aldığını sık sık duyuyoruz; o halde sinirbilim / beyin bilimi araştırmaları yapay zeka araştırmalarından ilham alabilir mi? Son zamanlarda "Nature" da yayınlanan DeepMind makalesi tam da böyle bir modeldir: Dağıtılmış pekiştirmeli öğrenmeden esinlenerek, fare dopamin hücrelerinin fizyolojik mekanizmasını incelediler ve "dağıtılmış pekiştirmeli öğrenmenin" beyinde de kullanıldığını buldular. Bu tür araştırmalar bir yandan sinirbilimin gelişimini teşvik etti ve ayrıca AI araştırmasının doğru yolda olduğunu doğruladı.

Öğrenme ve motivasyon, iç ve dış ödüllerle yönlendirilir. Günlük davranışlarımızın çoğu, belirli bir eylemin olumlu (yani yararlı) sonuçlar getirip getirmeyeceğini tahmin ederek veya tahmin ederek yönlendirilir.

En ünlü deneyinde Paplov, köpekleri zil çaldıktan sonra yiyecek beklentisiyle karşılık vermeleri için eğitti ve bu köpekler yiyecek gelmeden önce tükürük salgılamaya başladı ve bu da ödülleri tahmin etmeyi öğrendiklerini gösterdi. İlk deneyde Pavlov, ürettikleri tükürük miktarını ölçerek beklentilerini tahmin etti. Ancak son yıllarda bilim adamları beynin bu beklentileri nasıl öğrendiğinin iç işleyişini deşifre etmeye başladılar.

Sinirbilimcilerin araştırmalarıyla eşzamanlı olarak, bilgisayar bilimcileri sürekli olarak yapay sistemlerde pekiştirmeli öğrenme algoritmaları geliştiriyorlar.Bu algoritmalar, yapay zeka sistemlerinin dış rehberlik olmadan karmaşık stratejileri öğrenmesini sağlıyor (ancak ödül tahminleri tarafından yönlendiriliyor).

DeepMind in Nature tarafından yakın zamanda yayınlanan yeni bir çalışma, bilgisayar bilimindeki en son araştırmalardan (pekiştirmeli öğrenme algoritmalarında büyük bir gelişme) ilham alıyor ve beyindeki ödül öğrenmenin daha önce açıklanamayan bazı özellikleri için derin ve basit bir yol sağlıyor. Açıklama ve böylece beynin dopamin sistemini incelemenin yeni bir yolunu açtı. Sinirbilim / beyin bilimini geri besleyen bir yapay zeka araştırması modeli olarak tanımlanabilir.

Tahmin zinciri: zaman farkı öğrenimi

Takviye öğrenme, yapay zeka ve sinirbilimdir Birleştirmek Oluşan en "eski" ve güçlü fikirler 1980'lerin sonlarında ortaya çıktı. O zamanlar, bilgisayar bilimi araştırmacıları, makinenin karmaşık davranışları otomatik olarak gerçekleştirmesine izin vermek amacıyla, ödülleri ve cezaları makinenin öğrenme sürecine geri bildirim sinyalleri olarak dahil eden bir algoritma tasarlamaya çalıştı. Ödül davranışı makinenin davranışını güçlendirebilir, ancak belirli bir sorunu çözmek için mevcut makine davranışının gelecekteki getirileri nasıl sağladığını anlamak gerekir; belirli bir davranışın getireceği gelecekteki toplam getiriyi tahmin etmek için genellikle gelecekte birçok önlem almak gerekir. Ölçümler.

Zaman farkı algoritmasının (TD) ortaya çıkışı, ödül tahmin problemini çözmek için bir atılım bulmuştur. TD, geleceğin karmaşık muhakemesini çok basit bir öğrenme süreciyle değiştirmek için matematiksel bir teknik kullanır ve aynı sonucu alabilir. Basitçe söylemek gerekirse, TD algoritması gelecekte elde edilebilecek toplam getiriyi hesaplamaz, sadece bir sonraki adımda elde edilebilecek anlık ödülü ve ödülü tahmin eder. Ardından, bir sonraki anda yeni bilgiler göründüğünde, yeni tahmini beklenenle karşılaştırın. Farklı iseler, algoritma aralarındaki farkı hesaplar ve bu "zaman farkını" eski tahmini yeni tahmine ayarlamak için kullanır. Beklentileri gerçeklikle eşleştirmek için sürekli olarak ayarlama yapın, böylece tüm tahmin zinciri kademeli olarak daha doğru hale gelir.

1980'lerin sonlarında ve 1990'ların başlarında, sinirbilimciler dopamin nöronlarının davranışını incelediler ve bu nöronun ateşlenmesinin ve ödülün belirli bir ilişkisi olduğunu ve bu ilişkinin duyusal girdiye ve araştırma hedefinin ( Hayvanlar gibi) bir görevde daha deneyimli hale gelir ve bu ilişki de değişecektir.

1990'ların ortalarında, bir grup bilim insanı hem sinirbilimde hem de yapay zeka konusunda çok becerikliydi. Bazı dopamin nöron geri bildirimlerinin ödül tahminlerinin yanlış olduğu anlamına geldiğini fark ettiler.Örneğin, hayvan çok fazla veya çok az ödül aldığında, bu dopaminler ateşlenecek ve sinyal verecektir. Bu bilim adamları daha sonra beyin tarafından kullanılan, dopamin geri bildirimini dikkate alan ve öğrenmeyi yönlendirmek için kullanan TD algoritmasını önerdiler. O zamandan beri, dopaminin bu ödül tahmin hatası teorisi binlerce deneyde doğrulanmış ve sinirbilimdeki en başarılı nicel teorilerden biri haline gelmiştir.

Dağıtılmış pekiştirmeli öğrenme

Bilgisayar bilimcilerin ayak sesleri burada durmadı, çünkü 2013 Yıllar geçtikçe daha fazla araştırmacı başladı Dikkat Pekiştirmeli öğrenmedeki temsilleri öğrenmek için derin sinir ağlarını kullanan bir algoritma olan derin pekiştirmeli öğrenme, karmaşık sorunları son derece etkili bir şekilde çözebilir.

Şekil 1: Olasılık, gelecekteki olası ödülleri gösterir. Yukarıdaki şekilde gösterildiği gibi, kırmızı olumlu bir sonucu, yeşil ise olumsuz bir sonucu belirtir.

Dağıtılmış pekiştirmeli öğrenme, temsilcilerden biridir, pekiştirmeli öğrenmeyi daha mükemmel bir etki haline getirebilir. Çoğu durumda (özellikle gerçek dünyada), belirli eylemlerin oluşturduğu gelecekteki ödüller rastgele olur. Yukarıdaki şekilde gösterildiği gibi, şekildeki "küçük kişi" boşluğu geçip geçmeyeceğini veya düşeceğini bilmez, bu nedenle tahmin edilen ödülün olasılık dağılım grafiği iki çarpma olarak görünür: biri düşüşü, diğeri başarılı geçmeyi temsil eder. Geleneksel TD algoritması, gelecekteki ödüllerin ortalama değerini tahmin etmek için yöntemi kullanır Açıkçası, ödül dağılımının iki zirvesini (şişkinliği) elde etmek imkansızdır. Bu sırada, dağıtılmış pekiştirmeli öğrenme tüm olasılıkları tahmin edebilir.

Kötümser / iyimser tahmin spektrumu

En basit dağıtılmış takviye öğrenme algoritması, standart TD ile yakından ilişkilidir.Bu algoritmaya dağıtılmış TD de denir. İkisi arasındaki fark şudur: standart TD algoritması tek bir tahmini veya tahminin beklenen değerini öğrenir; dağıtılmış TD ise, her biri standart TD yöntemi ile öğrenilen farklı tahminlerden oluşan bir grup öğrenir. Ancak kilit faktör, her tahmincinin ödül tahmin hatasına farklı bir dönüşüm uygulamasıdır.

Şekil 2: a: "kötümser" hücreler olumsuz ödülleri artıracak veya olumlu ödülleri yok sayacak, iyimser hücreler olumlu ödülleri artıracak veya olumsuz ödülleri görmezden gelecektir; b: ödüllerin kümülatif dağılımı; c: ödüllerin tam dağıtımı

Yukarıdaki Şekil a'da gösterildiği gibi, ödül tahmin hatası pozitif olduğunda, bazı tahmin ediciler seçici olarak ödül tahmin hatasını (RPE) "büyütür" veya "kodlar". Ödül dağılımının daha yüksek kısmı ile karşılaştırıldığında, bu yöntem tahmincinin daha iyimser bir ödül tahmini öğrenmesini sağlar. Ayrıca yukarıdaki şekilde gösterildiği gibi, diğer tahmin ediciler negatif ödül tahmin hatalarını güçlendirirler, bu nedenle daha karamsar tahminler öğrenin. Özetle, kötümser ve iyimser ödüller içeren tahmin ediciler, eksiksiz bir ödül dağıtım haritası çizebilir.

Basitliğe ek olarak, dağıtılmış pekiştirmeli öğrenmenin bir başka yararı da derin sinir ağlarıyla uyumlu olmasıdır. Birleştirmek Kullanıldığında çok güçlü olacaktır. Son 5 yılda, orijinal derin güçlendirme öğrenme DQN aracısına dayanan algoritma büyük ilerleme kaydetti ve genellikle Atari 2600 oyununun Atari-57 kıyaslama test setinde değerlendirildi.

Şekil 3: Klasik derin pekiştirmeli öğrenmeyi dağıtılmış pekiştirmeli öğrenmeyle karşılaştırırken, Atari-57 kıyaslamasındaki medyan standartlaştırılmış puanlar (Atari-57 insan normalleştirilmiş puanları)

Şekil 3, aynı kıyaslama altında aynı koşullar altında eğitilen ve değerlendirilen birden fazla standart RL ve dağıtılmış RL algoritmalarını karşılaştırır. Dağıtılmış pekiştirme öğrenme aracısı, önemli bir gelişme gösteren mavi ile gösterilmiştir. Üç algoritma (QR-DQN, IQN ve FQF), tartışmakta olduğumuz dağıtılmış TD algoritmasının varyantlarıdır.

Dağıtılmış pekiştirmeli öğrenme algoritmaları neden bu kadar etkilidir? Bu hala aktif bir araştırma konusu olsa da, bunlardan biri, ödül dağılımının anlaşılmasının, sinir ağını çevresel değişikliklere veya politika değişikliklerine daha sağlam bir şekilde şekillendirmesi için daha güçlü bir sinyal sağlayacağıdır. Temsil.

Dopamin içinde dağıtılmış kod

Yapay sinir ağlarında dağıtılmış zaman farkı çok güçlü olduğu için bilimsel bir soru ortaya çıkıyor: Dağıtılmış zaman farkı beyne uygulanabilir mi? Bu, araştırmacıları bu "Doğa" tezini başlatmaya iten orijinal motivasyondur.

Bu yazıda DeepMind, fare dopamin hücrelerinin kayıtlarını analiz etmek için Harvard Uchida Lab ile işbirliği yaptı. Bu kayıtlar, bir görevdeki farelerin öğrenme yeteneğini kaydetti. Görevde, çok sayıda beklenmedik ödül aldılar (Şekil 4'teki renkli resimde gösterilmiştir):

Şekil 4: Bu görevde, farelere 0.1ul ile 20ul arasında değişen, rastgele belirlenmiş, değişken hacimli bir su ödülü verilir (ödül boyutu bir zarın atılmasıyla belirlenir): (A) Klasik TD modeli altında simüle edilen dopamin hücreleri 7 farklı ödül boyutuna yanıt; (B) Dağıtılmış TD modelinde, her bir nokta sırası bir dopamin hücresine karşılık gelir ve her renk farklı bir ödül boyutuna karşılık gelir. Renk eğrisi, verilerin spline interpolasyonunu temsil eder. Bir hücrenin "tersine dönme noktası" (hücrenin ödül tahmin hatası, ateşleme hızı 0'da kesişir), belirli bir hücrenin ödülü "ayarladığı" beklenen ödüldür. Örneğin, ödül boyutu hücrenin beklentisine ulaştığı için Ateşleme hızı, taban oranından daha fazla veya daha az değildir; (C) Gerçek dopamin hücrelerinin farklı ödül boyutlarına tepkisi, dağıtılmış TD modelinin tahminine çok yakındır. Şekilde, pozitif ve negatif ödül tahmin hataları için farklı göreceli ölçeklendirmeye sahip üç örnek hücre gösterilmektedir.

Araştırmacılar, dopamin nöronlarının aktivitesinin "standart zaman farkı" veya "dağıtılmış zaman farkı" ile daha tutarlı olup olmadığını değerlendirdiler.

Yukarıda açıklandığı gibi, dağıtılmış zaman farkı farklı bir dizi ödül tahminine dayanır. Bu nedenle, araştırma için temel soru, bu gerçek ve çeşitli ödül tahminlerinin sinirsel verilerde bulunup bulunamayacağıdır.

Önceki çalışmada, araştırmacılar, dopamin hücrelerinin ateşleme oranlarını bir tahmin hatası anlamına gelecek şekilde değiştirdiğini, yani hayvanlar beklediklerinden daha fazla veya daha az ödül aldıklarında tahminlerin gerçekleştiğini öğrendiler. hata. Ve hücre, tahminine tam olarak eşit bir ödül aldığında, tahmin hatası 0'dır, dolayısıyla ateşleme hızı değişmeyecektir.

Araştırmacılar, her bir dopamin hücresi için, temel ateşleme oranını değiştirmeyecek olan ödül boyutuna karar verirler, buna araştırmacılar hücrenin "geri dönüş noktası" adını verirler. "Ters nokta" nın hücreden hücreye farklı olup olmadığını öğrenmeyi umarlar.

Şekil 4c'de yazar, hücreler arasında önemli bir fark olduğunu gösterir.Bazı hücreler çok büyük ödülleri öngörürken, diğerleri çok küçük ödülleri öngörür. Bu farklılıklar, kayıtlardaki orijinal rastgele değişkenlikten beklenen farkın derecesini aşıyor.

Dağıtılmış zaman farkında, ödül tahminindeki bu farklılıklar, pozitif veya negatif ödül tahmin hatalarının seçici olarak yükseltilmesinden kaynaklanır. Olumlu ödül tahmin hatasını büyütmek, daha iyimser bir öğrenme ödülü tahmini ile sonuçlanacaktır; olumsuz ödül tahmin hatasını büyütmek ise karamsar bir ödül tahminiyle sonuçlanacaktır.

Böylece araştırmacılar daha sonra farklı dopamin hücrelerinin farklı pozitif ve negatif tahminlerinin göreceli büyütmesini ölçtüler. Araştırmacılar, hücreler arasında güvenilir ancak gürültü ile açıklanamayan bir çeşitlilik buldular. Ve en önemlisi, araştırmacılar, pozitif ödülün tahmin hatasını büyüten aynı hücrelerin daha yüksek bir geri dönüş noktasına sahip olduğunu buldular (Şekil 4c, Sağ alt Köşe diyagramı), yani geri dönüş noktasını açıkça daha yüksek ödül beklentisine ayarladılar.

Son olarak, dağıtılmış zaman farkı teorisi, farklı "tersine dönme noktalarının" ve hücreler arasındaki farklı asimetrilerin, öğrenilen ödül dağılımını birlikte kodlaması gerektiğini öngörür. Son soru, ödül dağılımının dopamin hücrelerinin ateşlenme hızına bağlı olarak çözülmesinin mümkün olup olmadığıdır.

Şekil 5: Dopamin hücreleri bir grup olarak öğrenilen ödül dağıtım şeklini kodlar: ödül dağılımını kodlamak için ateşleme oranı verilebilir ve gri gölgeli alan, görevde karşılaşılan gerçek ödül dağılımıdır. Her açık mavi iz, kod çözme işleminin gerçekleştirilmesine ilişkin bir örneği gösterir. Koyu mavi, açık mavi yörüngenin gri alanı ortalama olarak aşan bölümünü gösterir.

Şekil 5'te gösterildiği gibi, araştırmacılar, yalnızca dopamin hücrelerinin ateşleme oranını kullanarak, göreve katılan farelerin gerçek ödül dağılımına (gri alan) çok yakın olan bir ödül dağılımını (mavi yörünge) yeniden yapılandırmanın tamamen mümkün olduğunu buldular.

Bu yeniden yapılandırma, dopamin hücrelerinin ateşleme oranının dağıtım zamanı farkı modelinin ödül tahmin hatası olarak yorumlanmasına ve modelin öğrendiği dağılımı belirlemek için çıkarım yapmaya dayanır.

sonuç olarak

Özetle, araştırmacılar beyindeki her dopamin nöronunun farklı pozitif veya negatif seviyelerine ayarlandığını buldular. Koro iseler nota değil armoni söylüyorlar, kendi ses telleri ile bas veya soprano şarkıcıları gibiler.

Yapay pekiştirmeli öğrenme sisteminde, bu çeşitli ayarlamalar, sinir ağındaki öğrenme hızını büyük ölçüde hızlandıran daha zengin bir eğitim sinyali yaratır.Araştırmacı, beynin de bu çeşitliliği bu değerlendirme için kullanacağını söylüyor. Ayarlama yöntemi.

Beyindeki mevcut dağıtılmış pekiştirmeli öğrenmenin yapay zeka ve sinirbilim üzerinde çok ilginç etkileri var. Her şeyden önce, bu keşif, dağıtılmış pekiştirmeli öğrenmeyi doğrular ve yapay zeka araştırmasının doğru yolda olduğuna bizi ikna eder, çünkü dağıtılmış pekiştirmeli öğrenme algoritmaları, en akıllı varlık olduğunu düşündüğümüz şeye uygulandı: beyin.

İkincisi, sinirbilim için yeni sorular ortaya çıkarır ve zihinsel sağlığı ve motivasyonu anlamak için yeni perspektifler sunar. Bir kişinin beyni, iyimser veya kötümser dopamin nöronlarını seçici bir şekilde "dinlerse" ne olur? Bu dürtüselliğe veya depresyona neden olur mu? Beynin avantajı güçlü temsil yeteneğinde yatmaktadır - öyleyse dağıtılmış öğrenme bu güçlü temsil yeteneğini nasıl oluşturur? Hayvanlar ödül dağılımını öğrendiklerinde, bu temsili aşağı akışta nasıl kullanırlar? Dopamin hücreleri arasındaki çeşitli pozitif ifadelerin beyinde bilinen diğer çeşitlilik biçimleriyle nasıl bir ilgisi var? Bunların daha fazla araştırılması gerekiyor.

Sinirbilimin ilerlemesini teşvik etmek için daha fazla araştırmacının böyle sorular sorup cevaplayabileceğini ve bunun karşılığında yapay zeka araştırmalarından yararlanarak iyi huylu bir kapalı döngü oluşturacağını umuyoruz!

Best Express'in mali raporunun ayrıntılı açıklaması, piyasa stratejisi için düşük fiyatlarla ticaret yapmak gerçekten iyi mi?
önceki
vSLAM, endüstriyel hinterlandın derinliklerine iniyor, Intel AI Baijia İnovasyon Teşvik Programı, yenilikçi şirketlerin ilerlemesine yardımcı oluyor
Sonraki
Paper Today | Face Data Privacy; Neural Symbolic Reasoning; Deep Learning Chatbot, vb.
AAAI 2020 | Otomasyon Enstitüsü: Görsel özellik kalıntılarına direnmeye dayalı sıfır örneklemli öğrenme yöntemi
Google'a GAN patenti verildi, çantaya eksiksiz bir yüzleşme eğitim ağı seti dahildir
AAAI 2020 | Güney Çin Teknoloji Enstitüsü: Metin Tanıma için Dikkat Çekme Ağı
Paper Today | Sanal Deneme Ağı; Kalabalık Sayma Karşılaştırması; Federal Meta-öğrenme; Nesne Algılama vb.
Deepfake'de savaş ilan et
Beihang Üniversitesi, yapay zeka araştırma enstitüsü kurar: tüm okulun AI kaynaklarını entegre edin ve "yeni mühendislik" modeli oluşturun
Süper ağlar için sürekli öğrenme: yeni algoritmalar yapay zekanın artık "felaket bir şekilde unutmamasını" sağlıyor
Today's Paper | İnsan vücudu imajı oluşturma ve kıyafet sanal denemesi; sağlam derin öğrenme; imaj stili aktarımı vb.
ICLR 2020 Tam Puanlı Rapor | Negatif Çeşitlilik Cehaletini Hafifletmek İçin Ekstra Gauss Öncesi Hedef
Otoriter sıralama, dünyanın en etkili 2000 AI akademisyenleri listesi, Çin'deki AI araştırmasının eksikliğini vurguluyor
AAAI 2020 | Pekin Üniversitesi: Grafik evrişimde çok aşamalı kendi kendini denetleyen öğrenme algoritması
To Top