İçbükey tapınaktan Lai Ke Qianming 13 Qubit Raporu | Genel Hesap QbitAI
Yapay zeka genellikle insan düşüncesinden ilham alır.
Ama şimdi tam tersi!
Yapay zekanın gelişimi, beynin nasıl öğrendiğini ortaya çıkarmak için ilham kaynağı oldu.
Bu, DeepMind'in en son araştırması, sadece Nature üzerinde, araştırma kanıtlıyor:
AlphaGo'nun Alpha Zero ve AlphaStar'ın en üst sürümlerinin arkasındaki temel teknoloji olan dağıtılmış pekiştirmeli öğrenme, beyindeki ödül yolunun nasıl çalıştığına dair yeni bir açıklama sağlıyor.
Böyle bir sonuç DeepMind'in kurucusu Hassabis'i de çok heyecanlandırdı ve tweet attı:
Makine öğrenimindeki araştırmamız, beynin çalışma mekanizmasını yeniden anlayabilir ki bu çok heyecan verici!
Kesinlikle heyecanlanmak için bir sebebi var.
Uzun vadede, bu aynı zamanda DeepMind tarafından önerilen algoritmanın beynin mantığına benzer olduğunu kanıtlıyor, bu da karmaşık gerçek dünya problemlerini çözmek için daha iyi genişletilebileceği anlamına geliyor.
Ve baştan sona, Hassabis'in amacı genel yapay zeka yaratmaktır.
Takviye öğrenme, temsilcinin bilinmeyen bir ortamda bazı eylemler yapmasına, ardından ödülleri toplamasına ve bir sonraki duruma geçmesine izin vermektir.
Zamansal fark öğrenme (TD) algoritmasının pekiştirmeli öğrenmenin merkezi olduğu söylenebilir.
Gelecekteki değere dayalı olarak belirli bir durumun değerini nasıl tahmin edileceğini öğrenmenin bir yöntemidir.
Algoritma, yeni tahmini beklenti ile karşılaştırır.
İkisinin farklı olduğu bulunursa, bu "zaman farkı" eski tahmini yeni tahmine göre ayarlayarak sonucu daha doğru hale getirir.
Gelecek belirsiz olduğunda, gelecekteki getiriler bir olasılık dağılımı olarak ifade edilebilir. Bazıları iyi sonuçlar (mavi-yeşil) ve bazıları kötü (kırmızı) olabilir.Belirli bir davranışın getireceği gelecekteki ödüllerin sayısı genellikle bilinmez ve rastgeledir. Bu durumda, standart TD algoritması gelecekteki getirinin ortalama olduğunu tahmin etmeyi öğrenir.
ve Dağıtılmış pekiştirmeli öğrenme Tahmin edecek daha karmaşık bir tahmin yöntemidir Gelecekteki tüm ödüllerin olasılık dağılımı .
İnsan beyninin dopamin ödül mekanizması nedir?
Sonra araştırmanın prototipi DeepMind araştırmacılarının zihninde kök saldı.
Çalışmazsan, bilmiyorsun, bir çalışma gerçekten "şok olur".
Geçmişte insanlar dopamin nöronlarının tepkisinin aynı olması gerektiğini düşünüyorlardı.
Biraz korodaki gibi, herkes aynı notaları söylüyor.
Ancak araştırma ekibi, bireysel dopamin nöronlarının farklı göründüğünü buldu - sunulan pozitiflik çok çeşitli.
Bu nedenle araştırmacılar, fareleri bir görevi yerine getirmeleri için eğitti ve onlara çeşitli boyutlarda ve öngörülemeyen ödüller verdi.
Farelerde ventral tegmental alanda (dopaminin limbik ve kortikal alanlara salınmasını kontrol eden orta beyin yapısı) "dağıtılmış pekiştirme öğrenme" kanıtı buldular.
Bu kanıtlar, ödül tahmininin eş zamanlı olduğunu göstermektedir. paralel Tarafından yere Çoklu Gelecekteki sonuçlar ifade edilir.
Bu, dağıtılmış makine öğrenimi ilkesine çok benzer, değil mi?
Deney kullanıldı Optik tanıma teknolojisi Fare beyninin ventral tegmental bölgesindeki tek bir dopamin nöronunun tepkisini kaydetmek için.
Ventral tegmental alan, dopamin ve serotonin sinirleri açısından zengindir ve iki ana dopamin sinir kanalının bir parçasıdır.
Takviye öğrenme teorisine dayanan araştırma, beyindeki dopamin için bir ödül tahmin hatası (RPE) olduğunu varsaydı.
Bir sinyal, bir ödül tahminine neden olur Ödül tahmini, dağıtımın ortalamasından daha düşük olduğunda, negatif bir RPE'ye neden olur ve daha büyük bir ödül, pozitif bir RPE'ye neden olur.
Genel takviye öğrenmede, ortalama dağılımın altında elde edilen ödül genliği, negatif (negatif) bir RPE'ye neden olurken, daha büyük bir genlik, pozitif (pozitif) bir RPE'ye yol açacaktır (yukarıdaki şekil a'nın solunda gösterildiği gibi).
Dağıtılmış pekiştirmeli öğrenmede, her kanal farklı bir RPE değer tahmini taşır ve farklı kanallar farklı pozitiflik derecelerine sahiptir.
Bu değerlerin tahmini, sırayla farklı RPE sinyalleri için bir referans noktası sağlar. Nihai sonuçta, tek bir ödül sonucu hem pozitif (pozitif) RPE hem de negatif RPE'yi uyarabilir (yukarıdaki şekil a'nın sağında gösterildiği gibi).
Kayıt sonuçları, fare beynindeki dopamin nöron geri dönüş noktalarının pozitiflik derecesine göre değiştiğini göstermektedir. Dağıtılmış pekiştirmeli öğrenmenin özelliklerine uygundur (yukarıdaki Şekil b'de gösterildiği gibi).
Nöronal yanıt çeşitliliğinin rastgele olmadığını doğrulamak için araştırmacılar daha fazla doğrulama yaptı.
Veriler rastgele iki yarıya bölünecek ve geri dönüş noktaları her iki yarıda bağımsız olarak tahmin edilecektir. Geri dönüş noktalarının yarısının diğer yarısı ile ilgili olduğu ortaya çıktı.
Ödül tahmininde nöron işleme yöntemini ilerletmek için. Araştırmacılar, nöronlara üç farklı sinyal uyarıcısı verdi.
Ödül olasılığı sırasıyla% 10,% 50 ve% 90'dır ve dört dopamin nöronunun tepkileri aynı anda kaydedilir.
Her yörünge, başlangıç zamanı sıfır saat olmak üzere, üç ipucundan birine ortalama bir yanıttır.
Sonuçlar, bazı hücrelerin ipuçlarının% 50'sini ipuçlarının% 90'ı olarak kodladığını, bazılarının ise ipuçlarının% 10'unu ipuçlarının% 10'u olarak kodladığını gösterdi.
Son olarak, araştırmacılar, ödül dağılımını dopamin hücrelerinin ateşleme hızından çözmeye çalışarak da doğruladılar.
Akıl yürütme yoluyla, farelerin katıldığı görevlerdeki ödüllerin gerçek dağılımıyla eşleşen bir dağıtımı başarıyla yeniden oluşturduk.
Fare beyninin dağıtılmış pekiştirmeli öğrenme mekanizmasının ön doğrulaması, araştırmacılara daha fazla düşünce getirdi:
Asimetrik çeşitliliğe hangi devre veya hücre düzeyinde mekanizma neden olur?
Farklı RPE kanalları anatomik olarak karşılık gelen ödül tahminiyle nasıl birleştirilir?
Bu beyin gizemlerinin daha iyi anlaşılması gerekiyor.
Ve bu araştırmanın sonuçları da önceki Dopamin dağılımının bağımlılık ve depresyon gibi ruhsal bozuklukların mekanizmalarına etkisi Hipotez.
Hem depresyon hem de bipolar bozukluğun gelecekle ilgili olumsuz duygular içerebileceğine dair teoriler var.
Bu duygular, gelecekteki olumsuz tahmin önyargısı ile ilgilidir ve önyargı, RPE kodlamasındaki28 ve 29'daki asimetriden kaynaklanabilir.
Ancak daha önemli olan, mevcut makine öğrenimi teknolojisinin gelişimini teşvik etmektir.
DeepMind Nörobilim Araştırma Başkanı Matt Botvinick, "Beyin tarafından kullanılan algoritmanın yapay zeka çalışmasında kullandığımız algoritmaya benzer olduğunu kanıtladığımızda güvenimizi artıracak." Dedi.
Bu makalede toplam 3 ortak yazar bulunmaktadır ve bu aynı zamanda disiplinler arası bir ekibin araştırma sonucudur.
İlki, DeepMind'de kıdemli araştırma bilimcisi Will Dabney.
Will DabneyAmerika Birleşik Devletleri Oklahoma Üniversitesi'nden lisans derecesi ile mezun oldu ve Massachusetts Amherst Üniversitesi'nden doktora derecesi aldı.
DeepMind'a katılmadan önce Amazon'un Echo ekibinde çalıştı.
DeepMind'a 2016 yılında katıldı.
İkinci ortak yazar, DeepMind'da bir araştırma bilimcisi olan Zeb Kurth-Nelson'dur.
Zeb Kurth-NelsonMinnesota Üniversitesi'nden doktora derecesi ile mezun oldu ve 2016'da DeepMind'a katıldı.
Üçüncü ortak yazar, moleküler ve hücre biyolojisi profesörü olan Harvard Üniversitesi'nden Naoshige Uchida'dır.
Naoshige UchidaAyrıca DeepMind kurucusu Hassabis de yazarlar arasında yer alıyor.
Her zaman yapay zeka alanındaki atılımların temel bilimsel problemlerin üstesinden gelmemize yardımcı olacağını ummuştur.
Mevcut araştırma, kendilerini adadıkları araştırma yönünün insanlara beyni incelemeye ilham verebileceğini ve bu da şüphesiz araştırma güvenlerini güçlendirdiğini buldu.
Bu makalenin Nature'da yayınlanması gibi, aynı dergide başka bir DeepMind çalışması yayınlandı.
Bilimsel keşfi hızlandırmak için yapay zeka kullanan bir sistem olan DeepMind tarafından Aralık 2018'de başlatılan AlphaFold.
Sadece proteinin gen dizisine bağlı olarak, proteinin 3 boyutlu yapısı tahmin edilebilir ve sonuç önceki modellerden daha doğrudur.
DeepMind, bunun bilimsel keşif alanındaki ilk önemli kilometre taşı olduğunu ve biyolojinin temel zorluklarından birinde önemli ilerleme kaydettiğini söyledi.
Şimdiye kadar, DeepMind AlphaGo'dan AlphaZero'ya, AlphaStar'a ve şimdi AlphaFold'a Alpha serisini tamamen Nature'da önerdi.
Ne yazık ki ... en iyi araştırma kurumlarının mutluluğu çok iddiasız ve sıkıcı.
https://www.nature.com/articles/s41586-019-1924-6
- Bitiş -
Qubit QbitAI · Toutiao İmzalı
Bize dikkat edin ve en son teknolojideki en son gelişmeleri alın