"LSTM'nin Babası", 4D karakterleri ile uzun bir makale yazmış, sırf anadilinin İngilizce olduğu yerde derin öğrenmenin icat edilmediğini dünyaya kanıtlamak için

Lei Feng.com AI teknolojisi inceleme notu: Derin öğrenmenin bugün dünyadaki teknolojinin gelişimini etkileyen en önemli teknolojilerden biri olduğuna şüphe yok. 2018'de, derin öğrenmenin "Üç Büyükleri" bu alandaki olağanüstü katkılarından dolayı Turing Ödülü'nü kazandı. İnsanlar yapay zekanın baharı başlattığını hissederken, bazıları "LSTM'nin Babası" Jürgen Schmidhuber'ın bu onuru paylaşamadığı için pişmanlık duyuyor. Aslında, LSTM'ye ek olarak, derin sinir ağları, evrişimli sinir ağları, denetimsiz öğrenme, kendi kendini denetleyen öğrenme, meta-öğrenme, bilgi damıtma ve karşıt nesil ağları gibi önemli teknolojilerin doğuşu, Jürgen ile ayrılmaz bir şekilde bağlantılıdır.

Son zamanlarda Jürgen, 1990'lardan beri derin öğrenme alanındaki büyük katkıları hakkında kişisel olarak bir makale yazdı. Jürgen'in dediği gibi, bilimsel araştırma için "gerçekten önemli olan tek şey araştırmanın kalitesidir." Belki yıllar sonra, insanlar tarihin bu dönemine dönüp baktıklarında, en önemli şeyin belli bir teknolojiyi kimin icat ettiği değil, teknolojinin insan uygarlığının gelişimi için en büyük değeri olduğunu anlayacağız!

Yaklaşık 20.000 kelimeyi anlamlı bir şekilde yazdıktan sonra, Jürgen şu sonuca vardı: "İngilizcenin hakim olduğu akademik çevreye baktığımızda, derin öğrenmenin resmi dilin İngilizce olmadığı yerde icat edildiği gerçeğini göremiyoruz." Bizim için Çin'deki insanlar (şu anda yapay zeka araştırmaları alanında İngilizce konuşulmayan en büyük bölge) bunun özellikle farkında görünüyor.

Jürgen ayrıca bahsetti:

Derin öğrenme, yapay zeka araştırmasının yalnızca küçük bir parçasıdır ve esas olarak pasif örüntü tanıma ile sınırlıdır. ... Ve yapay zekanın kendisi, evreni basit başlangıç koşullarından giderek daha anlaşılmaz bir karmaşıklığa iten daha büyük bir bilimsel arayışın yalnızca bir parçası. Sonunda, bu müthiş süreç bile mantıksal olarak mümkün olan tüm evrenlerdeki daha büyük ve daha verimli hesaplamalarda sadece bir düşüş olabilir.

AI Technology Review, Jürgen tarafından okuyucular için yazılan bu makaleyi derledi. Yazılar uzun ve çoğunlukla tarihi olduğundan, geçmişle ilgilenmiyorsanız, sadece içindekiler tablosuna bakabilir ve hızlı bir şekilde son "sonuç" bölümüne dönebilirsiniz.

Jürgen: Ekibimizin derin öğrenme (DL) sinir ağı (NN) teknolojisi, örüntü tanıma ve makine öğrenimindeki muazzam değişiklikleri destekledi. Günümüzde bu teknolojiler, akademi ve endüstride yaygın olarak kullanılmaktadır. 2020 yılına kadar, 30 yıl kadar erken bir zamanda 12 aydan kısa bir süre içinde yayınlanan bu devrimin arkasındaki birçok temel fikri kutlayacağız.O yıl, Münih'teki derin öğrenme endüstrisi olan 1990-1991 idi. Üniversitenin "Mucize Yılı"!

O zamanlar, çok az insan bu araştırma alanına ilgi duyuyordu, ancak çeyrek yüzyıl geçti ve bu fikirlere dayanarak tasarlanan sinir ağları, akıllı telefonlar dahil 300 milyondan fazla cihazda ortaya çıktı ve her gün kullanılıyor. Milyarlarca kez dünyadaki bilgi işlem kaynaklarının önemli bir bölümünü tüketir.

Aşağıda, bu makale derin öğrenme alanında 1990'dan 1991'e kadar olan önemli olayları özetleyecektir. Bu sadece meslekten olmayan kişiler için alana makro bir giriş sağlamakla kalmaz, aynı zamanda alanı iyi bilen uzmanlar da sağlar. Orijinal kaynaklara yapılan referansları değerlendirin. Ayrıca 1990-1991'de (Münih Teknik Üniversitesi, İsveç Yapay Zeka Laboratuvarı IDSIA ve diğer yerlerde) ortaya çıkan fikirleri daha da geliştiren daha sonraki çalışmalardan da bahsettik Bu makale ayrıca başkalarının bazı ilgili çalışmalarını da tanıtmaktadır. Bu yazının içeriği aşağıdaki gibidir:

  • 0. Yapay sinir ağlarında derin öğrenmenin araştırma geçmişi

  • 1. Denetimsiz ön eğitime dayalı ilk derin öğrenme cihazı (1991)

  • 2. Bir ağda kullanılmak üzere bir ağı sıkıştırın / damıtın (1991)

  • 3. Temel derin öğrenme problemleri (gradyan dağılımı / patlama, 1991)

  • 4. Uzun Kısa Süreli Bellek Ağı (LSTM): Denetimli derin öğrenme (temel fikir 1991'de doğdu)

  • 5. Rakip üretken sinir ağları aracılığıyla yapay merakın farkına varmak (1990)

  • 6. Öğrenme sürecini en üst düzeye çıkaran sinir ağları aracılığıyla yapay merakın farkına varın (1990)

  • 7. Denetimsiz veri modelleme için tartışmalı ağ (1991)

  • 8. Uçtan uca farklılaştırılabilir "hızlı ağırlık": Sinir ağlarını programlamayı öğrenebilen bir ağ (1991)

  • 9. Sinir ağı yoluyla sıralı dikkat mekanizmasını öğrenme (1990)

  • 10. Hiyerarşik pekiştirmeli öğrenme (1990)

  • 11. Tekrarlayan Sinirsel Dünya Modeli aracılığıyla Planlama ve Pekiştirmeli Öğrenme (1990)

  • 12. Ek sinir ağı girişi olarak hedef tanımlama komutlarını kullanın (1990)

  • 13. Sinir ağı girdisinin / evrensel değerin bir fonksiyonu olarak yüksek boyutlu ödül sinyali (1990)

  • 14. Deterministik strateji gradyanı (1990)

  • 15. Ağ / sentetik eğimi ayarlamak için ağı kullanma (1990)

  • 16. Çevrimiçi tekrarlayan sinir ağı için O (n3) zaman karmaşıklığı ile gradyan hesaplaması

  • 17. Derin sinir "ısı değiştirici" (1990)

  • 18. Doktora Tezim (1991)

  • 19. Denetimsiz ön eğitimden tamamen denetimli öğrenmeye (1995-1995, 2006-2011)

  • 20. Yapay zeka üzerine şaşırtıcı FKI serisi teknik raporlar (1990'lar)

  • 21. Sonuç

0. Yapay sinir ağlarında derin öğrenmenin araştırma geçmişi

İnsan beyninde yaklaşık 100 milyar nöron bulunur ve ortalama olarak her nöron kalan 10.000 nörona bağlıdır. Bu nöronlardan bazıları diğer nöronlara veri (ses, görme, dokunma, ağrı, açlık) sağlayan giriş nöronlarıdır. Diğer nöronlar, kasları kontrol eden çıktı nöronlarıdır. Çoğu nöron, düşündüğümüz yer olan girdi ve çıktı arasındaki işlemde gizlidir. Açıktır ki beyin, nöronlar arasındaki etkileşimin gücünü belirleyebilen bağlantıların gücünü veya ağırlığını değiştirerek öğrenir ve bu mekanizma aynı zamanda insanların yaşamında biriken deneyimi de kodlar gibi görünüyor. Yapay sinir ağımızın (NN) çalışma prensibi yukarıda bahsedilen insan sinir sistemine benzer.Konuşma tanıma, el yazısı rakam tanıma veya video tanımayı tamamlamak için önceki yöntemlerden daha iyi öğrenebilir, kaybı en aza indirebilir, Otonom araçlar gibi görevleri ve hatta faydaları en üst düzeye çıkarın.

Çoğu modern ticari uygulama, sinir ağlarının insan "öğretmenlerin" denetimli öğrenimini taklit etmesini sağlamaya odaklanır. Birçok deneyden sonra, Seppo Linnainmaa 1970 yılında gradyan tabanlı bir hesaplama yöntemi önerdi. Şimdi buna genellikle geri yayılma algoritması veya otomatik farklılaşmanın ters modu diyoruz Bu algoritma, belirli sinir ağlarını kademeli olarak zayıflatmak için kullanılır. Diğer bağlantıları aynı anda bağlayın ve geliştirin, böylece sinir ağının ve "öğretmenin" denetim sinyalleri ile davranışları giderek daha fazla benzer hale gelir (ilgili varyantlara bakın).

Günümüzde, en güçlü sinir ağları derin yapılara sahip olma eğilimindedir, yani birçok nöron katmanına veya sonraki birkaç hesaplama aşamasına sahiptirler. Bununla birlikte, 1980'lerde gradyan tabanlı eğitim yöntemleri derin sinir ağları için uygun değildi ve yalnızca sığ sinir ağlarında iyi performans gösterdi.

Bu tür bir "derin öğrenme problemi" en çok döngüsel sinir ağında belirgindir (ilk kez 1945'te gayri resmi olarak önerilen ve 1956'da resmi olarak önerilen RNN - bkz. İlgili varyantlar). Tekrarlayan sinir ağları insan beynine benzer, ancak daha kısıtlayıcı ileri beslemeli sinir ağlarının (FNN) aksine, RNN'lerin geri bildirim bağlantıları vardır. Bu yapı, RNN'yi herhangi bir uzunluktaki (örneğin, ses veya video) giriş dizilerini işleyebilen güçlü, çok yönlü ve paralel bir hesaplama modeli yapar. RNN, temelde dizüstü bilgisayarınızda çalışabilen tüm programları uygulayabilir. Genel bir yapay zeka sistemi kurmak istiyorsak, temelde yatan bilgi işlem temeli RNN'ye benzer bir yapı olmalıdır çünkü FNN temelde yetersizdir. RNN ve FNN arasındaki ilişki, genel amaçlı bir bilgisayar ile özel bir hesap makinesi arasındaki ilişki gibidir.

Özellikle, FNN'den farklı olarak, RNN temelde herhangi bir derinlikteki sorunları çözebilir. Bununla birlikte, 1980'lerde, erken RNN'ler aslında daha derin sorunları öğrenemediler. Bu eksikliğin üstesinden gelmeyi ve RNN'ye dayalı "Genel Derin Öğrenme" yi uygulamayı umuyorum.

1. Denetimsiz ön eğitime dayalı ilk derin öğrenme cihazı (1991)

Yukarıda bahsedilen "derin öğrenme problemini" çözmek için, ilk önce hiyerarşik bir RNN'nin (1991) denetimsiz ön eğitimi yoluyla derin RNN'de denetimli öğrenmeyi teşvik etmeyi düşündüm, böylece ilk "çok derin öğrenen" i gerçekleştirdim. Biz buna "Sinir Sırası Parçalayıcı" veya "Sinir Geçmişi Sıkıştırıcı" diyoruz. Her bir yüksek seviyeli RNN, daha düşük seviyeli RNN'de veri temsilinin açıklama uzunluğunu (veya negatif logaritmik olasılığını) en aza indirmek için tahmini kodlama tekniklerini kullanacaktır. Bunlar arasında, tahmine dayalı kodlama teknolojisi, önceki girdi verilen bir sonraki veri akışındaki bir sonraki girdiyi tahmin etmeye çalışır ve yalnızca öngörülemeyen veriler olduğunda sinirsel aktivasyon değerini günceller, bu nedenle şu anda yalnızca bilinmeyenler saklanır. şey. Başka bir deyişle, nöral sekans bloğu veri akışını sıkıştırmayı öğrenecek ve böylece "derin öğrenme problemini" yavaşlatacak, böylece standart geri yayılım yöntemleriyle çözülebilecektir.

O dönemdeki bilgisayarlar bugün aynı fiyata bilgisayarlardan bir milyon kat daha yavaş olsa da, 1993 itibariyle benim yöntemim daha önce çözülemeyen ve 1000'den daha büyük bir derinlikle "çok derin öğrenmeyi" çözebilir (daha fazlasını gerektirir 1000 sonraki hesaplama adımı, daha fazla adım, daha derin öğrenme derinliği). 1993'te, sinirsel tarih kompresörünün "sürekli" bir versiyonunu da yayınladık.

Bildiğim kadarıyla, dizi parçaları aynı zamanda farklı (kendi kendini organize eden) zaman ölçeklerinde çalışan RNN'lerden oluşan ilk sistemdir (aslında, tüm bu RNN'leri tek bir sistemde "damıtmak" için de bir yolum var. Tek bir zaman ölçeğinde çalışan derin bir RNN'de - ayrıntılar için bu makalenin 2. Bölümüne bakın). Birkaç yıl sonra, diğer araştırmacılar da çok zamanlı ölçekli RNN araştırma alanında ilgili çalışmaları yayınlamaya başladı (örneğin, ilgili çalışma ve Clockwork RNN).

Bu çalışmanın yayınlanmasından on yıldan fazla bir süre sonra, daha kısıtlayıcı bir ileri beslemeli sinir ağı için benzer bir yöntem önerildi Bu yöntem, yığılmış ileri beslemeli sinir ağlarının denetimsiz ön eğitimi yoluyla denetimli eğitimin performansını iyileştirir. , Bu yönteme Derin Güven Ağı (DBN) denir. 2006'da yayınlanan bu makalede, yazarın kanıtı, 1990'ların başında yığılmış RNN'm için kullandığım ispatla neredeyse aynıdır: her bir üst katman, açıklama uzunluğunu kısaltmaya çalışır (veya Negatif günlük olasılığı).

Denetlenmemiş ön eğitime dayalı yukarıda bahsedilen derin öğrenen önerildikten kısa bir süre sonra, "derin öğrenme sorunu" (ayrıntılar için Bölüm 3'e bakın), tamamen denetimli LSTM'miz tarafından da çözüldü (ayrıntılar için Bölüm 4'e bakın). Daha sonra, 2006 ve 2011 arasında, laboratuvarım denetimsiz ön eğitimden tamamen denetimli öğrenmeye çok benzer bir geçişi teşvik etti. "Mucize Yılı" ndan yirmi yıl sonra, bu sefer, daha az çok yönlü ileri beslemeli sinir ağı (FNN), tekrarlayan sinir ağlarından (RNN) ziyade kanser tespitinde ve diğer birçok problemde devrim niteliğinde uygulamalar doğurdu. Ayrıntılar için Bölüm XIX'a bakın.

Tabii ki, ileri beslemeli sinir ağları ile derin öğrenmenin kökeni daha önceki bir döneme dayanıyor. 1965'te Ivakhnenko ve Lapa, herhangi bir sayıda katmana sahip derin çok katmanlı bir algılayıcı için evrensel olarak uygulanabilir ilk öğrenme algoritmasını yayınladı. Örneğin, Ivakhnenko tarafından 1971'de yayınlanan bir makale, eğitim için oldukça alıntılanan bir yöntem kullanan ve 2000 yılına kadar hala yaygın olarak kullanılan 8 katmanlı bir derin öğrenme ağı önerdi. Bununla birlikte, Ivakhnenko ve onun halefleri tarafından 1970'lerde ve 1980'lerde önerilen derin FNN'nin aksine, derin RNN'miz genel bir paralel sıralı hesaplama mimarisine sahiptir.

1990'ların başına kadar, sinir ağları üzerine yapılan araştırmaların çoğu, 10'dan daha az sonraki hesaplama adımını içeren çok sığ ağlarla sınırlıydı ve bizim yöntemimiz, bu tür 1000 hesaplama adımını içeren ağların düzgün çalışmasını sağladı. Söylemek istediğim, sinir ağlarını çok derin hale getirmemizdir (özellikle tüm ağların en derin ve en güçlüsü olan RNN).

2. Bir ağda kullanılmak üzere bir ağı sıkıştırın / damıtın (1991)

Sinir geçmişi sıkıştırıcı hakkında yukarıda bahsettiğimiz makalede (Bölüm 1), ağın hiyerarşik bir yapısını da tanıttık (alt düzey ağa kıyasla, üst düzey ağ, alt düzey ağdan çok daha yavaş olma eğilimindedir. Bölüm 0'da bahsedilen engellere rağmen çok derin ağ öğrenme problemlerini çözmeyi öğrenmek için derin bir RNN'ye sıkıştırılmış bir zaman ölçeğinde çalıştırın. Bu bölümün içeriği, "bilinçli" blokları ve "bilinçaltı" otomasyonu tartışan ve bir sinir ağının bilgisini başka bir sinir ağına aktarmanın genel ilkelerini tanıtan Referansların 4. Bölümünde tanıtılmaktadır.

Bir "öğretmen" sinir ağı ve bir "öğrenci" sinir ağı olduğunu varsayalım. "Öğretmen" sinir ağı, diğer verilere göre verileri (koşullu beklentiler) tahmin etmeyi öğrendi. Daha sonra, "öğrenci" sinir ağını "öğretmen" sinir ağının davranışını taklit etmesi için eğitebilir ve "öğretmen" sinir ağının bilgisini "öğrenci" sinir ağına sıkıştırabiliriz (aynı zamanda öğrencinin sinir ağını önceden öğrenilen becerileri tamamlaması için yeniden eğitebiliriz. , Bu becerileri unutmasını önlemek için).

Bu işleme bir ağın davranışını diğerine "bölmek" veya "sıkıştırmak" diyorum. Günümüzde bu yöntem yaygın olarak kullanılmaktadır ve bazı araştırmacılar (örneğin, Hinton) bir "öğretmen" ağının davranışını "öğrenci" ağına "damıtmak" veya "klonlamak" olarak da adlandırmaktadır.

3. Temel derin öğrenme problemleri (gradyan dağılımı / patlama, 1991)

Arka planın 0. Bölümünde, derin öğrenmenin zor olduğuna işaret ettik. Ama neden bu kadar zor? Ana nedenlerden birini "temel derin öğrenme problemi" olarak adlandırmayı seviyorum ve ilk öğrencim Sepp Hochreiter 1991 yılında mezuniyet tezinde bu problemi ortaya attı ve analiz etti.

Bu makalenin bir parçası olarak Sepp, yukarıda tanıtılan "Sinir Geçmişi Sıkıştırıcı" (Bölüm 1) ve diğer RNN tabanlı sistemleri (Bölüm 11) uyguladı. Ek olarak, daha fazla iş yaptı - çalışması, derin sinir ağlarının şu anda meşhur olan "gradyan dağılımı" veya "gradyan patlaması" problemine hapsolduğunu resmen gösteriyor: tipik bir derin ağ veya döngüde Ağda, geri yayılan hata sinyali ya hızla bozulur ya da sınırın ötesine büyür. Her iki durumda da öğrenme başarısız olacaktır. Bu analiz, bugünün LSTM'sinin temel ilkelerini doğurdu (ayrıntılar için Bölüm 4'e bakın).

(1994'te, diğer araştırmacıların araştırma sonuçları temelde Sepp tarafından 1991'de yayınlanan gradyan dispersiyonu üzerine araştırma sonuçlarıyla aynıydı. Makale halka açık olarak yayınlandıktan sonra bile, bu makalenin referansının ilk yazarı da bir dizi makale yayınladı. (Örneğin) ve sadece 1994'te yayınlanan kendi makalesine atıfta bulundu, ancak Sepp'in orijinal çalışmasından bahsetmedi.)

Seppin makalesinin derin sinir ağlarında geri yayılım sorunlarına işaret etmesinden 20 yıl önce, benzer bir ada sahip bir öğrencinin (Seppo Linnanimaa) 1970deki makalesinde modern bir geri yayılım algoritması yayınladığını veya Otomatik farklılaşmanın ters modu denir.

4. Uzun-kısa süreli bellek ağı (LSTM): denetimli derin öğrenme

Uzun ve kısa süreli hafıza yanılsama sinir ağı (LSTM), Sepp tarafından 1991'de yayınlanan mezuniyet tezinde ortaya çıkan temel derin öğrenme probleminin üstesinden gelir (ayrıntılar için Bölüm 3'e bakın). Bence bu, makine öğrenimi tarihindeki en önemli makalelerden biri. Ayrıca, 1995 yılında yayınlanan teknik raporda aradığımız LSTM'nin temel ilkeleri (örneğin, sürekli hata akışı) aracılığıyla temel derin öğrenme problemlerini çözmek için önemli fikirler sağlar. Bu, aşağıda açıklandığı gibi birçok takip çalışmasını ortaya çıkardı.

Önümüzdeki yıl, LSTM'nin akran incelemesini ilk kez geçememesinin 25. yıl dönümünü kutlayacağız. 1997 yılında, hakemli yayınların (şu anda "Neural Computation" dergisinin tarihindeki en çok atıf alan makale) yayınlanmasından sonra, LSTM modeli ve eğitim süreci daha da geliştirildi. Bu çalışmalar İsviçreli işçiler tarafından yapıldı. İsviçre Akıllı Laboratuvar "IDSIA" LSTM Fonu tarafından desteklenen sonraki öğrencilerim Felix Gers, Alex Graves ve diğerleri bu çalışmaya katıldı.

Dönüm noktası niteliğindeki çalışmalardan biri, 1999 ile 2000 yılları arasında önerilen ve halen yaygın olarak kullanılan (örneğin, Google'ın Tensorflow'unda) unutulmayan kapılı "vanilya LSTM" mimarisi. LSTM'nin unutma kapısı aslında bir uçtan-uca farklılaştırılabilir hızlı ağırlık kontrolörüdür Bu yapıyı 1991'de de önerdik (ayrıntılar için Bölüm 8'e bakın).

Alex, konuşma alanına ilk başarılı LSTM uygulamamızın ilk yazarıdır (2004). 2005 yılında, tamamen zamana dayalı geri yayılım işlevine sahip (şu anda yaygın olarak kullanılmaktadır) ilk LSTM ve iki yönlü LSTM'yi piyasaya sürdük. 2006'da bir başka önemli kilometre taşı şuydu: Eşzamanlı hizalama ve sıra tanıma için eğitim yöntemi, "Bağlı Zaman Serisi Sınıflandırması" (CTC). 2007'den beri CTC, LSTM tabanlı konuşma tanıma için gerekli bir teknoloji haline geldi. Örneğin, 2015'te "CTC-LSTM" kombinasyonu Google'ın konuşma tanıma sisteminin performansını önemli ölçüde iyileştirdi.

2000'lerin başlarında, LSTM'nin geleneksel modellerin (Gizli Markov Modelleri gibi) öğrenemediği dilleri nasıl öğrenebileceğini açıkladık. Bu işin anlaşılması biraz zaman aldı; ancak 2016 ~ 2017'de Google Translate ve Facebook Translate, biri metin girmek için, diğeri çeviri çıktı almak için kullanılan birbirine bağlı iki LSTM temel alınarak önerildi. Bu modelin performansı önceki modele göre çok daha iyi.

2009 yılında ilk yazar olarak doktora öğrencim Justin Bayer, LSTM'ye benzer bir mimariyi otomatik olarak tasarlayan bir sistemi tamamladı. Sistemin bazı uygulamalardaki performansı "vanilya LSTM" yi aştı. Google, 2017'de benzer "Sinir Ağı Mimarisi Arama" (NAS) teknolojisini kullanmaya başladı.

2006'dan beri, ilk harf tanıma sisteminin yeteneklerini büyük ölçüde iyileştirmek için yazılım şirketleriyle (örneğin, LifeWare) yakın bir şekilde çalışıyoruz. 2009 yılında, Alexin çabaları sayesinde, "Bağlantılı Zaman Serisi Sınıflandırma" (CTC) teknolojisi ile eğitilen LSTM modeli ilk uluslararası yarışma oldu (ICDAR 2009 tarafından düzenlenen üç Unicom ilk harf tanıma yarışması (Fransızca, Farsça, Arapça) )) Kazanan RNN modeli. Bu, sektörün ilgisini büyük ölçüde çekmiştir.

Kısa süre sonra LSTM, dil, ses ve video dahil olmak üzere dizi verilerini içeren tüm görevlerde yaygın olarak kullanıldı. 2017 itibarıyla insanlar Facebook'un makine çeviri sistemini LSTM modeline (her hafta 30 milyardan fazla çeviri görevinin tamamlanması gerekiyor), Apple'ın 1 milyardan fazla iPhone'da çalışan "Quicktype" akıllı giriş yöntemine ve Amazon'un Alexa sesli asistanına dayalı olarak oluşturdu. , Google'ın ses tanıma (2015'ten beri Android cihazlarda yerleşiktir), resim yazısı oluşturma, makine çevirisi, otomatik posta yanıtı ve diğer sistemler. Amerika Birleşik Devletleri'ndeki "Business Weekly", LSTM'yi "en ticarileştirilmiş yapay zeka araştırma sonucu" olarak adlandırdı.

2016 itibariyle, Google'ın veri merkezinin bilgi işlem gücünün dörtte birinden fazlası LSTM için kullanılmıştır (buna kıyasla, "Convolutional Neural Network" adlı başka bir popüler derin öğrenme teknolojisi için yalnızca% 5 kullanılmaktadır. Ayrıntılar için Bölüm 19'a bakın). Google'ın 2019'da piyasaya sürülen yeni cihaz yerleşik konuşma tanıma (bu aşamada telefonunuzda yerleşiktir, sunucuda dağıtılmamıştır) hala LSTM modeline göre tasarlanmıştır.

Öğrencilerim Rupesh Kumar Srivastava ve Klaus Greff'in çalışmalarıyla, LSTM prensibi, Mayıs 2015'te önerdiğimiz, yüzlerce katmanlı çok derin FNN yapısına sahip ilk ağ olan "Otoyol" sinir ağını da doğurdu. Microsoft tarafından önerilen tanınmış ResNet (ImageNet 2015 yarışma şampiyonu programı), özel bir Karayolu sinir ağı örneğidir. Ancak, erken dönem Karayolu ağı, ImageNet'teki ResNet ile aşağı yukarı aynı performansı elde edebilir. Otoyol katmanı, genellikle doğal dil işleme alanında da kullanılır ve şu anda daha basit kalan katman düşük performansa sahiptir.

Ayrıca, "öğretmen" denetim bilgisi olmadan pekiştirmeli öğrenme (RL) teknikleri aracılığıyla LSTM modellerini eğittik (örneğin, doktora sonrası öğretmenim Bram Bakker'in 2002'de yayınlanan çalışması). LSTM'yi nöroevrim yoluyla da eğitiyoruz Örneğin, doktora öğrencim Daan Wierstra 2005'te bir çalışma yayınladı. Daan daha sonra DeepMind'ın 1 numaralı çalışanı oldu ve DeepMind'ın kurucu ortağı laboratuvarımdaki başka bir kişiydi. Doktora öğrencisi Shane Legg (Shane ve Dann, DeepMind'da yapay zeka makaleleri yayınlayan ilk bilgisayar bilimi doktoralarıdır).

Pekiştirmeli öğrenme ve LSTM'nin kombinasyonu büyük önem taşımaktadır. Örneğin 2019'da DeepMind, "StarCraft" oyununda (ki bu pek çok açıdan satranç ve Go'dan daha zor) profesyonel oyuncuları yendi ve "Alphastar" adlı resmi bir algoritma kullanıyorlar. Algoritmanın karar merkezi, pekiştirmeli öğrenme yoluyla eğitilmiş derin bir LSTM çekirdeğine sahiptir. OpenAI'nin "Dactyl" insansı manipülatörü ayrıca yoğun öğrenme yoluyla eğitilmiş LSTM çekirdeğini kullanır. "Öğretmenin" gözetimi olmadan hünerli bir robot elini kontrol etmeyi öğrenebilir. Aynı zamanda, "OpenAI Five" 2018'de de geçti Öğrenme, DOTA2 oyununda insan profesyonel oyuncuları başarıyla yendi.

Yukarıda belirtilen tüm sonuçların önemli temeli 1991 yılında atıldı. Daha sonra, Münih Teknik Üniversitesi'nde ve (daha sonra özel) İsviçre'deki Dalle Molle Yapay Zeka Enstitüsü'nde (IDSIA) ve 1990'larda ve 2000'lerin başında "Sinir Ağı Kışı" sırasında İsviçre, Almanya ve Avrupa Birliği'nden aldığım fonlar Kamu fonlarıyla finanse edilen ekibim, neredeyse hiç kimsenin sinir ağlarıyla ilgilenmediği bir çağda bu alanın canlılığını korumaya çalışan "LSTMCTC" ve diğer sonuçları da geliştirdi.

Burada Kurt Bauknecht, Leslie Kaelbling, Ron Wiliams, Ray Solomonoff gibi profesörlere özel teşekkürlerimi sunuyorum Fon başvurumla ilgili olumlu yorumları 1990'lardan beri SNF'den finansal destek almamda büyük ölçüde yardımcı oldu.

5. Rakip üretken sinir ağları aracılığıyla yapay merakın farkına varmak (1990)

İnsanlar yaşadıkları dünyayla etkileşime girdiğinde, eylemlerinin sonuçlarını tahmin etmeyi öğrenirler. İnsanların güçlü bir merakı vardır, tasarım deneyleri yoluyla yeni veriler elde edebilir ve bundan daha fazlasını öğrenebilirler. 1990 yılında, meraklı bir yapay zeka kurumu oluşturmak için, yeni bir tür aktif denetimsiz öğrenme (veya kendi kendine denetlenen öğrenme) algoritması önerdim. Yöntem, bir sinir ağının diğer sinir ağının amaç işlevini maksimize etmek için en aza indirdiği bir minimax oyununa dayanmaktadır. Şimdi, bu oyuna, daha sonra 1991'de önerdiğimiz yapay meraktan ayırmak için, denetimsiz iki düşman sinir ağları arasındaki düşmanlık merakı adını veriyorum (ayrıntılar için Bölüm 6'ya bakın).

Bununla birlikte, düşmanlık merakı nasıl işler? İlk sinir ağını, belli bir olasılıkla bir ortamı etkileyebilecek bir çıktı üreten bir C denetleyicisine çevirebiliriz. İkinci sinir ağı, dünya modeli olarak adlandırılır M. M, çevrenin C'nin çıktısına verdiği tepkiyi tahmin edebilir. Hatasını en aza indirmek için gradyan inişi kullanır ve kademeli olarak daha iyi bir öngörücü haline gelir. Bununla birlikte, bir "sıfır toplamlı oyunda", C'nin bulmaya çalıştığı şey, M'nin hatasını maksimize eden çıktıdır. Bu nedenle, M'nin kaybı C'nin kazancıdır.

Başka bir deyişle, C'nin amacı, üretilen veriler M'ye çok aşina olana ve sonunda "sıkıcı" hale gelene kadar, M'yi hala özgün hissettiren verileri üretmek için yeni çıktı veya deneyler üretmektir. Son yıllarda, lütfen bu ilkeye dayalı olarak araştırmacıların ilgili özetine ve genişlemesine bakın.

Bu nedenle, 1990 yılında, "üretken" ve "düşman" olmak üzere iki özelliği karşılayan denetimsiz (veya kendi kendini denetleyen) bir sinir ağımız zaten vardı (burada uzun bir süre sonra 2014'te ortaya çıkan terimi kullanıyoruz) , Sadece statik modeller için uygun olmakla kalmayıp, aynı zamanda kalıp dizisi ve hatta genel senaryolarda pekiştirmeli öğrenme için de kullanılabilen yeni veriler üretebilen deneysel çıktı üretirler.

Şu anki sıcak Adversarial Generative Network (GAN) (2010-2014), çevrenin yalnızca C'nin mevcut çıktısının belirli bir sete ait olup olmadığını döndürdüğü, çekişmeli merakın bir uygulamasıdır.

Ek olarak, lütfen unutmayın: Tartışmalı merak, GAN ve rakip öngörülebilirliğin en aza indirilmesi (ayrıntılar için Bölüm 7'ye bakın) yakından ilişkili kavramlardır. Ve bunlar, erken dönem rakip makine öğrenimi sorunlarından çok farklıdırlar. Erken dönemdeki rakip makine öğrenimi, ne denetimsiz sinir ağlarını ne de veri modellemeyi içerir ne de gradyan iniş yöntemlerini kullanır.

6. Öğrenme sürecini en üst düzeye çıkaran sinir ağları aracılığıyla yapay merakın farkına varın (1990)

Son zamanlarda, 1990'da önerilen çekişmeli merakla ilgili gelişmeleri özetleyen birçok inceleme makalesi olmuştur (AC1990, ayrıntılar için bkz. Bölüm 5). Burada, 1991'de yüzleşme merakına yönelik ilk büyük gelişmeye odaklanacağım.

Bu çalışmada, AC1990'ın dünya modeli M hatası (en aza indirilmesi gerekir, ayrıntılar için Bölüm 5'e bakın), C denetleyicisinin ödülüdür (maksimize edilmesi gerekir). Bu, birçok deterministik ortamda çok iyi bir stratejidir. Ancak, rastgele bir ortamda bu strateji başarısız olabilir. C, rastlantısallık veya hesaplama sınırlamaları nedeniyle M'nin her zaman yüksek tahmin hataları aldığı durumlara odaklanmayı öğrenebilir. Örneğin, C tarafından kontrol edilen bir ajan, aşırı derecede öngörülemeyen bir beyaz gürültü çalan bir TV ekranıyla karşılaştığında kayıp olabilir.

Bu nedenle, 1991'de belirttiğimiz gibi, rastgele bir ortamda, C'nin ödülü M'nin hatası olmamalı, sonraki eğitim yinelemelerinde M hatasının ilk türevinin yaklaşımı, yani M'nin iyileştirilmesi olmalıdır. . Bu nedenle, yukarıda belirtilen gürültülü TV ekranıyla karşılaşmak büyük hatalara neden olacak olsa da, C böyle bir ikilemde ödüllendirilmeyecektir. Hem tamamen öngörülebilir hem de temelde öngörülemeyen durumlar merakı ortadan kaldıracaktır. Bu tür bir düşünce, birçok yapay zeka bilimcisi ve sanatçısının takip çalışmalarını doğurdu.

7. Denetimsiz veri modelleme için tartışmalı ağ (1991)

Boulder, Colorado Üniversitesi'nde doktora sonrası araştırma görevlisi olduğumda, 1990 yılında hasım üretim ağları üzerine ilk çalışmamı yayınladıktan kısa bir süre sonra (ayrıntılar için Bölüm 5'e bakınız), denetimsiz bir düşmanca minimax ilkesi önerdim. Varyant. Sinir ağlarının en önemli görevlerinden biri, görüntüler gibi verilen verilerin istatistiklerini öğrenmektir.

Bu hedefe ulaşmak için, bir minimax oyununda gradyan iniş / yükselme ilkesini bir kez daha kullandım; burada bir sinir ağı diğer sinir ağının amaç işlevini maksimize etmek için en aza indirecektir. İki denetimsiz düşman sinir ağı arasındaki bu çatışmaya öngörülebilirlik minimizasyonu adı verilir (PM, 1990'larda önerilen). Sonrakilerden farklı olarak, PM, Denklem 2 inç gibi saf bir minimax oyunudur. İlgili inceleme makaleleri için bkz.).

PM ile ilgili ilk küçük deney yaklaşık 30 yıl önce, hesaplama maliyetinin şu anki maliyetin yaklaşık 1 milyon katı olduğu zaman gerçekleştirildi. Beş yıl sonra, hesaplama maliyeti 10 kat azaldığında, görüntüye uygulanan yarı doğrusal PM varyantının otomatik olarak sinirbilim alanında iyi bilinen özellik dedektörlerini (örneğin merkezden çevredeki dedektöre, çevredeki dedektöre) oluşturacağını gösterebildik. Dedektörün ortasına ve yöne duyarlı çubuk dedektörü).

8. Uçtan uca farklılaştırılabilir "hızlı ağırlık": Sinir ağlarını programlamayı öğrenebilen bir ağ (1991)

Tipik bir sinir ağının, nöronlardan daha fazla bağlantısı vardır. Geleneksel sinir ağlarında, nöronların aktivasyon değeri hızla değişirken, bağlantı ağırlığı yavaşça değişir. Başka bir deyişle, çok sayıda ağırlık kısa süreli hafızaya veya geçici değişkenlere ulaşamaz, sadece birkaç nöronun aktivasyon değeri bunu yapabilir. Hızla değişen "hızlı ağırlıklara" sahip geleneksel olmayan sinir ağları bu sınırlamanın üstesinden gelir.

Sinir ağının dinamik bağlantısı veya hızlı ağırlığı, 1981'de Christoph v. D. Malsburg tarafından önerildi ve diğer bilim adamları, örneğin bu konuda daha derinlemesine araştırma yaptılar. Bununla birlikte, bu yazarlar, gradyan iniş öğrenme yoluyla "hızlı ağırlıkların" depolanmasını hızlı bir şekilde değiştirmek için uçtan uca farklılaştırılabilir bir sistem kullanmadılar. Yavaş sinir ağının bağımsız hızlı sinir ağlarının ağırlıklarını kontrol etmeyi öğrendiği aşağıdaki sistemi 1991'de yayınladım. Diğer bir deyişle, depolamayı ve kontrolü geleneksel bilgisayarlarda olduğu gibi ayırıyorum, ancak bunu tamamen sinirsel bir şekilde yapıyorum (hibrit yol yerine). Bu tür bir düşünce birçok takip çalışmasını ortaya çıkardı, bazılarını aşağıda listeleyeceğim.

Bir yıl sonra, iki boyutlu tensör veya dış ürün güncellemeleri yoluyla hızlı ağırlıkların gradyan iniş tabanlı aktif kontrolünü önerdim (bu alandaki en son çalışmamızla karşılaştırılabilir). Motivasyonumuz, uçtan uca mikro denetleyiciler altında aynı boyuttaki standart RNN'lerden daha olası geçici değişkenler elde etmektir: O (H) 'den O (H ^ 2)' ye, burada H gizli birimlerin sayısıdır. 25 yıl sonra, diğer araştırmacılar da bu yöntemi benimsedi. Makalede ayrıca uçtan uca farklılaştırılabilir ağlarda "Dikkatin Dahili Spot Işıkları" nın öğrenme problemi açık bir şekilde tartışıldı. İlgili işler için lütfen dikkat öğrenme hakkında Bölüm 9'a bakın.

Ayrıca, 1987'den beri benim için önemli bir araştırma konusu olan meta-öğrenme veya "Öğrenmeyi Öğrenmek" için "hızlı ağırlıkların" nasıl kullanılabileceğini de açıkladım. 1992'den sonraki referanslarda, yavaş RNN ve hızlı RNN aynıdır: ağdaki her bağlantının başlangıç ağırlığı gradyan iniş yöntemiyle eğitilir, ancak yinelemeli bir döngüde her bağlantı Ağın kendisi adreslenir, okunur ve değiştirilir (O (log ^ n) özel çıktı birimleri aracılığıyla, burada n bağlantı sayısıdır).

Bağlantının ağırlığı hızla değişebilir.Bir anlamda, ağın bir "kendi kendine referans verme" etkisi vardır (hafıza etkisinin kendine bağlı olduğu zaman diğer kodlama koşullarından daha iyi olduğunu ifade eden bir bilişsel psikoloji kavramı). Teorik olarak, herhangi bir hesaplanabilir ağırlık değişim algoritmasını veya öğrenme algoritmasını çalıştırmayı öğrenebilir (ağın sahiplik değerine göre hareket ederek). Bu, 1990'larda ve 2000'lerde birçok takip çalışmasını doğurdu.

Sinyali denetlemek için bir "öğretmen" kullanmayan derin pekiştirmeli öğrenme (RL), hızlı ağırlıklardan da yararlanabilir (sistemin gücü farklı olmasa bile). Daha önceki doktora sonrası Faustino Gomez (şu anda NNAISENSE'in CEO'su) da bunu 2005 yılında, uygun fiyatlı bilgisayarların hızının 1990'lara kıyasla 1.000 kat arttığı zaman gösterdi.

Ayrıca bildiğim kadarıyla aynı yıl derin pekiştirmeli öğrenme alanında yaptığımız (ancak hızlı ağırlık kullanmadık) ilgili çalışma, başlığında "Derin öğren" ifadesini içeren ilk makine öğrenimi makalesi oldu (2005, kısaca Bundan sonra birçok kişi "derin öğrenmeyi" tartışmaya başladı).

Geçtiğimiz birkaç on yılda, çok kompakt kodlar aracılığıyla büyük sinir ağları için çok sayıda ağırlığın nasıl hızlı bir şekilde oluşturulacağını öğrenmek için çok sayıda başka yöntem yayınladık, örneğin: Burada, başarılı bir büyük ölçekli sinir ağının Kolmogorov karmaşıklığının veya algoritmadaki bilgi miktarının aslında çok küçük olabileceği kuralını kullanıyoruz.

Temmuz 2013'te "Sıkıştırılmış Ağ Arama" nın herhangi bir denetimsiz ön eğitim olmadan (ilk bölümün aksine) pekiştirmeli öğrenmeyi başarıyla kullanan ilk kişi olduğunu belirtmek gerekir. Yüksek boyutlu algı verilerine (video) dayalı olarak kontrol stratejilerini doğrudan öğrenen bir derin öğrenme modeli. Kısa süre sonra, DeepMind ayrıca yüksek boyutlu algısal girdi için derin bir pekiştirmeli öğrenme modeli geliştirdi.

Şimdi, hızlı ağırlıklara dayanan en ünlü uçtan-uca farklılaştırılabilir sinir ağı aslında 2000 yılında önerilen vanilya LSTM ağıdır (ayrıntılar için Bölüm 4'e bakın) Unutma kapısı, dahili LSTM nöronlarının kendi kendini kontrolünü kontrol etmeyi öğrenebilir. Hızlı döngüsel bağlantı ağırlığı. Bugün, tüm büyük BT şirketleri vanilya LSTM'yi yoğun bir şekilde kullanıyor. Benzer şekilde, bu modelin kökeni 1991 yılına kadar izlenebilir (ayrıntılar için bkz. Bölüm 4 ve Bölüm 8).

9. Sinir ağı yoluyla sıralı dikkat mekanizmasını öğrenme (1990)

Geleneksel sinir ağlarının aksine, insanlar kalıpları tespit etmek ve tanımak için sürekli göz hareketini ve seçici dikkati kullanır. Bu, geleneksel FNN'nin oldukça paralel yönteminden çok daha etkili olabilir. Bu nedenle, 30 yıl önce (1990 ve öncesi) sıralı dikkat öğrenme sinir ağlarını önerdik. Kısa süre sonra, RNN'de "dahili dikkat noktalarının" öğrenilmesini de açıkça önerdim (ayrıntılar için Bölüm 8'e bakın).

Bu nedenle, şu anda çok yaygın olarak kullanılan iki tür nöral ardışık dikkat mekanizması önerdik:

  • (1) (Gizli alanda) Sinir ağındaki çoğaltma birimi aracılığıyla elde edilen uçtan uca farklılaştırılabilir "yumuşak" dikkat;

  • (2) Pekiştirmeli öğrenme (RL) ortamında (gözlem alanında) uygulanan "sert" dikkat mekanizması.

Bu, birçok takip çalışmasını doğurdu.

CMSS 1990 5 glimpse 20 1990 Hinton glimpse ... 10

10. 1990

RL 1990 HRLHRL RNNstartgoal/ RNN startgoal

1990-1991 HRL 9

11. 1990

1990 RNN C MM C C M

1990 FKI 512131420

12. 1990

1990 SaccadeFovea 9

3 2 Fovea-Shifting

HRL 10 startgoal25 Tom Schauls DeepMind

POWERPLAY2011 IDE2015 intrinsic motivation

13. /1990

GVFadaptive critics 1990

14. 1990

1990 Augmenting the Algorithm by Temporal Difference Methods 2.4 1991

25 DeepMind Deterministic Policy Gradient algorithmDPG

15. /1990

1990 An Approach to Local Supervised Learning in Recurrent Networks

25 DeepMind (Synthetic Gradients)

16. O(n3)

1987 O(n^4) n O(n^3) Ron Williams

1987 GP Nichael Cramer 1985 GP 1980 Stephen F. Smith

1987 GP GP

17. 1990

NHE

1990 (Helmholtz Machine) Sepp Hochreiter 3 4

18. 1991

1991 1989 RLNeural Bucket Brigade HRL 10 C M 15 5

1990-1991 1987

1931 Kurt Gödel statement

1990 ICLR

Gödel 8

Gödel 8 1989

19. 1995-1995,2006-2011

1 1991 1000 3 LSTM 4

2000 LSTM 1991

2006 2010 RNNFNN2006 FNN FNN 1 2010 Dan Ciresan FNN

MNIST GPU FNN

IDSIA FNN CNN FNN 2010 1970 CNN

GPU CNN Ciresan 2011 CNN 2011 5 15 2012 9 10 4 ICDAR 2011 IJCNN 2011 0.56% 1.16% 1.69% 2012 5 ISBI 2012 9 10 ICPR CNN 1000

2011 20

LSTM 2009 4 2010-2011 2010 Arcelor Mittal GPU IT GPU

20. FKI 1990

1990-1991TU Munich 5 7 / 3 1 1 2 LSTM 4 8

9 8 11

2010 Facebook

FKI 10111318FKI

  • FKI-148-91 1

  • /FKI-148-91 2

  • FKI-207-95 48

  • FKI-149-91 6

  • FKI-147-91 8

  • FKI-128-90 9

  • FKI-128-90 FKI-129-90 12

  • FKI-129-90 10

  • /FKI-125-90 15

  • FKI-151-91 16

FKI-126-90

  • 11

  • / 13

  • 14

  • 5 7

FKI 1990

FKI 1992 David MacKay Neural Computation 1992 4 David

H

21.

  • 1965 1

  • 1970 0

  • 1970 1987

  • 1990 5 1980 1994

  • 1991 3 1991 1 LSTM 4

  • LSTM GPU CNN2011 19 2011 100 4

  • 1990 2017

learning to Learn 1987 19901987RNN 1989 Gödel Machine 2003

Oyuncu ağır patlamalara meydan okuyor, Di Lieba sevimli ve sevimli
önceki
AAAI 2020 kağıt kabul sonucu açıklandı, 997 makale reddedildi, ancak 388 kazandı?
Sonraki
Kaç ünlü sizi yanlış yere koydu? Öğretmen Gerçekten küpe takıyor mu?
Freetech, yerel ADAS tedarikçilerinden bir atılım olan Horizon ile el ele verdi
2019'da Pekin'deki güzel nehir ve göllerin listesi resmen açıklandı ve Tongzihe ve Kunyuhe listede yer aldı.
Büyük Çin dönemi, farklı mali güç
Mavi Gökyüzü Kardeşler hava kuvvetlerinin tarihinde parlıyor, yarım asır önce gökyüzünün gururu oldular, şimdi beyaz favoriler yüce hırslarını değiştirmiyor.
Yitu Technology CTO'su Yan Shuicheng: Görsel Hesaplama - AI Algoritması ve AI Chip
Her gün kayınvalidem bu sefer benimle tek bir pozisyonda, sebebi aslında bu
Çift 11 savaşı: İlk kim?
Eski Yaz Sarayı, ilk bronz canavar başı heykelini karşılıyor! Bu şekilde ev 159 yıl oldu
Eğlence endüstrisinin yüzüne vuran ünlüler Wang Leehom ve Li Zhiting daha çok ikizler gibiler.
Inanılmaz! Bunların fiyatı 10 yıldır artmadı ve bazılarının fiyatı düştü
Hong Kong medyası: Düzeltme amaçlı "Uçan Kaplanlar", "özel görev polisinin" ilk grubu olmayı ve mümkün olan en kısa sürede isyan kontrolüne katılmayı amaçlıyor
To Top