BAT kıdemli algoritma mühendisi "Derin Öğrenme" okuma serisi paylaşımı (1) | Paylaşım özeti

Leifeng.comun yapay zeka teknolojisi inceleme basını: "Derin Öğrenme", makine öğrenimi alanında gişe rekorları kıran bir kitap. Üç yazar, makine öğrenimi alanında ünlüler, GAN'ın yaratıcısı, Google beyin araştırma bilimcisi Ian Goodfellow ve sinir ağlarının kurucuları. Kuruculardan biri, Montreal Üniversitesi'nde profesör olan Yoshua Bengio (aynı zamanda Ian Goodfellow'un öğretmeni) ve Montreal Üniversitesi'nde sinir ağları ve veri madenciliği profesörü Aaron Courville'dir. Sadece yazar dizisine bakarak, bu kitabın derin öğrenmenin temel bilgileri ve ilkeleri hakkında en son yöntemlerle konuşabilmesi gerektiğini ve teknolojinin uygulanmasında birçok özel giriş olduğunu biliyorsunuz. Bu kitabın hedefi, sadece ilgili dallarda okuyan üniversite öğrencileri değil, aynı zamanda sektördeki araştırmacılar ve teknisyenler için problem çözme konusunda güvenilir rehberlik ve yeni fikirler sağlamaktır.

Okumaya başlasanız da başlamasanız da harika içeriğe sahip bu kadar iyi bir kitapla karşı karşıya kalan Leifeng.com AI Araştırma Enstitüsü, size birlikte tartışma ve geliştirme fırsatı sunmayı umuyor. Baidu ve Ali'de çalışan kıdemli algoritma mühendisi Wang Qiwen'i okuma deneyimini herkesle paylaşması için davet ettik.

Paylaşan: Kıdemli bir algoritma mühendisi olan Wang Qiwen, Baidu ve Ali'de çalıştı ve öneri sistemleri, dağıtma, veri madenciliği, kullanıcı modelleme ve sohbet robotlarında çalıştı. "Algoritma yolunda ilerleyin."

"Derin öğrenme" okuma paylaşımı (1) -Bölüm Bir Giriş

Herkese merhaba, bu sefer size söyleyeceğim "Derin öğrenme" Bu nispeten ünlü bir kitap. İçerik, toplam 20 bölüm ve 600'den fazla sayfayla nispeten büyüktür. Adım adım ilerleyelim, 1. Bölümün önsözünden bahsedelim. Bu bölüm esas olarak bazı temel girişler ve derin öğrenmenin bazı gelişim geçmişleri hakkındadır. New York Central Park'ın her yerinde çiçek açan açelyaların güzel bir manzara resmi olan bu kapağa bir göz atabilirsiniz. Yakından bakmak normal değildir. Bu arada, bu bilgisayar tarafından oluşturulmuş, tam olarak Google deepmind ekibinin bir başyapıtı Rüya Parkı. Aşağıdaki bağlantı MIT kitaplarının açık kaynak adresidir. İkinci adres, Zhang Zhihua'nın Peking Üniversitesindeki ekibinin katkıda bulunduğu Çince versiyonu. Bağlantıyı github'da da bulabilirsiniz.

Benimle ilgili olarak 11 yılda yüksek lisans ile mezun oldum, BAT'da 6 yıldan fazla çalıştım, sıradan bir mühendisim ve çok yüksek seviyem yok. Daha önce veri madenciliği, makine öğrenimi ve büyük veri yapıyordum.Geçen yıl derin öğrenme ile tanıştım ve daha çok ilgilendim.Alibaba Cloud'a transfer oldum ve yarım yıl sohbet robotu olarak çalıştım. Bu yüzden ben de acemiyim, çaylağım ve çok fazla gerçek savaş deneyimi yok ve yetenekleri ortalama. Bu paylaşım iyi konuşacağımı garanti etmeyecek ama elimden geleni yapacağım.

Neden paylaşmak istiyorsun Birincisi öğrenmek ve ikincisi bu paylaşımı kendime baskı yapmak için kullanmak, çünkü öğrenmede biraz tembelim (bu kitabın basılı versiyonu altı aydır satın alındı ve onu yiyemiyorum). Üçüncüsü, bu kitap aslında oldukça büyük ve 600 sayfadan fazla Gücüm tek başına yeterli olmayabilir, bu yüzden daha fazla insanın katılacağını ve paylaşacağını umuyorum.

Ayrıca internet çağında bilginin taştığı, gördüğümüz bilgilerin çok büyük olduğu, çok gibi göründüğü, ancak parçalanmasının kolay olduğu, hazımsızlığa yol açan bir sistem olmadığı vurgulanmaktadır. ve bu yüzden, Eğer bir tekniği gerçekten iyi öğrenmek istiyorsanız, tuğla çiğnemek en iyisidir Bu yöntem en aptalca ama en sağlam olanıdır. Bir teknolojinin ustalığını doğrulamanın basit bir yolu vardır ve bu da kaç kitap okumaktır. Ne kadar çok kitabı kemirirsem, temeli o kadar sağlam ve ufuk o kadar geniş.

Size uzun zamandır toplanmış bir resmi tanıtmama izin verin Bu resmi Github ana sayfama koyuyorum, kendime her zaman öğrenme yöntemine dikkat etmem gerektiğini hatırlatıyorum. Bu resim, ilk temas ve anlayıştan yaklaşık bir hafta sonrasına kadar yeni bir teknolojinin nasıl öğrenileceğini, farklı aktarım yöntemleri altında bilginin tutulma oranının ne olduğunu göstermektedir.

İlkine bakalım: şu anki durumunuz olan dinleme, siz dinlersiniz ve ben konuşurum. Bu tutma oranı sadece yaklaşık% 5, yani bugün dinledikten sonra, önümüzdeki hafta söylediklerimin yalnızca% 5'ini hatırlayabileceğiniz anlamına gelir, belki sadece birkaç kavram "derin öğrenme" veya birkaç resim koyarım, Bir gif koymak veya daha ilginç bir şey söylemek daha eğlencelidir, yalnızca bunları hatırlayabilirsiniz, bu tutma oranı yalnızca% 5; eğer onu dinlerseniz, kitabı okuyun, diğer video materyallerini izleyin, diğer insanların sunumlarını izleyin, o zaman Bu tutma oranı en iyi ihtimalle sadece% 30'dur; o zaman, aşağıdaki bölümü öğrenmek için inisiyatif alın.Öğrenmeyi bitirdikten sonra başkalarıyla tartışırsanız,% 50 olacak; o zaman kod yazmaya başlarsanız,% 75 olacaktır. Son olarak, şu anki pozisyonumun% 90'ı. Dürüst olmak gerekirse, bu adım oldukça zor (okumaktan, bilgi aramaktan, sindirmekten ve anlamaktan, ppt yapmaya kadar, her bölüm 4-8 saat, hatta daha fazla zaman alıyor) . Gerçekten derin öğrenmeyi öğrenmek istiyorsanız, bunu başkalarına kendiniz anlatmanızı öneririm. Elbette, katılmak ve birlikte paylaşmak en iyisidir (birine gül vermek, elinizde bir koku bırakmak) . (gülmek)

(Not: Başka bir boyut, Ebbinghaus unutma eğrisi iletişim bilgilerini gösterdikten sonra, 20 dakika ve 1 saat içinde% 58'e, bir hafta sonra% 25'e keskin bir şekilde düşecektir. Çok yüksek hissediyor, ayrıntıları kontrol edebilirsiniz)

Bu şeklin sağ tarafı kitabın yapı diyagramıdır. Bu kitap diğer kitaplarla aynı değil.Başta genel olarak her bölümün içeriğini ve bölümler ile bölümler arasındaki ilişkiyi anlatan bir resim verdim.Bu çok iyi ve genel bir bakış oluşturmamıza yardımcı oluyor.

Şekil üç bölüme ayrılmıştır: İlk bölüm matematiğin temelidir, bazı matematiksel temeller ve kavramlar ile makine öğreniminin temelini içerir. Matematik, doğrusal cebir, olasılık teorisi, bilgi teorisi, sayısal analiz ve az miktarda optimizasyon içerir.

İkinci bölüm, derin öğrenmenin temel algoritmasıdır. Bu algoritma, esas olarak, ileri beslemeli derin bir ağ olan DFN'den başlayarak ve daha sonra, düzenliliğin nasıl kullanılacağına ve nasıl optimize edileceğine doğru gelişen birkaç tipik sinir ağıdır. Ayrıca CNN'nin ileriye dönük besleme ağının bir uzantısı olan aşağıdaki bölümü de vardır: Aslında, RNN aynı zamanda ileri beslemeli ağdan türetilmiştir Tabii ki, CNN kesinlikle gerçek bir ileri beslemeli ağdır. Sırada, yazarın genellikle özetlediği bazı pratik deneyimler olan pratik metodoloji var.

Üç bölüm, doğrusal faktör modelleri ve kodlayıcıları içeren daha derin içeriktir. Bu kısım çok önemlidir, Hinton'un RBF'si ve birden fazla RBF'nin istiflenmesiyle oluşan ünlü DBN ile ilgilidir. Daha sonra, son zamanlarda ortaya çıkan temsil öğrenme, Monte Carlo yöntemi, yapısal olasılık modeli ve çok güçlü bir yüzleşme ağı oluşturan GAN adı verilen derin üretken model var.

Sağ üst köşe, bu bölümün içindekiler tablosudur. Aslında kitapta fazla içerik yok, kendi açıklamalarımdan bazılarını ekleyeceğim ve kitabın yapısını yeniden düzenlemeye eşdeğer, herkesin anlayabileceği şekilde ayarlayacağım, bu da bir yerelleştirme sürecidir.

Yeni yapı şu şekildedir: Birincisi, derin öğrenmenin ne olduğunu tanıtın; ikincisi, makine öğrenimi ile ilişki nedir; üçüncüsü, sinir ağlarının tarihi; dördüncü, derin öğrenme neden şimdi bu kadar popüler; beşinci, derin öğrenme bunu yapabilir ne. Genel fikir, belirli ayrıntılara girmeden yalnızca bazı algısal bilgilerden bahsetmektir. Daha fazlasını öğrenmek istiyorsanız, lütfen kitabı düzenli okuyun, bilgi edinin, tembel olmayın, tembel olmayın, tembel olmayın (bugün çalan tembel yarın iki kez geri ödenecek. Bu dönem, ders çalışmayanların cezalarını yoğunlaştırıyor).

Derin öğrenme nedir? Kitapta "Yapay zeka sistemi ham verilerden kalıpları çıkarma yeteneğine sahip olmalıdır" cümlesinden bahsetti, bu yetenek makine öğrenimi ile ilgilidir. Algoritmanın performansı, büyük ölçüde veri temsiline, yani makine öğreniminde ana yön olan "temsil öğrenme" ye bağlıdır.

Geleneksel makine öğrenimi nasıl çalışır? Temelde yapay olarak çıkarılan özelliklere dayanır. Örneğin, yaygın olarak kullanılan yöntemler arasında hepsi yapay deneyimle özetlenen SIFT, HoG, Harr dalgacık vb. Bu özellikler oldukça güçlüdür ve onlarca yıldır görüntü işlemeye hakimdir, ancak sorun şu ki, genişletmek uygun değildir. Derin öğrenme ile geleneksel makine öğrenimi arasındaki en belirgin fark, bu manuel çıkarma işlemlerinin otomatikleştirilmesidir.

Geriye dönüp düşünürsek, derin öğrenme nedir? Anladığım kadarıyla sarı yazı tipiyle işaretlenmiş kısım, geleneksel sinir ağından geliyor, yani bağlantıcılık (makine öğrenimi, aralarında bağlantısallık da dahil olmak üzere birçok yöntemi var). Geleneksel sinir ağı bağlantıcılığa aittir ve derin öğrenme Geleneksel sinir ağı yönteminin uzantısı bir uzantıdır. Aradaki fark, derin bir yapının kullanılması ve çok sayıda basit kavramın, karmaşık kavramları oluşturmak için katman katman soyutlanması ve aynı zamanda otomatik olarak keşfedip çıkarmasıdır. dağıtılmış Özellikler, dağıtılmış bir not var. Sonunda iyi bir model öğrendim. Derin öğrenme kavramı ilk olarak 2006 yılında Geoffery Hinton tarafından önerildi.

Derin öğrenmenin iki önemli özelliği, Birincisi, otomatik özellik çıkarımıdır ve geleneksel bilgi öğrenmedeki çok karmaşık özellik mühendisliğine artık ihtiyaç yoktur; ikincisi, esas olarak derin yapı yoluyla, katman katman soyutlamadır.

Bu resmin gösterdiği şey, temsil öğrenme ve farklı temsil öğreniminin ne tür bir performansa sahip olacağıdır.

Resimde iki kategori vardır, iki kategoriye karşılık gelen yuvarlak ve ters üçgen. Basit bir doğrusal model kullanılıyorsa, açıkça ayrılamaz. Ancak Kartezyen koordinat sisteminden kutupsal koordinat sistemine geçiş gibi belirli bir dönüşümden sonra, dikey bir düz çizgi çizmek kolayca ayrılabilir. Bu nedenle, problemin zorluğu, veri setinin temsil yöntemine göre değişir.

Bu resim, derin öğrenmenin sorunları derin yapı aracılığıyla nasıl çözdüğünü göstermektedir. Alt katman bazı piksellerdir, burada üç pikseldir, sadece üç renk alınır. Elbette bu resim biraz yanıltıcı ... Görünüşe göre sadece bu üç renk resim sınıflandırmasını tamamlamak için kullanılabilir, aslında öyle değil. Alt katman, alttan üste doğru tüm resme tekabül eder, bu hiyerarşik bir soyutlama sürecidir; ikinci katman, alt katmanın piksellerine dayalı olarak bazı çizgi parçaları veya daha karmaşık kenarlar oluşturmak için bağlanır ve ardından üst katmana. Katman, bir köşe veya bazı kontur çizgileri olan kısmi bir kontur oluşturur. Daha yüksek bir soyutlama seviyesinde, bir nesnenin bir parçası veya tamamı haline gelir ve sonunda, bunun yaklaşık olarak bir kişi olduğunu görebilirsiniz.

Bu sürecin söylediği şey, derin öğrenmenin bazı derin yapılar aracılığıyla katman katman soyutlandığı ve sorunun kılık değiştirerek adım adım basitleştirildiği.

Derin öğrenme olduğu için öncelikle sormalıyız, derinlik nedir ve bu derinlik nasıl tanımlanır?

Önce sağdaki resme bakın Bu, bir hesaplama görevinin sürecini açıklayan bir DAG grafiği olan hesaplamalı bir grafiktir. Aslında bu görev, lojistik regresyon adı verilen geleneksel makine öğreniminde bir yöntemdir.Örneğin, bir örnek girilirse, içindeki W1 ve W2 ağırlıkları ile çarpılan, çarpılan ve sonra toplanan iki özellik X1 ve X2 vardır. Ve sonra, esasen bir dönüşüm olan sigmoid aktivasyon işlevini ayarlayın. Bu basit hesaplama süreci, sadece bir açıklama yöntemi olan soldaki şema ile açıklanabilir; sağ da başka bir açıklama yöntemidir. Aradaki fark, sağ tarafın mantıksal bir kavram anlamında bir kavram olması, sol tarafın ise hesaplama adımlarının bir açıklaması olmasıdır.

Soldaki açıklamada, ağın derinliği 3'tür. İlk katmanın sayılmadığına dikkat edin. Sağdaki açıklama yönteminin yalnızca bir katmanı vardır. Kitap, hangisini beğendiğinize bağlı olarak bu iki kavramsal açıklamanın doğru olduğunu söylüyor. Normal şartlar altında, sağdakini kıyaslama olarak kullanırız. Mantıksal konsepte göre böldüğünüzde, alt bölümlere ayrılmaya devam edebilirsiniz, kriter girdi katmanının dahil edilip edilmeyeceğidir.

Bu resme bakın, bu geleneksel ağ olan girdidir.Nöral ağlar söz konusu olduğunda, temelde bu yapıdan, bir girdi, artı bir gizli katman ve bir çıktı katmanından bahsedecektir. Gizli katmanın birden çok katmanı olabilir. Bu giriş bazı yerlerde seviye olarak sayılmaz, bazıları sayılır, genellikle giriş sayılmaz, hatta iki katmanlı bir ağdır

Bu bölüm, derin öğrenme ve makine öğrenimi arasındaki ilişkiden bahsedecek. Derin öğrenme, makine öğreniminden elde edilir, ancak makine öğreniminden daha yüksektir. Resimdeki ikincisi makine öğrenimidir. DL, AI'nın önemli bir dalıdır ve AI'nın başka yöntemleri vardır. Bu, dallardan sadece biridir.

Geleneksel sinir ağları ile karşılaştırıldığında, derin öğrenmenin derinliği karmaşık ağ yapısına yansır. Peki karmaşık olan nedir? Genellikle 4 ila 5 katmandan fazladır, çünkü geleneksel sinir ağları 2 ila 3 katmandır, örneğin iki ila üç katmanı olan BP ağı gibi. Aşarsa, eğitilmesi zor olacak ve eğitilemeyecektir. Yani temelde Üst kat, çok fazla değil, sadece yaklaşık 4 ila 5 kattır.

Bu, çeşitli kavramlar arasındaki bazı mantıksal ilişkileri açıklayan bir Venn diyagramıdır. Bu nispeten sezgiseldir. Alttaki kırmızı kutu makine öğrenimidir ve temsil öğrenme adı verilen bir tür vardır, bu da öğrenmede başka bir derin öğrenme olduğu anlamına gelir, sadece böyle iç içe geçmiş bir ilişki.

Daha sonra bu resim farklı öğrenme yöntemlerini açıklar ve fark kompozisyon yapısına yansıtılır. En solda bir kural sistemi var.Biraz mantıksal akıl yürütme yoluyla öğrenme sürecini simüle etmesi ümit ediliyor.Bu en eski versiyon. Yapay olarak tasarlanmış, veri girişi yapan ve belirli kurallara göre çıktı alan bir programdır. Bu nispeten basit ve aslında ortada iki işlem var.

Ardından geleneksel makine öğreniminin bir sonraki adımına geçin. Aradaki fark nedir? Üzerinde bir özellik haritası vardır.

Sonra öğrenmeyi ifade etmeye gelin. Öğrenme yöntemi, biri solda ve diğeri sağda olmak üzere iki bölüme ayrılmıştır. Bir öncekiyle karşılaştırıldığında, özellik mühendisliği için çok fazla çaba harcanmıştır.Özellik mühendisliği çok karmaşıktır, deneyime dayanır ve çok fazla insan gücü yatırımı yapar. Derin öğrenme, bir tür temsil öğrenmesidir.Bunun temelinde bazı optimizasyonlar yapılmıştır.Bir değişiklik olarak kabul edilebilir.Fark, bu bölümün eklenmesinde yatmaktadır: otomatik özellik çıkarma.

Bu, tarihteki birkaç farklı öğrenme modelinin temel sürecindeki farktır.

Bu bölüm sinir ağlarının gelişim tarihinden bahsediyor. Kısacası, sinir ağının uzun bir ömrü vardır, üç dalgayı deneyimlemiştir, ayrıca üç iniş ve iki çıkış (Büyükbaba Deng üç artı ve üç düşüş) olarak adlandırılır. Bu üçüncü düşüş hala belirsiz Bazıları derin öğrenme nasıl azalabilir diye sorabilir. Bu mutlaka doğru değil Önceki iki dalganın zirvesinde herkes öyle düşündü. İlki yaklaşık 40 ila 60 yıl arasındaydı ve sibernetikte ortaya çıktı ve esas olarak bu kurallara dayanıyordu. Sibernetik çağında, ilk yapay nöron doğdu. Nöron şimdi olduğu gibi görünüyor, ancak sadece bir nöronun hiyerarşik bir yapısı yok, yani birden fazla girdi bir çıktı alıyor ve sonra bir çıktı üretmek için sigmoid gerekiyor, bu sadece bir nöron. O sırada nörondaki ağırlığın Yapay Ayarlamak. Daha sonra Hebb'in öğrenme yasası ağırlıkların öğrenilebileceğine işaret etti. Böylece algılayıcı geldi.Çok katmanlı yapıya ek olarak, önceki nöronla karşılaştırıldığında, ağırlık manuel ayardan otomasyona geçti. Algılayıcı ağ yapısı genellikle 2 ila 3 katmandır ve bu geleneksel ileri beslemeli ağdır. Ancak, algılayıcı doğduktan kısa bir süre sonra, MITin AI Labının kurucusu Marvin Minsky, bu yapının anahtarını keşfetti ve algılayıcıların iki temel sorununa işaret eden "Perceptron" adlı bir kitap yazdı. Birincisi, doğrusal olmayan basit problemlerin bile çözülemeyeceğidir.İkincisi, doğrusal olmayan problemler teorik olarak çok katmanlı bir ağ ile çözülebilir, ancak eğitilmesi zordur (o zamanlar temelde imkansızdı). Bu doğrusal olmayan problem, dijital mantıktaki özel OR geçididir. Kitapta XOR geçidinin sinir ağının yaşam kapısı olduğunu belirtti. Yeterince kesin, çünkü bu iki sorun algılayıcının kilit noktalarına işaret ediyordu, Marvin Minsky'nin güçlü etkisiyle birleştiğinde, birçok araştırmacı şehri terk etti ve sinir ağlarının yönünü terk ederek doğrudan ilk soğuk kışa yol açan kaçtı. Bu soğuk kış, yirmi otuz yıla kadar uzun bir süre sürer.

İkincisi, 1986 yılı, yani bağlantısallık çağıydı. 1974'te geri yayılma algoritması ilk kez önerildi, ancak soğuk bir kış olduğu için ciddiye alınmadı. 1986 yılına kadar Hinton BP algoritmasını yeniden icat etmedi. Etkisi kötü değildi, bu yüzden ikinci yükselişi başlattı ve herkes yeniden başladı. Sinir ağlarını inceleyin. Sonra yeni bir model çıktı, yani Vpnik'in destek vektör makinesi (PGM de doğdu. Bu isim çok tuhaf görünüyor, neden "makine" kelimesi var? Çünkü "makine" ile sinir ağı çok popüler, Bu kelime daha iyi yayın için eklenmiştir). Yaklaşık kara kutu BP ile karşılaştırıldığında, SVM teorisinin çok güzel olduğu kanıtlanmıştır. Dahası, destek vektör makinesi küresel optimal çözümdür, sinir ağı ise yerel optimal çözümdür. Bu nedenle, BP, SVM tarafından yenilir (SVM olarak da bilinir) Revenge), sinir ağı ikinci soğuk kışa girdi.

Üçüncü kez 2006 yılındaydı. Hinton on yıldan fazla bir süre bankta oturdu ve büyük bir konsantrasyonla sinir ağları üzerinde çalıştı. Son olarak, otomatik kodlama ve RBM'yi önerdi. Ağın başlangıç ağırlıkları artık rastgele değil, ön eğitimle birlikte daha yüksek bir başlangıç noktasına sahip. Ve ince ayar, çok katmanlı sinir ağının eğitim problemini çözdü ve derin öğrenmenin resmi doğumuna işaret eden derin öğrenme konseptini önerdi (Hinton hak edilmiş patriktir). Bu çılgınlık günümüze kadar devam etti.Yangın on yıldan fazla bir süredir yanıyor ve gittikçe daha başarılı hale geldi ve hatta makine öğrenimi bile ortadan kalkmak üzere. Ne zaman çıkacak? Bu gerçekten net değil. . . .

Tarih kitabının bu bölümünde kısa bir giriş de var, bu resme bakıldığında kabaca üç aşamaya ayrılıyor. Bunu herkes için daha sezgisel hale getirmek için başka bilgiler buldum.

Alttaki resim bir sinir ağının bilgisayar simülasyonudur.Farklı ağları bağlamak çok karmaşık ve karmaşık görünüyor. Ancak ne kadar karmaşık olursa olsun basit nöronlardan oluşur. Bu bir nöron, bazı biyolojik terimler, bu kavramlar da herkes için açık. Temel kısım, nöronların sinapslar arasında bir nörondan diğerine bilgi iletmesidir. İki nöron arasında potansiyel bir fark vardır.Belirli bir eşiği aştığında, kimyasal sinyaller, nörotransmiterler salar. Bir nörondan diğerine bilgi aktarımı süreci.

Bu süreci simüle etmek için matematiksel bir model kullanılabilir mi? Bu başka bir basitleştirmedir, yani üç nöron uyaranı bir nörona iletilir ve birikimden sonra potansiyel fark değişir ve sonra iki sonuç ortaya çıkar, biri heyecan, diğeri inhibisyondur ve iki durumdadır. Daha aşağıya bakmak, bilgi alma ve iletme sürecidir. Bir göz atabilirsiniz.

Ardından, nöronların yapısını simüle eden matematiksel model geliyor. Elipsin bu kısmı bir nörondur ve üzerinde N bağlantısı vardır.Her bağlantının gücü farklıdır, nöronun kalınlığına karşılık gelir; yani W1j'nin içindeki Wij ağırlığına karşılık gelir ve sonra bir birikim gerekir. Toplama, artı uyarma işlevi işleme ve ardından bir eşik belirleme ve ardından çıktı alıp almayacağına karar ver.

Bu matematiksel modeldeki en temel simülasyondur ve sonra böyle bir formüle dönüşür.

Şimdi geçmişinin bir kısmına bakın. Bu resim, kitaptaki resimden daha detaylı.

Bu üç çılgınlıktan ilki, algılayıcının doğduğu 58 yıldı ve bu ilk yükselişti; ikincisi BP ağlarının doğuşuydu; üçüncüsü, Yann LeCun ve Hinton tarafından önerilen CNN ve DBN'nin doğuşuydu. Üçüncü yükselişe yol açan. Ağ yapısındaki fark, ilki tek bir nöron, tek katmanlı bir sinir ağı ve ortada bir BP var.BP süreci, bundan daha karmaşık olacak 2 ila 3 katman ekler ve sonunda derin öğrenme. Önceki 2 ila 3 katmandan çok daha fazla katmanı var.

Bu resimden, her dönemde kimin olduğuna karşılık gelebiliriz. İlk bölüm bazı mantıksal akıl yürütme yöntemlerine dayanmaktadır.Bir nöronun ilk doğuşu, ikisi tarafından önerilmiştir, MP modeli (bunun çok katmanlı bir algılayıcı olmadığını, ancak MP olarak adlandırılan iki ismin kısaltmasının daha doğru olduğunu unutmayın), bu çözülebilir Ve ya da değil, popüler sibernetik altında elektronik beyinler çağı. Yaklaşık 57 yıl sonra, algılayıcı MLP doğdu. Bir öncekinden farkı, çok sayıda nörona sahip olmasıdır. W1 ve W2 ağırlıkları otomatik olarak eğitilebilir (Hebb öğrenme kurallarına göre). Burada XOR adında bir sorun var, XOR kapısı, XOR işlemi, bir tür mantık işlemi, benzer şekilde AND veya NOT var, ancak XOR'un doğrusal bir modelle çözülmesi zor olabilir. Bu özel OR kapısı, sinir ağının yaşam kapısıdır. Resmin solundaki kişi Marvin Minsky ve kitabı doğrudan ilk soğuk kışa neden oldu.

Sonra, orijinal BP sinir ağını kullanan çok katmanlı bir algılayıcı vardır. Bu, BP sinir ağının doğduğu 1974 civarındaydı. O zamanlar, Amerika Birleşik Devletleri ve Sovyetler Birliği sinir ağlarıyla ilgili araştırma fonlarını geri çekti ve birçok dergi sinir ağı makalelerini bile kabul etmedi, bu nedenle BP ağının doğduğunda hiçbir etkisi yoktu.

Sırada BP'yi yeniden tasarlayan Hinton var. Daha sonra, bir sonraki adım, destek vektör makinesinin doğuşu ... Bunun küresel olarak en uygun çözüm olduğunu ve sorunun çözümünün BP'den daha güzel göründüğünü, bu nedenle şu anda ikinci soğuk kış geldi. Resimdeki süreç şu andaki genel süreçle aynı.

Birkaç aşama vardır, birincisi tek katmanlı bir ağ, ikincisi iki katmanlı ve üçüncüsü çok katmanlı. Bu üç katmanlı ağlar, aktivasyon işlevi, özel OR problemi ve karmaşık problem açısından farklıdır. Tek katmanlı bir ağ gibi, sadece iki durum olduğu için, bir aktivasyon veya inhibisyon, sembolik bir fonksiyondur Fonksiyonun değeri 1 veya -1'dir. Özel OR fonksiyonu karmaşık problemleri çözemez.

İki katmanlı bir ağ söz konusu olduğunda, yapısı öncekinden daha karmaşıktır ve etkinleştirme işlevi artık sembolik bir işlev değil ve ortada bir sigmoid olarak değişmiştir. Şu anda, XOR sorunu çözülebilir, ancak karmaşık sorun çözülemez. Çok katmanlı ağda, yani mevcut derin öğrenmede, aktivasyon işlevi esas olarak ReLU'dur, bu önceki sigmoidden daha basittir, özel OR problemi çözülebilir ve karmaşık problemler de çözülebilir.

Dolayısıyla, derin öğrenme modelindeki aktivasyon işlevi, sigmoid yerine esas olarak ReLU'dur. Aslında, ReLU uzun zaman önce, muhtemelen 1980'lerde ve 1990'larda ortaya çıktı, ancak insanlar sinir ağı aktivasyon fonksiyonlarını seçtiklerinde paranoyak bir batıl inanç vardı.Sigmoid gibi bir aktivasyon fonksiyonu matematiksel modellerde türetilebilir, sürekli ve güzeldi. Ve ReLU açık bir şekilde sıfır noktasında ani bir değişim, sorunlu ve yönsüz, bu yüzden pek hoş görünmüyor. Erken ortaya çıkmasına rağmen pek kullanılmadı, daha sonra derin öğrenme konusunda yapılan birçok eğitimden sonra etkisinin sigmoidden çok daha iyi olduğu, çünkü sigmoidin büyük bir problemi, doygunluğu olduğu ve pozitif sonsuza veya negatife gittiği tespit edildi. Sonsuzluğun iki yönüne bakıldığında, fonksiyon değeri 1 veya -1'e yakın ve yanıt yok.Sadece 0'a yakın değere duyarlı. Çok büyük veya çok küçük noktalar için çok sakin ve onu görmezden geliyor. Bu doygunluk problemidir. Aslında, maliyet fonksiyonunun gradyanı, öğrenmenin yönünü yönlendirmek için yeterince büyük ve tahmin edilebilir olmalıdır ve doygunluk fonksiyonu bu hedefi yok eder. Sigmoid, küçük veriler üzerinde iyi performans gösterir, ancak büyük veri kümeleri için iyi değildir.ReLU, sistem tanıma performansının iyileştirilmesi ve biyoniklerin doğası nedeniyle (nöron sinyalinin ilkesi), büyük veri kümeleri durumunda, gizli katmanlardan bile daha önemli olan büyük güç gösterir. Ağırlıklar.

Şu anda ağ yapısında bir değişiklik oldu Bu, transistörde, yani hesaplama gücünde ve ayrıca doğrudan derin öğrenmenin yükselişine yol açan veri ve algoritmaların üç faktörüdür.

İlk faktör, hesaplama gücüdür. Hesaplama gücü esas olarak donanım katmanındadır.Tek katmanlı sinir ağı, transistör çağındadır ve veri miktarı nispeten azdır.Öğrenme algoritması temel basit muhakemedir; iki katmanlı sinir ağı söz konusu olduğunda, esas olarak CPU tarafından hesaplanır. Miktar yaklaşık bin ila on bin arasında, veri miktarı hızla artıyor ve algoritma esas olarak BP kullanıyor. Çok katmanlı ağlar söz konusu olduğunda, esas olarak kümeler veya GPU'lar aracılığıyla olur ve şimdi bile daha gelişmiş TPU'lar vardır ve veri miktarı da hızla genişlemektedir. Eğitim yöntemi BP'den farklıdır. Burada aşırı uyumu önlemek için ön eğitim ve bırakma kullanılır.

Bu üç farklı aşamada, ağ yapısı, hesaplama gücü ve veri hacmi algoritmaları farklıdır.

Şimdi derin öğrenmedeki daha güçlü tanrılar hakkında konuşmama izin verin. Hinton kesinlikle bu alanın atası; Yann LeCun esas olarak CNN'e çok katkıda bulunuyor; Bengio esas olarak RNN'de. Ayrıca bir kişinin Ürdün olduğundan bahsediliyor, yakın zamanda Ali'ye katılmış gibi görünüyor Sağdaki kadın, olasılık grafikleri (destek vektör makineleri ile ortaya çıkan) çalışmasında uzmanlaşmıştır. Bir de Wu Enda var, esas olarak bu dört kişi (doğru olması gerekmez, ancak dört kral ve göksel kralları çağırmak daha kolaydır, O (_) O haha ~).

Derin öğrenmenin popülaritesi ile endüstri, yetenekler için rekabet etmenin yollarını düşünüyor. İsimlerini bildirebilecek tüm büyük tanrıları araştırdılar. Resimdeki bu büyük tanrılar birer birer suya düştüler ve çalışmak için sektöre gittiler. Bu Bengio her zaman tarafsız bir durumda olmuştur, ancak son haberler o da sektöre katılmış gibi görünüyor. Bu kitabın yazarı, GAN'ın mucidi Ian Goodfellow ve öğretmenidir Bengio.

Ayrıca word2vec ve fasttext'i, Li Feifei ve Gaotu andrej karpathy'yi icat eden büyük tanrıların birçok öğrencisi de vardır. . .

İlişki karmaşıktır, ancak sayılan yalnızca birkaç kişi vardır ve "soy içi çiftleşme" olgusu ciddidir.

Bu bölüm, ileri beslemeli ağların bazı temel yapılarına kısa bir giriş niteliğindedir. Ağlarının her biri aslında belirli bir karmaşık işlevi simüle eder ve amacı, her bağlantı katmanındaki ağırlığı öğrenmektir. Ağırlık daha iyi bir duruma ulaşmıştır, bu da işlevin daha iyi bir yaklaşıma ulaştığı anlamına gelir. Kitap bir noktayı vurguluyor: Sinir ağı amaç değil, beynin mükemmel simülasyonu için değil, sadece bir fonksiyon yaklaştırma makinesine benzer istatistiksel bir genelleme yapmak içindir. . İnsan beyni çok karmaşık olduğu için, mevcut ağ yapısı insan beyninin durumundan uzaktır.

Temelde iki iyi bilinen ağ yapısı vardır: Birincisi ileri beslemedir, bu da bilginin bir katmandan diğerine geriye bakmadan aktığı anlamına gelir (hatanın geri yayılmasını saymaz). Örnek olarak CNN'i ele alalım; ikincisi geri bildirimdir, bu sefer giriş olarak son eğitimin durumunu bırakın, ileriye doğru ilerlemenin bir uzantısıdır ve özellik, son eğitim sonucunun eğitim sırasında kullanılacağıdır. , Ve sonra eğitimin bir sonraki adımına karar verin. Tipik bir örnek, yürürken geriye bakan ve gülümseyen ve ilerlemeye devam eden RNN'dir.

Derin öğrenmenin yükselişinin üç nedeni vardır: Devasa veriler, bilgi işlem gücü, algoritma atılımı . Algoritmada birkaç RBM ve BP vardır. Bu, BP'nin optimize edilmiş bir versiyonudur.Ayrıca bazı eğitim yöntemleri önceden eğitim ve bazı aktivasyon işlevi değişiklikleri de vardır.

Bu resim verilerle ilgili. İlk makine öğreniminde sıklıkla bahsedilen Iris veri seti bu yerde sadece küçüktür; daha sonra MNIST'e göre büyüklük yaklaşık 10 üzeri 4. kuvvet; sonra ImageNet için sonunda büyüyor ve büyüyor, yani şimdi Derin öğrenmenin karşılaştığı sorunlar öncekinden çok daha karmaşık olacak ve veriler çok daha karmaşık olacak.

Bu bir MNIST örneğidir. Hinton, onu makine öğrenimi dünyasında bir meyve sineği olarak tanımladı, tıpkı sayısız meyve sineği pahasına biyolojik bir deneyde bazı genetik deneyleri incelemek gibi. CNN bunu genellikle bir uygulama olarak kullanacaktır.Bu, CNN'de bir helloworddur (ileri beslemeli sinir ağının helloword dünyası bir XOR problemidir).

Bu, donanım performansının iyileştirilmesiyle modelin karmaşıklığının gittikçe artmasıdır. Bu modelin karmaşıklığı, beynin karmaşıklığına benzer: Bir meyve sineğinin beyni, aslında memelilere kıyasla o kadar karmaşık değildir. Yani beyin ne kadar karmaşıksa bağlantı sayısı da o kadar artar. Meyve sinekleri büyüklük bakımından nispeten küçüktür, ancak memeliler nispeten uzundur. Elbette, insanlar en uzun ve insanlardan daha gelişmiş yaratıklar olabilir, ancak biz bunu bilmiyoruz (Prometheus gibi?).

Şimdi zaman geçtikçe, sinir ağı temelde her 2,4 yılda bir ikiye katlanarak yükseltilmeye devam edecek. En güçlü sinir ağıyla bile, bilgi işlem gücü kurbağa kadar iyi değil . (Baidu'nun beyninin 2-3 yaşındaki bir bebeğin seviyesine ulaştığı söyleniyor)

Bir sonraki adım, sinir ağının yapabilecekleridir.Şu anda çok geniş bir uygulama yelpazesine sahiptir, bunlar temelde görüntülere, sese, metinlere, oyunlara, insansız sürüşe vs. bölünmüştür. Herkes çok dinler.

Örneğin görüntü alanında bir görüntü verin, makinenin görüntüdeki insanlar, bisikletler, taşlar vb. İçeriği tanımasına izin verin, her sonuç belirli bir derecede güven verir. Görüntü alanı, derin öğrenmenin en güçlü alanıdır ve geleneksel yöntemler temelde başarısız oldu ve tepetaklak oldu. Ses ikinci, NLP en zor, NLU'nun anlaşılması kolay değil ve hala değişim sürecindedir.

Bir başka örnek ise biraz daha eğlenceli, küçük bir hedef ve yüz milyon belirleyen ulusal koca ve Wang Jianlin, hangi kişinin resme dayandığını belirleyebiliyor. Estetik ameliyattan sonra yüzleri aynı görünen ünlüler de var, ancak Wang Luodan ve Bai Baihe gibi makine tanıma ile ayırt edilebilirler.

Burada, görüntü alanındaki uygulama ilerlemesine odaklanıyoruz. Bu, kedi ve köpek tanıma örneği için derin öğrenmenin ilk versiyonudur, burası çok sınıflandırmalı bir yerdir.

AlphaGo ve CNN ile uygulanan bir oyun olan Flappy Bird de var.

Görüntü tanımanın tarihçesi. Kronolojik sıraya göre sağdan sola, tanıma hatası oranı 2010'dan beri kademeli olarak azaldı ve 2012 civarında çok büyük bir düşüş oldu. Bunun nedeni, Google'ın ilk kez derin öğrenmeyi (CNN) kullanması ve bu da doğrudan yaklaşık 10 puanlık bir düşüşe neden olmasıdır. 2014 yılında Google'ın yeni CNN sürümü hata oranını% 6,7'ye düşürdü. 2015 yılında Microsoft'un artık ağındaki hata oranı% 3,57'ye düştü. Sayısal bir bakış açısından, büyük bir fark yok gibi görünüyor, ancak bir yandan iyileştirme için alan ne kadar yüksekse, zorluk o kadar küçük ve daha büyük. İkincisi, bir dönüm noktası var. İnsan hatası oranı% 5,1. % 3,57 aşıldı, bu nedenle bu bir dönüm noktası olayı. Burada kullanılan veri seti Li Feifei'nin açık kaynak veri seti ImageNet'tir. 2016 ImageNet yarışmasında Çin takımı tüm şampiyonaları kazandı ve bu yıl bazı şampiyonluklar kazandı. Görüntü tanıma alanında iyileştirme için fazla yer yok, bu yüzden bu rekabet bu yıldan sonra durdu ve belki de iyileştirme için yer yok.

Bu, bazı süper ağların bir diyagramıdır. En eskisi 8 katmanlı bir ağdır. 19. kata ve ardından 22. kata ulaştığında, göz kamaştırıcı ve belirsizdir. Bu PPT, Ulusal Tayvan Üniversitesi'nden Li Hongyi'den, bulabilirsin.

Hepsi bugün paylaştığım için, teşekkürler!

(Bitiş)

Leifeng.com AI teknolojisi yorumu, metni paylaştığınız, düzeltdiğiniz ve tamamladığınız için teşekkür ederiz!

WeGame'in Monster Hunter World yayınlanmasından önce bilmeniz gerekenler
önceki
Vivo, daha genç ve daha moda olan yeni bir marka imajını yayınladı ve dünya çapında 18 ülke ve bölgede piyasaya sürülecek
Sonraki
Oyun telefonları sözde talep haline geldi, yerli üreticiler kendilerini kullanmak için neye güveniyorlar?
"Sektörün Etkin Noktası" Zhang Zhongmou: TSMC, Amerika Birleşik Devletleri, Çin ve Japonya'dan gelen zorluklarla karşı karşıya
Amazon Echo Aile Tarihi-Bölüm II: Google'ın Stratejik Atılımı ve Keskin Saldırısı
2017 Çin yıldızı gelir sıralaması açıklandı. Yang Yang'ın oyunculuk becerileri 240 milyon yuan kazanabilir ve ayrıca PK'de Lu Han'ı kaybedebilir.
"Büyük Fon" Huada Jiutian'ın hisselerini satın aldı ve yerel EDA liderlerinin üçüncü en büyük hissedarı oldu
Erkek Takımda Hayatta Kalma Vahiy: "Kukla Eğitimi" nin birinci yıl dönümünde, bazı insanlar ünlü oldu ve bazıları "kar gizliydi"
Şimdi ya da asla! Yılbaşında kaçırılmaması gereken "makine avantajları"
Müzayede tarihindeki en büyük tuzlu balık siparişini sattım ama aslında her yerde çukurlar var ...
Beş yıllık dönüşüm birkaç sonuca ulaştı: Banka neyi kaçırdı ve neyi yanlış yaptı?
Donarak ölüme, sıcağa ölüme, boğulma, açlık! Jackie Chan'ın yeni filmi yine dövüşüyor Luo Zhixiang ve Ouyang Nana olay yerinde korkuyor
Game of Thrones 8'in ilk bölümü yaklaşık 60 milyon izlenmeye sahip. "Iron Throne" u kim öldürecek?
Yüksek Hızlı ve Düşük Gecikmeli Viterbi Kod Çözücünün Tasarımı ve Uygulanması
To Top