Heavy | Hinton, LeCun, Bengio ortak imzalı derin öğrenme incelemesi

Kaynak: Derin Öğrenme Dünyası

Bu makale toplam 10.000 kelimedir. 10 dakikadan fazla okumanız tavsiye edilir.

Bu makale, derin öğrenmenin temel ilkelerini ve temel avantajlarını basit bir şekilde tanıtır, CNN, dağıtılmış özellik gösterimi, RNN ve bunların farklı uygulamalarını ayrıntılı olarak açıklar ve derin öğrenme teknolojisinin gelecekteki gelişimini dört gözle beklemektedir.

Bu makale, yapay zekanın 60. yıldönümünü anmak için "Nature" dergisi tarafından özel olarak başlatılan bir derin öğrenme incelemesidir.Aynı zamanda Hinton, LeCun ve Bengio'nun aynı makaleyi birlikte yazdıkları ilk zamandır. Bu incelemenin derin öğrenme alanındaki önemi apaçık ortadadır ve derin öğrenmeye başlamak için herkesin okuması gerektiği söylenebilir.

Bu makalenin ilk yarısı, derin öğrenmenin temel ilkelerini ve temel avantajlarını basit bir şekilde tanıtıyor.İkinci yarısı, CNN, dağıtılmış özellik gösterimi, RNN ve farklı uygulamalarını ayrıntılı olarak açıklıyor ve derin öğrenme teknolojisinin gelecekteki gelişimini dört gözle bekliyor.

Orijinal bağlantı:

https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

Öz

Derin öğrenme, birden çok işleme katmanına sahip hesaplama modellerinin, birden çok soyutlama düzeyiyle verilerin temsillerini öğrenmesine olanak tanır. Bu yöntemler, daha gelişmiş konuşma tanıma, görsel nesne tanıma, nesne algılama ve diğer birçok alan dahil olmak üzere birçok alanda önemli gelişmeler sağlamıştır. İlaç keşfi ve genomik gibi. Derin öğrenme, büyük verilerdeki karmaşık yapıları keşfedebilir. Bu keşif sürecini tamamlamak için BP algoritmasını kullanır. BP algoritması, makineye önceki katmandan hataların nasıl alınacağına ve bu katmanın dahili parametrelerinin nasıl değiştirileceğine rehberlik edebilir.Bu dahili parametreler hesaplama için kullanılabilir. Derin evrişimli ağlar görüntülerin, videoların, seslerin ve seslerin işlenmesinde atılımlar sağlarken, özyinelemeli ağlar, metin ve konuşma gibi dizi verilerini işlemede parlak bir taraf gösterdi.

Makine öğrenimi teknolojisi, modern toplumun tüm yönlerinde güçlü işlevler ortaya koymuştur: Web aramasından sosyal ağ içerik filtrelemeye, e-ticaret web sitelerindeki ürün önerilerine kadar. Ve kameralar ve akıllı telefonlar gibi tüketici ürünlerinde giderek daha fazla görünmektedir.

Makine öğrenimi sistemleri, resimlerdeki nesneleri tanımlamak, konuşmayı metne dönüştürmek, haber öğelerini eşleştirmek, kullanıcının ilgi alanlarına göre işler veya ürünler sağlamak ve alakalı arama sonuçlarını seçmek için kullanılır. Yavaş yavaş, bu uygulamalar derin öğrenme adı verilen bir teknik kullanır. Geleneksel makine öğrenimi teknolojisi, işlenmemiş verilerle uğraşırken sınırlı yeteneklere sahiptir.

On yıllardır, bir örüntü tanıma sistemi veya makine öğrenimi sistemi oluşturmak istiyorsanız, orijinal verileri (bir görüntünün piksel değeri gibi) uygun bir dahili özelliğe dönüştüren bir özellik çıkarıcı tasarlamak için mükemmel bir motora ve önemli bir profesyonel bilgiye ihtiyacınız vardır. Temsil veya özellik vektörü, alt öğrenme sistemi, genellikle bir sınıflandırıcı, girdi örneklerini algılar veya sınıflandırır. Özellik gösterimini öğrenme, makineye ham verileri enjekte eden ve ardından algılanması ve sınıflandırılması gereken ifadeleri otomatik olarak keşfeden bir dizi yöntemdir.

Derin öğrenme bir Özellik öğrenme yöntemi , Orijinal veriler, bazı basit ancak doğrusal olmayan modellerle daha yüksek düzeyde ve daha soyut bir ifadeye dönüştürülür. Yeterli dönüşüm kombinasyonları ile çok karmaşık fonksiyonlar da öğrenilebilir.

Sınıflandırma görevleri için, yüksek seviyeli ifade, ilgisiz faktörleri zayıflatırken, girdi verilerinin ayırt etme yeteneğini güçlendirebilir. Örneğin, bir görüntünün orijinal formatı bir piksel dizisi ise, ilk katmandaki öğrenilen özellik ifadesi genellikle görüntünün belirli bir konumunda ve yönünde kenarların olup olmadığını ifade eder. İkinci katman genellikle bu kenarlardaki bazı emisyonlara bağlı olarak desenleri algılar ve bu sırada bazı kenarlardaki bazı küçük bozukluklar göz ardı edilir. Üçüncü katman, tanıdık hedefin belirli kısımlarına karşılık gelecek şekilde bu modelleri birleştirebilir. Sonraki katmanlar, tespit edilecek hedefi oluşturmak için bu parçaları yeniden birleştirecektir.

Derin öğrenmenin temel yönü, yukarıdaki katmanların özelliklerinin yapay mühendislik kullanılarak tasarlanmaması, ancak ortak bir öğrenme süreci kullanılarak verilerden öğrenilmesidir.

Derin öğrenme, uzun yıllardır ilerleme kaydedemeyen yapay zeka topluluğunun sorununu çözerek önemli ilerleme kaydediyor. Yüksek boyutlu verilerdeki karmaşık yapıları keşfetmede iyi olabileceği kanıtlanmıştır, bu nedenle bilim, ticaret ve hükümet gibi alanlarda kullanılabilir. Görüntü tanıma, konuşma tanıma ve diğer alanlarda rekor kırmanın yanı sıra, potansiyel ilaç moleküllerinin aktivitesini tahmin etmek, parçacık hızlandırıcı verilerini analiz etmek, beyin devrelerini yeniden oluşturmak ve kodlamayan DNA'daki mutasyonları tahmin etmek gibi diğer alanlardaki diğer makine öğrenimi teknolojilerini de yendi. Gen ifadesi ve hastalık üzerindeki etkisi.

Belki de daha da şaşırtıcı olanı, derin öğrenmenin, özellikle konu sınıflandırması, duyarlılık analizi, otomatik soru cevaplama ve dil çevirisi gibi çeşitli doğal dil anlama görevlerinde çok tatmin edici sonuçlar üretmesidir. Yakın gelecekte derin öğrenmenin daha fazla başarıya ulaşacağına inanıyoruz çünkü çok az manuel mühendislik gerektiriyor ve mevcut bilgi işlem gücü ve veri hacmindeki artıştan kolayca faydalanabilir. Derin sinir ağları için şu anda geliştirilmekte olan yeni öğrenme algoritmaları ve mimarileri yalnızca bu süreci hızlandıracaktır.

Denetimli öğrenme

Makine öğreniminde, derin olsun ya da olmasın, en yaygın biçim denetimli öğrenmedir.

Bir ev, araba, kişi veya evcil hayvan içeren bir görüntüyü sınıflandırabilen bir sistem kurmak istediğimizi hayal edin. Önce evlerin, arabaların, insanların ve evcil hayvanların görüntülerinden oluşan çok sayıda veri kümesi topluyoruz ve her nesneyi kategorisiyle etiketliyoruz. Eğitim sırasında, makine bir resim elde edecek ve ardından bir çıktı üretecektir, bu çıktı bir vektör şeklinde bir puanla temsil edilir ve her kategoride böyle bir vektör bulunur.

Gerekli kategorinin tüm kategorilerde yüksek puanlara sahip olmasını istiyoruz, ancak bunun eğitimden önce gerçekleşmesi olası değildir. Çıktı puanı ile beklenen örüntü puanı arasındaki hata (veya mesafe), bir amaç fonksiyonu hesaplanarak elde edilebilir. Ardından makine, bu hatayı azaltmak için dahili ayarlanabilir parametrelerini değiştirecektir. Bu ayarlanabilir parametrelere genellikle Ağırlık , Bunlar, makinenin giriş ve çıkış fonksiyonlarını tanımlayan bazı "topuzlar" olarak kabul edilebilecek bazı gerçek sayılardır.

Tipik bir derin öğrenme sisteminde, makineyi eğitmek için milyonlarca numune ve ağırlık ile etiketli numuneler olabilir. Ağırlık vektörünü doğru bir şekilde ayarlamak için, öğrenme algoritması her ağırlığın gradyan vektörünü hesaplar, bu da ağırlık küçük bir miktar artırılırsa hatanın ne kadar artacağını veya azalacağını gösterir. Ağırlık vektörü daha sonra gradyan vektörünün ters yönünde ayarlanır. Tüm eğitim örneklerinin ortalaması olan amaç fonksiyonumuz, yüksek boyutlu ağırlık uzayında bir tür değişken arazi olarak kabul edilebilir. Negatif gradyan vektörü, arazideki en hızlı alçalma yönünü gösterir, bu da onu minimuma yaklaştırır, bu da ortalama çıktı hatasının düşük olduğu yerdir.

Pratik uygulamalarda, çoğu uygulayıcı, Stokastik gradyan iniş algoritması (SGD) . Bazı girdi vektör örnekleri sağlamayı, çıktı ve hatayı hesaplamayı, bu örneklerin ortalama gradyanını hesaplamayı ve ardından ağırlıkları buna göre ayarlamayı içerir. Amaç işlevi büyümeyi durdurana kadar küçük bir örnek kümesi sağlayarak ağı eğitmek için bu işlemi tekrarlayın. Rastgele olarak adlandırılır çünkü küçük bir numune seti, tüm numunenin ortalama gradyanının gürültülü bir tahminine sahiptir. Bu basit süreç genellikle iyi bir ağırlık seti bulur ve hızı, diğer iyi tasarlanmış optimizasyon tekniklerine kıyasla şaşırtıcıdır. Eğitimden sonra sistem, test seti gibi farklı veri örnekleri aracılığıyla sistemin performansını gösterecektir. Bu, makinenin genelleme yeteneğini - eğitilmemiş yeni örnekleri tanıma yeteneğini test etmek için kullanılır.

Mevcut uygulamalardaki birçok makine öğrenimi tekniği, manuel olarak çıkarılan özellikleri sınıflandırmak için doğrusal sınıflandırıcılar kullanır. 2 sınıflı bir doğrusal sınıflandırıcı, özellik vektörlerinin ağırlıklı toplamını hesaplayacaktır. Ağırlıklı toplam bir eşiği aştığında, giriş örneği belirli bir kategoriye atanacaktır. 1960'lardan beri, doğrusal sınıflandırıcıların örnekleri yalnızca çok basit bölgelere bölebileceğini, yani uzayı bir hiper düzlem aracılığıyla iki kısma bölebileceğini biliyoruz.

Ancak görüntü ve ses tanıma gibi sorunlar, İhtiyaç duydukları girdi-çıktı işlevleri, girdi örneğindeki ilgisiz faktörlerdeki değişikliklere çok duyarlı olmamalıdır. , Konum değişikliği, hedefin yönü veya aydınlatması veya seste perde veya tonlama değişikliği gibi, ancak bazı belirli küçük değişikliklere (örneğin, beyaz bir kurt ve kurt-Sa'ya benzer beyaz bir köpek) çok hassas olması gerekir. Moyed köpekler arasındaki farklar). Piksel seviyesinde iki Samoyed köpeğinin farklı duruşlarda ve farklı ortamlardaki görüntülerinin çok farklı olduğu söylenebilir ancak bir Samoyed köpeği ve bir kurt aynı konumdadır. Benzer bir arka plandaki iki resim çok benzer olabilir.

Şekil 1 Çok katmanlı sinir ağı ve BP algoritması

Çok katmanlı sinir ağları (bağlantı noktalarıyla temsil edilir) giriş alanını entegre edebilir, böylece veriler (kırmızı ve mavi çizgilerle temsil edilen örnekler) doğrusal olarak ayrılabilir. Giriş alanındaki (solda) normal ızgaranın gizli katman tarafından nasıl dönüştürüldüğüne dikkat edin (dönüştürülmüş olan sağ taraftadır). Bu örnekte, yalnızca iki giriş düğümü, iki gizli düğüm ve bir çıkış düğümü kullanılır, ancak nesne tanıma veya doğal dil işleme için kullanılan ağ genellikle bu tür düzinelerce veya yüzlerce düğüm içerir. Bu grafik C. Olah'ın ( izniyle yeniden oluşturulmuştur.

Zincir kuralı bize iki küçük değişikliğin (x ve y'de küçük bir değişiklik ve y ve z'de küçük bir değişiklik) birlikte nasıl organize edildiğini söyler. X'teki küçük değişiklik, x, önce y / x (kısmi türev) ile çarpılır ve y, y'deki bir değişikliğe dönüştürülür. Benzer şekilde, y, z'yi z ile değiştirecektir. Zincir kuralı yoluyla, bir denklem diğerine dönüştürülebilir - yani x süreci y / x ve z / x ile çarpılarak z elde edilir. X, y ve z vektör olduğunda, aynısı yapılabilir (Jacobian matrisi kullanılarak).

İki gizli katman ve bir çıktı katmanı olan bir sinir ağında ileriye doğru yayılmayı hesaplama formülü. Her biri degradenin geri yayılması için bir modülden oluşur. Her katmanda, ilk olarak her düğümün toplam girdisini z hesaplıyoruz, burada z, önceki katmanın çıktısının ağırlıklı toplamıdır. Ardından, düğümün çıktısını hesaplamak için doğrusal olmayan bir f (.) İşlevi kullanın. Basit dönemde, eşik terimini göz ardı ettik. Sinir ağlarında yaygın olarak kullanılan doğrusal olmayan işlevler arasında, son yıllarda yaygın olarak kullanılan düzeltilmiş doğrusal birim (ReLU) f (z) = maks (0, z) ve f (z) = (exp (z) - gibi geleneksel sigmoidler bulunur. exp (z)) / (exp (z) + exp (z)) ve f (z) = 1 / (1 + exp (z)).

Geri yayılma formülünü hesaplayın. Gizli katmanda, önceki katmanın ürettiği hataların ağırlıklı toplamı olan her bir çıktı birimi tarafından oluşturulan hatayı hesaplarız. Daha sonra f (z) gradyanını çarparak çıktı katmanının hatasını giriş katmanına dönüştürüyoruz. Çıktı katmanında, her düğümün hatası, maliyet fonksiyonunun farklılaşması ile hesaplanacaktır. L düğümünün maliyet fonksiyonu 0.5 * (yl-tl) ^ 2 ise, düğümün hatası yl-tl'dir, burada tl beklenen değerdir. E / zk değeri bilindiğinde, j düğümünün iç yıldız ağırlık vektörü wjk, yj E / zk ile ayarlanabilir.

Bir doğrusal sınıflandırıcı veya orijinal pikseller üzerinde çalışan diğer sığ sınıflandırıcılar, son ikisini ayırt edemez, ancak ilki aynı kategori altında sınıflandırılabilir. . Bu nedenle sığ sınıflandırma, seçici değişmezlik ikilemini çözmek için iyi bir özellik çıkarıcı gerektirir - çıkarıcı, görüntüdeki hedefi ayırt edebilecek önemli faktörleri seçecektir, ancak bu faktörler hayvanın konumunu ayırt etmede güçsüzdür. Sınıflandırma yeteneğini güçlendirmek için, çekirdek yöntemi gibi genellemenin doğrusal olmayan özellikleri kullanılabilir, ancak Gauss çekirdeklerinden elde edilenler gibi bu genelleme özellikleri, öğrencinin öğrenme örneklerinden daha iyi genelleme etkileri üretmesini sağlayamaz.

Geleneksel yöntem, çok fazla mühendislik teknolojisi ve profesyonel alan bilgisi gerektiren iyi bir özellik çıkarıcıyı manuel olarak tasarlamaktır. Ancak ortak bir öğrenme süreci kullanılarak iyi özellikler elde edilirse, bunlardan kaçınılabilir. Bu, derin öğrenmenin temel avantajıdır.

Derin öğrenmenin mimarisi, basit modüllerden oluşan çok katmanlı bir yığın. Tüm (veya çoğu) modülün amacı öğrenmektir ve doğrusal olmayan girdi ve çıktıları hesaplayan birçok eşleştirme vardır. Yığındaki her modül, ifadenin seçiciliğini ve değişmezliğini artırmak için girdisini dönüştürür. Örneğin, 5 ila 20 katmanlı doğrusal olmayan çok katmanlı bir sistem, giriş verilerinin ayrıntılara çok duyarlı olması gibi çok karmaşık işlevler gerçekleştirebilir - beyaz kurtlar ve Samoyed köpekleri arasında ayrım yapabilir ve aynı zamanda güçlü parazit önleme özelliğine sahiptir. Örneğin, farklı arka planlar, duruşlar, aydınlatma ve çevreleyen nesneler göz ardı edilebilir.

Geri yayılımlı çok katmanlı bir sinir ağını eğitin

İlk örüntü tanıma görevlerinde, araştırmacının amacı her zaman yapay olarak seçilen özellikleri değiştirmek için eğitilebilir çok katmanlı ağlar kullanmak olmuştur.Çok katmanlı sinir ağlarının kullanımı basit olsa da, elde edilen çözümler korkunçtur. 1980'lere kadar, bu kötü durumun değiştiği çok katmanlı sinir ağlarını eğitmek için basit stokastik gradyan inişinin kullanılması değildi. Ağın girdisi ile iç ağırlıklar arasındaki fonksiyon nispeten düzgün olduğu sürece, gradyan iniş kullanımı işe yarayacaktır. Gradyan iniş yöntemi, 1970'ler ve 1980'lerde farklı araştırma ekipleri tarafından bağımsız olarak icat edilmiştir.

Çok katmanlı sinir ağının ağırlık gradyanına göre amaç fonksiyonunu çözmek için kullanılan geri yayılma algoritması (BP), türetme için zincir kuralının yalnızca belirli bir uygulamasıdır. Geri yayılım algoritmasının temel fikri şudur: Belirli bir katmanın girdisi için amaç fonksiyonunun türevi (veya gradyanı), katmanın çıktısının (veya bir sonraki katmanın girdisinin) türevinin geriye doğru yayılmasıyla elde edilebilir (bkz.Şekil 1).

Geri yayılım algoritması, çok katmanlı bir sinir ağının her katmanı boyunca gradyanları yaymak için tekrar tekrar kullanılabilir: çok katmanlı sinir ağının en üst çıktısından (yani, ağın tahminler ürettiği katmandan) çok katmana kadar. Sinir ağının en alt katmanı (yani harici girdi alan katman), her bir katman (amaç fonksiyon çifti) girdisine ilişkin bu türevler çözüldükten sonra, her katmandaki (amaç fonksiyon çiftinin) ağırlığını çözebiliriz. Gradyan yükseldi.

Birçok derin öğrenme uygulaması, sabit boyutlu bir girdiden (örneğin, girdi bir resimdir) sabit boyutlu bir çıktıya (örneğin, farklı kategorilere gitme olasılığı) öğrenen ileri beslemeli sinir ağlarını (Şekil 1'de gösterildiği gibi) kullanır. Haritalama. İlk katmandan sonraki katmana, önceki katmandaki nöronların giriş verilerinin ağırlıklarının toplamını hesaplayın ve ardından bu toplamı doğrusal olmayan bir aktivasyon fonksiyonuna geçirin. Şu anda en popüler doğrusal olmayan aktivasyon fonksiyonu, rektifiye edilmiş doğrusal birimdir (ReLU), fonksiyon formu: f (z) = max (z, 0).

Son birkaç on yılda, sinir ağları, tanh (z) ve 1 / (1 + exp (-z)) gibi bazı daha yumuşak doğrusal olmayan işlevler kullandılar, ancak ReLU genellikle çok katmanlı bir sinir ağının daha hızlı öğrenmesini sağlıyor Ayrıca, doğrudan denetimli derin bir ağ eğitimi de yapabilirsiniz (denetimsiz ön eğitime gerek yoktur).

Önceki eğitim öncesi etkiye ulaşmak için. Normalde, girdi katmanı ve çıktı katmanı dışındaki sinir birimleri gizli birimler olarak adlandırılır. Gizli katmanın rolü birini kullanıyor olarak görülebilir Doğrusal olmayan yol Giriş verilerini karıştırın, böylece giriş verilerine karşılık gelen kategori son katmanda doğrusal olarak ayrılabilir hale gelir.

1990'ların sonlarında, sinir ağları ve geri yayılım algoritmaları çoğu makine öğrenimi ekibi tarafından terk edildi ve bilgisayarla görme ve konuşma tanıma ekipleri tarafından ciddiye alınmadı. Genel olarak, bu öğrenme yöntemlerinin yararlı, çok seviyeli hiyerarşik yapı ve özellik çıkarımı için daha az ön bilgi kullanmanın güvenilir olmadığına inanılmaktadır. Kesin olmak gerekirse, bunun nedeni basit bir gradyan inişinin tüm optimizasyonu kötü bir yerel minimum çözüme düşürmesidir.

Pratikte, eğer büyük bir ağda ise, hangi başlatma koşulları kullanılırsa kullanılsın, yerel minimum çözüm büyük bir problem değildir ve sistem her zaman benzer etkiye sahip bir çözüm alır. Son teoriler ve deneyler, yerel minimum çözümün gerçekten büyük bir sorun olmadığını gösteriyor. Aksine, çözüm alanı çok sayıda eyer noktasıyla (eğimi 0 olan noktalar) doldurulur ve eyer noktasının etrafındaki yüzeylerin çoğu yukarı doğrudur. Dolayısıyla, bu algoritmalar bu yerel minimumlara düşse bile, ilişki çok büyük değildir.

2006 civarında, CIFAR (Kanada İleri Araştırmalar Enstitüsü) bazı araştırmacıları bir araya getirdi ve insanlar ileri beslemeli derin sinir ağlarına olan ilgiyi yeniden canlandırdı. Araştırmacılar, denetimsiz bir öğrenme yöntemi önermişlerdir. Bu yöntem, etiketli verileri kullanmadan özellikleri tespit etmek için bazı ağ katmanları oluşturabilir.Bu ağ katmanları, özellik algılayıcılarının aktivitesini yeniden yapılandırmak veya modellemek için kullanılabilir. .

Ön eğitim süreci sayesinde, derin ağın ağırlıkları ilginç değerlere dönüştürülebilir. Ardından, ağın tepesine bir çıktı katmanı eklenir ve standart geri yayılım algoritmaları kullanılarak ince ayar yapılır. Bu çalışma, özellikle çok az etiketlenmiş veri olduğunda, el yazısı sayıların ve yaya tahmin görevlerinin tanınması üzerinde önemli etkiler yaratmıştır.

Bu ve eğitim yöntemi kullanılarak yapılan nispeten büyük ilk uygulama konuşma tanıma ile ilgili olup, GPU üzerinde yapılmaktadır çünkü kod yazmanın uygun olması ve eğitim sırasında 10 veya 20 defa alınabilmesidir. İvme zamanları. 2009'da bu yöntem, ses dalgalarından çıkarılan ve bir olasılık sayıları kümesine dönüştürülen kısa vadeli bir katsayı penceresini haritalamak için kullanıldı. Çok az kelime kullanan bir dizi standart konuşma tanıma karşılaştırma programında harika sonuçlar elde etti ve daha sonra hızla başka bir büyük veri kümesine geliştirilirken şaşırtıcı sonuçlar elde etti.

2009'dan 2012'nin sonuna kadar, daha büyük ses ekipleri bu derin ağın birden çok sürümünü geliştirdi ve Android telefonlarda kullanıldı. Küçük veri kümeleri için, denetimsiz ön eğitim aşırı uyumu önleyebilir ve aynı zamanda etiketli örnekler küçük olduğunda daha iyi genelleme performansı sağlayabilir. Derin öğrenme teknolojisi geri yüklendiğinde, bu tür bir ön eğitime yalnızca veri seti küçük olduğunda ihtiyaç duyulur.

Daha sonra, eğitilmesi daha kolay ve tamamen bağlı sinir ağından daha iyi genelleme performansına sahip derin bir ileri beslemeli sinir ağı vardır. Bu Evrişimli Sinir Ağıdır (CNN). İnsanlar sinir ağlarına ilgi duymadıklarında, evrişimli sinir ağları pratikte pek çok başarı elde etti ve artık bilgisayarla görme ekipleri tarafından yaygın olarak kullanılıyor.

Evrişimli Sinir Ağı

Evrişimli sinir ağı, piksel değerleri içeren 32-D görüntü ile birleştirilmiş 3 renk kanallı bir renkli görüntü gibi çok boyutlu dizi verilerini işlemek için tasarlanmıştır. Birçok veri formu bu çok boyutlu dizide bulunur: 1D, dil dahil sinyalleri ve dizileri temsil etmek için kullanılır, 2D görüntüleri veya sesleri temsil etmek için kullanılır ve 3D, video veya görüntüleri sesli olarak temsil etmek için kullanılır. Evrişimli sinir ağları, doğal sinyallerin özelliklerinden yararlanmak için dört temel fikir kullanır: yerel bağlantı, ağırlık paylaşımı, havuzlama ve birden çok ağ katmanının kullanımı.

Şekil 2 Evrişimli sinir ağının içi

Tipik bir evrişimli sinir ağı yapısı (Şekil 2) bir dizi işlemden oluşur. İlk birkaç aşama, bir evrişimsel katman ve bir havuzlama katmanından oluşur.Evrişim katmanının birimleri bir özellik haritasında düzenlenir.Özellik haritasında, her birim bir öncekine filtreler adı verilen bir dizi ağırlık ile bağlanır. Katmanın özellik haritasının yerel bir bloğu ve ardından bu yerel ağırlıklı toplam, ReLU gibi doğrusal olmayan bir işleve aktarılır. Özellik haritasındaki tüm birimler aynı filtreyi paylaşır ve farklı katmanların özellik haritalarında farklı filtreler kullanılır. Bu yapıyı kullanmanın iki nedeni vardır.

İlk olarak, görüntü verileri gibi dizi verilerinde, bir değere yakın değerler genellikle yüksek oranda ilişkilidir ve bu, saptanması daha kolay olan ayırt edilebilir yerel özellikler oluşturabilir. İkinci olarak, farklı konumların yerel istatistiksel özellikleri pek alakalı değildir, yani bir yerde görünen bir özellik başka yerlerde de görünebilir, bu nedenle farklı konumlardaki birimler ağırlıkları paylaşabilir ve aynı örneği algılayabilir. Matematiksel olarak, bir özellik haritası tarafından gerçekleştirilen bu filtreleme işlemi çevrimdışı bir evrişimdir ve evrişimli sinir ağına da onun adı verilmiştir.

Evrişimli katmanın rolü, önceki katmanın özelliklerinin yerel bağlantılarını tespit etmektir, ancak havuz katmanının rolü benzer özellikleri anlamsal olarak birleştirmektir, çünkü bir konuyu oluşturan özelliklerin göreceli konumları aynı değildir. Genel olarak, havuzlama ünitesi, özellik haritasındaki kısmi bir bloğun daha büyük değerini hesaplar ve bitişik havuzlama ünitesi, bir satır veya bir sütunu hareket ettirerek küçük bloktan verileri okur, çünkü bu, ifadenin boyutunu ve verileri azaltır. Çeviri değişmezliği. Bu evrişimlerden iki veya üçü, doğrusal olmayan dönüşümler ve havuzlama birbirine zincirlenir, ardından bir tane daha evrişim ve tamamen bağlantılı katmanlar gelir. Evrişimli sinir ağındaki geri yayılım algoritması, genel derin ağdakiyle aynıdır ve filtredeki tüm ağırlıklar eğitilebilir.

Derin sinir ağları tarafından kullanılan birçok doğal sinyal, yüksek seviyeli özelliklerin düşük seviyeli özelliklerin birleştirilmesiyle gerçekleştirildiği hiyerarşik kompozisyonun özellikleridir. Bir görüntüde, kısmi kenarların birleşimi, bir nesnenin bir parçasını oluşturan ve ardından bir nesneyi oluşturan temel bir desen oluşturur. Bu hiyerarşik yapı, belgelerdeki sesler, faktörler, heceler, sözcükler ve cümleler gibi ses verilerinde ve metin verilerinde de mevcuttur. Önceki katmandaki giriş verilerinin konumu değiştiğinde, havuzlama işlemi bu özelliklerin bu değişikliklere karşı sağlam olmasına izin verir.

Evrişimsel sinir ağlarındaki evrişim ve havuz katmanları, doğrudan görsel sinirbilimdeki basit hücrelerden ve karmaşık hücrelerden esinlenmiştir. Bu tür bir hücre, LNG-V1-V2-V4-IT'nin hiyerarşik yapısı ile görsel bir döngü oluşturur. Evrişimli bir sinir ağı ve bir maymuna aynı resim verildiğinde, evrişimli sinir ağı, maymunun alt temporal korteksindeki 160 rastgele nöronun değişimini gösterir. Evrişimsel sinir ağları nörobilişin köklerine sahiptir ve mimarileri biraz benzerdir, ancak nörobilişte geri yayılım algoritması gibi uçtan uca denetimli öğrenme algoritması yoktur. Nispeten ilkel bir 1B evrişimli sinir ağına, konuşmayı ve basit kelimeleri tanımak için kullanılabilen zaman gecikmeli bir sinir ağı denir.

1990'lardan beri, evrişimli sinir ağlarına dayanan çok sayıda uygulama ortaya çıktı. Başlangıçta, konuşma tanıma ve belge okuma için zaman gecikmeli sinir ağları kullanıldı. Bu belge okuma sistemi, eğitimli bir evrişimli sinir ağı ve bazı dil kısıtlamalarını uygulayan olasılıklı bir model kullanır. 1990'ların sonlarında, bu sistem Amerika Birleşik Devletleri'nde çeklerin% 10'undan fazlasını okumak için kullanıldı. Daha sonra Microsoft, evrişimli sinir ağlarına ve bir el yazısı tanıma sistemine dayalı bir karakter tanıma sistemi geliştirdi. 1990'ların başlarında, evrişimli sinir ağları, yüz, el ve yüz tanıma gibi doğal grafiklerde nesne tanıma için de kullanıldı.

Görüntüyü anlamak için derin evrişimli ağları kullanın

21. yüzyılın başından beri, evrişimli sinir ağları, çeşitli algılama, bölümleme, nesne tanıma ve görüntü alanlarında başarıyla kullanılmaktadır. Bu uygulamalar, doğal grafiklerde trafik sinyali tanıma, biyolojik bilgi bölümleme, yüz algılama, metin, yaya ve insan vücudu parçası algılama gibi büyük miktarda etiketlenmiş veri kullanır. Son yıllarda, evrişimli sinir ağlarının önemli bir başarılı uygulaması yüz tanımadır.

Otomatik telefon yanıtlama robotları ve sürücüsüz arabalar gibi teknolojilere uygulanabilmesi için görüntünün piksel düzeyinde etiketlenebileceğini belirtmekte fayda var. Mobileye ve NVIDIA gibi şirketler, otomobillerdeki görüntü sistemlerine evrişimli sinir ağı tabanlı yöntemler uyguluyor. Diğer uygulamalar, doğal dili anlama ve konuşma tanımayı içerir.

Şekil 3 Resimden metne

Evrişimli sinir ağı uygulaması çok başarılı olmasına rağmen, 2012 ImageNet yarışmasında bilgisayarla görme ve makine öğrenimi ekipleri tarafından değerlenmeye başlandı. Bu yarışmada, 1.000 farklı sınıf içeren milyonlarca ağ görüntüsünden oluşan bir veri kümesinde derin bir evrişimli sinir ağı kullanıldı. Sonuç eşi görülmemiş derecede iyiydi ve hata oranı o zamanki daha iyi yöntemden neredeyse yarısı daha düşüktü.

Bu başarı, GPU'nun, bırakma adı verilen yeni bir düzenleme tekniği olan ReLU'nun ve mevcut örnekleri ayrıştırarak daha fazla eğitim örneği oluşturma tekniğinin etkili kullanımından gelir. Bu başarı, bilgisayar görmesine bir devrim getirdi. Günümüzde evrişimli sinir ağları neredeyse tüm tanıma ve algılama görevlerinde kullanılmaktadır. Son zamanlarda daha iyi bir sonuç, görüntü başlıkları oluşturmak için geri besleme sinir ağları ile birlikte evrişimli sinir ağlarının kullanılmasıdır.

Günümüzün evrişimli sinir ağı mimarisinde ReLU aktivasyon işlevlerini kullanan 10-20 katman, milyonlarca ağırlık ve milyarlarca bağlantı vardır. Ancak, bu kadar büyük bir ağın eğitilmesi iki yıl önce yalnızca birkaç hafta sürdü ve şimdi donanım, yazılım ve algoritmaların paralel ilerlemesi eğitim süresini birkaç saate düşürdü.

Evrişimli sinir ağlarına dayalı görme sistemlerinin performansı, bazı hızlı büyüyen girişimlerin yaptığı gibi Google, Facebook, Microsoft, IBM, Yahoo !, Twitter ve Adobe gibi büyük teknoloji şirketlerinin ilgisini çekmiştir.

Evrişimli sinir ağlarının çiplerde veya sahada programlanabilir kapı dizilerinde (FPGA'ler) verimli bir şekilde uygulanması kolaydır NVIDIA, Mobileye, Intel, Qualcomm ve Samsung gibi birçok şirket, akıllı makineleri, kameraları ve robotları etkinleştirmek için evrişimli sinir ağı çipleri geliştirmektedir. Otonom araçlarda gerçek zamanlı görüş sistemleri mümkün hale gelir.

Dağıtılmış özellik gösterimi ve dil işleme

Dağıtık gösterimler kullanmayan klasik öğrenme algoritmalarıyla karşılaştırıldığında, derin öğrenme teorisi, derin ağların iki farklı büyük avantajı olduğunu göstermektedir. Bu avantajlar, ağdaki her düğümün ağırlığından gelir ve temelde oluşturulan verilerin makul bir yapı ile dağıtımına bağlıdır. Birincisi, dağıtılmış özelliklerin öğrenilmesi, yeni öğrenilen özellik değerlerinin kombinasyonuna uyum sağlamak için genelleştirilebileceği anlamına gelir (örneğin, farklı özellikler için 2n olası kombinasyon vardır). İkincisi, derin ağdaki birleşik sunum katmanı başka bir üstel avantaj potansiyeli (üstel derinlik) getirir.

Çok katmanlı sinir ağındaki gizli katman, özellik öğrenimi için ağdaki veri girişini kullanır ve hedef çıktının tahmin edilmesini kolaylaştırır. Aşağıda, yerel metnin içeriğini girdi olarak almak ve bir cümlede bir sonraki sözcüğü tahmin etmek için çok katmanlı bir sinir ağını eğitmek gibi iyi bir örnek örnek verilmiştir. İçerikteki her kelime ağda bir Nth vektör olarak temsil edilir, yani her bileşenin değeri 1'dir ve geri kalanı 0'dır. İlk katmanda, her kelime farklı bir aktivasyon durumu veya kelime vektörü oluşturur (Şekil 4).

Dil modelinde, ağın geri kalanı, giriş kelime vektörünü öğrenir ve cümlede bir sonraki kelimeyi tahmin etmek için çıktı kelime vektörüne dönüştürür Kelime haznesindeki kelime, metin cümlesindeki bir sonraki kelimenin olasılığı olarak tahmin edilebilir. Ağ, birçok aktivasyon düğümü içeren kelime vektörlerini öğrenir ve tıpkı metin sembollerinin hiyerarşik metin öğreniminin ilk gösterimi gibi, kelimelerin bağımsız özellikleri olarak yorumlanabilir. Bu anlamsal özellikler, girdide açıkça temsil edilmemiştir. Bunun yerine, öğrenme sürecinde "mikro kurallar" (tam anlamıyla bu makalede mikro kurallar olarak çevrilmiştir) kullanılarak keşfedilir ve giriş ve çıkış sembolleri arasındaki ilişki yapısını ayrıştırmanın iyi bir yolu olarak kullanılır. Cümle büyük miktarda gerçek metinden geldiğinde ve bireysel mikro kurallar güvenilmez olduğunda, kelime vektörlerini öğrenmek de iyi sonuç verebilir.

Yeni vakaları tahmin etmek için eğitimli bir model kullanırken, Salı ve Çarşamba, İsveç ve Norveç gibi benzer kavramlara sahip bazı kelimelerin karıştırılması kolaydır. Böyle bir temsil, dağıtılmış özellik gösterimi olarak adlandırılır, çünkü bunların öğeleri birbirini dışlamaz ve yapı bilgileri, gözlemlenen verilerdeki değişikliklere karşılık gelir. Bu kelime vektörleri, öğrenme özellikleri ile oluşturulur.Bu özellikler uzmanlar tarafından belirlenmez, sinir ağları tarafından otomatik olarak keşfedilir. Metinden öğrenilen kelime vektörü gösterimleri artık doğal dillerde yaygın olarak kullanılmaktadır.

Şekil 4 Kelime vektörü öğrenmesinin görselleştirilmesi

Özellik temsili konusundaki tartışmanın merkezi, mantıksal buluşsal ve sinir ağına dayalı anlayış arasındadır. Mantıktan esinlenen paradigmada, sembolik bir varlık bir şeyi temsil eder çünkü nitelikleri diğer sembolik varlıklarla aynı veya onlardan farklıdır. Sembol örneğinin iç yapısı yoktur ve yapı, kullanımıyla ilgilidir.Sembolün anlamını anlamak için, değişen akıl yürütme kurallarına karşılık gelmelidir.

Aksine, sinir ağları, sağduyu ile basit ve kolay akıl yürütmeyi destekleyebilen hızlı "sezgi" işlevlerini elde etmek için çok sayıda aktivite taşıyıcısı, ağırlık matrisi ve skaler olmayan doğrusallaştırma kullanır.

Nöral dil modelini tanıtmadan önce, dağıtılmış özellik gösterimini kullanmayan istatistiksel tabanlı bir dil modeli olan standart yöntemi kısaca açıklayın. N'ye (N-gram, N-gram) yükselen kısa sembol dizilerinin sıklığının sayılmasına dayanır. Olası N-gram sayısı VN'ye yakındır, burada V kelime haznesinin büyüklüğüdür.Metin içeriğinin binlerce kelime içerdiği düşünüldüğünde çok büyük bir külliyat gereklidir. N-gram, her kelimeyi atomik bir birim olarak görür, bu nedenle anlamsal olarak ilişkili kelime dizilerinde genelleştirilemez.Ancak, sinir ağı dil modelleri, her kelimeyi gerçek özdeğerlerin bir vektörüyle ilişkilendirdikleri ve bir vektör uzayında oldukları için Anlamsal olarak ilişkili kelimeler birbirine yakındır (Şekil 4).

Tekrarlayan sinir ağı

Geri yayılım algoritması ilk sunulduğunda, en heyecan verici şey eğitim için tekrarlayan sinir ağlarını (RNN'ler) kullanmaktı. Konuşma ve dil gibi sıralı giriş içeren görevler için RNN'lerin kullanılması daha iyi sonuçlar sağlayabilir. RNN'ler, bir seferde bir girdi dizisi elemanını işler ve aynı zamanda, ağın örtük biriminde geçmiş zamanda dizi elemanının geçmiş bilgilerini örtük olarak içeren "durum vektörünü" korur. Derin, çok katmanlı bir ağdaki farklı nöronların çıktısı ise, bu örtük birimin çıktısını farklı ayrı zaman adımlarında ele alacağız, bu da bizi RNN'leri eğitmek için geri yayılımın nasıl kullanılacağını daha açık hale getirecektir (Şekil 5 ,sağ).

Şekil 5 Tekrarlayan sinir ağı

RNN'ler çok güçlü dinamik sistemlerdir, ancak onları eğitmenin sorunlu olduğu kanıtlanmıştır, çünkü her zaman aralığında geri yayılım eğimi artar veya azalır, bu nedenle bir süre sonra sonuçlar artar veya sıfıra düşer.

Gelişmiş mimari ve eğitim yöntemleri nedeniyle, RNN'lerin bir metindeki sonraki karakteri veya bir cümledeki sonraki sözcüğü iyi tahmin edebildiği ve daha karmaşık görevlere uygulanabileceği bulunmuştur. Örneğin, bir İngilizce cümledeki kelimeleri belirli bir anda okuduktan sonra, örtük birimin son durum vektörünün cümlenin anlamını veya düşüncesini iyi bir şekilde temsil edebilmesi için bir İngilizce "kodlayıcı" ağı eğitilecektir. Bu "düşünce vektörü", bir Fransız "kodlayıcı" ağını birlikte eğitmek için ilk örtük durum (veya ek girdi) olarak kullanılabilir ve bunun çıktısı, Fransızca tercümedeki ilk kelimenin olasılık dağılımıdır.

Kodlama ağının girdisi olarak dağıtımdan özel bir birinci kelime seçilirse, çevrilen cümledeki ikinci kelimenin olasılık dağılımı seçim durdurulana kadar çıktı olarak verilecektir. Genel olarak bu süreç, İngilizce cümlelerin olasılık dağılımına göre oluşturulan bir dizi Fransızca kelime dağarcığıdır. Bu basit makine çevirisi yönteminin performansı, daha gelişmiş (son teknoloji ürünü) yöntemle bile karşılaştırılabilir ve aynı zamanda cümleleri anlamanın çıkarım kuralları gibi iç sembolleri manipüle etmesi gerekip gerekmediğine dair sorular ortaya çıkarır. Bu, günlük muhakemede makul sonuçlara dayanan analojiyi içerdiği görüşüne uygundur.

Fransızca cümlelerin anlamını İngilizce cümlelere çevirmeye benzer bir şekilde, resimlerin içeriğini İngilizce cümlelere "çevirmeyi" de öğrenebilirsiniz (Şekil 3). Bu kodlayıcı, son gizli katmandaki pikselleri etkinlik vektörlerine dönüştürebilen derin bir evrişimli ağdır (ConvNet). Kod çözücüler, makine çevirisi ve sinir ağı dil modelleri için RNN'ler tarafından kullanılanlara benzer. Son zamanlarda, derin öğrenmeye büyük bir ilgi olmuştur (literatürde bahsedilen örneklere bakınız).

RNN'ler genişletildiğinde (Şekil 5'te gösterildiği gibi), tüm katmanların aynı ağırlıkları paylaştığı ileri beslemeli derin bir sinir ağı olarak kabul edilebilirler. Amaçları uzun vadeli bağımlılığı öğrenmek olsa da, teorik ve deneysel kanıtlar, bilgiyi öğrenmenin ve uzun süre korumanın zor olduğunu göstermektedir.

Bu sorunu çözmek için ağ depolamasını artırma fikri doğdu. Özel örtük birimler kullanan LSTM (uzun kısa süreli bellek ağları) ilk olarak önerildi ve doğal davranışı girdiyi uzun süre saklamaktır. Bellek hücresi adı verilen özel bir birim, akümülatörlere ve kapılı nöronlara benzer: Bir sonraki adımda kendisine paralel bir ağırlığa sahip olacak, kendi durumunun gerçek değerini ve birikmiş harici sinyalleri kopyalayacaktır, ancak bu kendi kendine bağlantı, başka bir birim tarafından öğrenilen ve bellek içeriğinin ne zaman temizleneceğine karar veren bir çarpma geçidi tarafından kontrol edilir. nın-nin.

LSTM ağının daha sonra geleneksel RNN'lerden daha etkili olduğu kanıtlandı, özellikle her zaman adımında birkaç katman olduğunda, tüm konuşma tanıma sistemi akustiği karakter dizilerine tamamen kopyalayabilir. Şu anda, LSTM ağları veya ilgili geçit birimleri de ağları kodlama ve kod çözme için kullanılmaktadır ve makine çevirisinde iyi performans göstermektedir.

Geçtiğimiz birkaç yıl içinde, birkaç bilim insanı RNN'lerin bellek modülünü geliştirmek için farklı öneriler öne sürdü. Öneri, ağın RNN'ler tarafından okunabilen ve yazılabilen "teyp benzeri" depolama eklenerek geliştirildiği, bellek ağındaki geleneksel ağ ise ilişkilendirilebilir bellek ile geliştirildiği bir sinirsel Turing makinesini içerir. Bellek ağı, standart soru-cevap karşılaştırmasında iyi performans gösterdi Bellek, daha sonra soruları yanıtlamak için sorulan örnekleri hatırlamak için kullanılır.

()15Frodo?

ConvNetsRNNs

RNNs

(representation learning )

İndirme: {link:

https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

Almanya: CIIE aracılığıyla Çin pazarına daha fazla entegrasyon için sabırsızlanıyoruz
önceki
Avrupa elemeleri çok üzüldü! Milli futbol takımının 45 sıra altındalar ve Avrupa takımlarını 10 dakikada devirdiler.
Sonraki
Yu Jian | Çin "Bahar Şenliği", aslında sadece yüz yıl geçti
Kuru ürünler Bayesci çıkarıma dayalı sınıflandırma modeli, karşılaşacağınız makine öğrenimi "çukurları"
Hareket kontrolü, gerçek zamanlı çeviri ve fizyolojik veri algılama ... Bu 3000 RMB kulaklığı satın alacak mısınız?
Zidane'nin gözleri sert! Real Madrid generali süper hata yaptı, ceza sahasında beyinsiz operasyon yaparak rakiplerine boş gol yolladı
"Double Eleven" tan sonra üniversite öğrencileri ekspres teslimat için bir araya geliyor
League of Legends takım savaşlarını nasıl yönetiyor? AI, karar vermenize yardımcı olur (kaynaklarla)
23 yaşındaki şeytan yıldız ortaya çıktı! Dünyadaki 23. sırayı geçmek, 19 gol atmak ve Ronaldo ile rekabet etmek sadece 9 dakika sürdü
Yılbaşından önce yemeyi bitirdiniz mi? Aşağıdaki mesaj hem mutlu hem de üzücü
Anlar'ın ekranını kaydırmak için Google'ın "You Draw I Guess" yapay zeka sürümünün arkasındaki ilke budur!
Avrupa elemelerinde ilk trajedi! 31 dakika önce çöpe atılan 40.000 nüfuslu küçük Avrupa ülkesi asıldı ve dövüldü
Weihai bu dağ vahşi hayvan dünyası CCTV'de! Zürafa üretim sürecini anlatın
Doğal dil işleme alanında, hangi şirketler gelişimde çok ileride? (Ekli rapor)
To Top