Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:
Kaybolan Gradyan Sorunu
Yazar | Chi-Feng Wang
Tercüme | Dddda Editör | Wang Liyu
Orijinal bağlantı:
https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1
Sinir ağına gittikçe daha fazla aktivasyon işlevi eklendikçe, kayıp işlevinin eğimi 0'a yaklaşır ve ağ yapısının eğitilmesini zorlaştırır.
Sigmoid işlevi gibi özel etkinleştirme işlevleri, 0 ile 1 arasında büyük bir boşluk sıkıştırır. Bu nedenle, sigmoid işlevinin girdisi büyük ölçüde değişse bile, çıktıyı yalnızca biraz değiştirecektir. Bu nedenle, türetme çok küçük hale gelir.
Şekil 1: sigmoid fonksiyonu ve türevi
Örneğin, Şekil 1 sigmoid fonksiyonu ve türevidir. Sigmoid fonksiyonunun girdisi büyüdüğünde veya küçüldüğünde (| x | olduğunda) türevin sıfıra nasıl yakın olduğuna dikkat edin.
Etkinleştirme işlevi kullanan yalnızca birkaç katmana sahip sığ bir ağ yapısı için bu büyük bir sorun değildir. Bununla birlikte, daha fazla katman kullanıldığında, gradyan iyi eğitmek için çok küçük olabilir.
Sinir ağının gradyanı, geri yayılım kullanılarak bulunur. Basit bir ifadeyle, geri yayılım, ağ katmanını son katmandan ilk katmana taşıyarak ağın türevini bulur. Zincir kuralı aracılığıyla, her katmanın türevi, ilk katmanın türevini hesaplamak için ağ tarafından (son katmandan ilk katmana) çarpılır.
Bununla birlikte, sigmoid gibi bir aktivasyon işlevini kullanan n gizli katman olduğunda, n küçük karşılıklı çarpılır. Bu nedenle, ilk katmana geri döndüğümüzde, gradyan önemli ölçüde düşecektir.
Küçük bir gradyan, ilk katmanın ağırlıklarının ve önyargılarının eğitim sırasında etkili bir şekilde güncellenmeyeceği anlamına gelir. Bu ilk katmanlar genellikle girdi verilerinin temel öğelerini tanımlamak için kritik olduğundan, tüm ağda genel hatalara neden olabilirler.
En basit çözüm, ReLU gibi küçük bir türeve neden olmayan bir aktivasyon fonksiyonu kullanmaktır.
Kalan ağ başka bir çözümdür çünkü artık ve önceki katman arasında doğrudan bir bağlantı sağlar. Tıpkı Şekil 2'deki gibi, artık bağlantı doğrudan bloğun başlangıcındaki x değerini bloğun sonuna (F (x) + x) ekler. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı
Bu artık bağlantı, "sıkıştır" aktivasyon fonksiyonunu geçemez, bu da bloğun daha büyük bir karşılığına neden olur.
Şekil 2: Artık katman
************************************************** ***********************
Çevirmenin kişisel notu: Öz, doğrudan bağlantılı x'te yatmaktadır. h (x) = f (x) + x, h (x) x'in kısmi türevini alır ve değer 1'dir. Bu 1, bir sonraki katmandan gelen gradyan değerinin geçmesini sağlamak için doğrudan bloğun ön ucuna geçirilir Bu katman daha sonra bir önceki katmana girer, böylece sığ ağırlıklar da iyi eğitilebilir.
************************************************** ***********************
Son olarak, toplu normalleştirme katmanı da bu sorunu çözebilir. Daha önce de belirtildiği gibi, büyük bir girdi alanı küçük bir girdi uzayına eşlendiğinde problem ortaya çıkar ve türevin ortadan kalkmasına neden olur. Şekil 1'de | x | 'in ne zaman büyüdüğünü açıkça görebiliriz. Banyo normalizasyonu, girdiyi basitçe normalleştirerek bu sorunu azaltır, böylece x, sigmoid işlevinin dış kenarına ulaşmaz. Şekil 3'te gösterildiği gibi, girdiyi normalleştirir, böylece çoğu türevin çok küçük olmadığı yeşil alana düşer.
Şekil 3: Girişi sınırlamak için sigmoid işlevi
Herhangi bir sorunuz veya öneriniz varsa, yorum yapmayı unutmayın :)
Daha fazla bilgi için aşağıdaki makaleleri okuyun:
https://www.quora.com/What-is-the-vanishing-gradient-problem
https://en.wikipedia.org/wiki/Vanishing_gradient_problem
https://towardsdatascience.com/intuit-and-implement-batch-normalization-c05480333c5b
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?
Tıklamak Ortadan kaybolan gradyan problemi: sorunlar, nedenleri, anlamları ve çözümleri] erişilebilir:
Bugünün kaynak önerisi: Veri bilimcisi uygulaması
Bu, veri bilimi ve veri bilimcileriyle ilgili bir "el kitabıdır". Ayrıca geleneksel istatistik, programlama veya bilgisayar bilimi ders kitaplarında yer almayan bilgileri de içerir. "Veri Dahisi: Veri Bilimcilerinin Pratiği" nin üç bileşeni vardır: biri veri biliminin ne olduğu ve veri biliminin diğer hangi disiplinleri içerdiğine dair çok seviyeli bir tartışma, diğeri ise öğreticiler ve vaka çalışmaları dahil olmak üzere veri biliminin teknik uygulamasıdır; Üçüncüsü, çalışan ve hevesli veri bilimcilere bazı kariyer kaynakları sunmaktır.
Almak için bağlantıya tıklayın: https://ai.yanxishe.com/page/resourceDetail/614