Kaybolan gradyan sorunu: sorunlar, nedenleri, anlamları ve çözümleri

Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:

Kaybolan Gradyan Sorunu

Yazar | Chi-Feng Wang

Tercüme | Dddda Editör | Wang Liyu

Orijinal bağlantı:

https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1

sorun

Sinir ağına gittikçe daha fazla aktivasyon işlevi eklendikçe, kayıp işlevinin eğimi 0'a yaklaşır ve ağ yapısının eğitilmesini zorlaştırır.

sebep

Sigmoid işlevi gibi özel etkinleştirme işlevleri, 0 ile 1 arasında büyük bir boşluk sıkıştırır. Bu nedenle, sigmoid işlevinin girdisi büyük ölçüde değişse bile, çıktıyı yalnızca biraz değiştirecektir. Bu nedenle, türetme çok küçük hale gelir.

Şekil 1: sigmoid fonksiyonu ve türevi

Örneğin, Şekil 1 sigmoid fonksiyonu ve türevidir. Sigmoid fonksiyonunun girdisi büyüdüğünde veya küçüldüğünde (| x | olduğunda) türevin sıfıra nasıl yakın olduğuna dikkat edin.

Bu neden önemli?

Etkinleştirme işlevi kullanan yalnızca birkaç katmana sahip sığ bir ağ yapısı için bu büyük bir sorun değildir. Bununla birlikte, daha fazla katman kullanıldığında, gradyan iyi eğitmek için çok küçük olabilir.

Sinir ağının gradyanı, geri yayılım kullanılarak bulunur. Basit bir ifadeyle, geri yayılım, ağ katmanını son katmandan ilk katmana taşıyarak ağın türevini bulur. Zincir kuralı aracılığıyla, her katmanın türevi, ilk katmanın türevini hesaplamak için ağ tarafından (son katmandan ilk katmana) çarpılır.

Bununla birlikte, sigmoid gibi bir aktivasyon işlevini kullanan n gizli katman olduğunda, n küçük karşılıklı çarpılır. Bu nedenle, ilk katmana geri döndüğümüzde, gradyan önemli ölçüde düşecektir.

Küçük bir gradyan, ilk katmanın ağırlıklarının ve önyargılarının eğitim sırasında etkili bir şekilde güncellenmeyeceği anlamına gelir. Bu ilk katmanlar genellikle girdi verilerinin temel öğelerini tanımlamak için kritik olduğundan, tüm ağda genel hatalara neden olabilirler.

çözüm

En basit çözüm, ReLU gibi küçük bir türeve neden olmayan bir aktivasyon fonksiyonu kullanmaktır.

Kalan ağ başka bir çözümdür çünkü artık ve önceki katman arasında doğrudan bir bağlantı sağlar. Tıpkı Şekil 2'deki gibi, artık bağlantı doğrudan bloğun başlangıcındaki x değerini bloğun sonuna (F (x) + x) ekler. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı

Bu artık bağlantı, "sıkıştır" aktivasyon fonksiyonunu geçemez, bu da bloğun daha büyük bir karşılığına neden olur.

Şekil 2: Artık katman

************************************************** ***********************

Çevirmenin kişisel notu: Öz, doğrudan bağlantılı x'te yatmaktadır. h (x) = f (x) + x, h (x) x'in kısmi türevini alır ve değer 1'dir. Bu 1, bir sonraki katmandan gelen gradyan değerinin geçmesini sağlamak için doğrudan bloğun ön ucuna geçirilir Bu katman daha sonra bir önceki katmana girer, böylece sığ ağırlıklar da iyi eğitilebilir.

************************************************** ***********************

Son olarak, toplu normalleştirme katmanı da bu sorunu çözebilir. Daha önce de belirtildiği gibi, büyük bir girdi alanı küçük bir girdi uzayına eşlendiğinde problem ortaya çıkar ve türevin ortadan kalkmasına neden olur. Şekil 1'de | x | 'in ne zaman büyüdüğünü açıkça görebiliriz. Banyo normalizasyonu, girdiyi basitçe normalleştirerek bu sorunu azaltır, böylece x, sigmoid işlevinin dış kenarına ulaşmaz. Şekil 3'te gösterildiği gibi, girdiyi normalleştirir, böylece çoğu türevin çok küçük olmadığı yeşil alana düşer.

Şekil 3: Girişi sınırlamak için sigmoid işlevi

Herhangi bir sorunuz veya öneriniz varsa, yorum yapmayı unutmayın :)

Daha fazla bilgi için aşağıdaki makaleleri okuyun:

  • https://www.quora.com/What-is-the-vanishing-gradient-problem

  • https://en.wikipedia.org/wiki/Vanishing_gradient_problem

  • https://towardsdatascience.com/intuit-and-implement-batch-normalization-c05480333c5b

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

Tıklamak Ortadan kaybolan gradyan problemi: sorunlar, nedenleri, anlamları ve çözümleri] erişilebilir:

Bugünün kaynak önerisi: Veri bilimcisi uygulaması

Bu, veri bilimi ve veri bilimcileriyle ilgili bir "el kitabıdır". Ayrıca geleneksel istatistik, programlama veya bilgisayar bilimi ders kitaplarında yer almayan bilgileri de içerir. "Veri Dahisi: Veri Bilimcilerinin Pratiği" nin üç bileşeni vardır: biri veri biliminin ne olduğu ve veri biliminin diğer hangi disiplinleri içerdiğine dair çok seviyeli bir tartışma, diğeri ise öğreticiler ve vaka çalışmaları dahil olmak üzere veri biliminin teknik uygulamasıdır; Üçüncüsü, çalışan ve hevesli veri bilimcilere bazı kariyer kaynakları sunmaktır.

Almak için bağlantıya tıklayın: https://ai.yanxishe.com/page/resourceDetail/614

Kriz bir dönüm noktası, Tencent ve Ali LoRa'ya girdiklerinde ne yaptılar?
önceki
Emniyet güçleri güzellik salonuna baskın düzenledi, kadın panik içinde pencereden tıbbi ekipmanı fırlattı.
Sonraki
Damadı 100 kilometreden fazla yol kat etti ve kayınpederini "kaybettiğini" gördü Netizen: Sen bitirdin.
Yangtze Nehri boyunca uzanan sekiz il ve iki şehirden uzman temsilcileri, Yangtze Nehri'nin korunması ve su teknolojisinin gelişimi hakkında görüşmek üzere Wuhan'da bir araya geldi.
ABD yetkilileri, Huawei üzerindeki yasağın uzatılmasını talep ediyor; Salesforce, 15,7 milyar dolarlık gişe rekorları kıran bir satın alma duyurdu; Tencent, rütbe sistemini yeniden düzenledi | Lei Fe
Şempanze eti Birleşik Krallık'ta bir lüks ve incelik haline geldi mi? Uzmanlar uyardı: Ayrım gözetmeyen yemek, AIDS enfeksiyonuna neden olabilir
Müzik tutkunlarının faydaları burada! Bu haftasonundan itibaren birçok Çinli ve Fransız grup Jiangcheng'i söyleyecek
"Ustamız" "GSG" nin finali veda etmek için bir mektup yazdı. Zhang Wei, yeteneğini tekrar gösterdiği için Wang Gang tarafından "filozof" olarak övüldü.
nadir! Kısa satış yapan büyük timsah çevrimiçi kırmızı e-ticareti seviyor. Çin'in iyi kız kardeşleri Revolve'a ne kadar katkıda bulundu?
"İlk geçiş" Uzun Yürüyüş "çıkış noktasını geçmek dünyayı değiştirdi"
Dilin ucunda kampüs! Sekiz Milletten Yemekler Üniversite Yemek Festivali'nde toplanıyor
Çevrimiçi kredi Tianyan Mayıs 60 çevrimiçi kredi platformu bilgi açıklama sıralamaları
Satın almayı bırak! Japon internet ünlülerinin göz damlası kaza geçirdi ve yurtdışında satışı yasaklandı, Fuzhou ...
Bu büyük beyaz çiçek parçası, şüphesiz dünyanın en güzel göbeğidir.
To Top