Toplu Normalleştirme 2015 yılında önerildi ve şimdi derin öğrenme için standart bir teknoloji haline geldi. Mühendisin bakış açısından, operasyonu mühendislik açısından çok basittir.Aktivasyon işlevinden önce bir BN katmanı eklemek, modelin optimize edilmesini kolaylaştırabilir. Biraz daha derine inersek, eğitim sürecinde partinin ortalamasını ve standart sapmasını hesapladığını ve ardından normal standardizasyon işlemini gerçekleştirdiğini bileceğiz:
BN'yi daha esnek hale getirmek istiyorsak, öğrenilebilir iki doğrusal dönüşüm parametresi (yeniden ölçeklendirme parametreleri) ekleyebilir ve sonunda şu hale gelebiliriz:
Sadece BN kullanmaya devam edersek, o zaman hazır çerçeve sadece bir satır ile modele eklenebilir. Gerçekten bilmek istediğimiz şey, BN'nin arkasında saklı derin öğrenme problemi ve bu kadar basit bir işlemin nasıl çalıştığıdır.
BN'nin üçlü durumunu anlamak Bölge 1: özellik yakınlaştırmaVeri ön işleme aşamasında, verilerin her bir özelliği için aşağıdaki işlemleri gerçekleştiren, sıfır merkezli adı verilen çok yaygın bir teknik vardır:
Numunenin ortalama ve standart sapmasıdır. Birçok avantajı vardır:
Şekilde görüldüğü gibi, özellik uzayında basit bir Kayıp sinyali yapıyoruz.Sol görüntü ölçeklenmemiştir.Optimizasyon başlangıç noktamız seçilmezse, yavaşça yineleneceği ve sağ görüntü ölçeklenirken yakınsaması 27 saniye süreceği görülebilir. Yakınsama son derece hızlı. Buradaki ölçeklendirmenin standardizasyondan çok normalleşmeye atıfta bulunduğunu unutmayın.
Bununla birlikte, bu daraltma aralığı yalnızca maksimum ve minimum değerleri kullanır ve kararsız veriler durumunda, aykırı değerlerden ve uç değerlerden büyük ölçüde etkilenir, bu nedenle standardizasyon daha yaygın kullanılmaz.
Toplu standardizasyonu özellik ölçeklendirme perspektifinden anlıyoruz. Ardından, modelin her katmanında özellik ölçeklendirmesi gerçekleştirmek ve bilgiyi mümkün olduğunca korumaktır. Benzer standartlaştırılmış özellikleri eğitmek daha kolaydır, bu nedenle BN ile derin öğrenme modeli daha fazladır Optimize edilmesi kolaydır.
Bu, çoğu öğrencinin anladığı BN'dir.Ancak, sadece bu anlayışı takip edersek, yalnızca veri girişinin ilk katmanında özellik ölçeklendirmesi yapmamız gerekir. Bunu neden her katman için yapmamız gerekiyor?
Bölge 2: Ortak Değişken Kayması ve Dahili Değişken KaymasıÖnceki soruya cevabım, derin öğrenmede içsel değişken bir değişim olacağıdır.
Değişken kayması, kaynak alanın (S) ve hedef alanın (T) marjinal dağılımının tutarsızlığını tanımlayan istatistiklerden türetilen bir kavramdır.
, Ancak koşullu dağılımları aynıdır,
. Olasılık, koşullu dağılım açısından basitçe makine öğreniminde konuşmak
Aldığımız model, eğitim setimiz ise
Dağıtım ve test seti
Dağılımda bir fark var, ardından bir ortak değişken kayması görünecek ve şu anda iki sonuç görünecektir:
Şekilde gösterildiği gibi, numune alanında, kırmızı noktalar eğitim setini ve siyah noktalar test setini temsil eder.Gerçek uyan düz çizgi siyah çizgidir, ancak öğrendiğimiz şey kırmızı çizgidir.
İstatistiksel öğrenmede bağımsız ve özdeş dağılımın (iid) önemini ortaya koyduk Bağımsız ve özdeş dağıtım, eğitim seti ve test seti örneklerinin aynı dağıtımdan bağımsız olarak örneklenmesini gerektirir ki bu teoride güçlü bir garantidir. Ancak gerçek süreçte tam bir sıvı dağılımı yapamıyoruz Genellikle ağırlık dağılımını öğrenmeye katılmak için kullanırız, böylece eğitim seti ile test seti arasında daha küçük bir dağılım farkı olan örnek noktalar daha fazla ağırlık alır.
En önemli şey, sözde standardizasyonun dağıtım farkını azaltmanın bir yolu olmasıdır, çünkü ön işleme her özelliğin standart Gauss dağılımına uymasını sağlayacaktır. Verileri önceden işlediğimizde, genellikle eğitim setinin ortalamasını ve standart sapmasını alırız ve bunları doğrudan test setinde kullanırız Bu şekilde bilgi paylaşımının aşırı derecede bağımsız ve özdeş dağıtımı kullandığı söylenebilir.
Ancak derin öğrenmede, bu fenomen iç değişken değişim olarak şiddetlenir. "Softmax işlevini anlamak" bölümünde dedim:
Temsili öğrenme perspektifinden, sinir ağının önündeki tüm katmanların daha iyi bir temsil elde ettiği düşünülebilir.Gizli birimin en büyük rolü, sinir ağının yalnızca en temel çarpmada yeterli karmaşıklık elde etmesini sağlayan doğrusal olmamaktır. Son katman, gösterimi çıktıya dönüştürür, böylece yalnızca son katman istatistiksel öğrenmede bir öğrenci olarak kabul edilebilir.Katmanları ve etkinleştirme işlevlerini işledikten sonra, önceki tüm katmanlar doğrudan öğrenmek yerine daha iyi bir temsil elde ettiği için,
Onun yerine
, Ve bu, İçsel değişken değişimde İç'in anlamı olan kovaryant kayma derecesini arttırması çok muhtemeldir (tabii ki zayıflayabilir).
Bu nedenle, dahili değişken kaymanın etkisini en aza indirmek için birçok katman üzerinde bu tür standartlaştırılmış işlemler yapacağız. Başlangıçta tanıtılan iki öğrenilebilir parametreye özellikle dikkat edin
Sıradan BN işlemlerinin, başlangıçta öğrenilen özellik dağılımına zarar vereceği ve bu iki parametrenin belirli bir telafi etkisi sağlayabileceği de anlaşılabilir.
Bölge üç: yoğun parametrelendirmeÖnceki kursta söylediğimiz gibi, derin öğrenme, geriye doğru güncelleme yapmak için BP algoritmasını kullandığında, diğer katmanların değişmeden kaldığını varsayarız, ancak gerçekte, belirli bir katmanın güncelleme derecesi, diğer katmanların parametre boyutlarına bağlıdır. "Gradyan İnişini Anlamak" da Taylor serisi, öğrenme oranının optimal değerini analiz etmek için Kaybı birinci sıraya genişletmek için kullanılır, çoğunlukla yüksek dereceli terimlerin (etkileşim terimleri) etkisini ihmal eder. "Gizli Birimlerin Tasarlanması" bölümünde bahsedilen en basit varsayımı hala benimsiyoruz: toplam
Katman, her katmanın yalnızca bir nöronu vardır, eşiği yoktur ve aktivasyon işlevi yoktur, o zaman bir çıktı vardır:
Niteliksel olarak konuşursak, iki durumu ele alıyoruz, biri ağırlık katsayılarının tümü 1, diğeri ise
, Diğer ağırlıkların tümü 0.1'dir. Her iki durumda da girdi ve çıktı aynıdır.Kayıp fonksiyonundan hata gradyanı bilgisini kabul ettiğimizde ve parametreleri güncellediğimizde, ilk durumda, tüm ağırlık katsayıları en azından bir büyüklük sırası ile değişir. , Ve ikinci durumda, büyük olasılıkla büyük parametre değişiklikleri küçüktür ve küçük parametre büyük ölçüde değişir ve eğitim süreci keskin bir şekilde dalgalanır, bu çok istikrarsızdır.
Güncelleme formülünü belirli bir parametre katmanı için yazabiliriz:
Nicel olarak konuşursak, ikinci durumda, yayılma sürecindeki kayıp fonksiyonunun gradyanı 1 ise, o zaman belirli giriş koşulları altında, büyük parametre
olacak
Bir büyüklük değişikliği, değişiklik olmamasına eşdeğerdir ve parametreler
olacak
Büyük bir değişim sırası meydana geldi.
Bu aşırı örnek çok önemlidir, lütfen aklınızda bulundurun. Katmanlar her zaman koordine edilir ve güncellenir. Bu sorunu çözmek için iki fikir vardır:
Öğrenme oranını ayarlayın
, Güncelleme parametresini yapmak
Zaman biraz daha genişlediğinde, parametre güncellemesinin kendi büyüklüğüyle eşleşmesini sağlayabilirsiniz (uyarlanabilir öğrenme hızı algoritması).
Aşağıdaki terimi, çıktının parametreye olan gradyanı (yani, yukarıdaki örnekte müteakip çarpma terimi) çok büyük veya çok küçük olmayacak şekilde ayarlayın. Çok büyük, gradyan patlamasına ve çok küçük, gradyan kaybolmasına karşılık gelir. (Elbette, Ufuk gradyan daha yaygındır), umarım bir aralıkta en iyi şekilde stabilize edilir.
İkinci fikir, yaptığımız BN'dir.Bu yeniden parametrelendirme yöntemi, her katmanın parametrelerini standartlaştırır.Özellikle, daha iyi bir temsil elde etmek değil, katman-katman ilişkisini incelikle zayıflatmaktır. Karmaşık bağımlılık, her katmanın parametre güncellemesini diğer katmanların parametrelerinden biraz bağımsız hale getirir ve eğitim daha iyi ve daha hızlıdır.
Çekirdeği okuyun Sınıf İPUÇLARINeden aktivasyon fonksiyonu için BN yapmıyoruz ama aktivasyon fonksiyonundan önce BN yapmıyoruz? Bunun nedenleri ile ilgili birleşik bir açıklama yok, bazen onu arkaya koyarız ve iyi bir etki yaratır.Aslında pratik, onu arkaya koymanın daha iyi olduğunu kanıtlamıştır.
Test aşamasında, tek bir örnek için, BN'yi kullanamayız çünkü ortalama ve varyans mevcut değildir.Şu anda, BN katmanını ayarlamak için eğitim aşamasındaki her katmanın ortalamasının ve varyansının çalışan ortalamasını kullanacağız.
Yazar: Monkey Head & Shoulders'ın yeniden yazdırılmasına gerek yoktur, lütfen sahne arkasında bir mesaj bırakın, normlara uyun yeniden yazdırın