g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Toplu Standardizasyonun Üç Alanını (Teori) Anlamak Makine öğreniminde karşılaşacağınız "çukurlar"

Toplu Normalleştirme 2015 yılında önerildi ve şimdi derin öğrenme için standart bir teknoloji haline geldi. Mühendisin bakış açısından, operasyonu mühendislik açısından çok basittir.Aktivasyon işlevinden önce bir BN katmanı eklemek, modelin optimize edilmesini kolaylaştırabilir. Biraz daha derine inersek, eğitim sürecinde partinin ortalamasını ve standart sapmasını hesapladığını ve ardından normal standardizasyon işlemini gerçekleştirdiğini bileceğiz:

BN'yi daha esnek hale getirmek istiyorsak, öğrenilebilir iki doğrusal dönüşüm parametresi (yeniden ölçeklendirme parametreleri) ekleyebilir ve sonunda şu hale gelebiliriz:

Sadece BN kullanmaya devam edersek, o zaman hazır çerçeve sadece bir satır ile modele eklenebilir. Gerçekten bilmek istediğimiz şey, BN'nin arkasında saklı derin öğrenme problemi ve bu kadar basit bir işlemin nasıl çalıştığıdır.

BN'nin üçlü durumunu anlamak Bölge 1: özellik yakınlaştırma

Veri ön işleme aşamasında, verilerin her bir özelliği için aşağıdaki işlemleri gerçekleştiren, sıfır merkezli adı verilen çok yaygın bir teknik vardır:

Numunenin ortalama ve standart sapmasıdır. Birçok avantajı vardır:

Değer aralığını azaltın. Her özelliğin değer aralığı ciddi şekilde tutarsız olabilir ve hatta bazı özellikler, diğer özellik değerlerinden birkaç kat daha yüksektir. Örneğin, zenginler için bir veri analizi görevi aldığımızda, Jack Ma'nın ağırlığı 60 kg olabilir ve serveti 100.000 ABD dolarıdır. .... İkinci özellik, birinciden daha yüksek bir büyüklük sırasından daha fazlasıdır. Değerlerin aralığını standart yöntemlerle daraltabiliriz, böylece temsilin özellik uzayında yakınsaması daha kolay olur.

Şekilde görüldüğü gibi, özellik uzayında basit bir Kayıp sinyali yapıyoruz.Sol görüntü ölçeklenmemiştir.Optimizasyon başlangıç noktamız seçilmezse, yavaşça yineleneceği ve sağ görüntü ölçeklenirken yakınsaması 27 saniye süreceği görülebilir. Yakınsama son derece hızlı. Buradaki ölçeklendirmenin standardizasyondan çok normalleşmeye atıfta bulunduğunu unutmayın.

Boyutsuz doğrusal bir yöntem olarak, standardizasyon daha fazla örnek bilgiyi yansıtır. Aynısı, değer aralığını azaltmaktır, normalleştirme tekniği örnek aralığını şu şekilde azaltabilir:

Bununla birlikte, bu daraltma aralığı yalnızca maksimum ve minimum değerleri kullanır ve kararsız veriler durumunda, aykırı değerlerden ve uç değerlerden büyük ölçüde etkilenir, bu nedenle standardizasyon daha yaygın kullanılmaz.

Özellik değerinin "sırası" değişmeyecek.Tüm özellikleri tek bir standart altına koymak, mesafe hesaplamasında (benzerlik tahmini) avantajlara sahip olacak ve bu da onu daha doğru hale getirebilir.

Toplu standardizasyonu özellik ölçeklendirme perspektifinden anlıyoruz. Ardından, modelin her katmanında özellik ölçeklendirmesi gerçekleştirmek ve bilgiyi mümkün olduğunca korumaktır. Benzer standartlaştırılmış özellikleri eğitmek daha kolaydır, bu nedenle BN ile derin öğrenme modeli daha fazladır Optimize edilmesi kolaydır.

Bu, çoğu öğrencinin anladığı BN'dir.Ancak, sadece bu anlayışı takip edersek, yalnızca veri girişinin ilk katmanında özellik ölçeklendirmesi yapmamız gerekir. Bunu neden her katman için yapmamız gerekiyor?

Bölge 2: Ortak Değişken Kayması ve Dahili Değişken Kayması

Önceki soruya cevabım, derin öğrenmede içsel değişken bir değişim olacağıdır.

Değişken kayması, kaynak alanın (S) ve hedef alanın (T) marjinal dağılımının tutarsızlığını tanımlayan istatistiklerden türetilen bir kavramdır.

, Ancak koşullu dağılımları aynıdır,

. Olasılık, koşullu dağılım açısından basitçe makine öğreniminde konuşmak

Aldığımız model, eğitim setimiz ise

Dağıtım ve test seti

Dağılımda bir fark var, ardından bir ortak değişken kayması görünecek ve şu anda iki sonuç görünecektir:

Test setinde performans değerlendirmesi yapmak için eğitim setinden elde ettiğimiz modeli kullanırız ve elde ettiğimiz şey modelin gerçek seviyesi olmayacaktır.
Eğitim seti ile test setinin dağılımı çok farklı ve eğittiğimiz model gerçek bir model değil.

Şekilde gösterildiği gibi, numune alanında, kırmızı noktalar eğitim setini ve siyah noktalar test setini temsil eder.Gerçek uyan düz çizgi siyah çizgidir, ancak öğrendiğimiz şey kırmızı çizgidir.

İstatistiksel öğrenmede bağımsız ve özdeş dağılımın (iid) önemini ortaya koyduk Bağımsız ve özdeş dağıtım, eğitim seti ve test seti örneklerinin aynı dağıtımdan bağımsız olarak örneklenmesini gerektirir ki bu teoride güçlü bir garantidir. Ancak gerçek süreçte tam bir sıvı dağılımı yapamıyoruz Genellikle ağırlık dağılımını öğrenmeye katılmak için kullanırız, böylece eğitim seti ile test seti arasında daha küçük bir dağılım farkı olan örnek noktalar daha fazla ağırlık alır.

En önemli şey, sözde standardizasyonun dağıtım farkını azaltmanın bir yolu olmasıdır, çünkü ön işleme her özelliğin standart Gauss dağılımına uymasını sağlayacaktır. Verileri önceden işlediğimizde, genellikle eğitim setinin ortalamasını ve standart sapmasını alırız ve bunları doğrudan test setinde kullanırız Bu şekilde bilgi paylaşımının aşırı derecede bağımsız ve özdeş dağıtımı kullandığı söylenebilir.

Ancak derin öğrenmede, bu fenomen iç değişken değişim olarak şiddetlenir. "Softmax işlevini anlamak" bölümünde dedim:

Temsili öğrenme perspektifinden, sinir ağının önündeki tüm katmanların daha iyi bir temsil elde ettiği düşünülebilir.Gizli birimin en büyük rolü, sinir ağının yalnızca en temel çarpmada yeterli karmaşıklık elde etmesini sağlayan doğrusal olmamaktır. Son katman, gösterimi çıktıya dönüştürür, böylece yalnızca son katman istatistiksel öğrenmede bir öğrenci olarak kabul edilebilir.

Katmanları ve etkinleştirme işlevlerini işledikten sonra, önceki tüm katmanlar doğrudan öğrenmek yerine daha iyi bir temsil elde ettiği için,

Onun yerine

, Ve bu, İçsel değişken değişimde İç'in anlamı olan kovaryant kayma derecesini arttırması çok muhtemeldir (tabii ki zayıflayabilir).

Bu nedenle, dahili değişken kaymanın etkisini en aza indirmek için birçok katman üzerinde bu tür standartlaştırılmış işlemler yapacağız. Başlangıçta tanıtılan iki öğrenilebilir parametreye özellikle dikkat edin

Sıradan BN işlemlerinin, başlangıçta öğrenilen özellik dağılımına zarar vereceği ve bu iki parametrenin belirli bir telafi etkisi sağlayabileceği de anlaşılabilir.

Bölge üç: yoğun parametrelendirme

Önceki kursta söylediğimiz gibi, derin öğrenme, geriye doğru güncelleme yapmak için BP algoritmasını kullandığında, diğer katmanların değişmeden kaldığını varsayarız, ancak gerçekte, belirli bir katmanın güncelleme derecesi, diğer katmanların parametre boyutlarına bağlıdır. "Gradyan İnişini Anlamak" da Taylor serisi, öğrenme oranının optimal değerini analiz etmek için Kaybı birinci sıraya genişletmek için kullanılır, çoğunlukla yüksek dereceli terimlerin (etkileşim terimleri) etkisini ihmal eder. "Gizli Birimlerin Tasarlanması" bölümünde bahsedilen en basit varsayımı hala benimsiyoruz: toplam

Katman, her katmanın yalnızca bir nöronu vardır, eşiği yoktur ve aktivasyon işlevi yoktur, o zaman bir çıktı vardır:

Niteliksel olarak konuşursak, iki durumu ele alıyoruz, biri ağırlık katsayılarının tümü 1, diğeri ise

, Diğer ağırlıkların tümü 0.1'dir. Her iki durumda da girdi ve çıktı aynıdır.Kayıp fonksiyonundan hata gradyanı bilgisini kabul ettiğimizde ve parametreleri güncellediğimizde, ilk durumda, tüm ağırlık katsayıları en azından bir büyüklük sırası ile değişir. , Ve ikinci durumda, büyük olasılıkla büyük parametre değişiklikleri küçüktür ve küçük parametre büyük ölçüde değişir ve eğitim süreci keskin bir şekilde dalgalanır, bu çok istikrarsızdır.

Güncelleme formülünü belirli bir parametre katmanı için yazabiliriz:

Nicel olarak konuşursak, ikinci durumda, yayılma sürecindeki kayıp fonksiyonunun gradyanı 1 ise, o zaman belirli giriş koşulları altında, büyük parametre

olacak

Bir büyüklük değişikliği, değişiklik olmamasına eşdeğerdir ve parametreler

olacak

Büyük bir değişim sırası meydana geldi.

Bu aşırı örnek çok önemlidir, lütfen aklınızda bulundurun. Katmanlar her zaman koordine edilir ve güncellenir. Bu sorunu çözmek için iki fikir vardır:

Öğrenme oranını ayarlayın

, Güncelleme parametresini yapmak

Zaman biraz daha genişlediğinde, parametre güncellemesinin kendi büyüklüğüyle eşleşmesini sağlayabilirsiniz (uyarlanabilir öğrenme hızı algoritması).

Aşağıdaki terimi, çıktının parametreye olan gradyanı (yani, yukarıdaki örnekte müteakip çarpma terimi) çok büyük veya çok küçük olmayacak şekilde ayarlayın. Çok büyük, gradyan patlamasına ve çok küçük, gradyan kaybolmasına karşılık gelir. (Elbette, Ufuk gradyan daha yaygındır), umarım bir aralıkta en iyi şekilde stabilize edilir.

İkinci fikir, yaptığımız BN'dir.Bu yeniden parametrelendirme yöntemi, her katmanın parametrelerini standartlaştırır.Özellikle, daha iyi bir temsil elde etmek değil, katman-katman ilişkisini incelikle zayıflatmaktır. Karmaşık bağımlılık, her katmanın parametre güncellemesini diğer katmanların parametrelerinden biraz bağımsız hale getirir ve eğitim daha iyi ve daha hızlıdır.

Çekirdeği okuyun Sınıf İPUÇLARI

Neden aktivasyon fonksiyonu için BN yapmıyoruz ama aktivasyon fonksiyonundan önce BN yapmıyoruz? Bunun nedenleri ile ilgili birleşik bir açıklama yok, bazen onu arkaya koyarız ve iyi bir etki yaratır.Aslında pratik, onu arkaya koymanın daha iyi olduğunu kanıtlamıştır.

Test aşamasında, tek bir örnek için, BN'yi kullanamayız çünkü ortalama ve varyans mevcut değildir.Şu anda, BN katmanını ayarlamak için eğitim aşamasındaki her katmanın ortalamasının ve varyansının çalışan ortalamasını kullanacağız.

Yazar: Monkey Head & Shoulders'ın yeniden yazdırılmasına gerek yoktur, lütfen sahne arkasında bir mesaj bırakın, normlara uyun yeniden yazdırın

ADATA, giriş seviyesi M.2 SSD'yi piyasaya sürüyor: nadir bir Realtek ustası

Gerçekten sert! Kuzeydoğu polisi, uyuşturucu satıcılarını randevu almaları için aradı ve görüşmeden sonra onu başarılı bir şekilde yakaladı.