Stokastik gradyan inişindeki "global optimum" u gerçekten anlıyor musunuz?

[Xinzhiyuan Kılavuzu] Missouri Bilim ve Teknoloji Üniversitesi ile Baidu Büyük Veri Laboratuvarı arasında yapılan bir çalışmada araştırmacılar, derin sinir ağı eğitim sürecindeki SGD'nin davranışını teorik bir perspektiften tanımladılar ve SGD'nin rastgele terimini ortaya çıkardılar. Nihai küresel minimum noktayı seçmede önemli bir rol oynar. Bu çalışma, SGD optimizasyon sürecinin anlaşılmasını derinleştirir ve ayrıca derin sinir ağlarının eğitim teorisinin oluşturulmasına yardımcı olur.

Gradyan inişi, makine öğrenimi algoritmalarında en yaygın kullanılan optimizasyon yöntemidir.

Bunlar arasında Stokastik Gradyan İniş (SGD), hızlı öğrenme hızı ve çevrimiçi güncellemesi nedeniyle genellikle çeşitli makine öğrenimi ve derin öğrenme modellerini eğitmek için kullanılır. Mevcut en iyi performans gösteren (SOTA) modellerin çoğu SGD kullanır.

Bununla birlikte, SGD her seferinde öğrenmek için eğitim setinden az sayıda örnek seçtiğinden, her güncelleme doğru yönde ilerlemeyebilir, bu nedenle optimizasyon dalgalanmaları meydana gelecektir.

Dışbükey olmayan işlevler için, SGD yalnızca yerel optimuma yakınsar. Ancak aynı zamanda, SGD'nin içerdiği rastgele dalgalanmalar, optimizasyon yönünün mevcut yerel optimumdan başka bir daha iyi yerel optimuma veya hatta global optimuma sıçramasını da sağlayabilir.

Araştırmacılar, Missouri Bilim ve Teknoloji Üniversitesi ve Baidu Büyük Veri Laboratuvarı tarafından yakın zamanda ortaklaşa yayınlanan bir makalede, Derin sinir ağı eğitimi sürecinde SGD'nin davranışını tanımlamak için olasılık teorisindeki büyük sapma teorisini kullanın .

"Bu çalışmanın başlangıç noktası, SGD ve GD'nin optimizasyon süreci arasındaki farkı, özellikle SGD'nin (GD'de bulunmayan) rastgele teriminin örtük düzenlemedeki rolünü anlamaya çalışmaktır." Makalenin ilk yazarı, Missouri Bilim ve Teknoloji Üniversitesi'nde matematik profesörü yardımcı doçenti olan Dr. Wenqing Hu, Xinzhiyuan ile yaptığı röportajda söyledi.

"Varyasyon analizi ve potansiyel fonksiyonlar oluşturarak, herhangi bir yerel optimum için varyansın varlığı nedeniyle, SGD'nin belirli bir kaçış olasılığına sahip olduğunu gördük." Araştırma lideri, Baidu Big Data Lab'da bilim insanı Dr. Huanjun Xin Zhiyuan'a şunları söyledi: "Eğer zaman yeterince uzunsa, SGD bir Markov zincirindeki tüm yerel optimaları aşacak ve nihayet küresel bir optimuma ulaşacaktır."

"Aşırı parametreleştirilmiş bir ağ için, herhangi bir veri noktasında küresel olarak optimal noktanın gradyanı 0'dır. SGD böyle bir konumla sınırlı olacaktır."

Kayıp yüzeyinin eyer noktasında farklı gradyan iniş optimizasyon yöntemlerinin performansı, parametrik ağın global optimum noktası, herhangi bir veri noktasında 0'dır ve SGD, böyle bir konumla sınırlı olacaktır.

Bu çalışma, derin sinir ağlarını eğitmede ve diğer makine öğrenimi modellerini eğitmede SGD'nin mekanizması ve rolü hakkında daha derin bir anlayışa sahip olmamıza yardımcı oluyor.

Yarı potansiyel fonksiyonu: stokastik gradyan inişinde kayıp fonksiyonunun örtük düzenli terimi

Genel olarak, SGD'nin, modelde veya kendi başına veri setinde yerel bir minimum nokta bulabilen "örtük bir düzenleme terimi" olduğuna inanılmaktadır.

Önceki çalışmalar, varyasyonel çıkarım perspektifinden SGD'nin kötü minimumdan kaçış olgusunu analiz etmişti. Araştırmalar ayrıca, SGD'nin kaçış oranının, özellikle derin sinir ağı modellerinde gürültü kovaryansı ile ilişkili olduğunu bulmuştur.

Yazar, "Sahte potansiyel işlevi, stokastik gradyan iniş kaybı işlevinde örtük bir düzenleme terimi olarak ele alın" başlıklı bu makalede, birleşik bir yöntem önermektedir: Sözde potansiyel, kantitatif bir ilişki köprüsü olarak kullanılır ve SGD'nin örtük düzenlenmesi ile SGD'nin rastgele teriminin kovaryans yapısı arasında bir bağlantı kurulur. .

Dr. Hu Wenqing, "Simülasyon potansiyeli'nin birleşik bakış açısından, SGD'nin uzun vadeli dinamikleri matematiksel olarak daha açık bir şekilde tanımlanabilir" dedi.

Spesifik olarak, stokastik gradyan inişinin (SGD) varyasyonel çıkarımını, potansiyel fonksiyonu en aza indirmenin bir süreci olarak görürler ve (global) yarı potansiyel fonksiyonunu kullanarak bu potansiyel fonksiyonu "yarı potansiyel" (yarı potansiyel) olarak adlandırırlar. Potansiyel QP dedi.

Bu sözde potansiyel işlev, küçük bir öğrenme oranıyla SGD'nin uzun vadeli davranışını karakterize edebilir. Araştırmacılar, SGD'nin nihayet ulaştığı küresel minimum noktanın hem orijinal kayıp fonksiyonu f'ye hem de SGD'nin birlikte geldiği rastgele terimin kovaryans yapısına bağlı olduğunu kanıtladılar.

Dahası, bu çalışmanın teorik tahminleri, genel dışbükey olmayan optimizasyon problemleri için geçerlidir, SGD rastlantısallığının kovaryans yapısının dinamik süreçte nihai küresel minimum noktayı seçmedeki anahtar rolünü ortaya çıkarır ve daha fazla açığa çıkarır. Makine öğreniminde SGD'nin örtük düzenlileştirme mekanizması.

Aşağıdakiler, Xinzhiyuanın, kağıdın dışbükey kayıp fonksiyonunun ilgili kısımlarını derlemesidir. Daha fazla bilgi edinmek için makaleyi görüntülemek için "Orijinali Oku" yu tıklayın .

Yerel sözde potansiyel: dışbükey kayıp fonksiyonu durumu

Orijinal kayıp fonksiyonu f (x) 'in dışbükey olduğunu ve yalnızca bir minimum O noktasına izin verildiğini varsayıyoruz, bu aynı zamanda global minimum noktasıdır. O başlangıç noktası olsun.

Bu bölümde yerel yarı potansiyel fonksiyonunu tanıtacağız ve onu Hamilton-Jacobian kısmi diferansiyel denklemi aracılığıyla SGD gürültü kovaryans yapısına bağlayacağız. Analizin temeli, LDT'yi yörünge uzayında bir yol integral teorisi olarak yorumlamaktır.

Gradyan inişinin küçük bir rastgele bozulması olarak SGD (GD)

İlk önce bir hipotez veriyoruz:

Hipotez 1: Kayıp fonksiyonunun f (x) 'nin Lf (x) gradyanına, yani L Lipschitz'e izin verdiğini varsayalım:

(x) 'in x'deki parçalı Lipschitz olduğunu ve SDG kovaryans matrisinin D (x) tüm xRd'ler için tersine çevrilebilir olduğunu varsayıyoruz, öyle ki:

> 0 için, SGD süreci, aşağıdaki deterministik denklemle karakterize edilen gradyan iniş (GD) akışına yakın bir yörüngeye sahiptir:

Aslında, aşağıdakileri kolayca kanıtlayabiliriz:

Lemma 1: Hipotez 1'e göre, herhangi bir T> 0 için,

Bazı sabitler için C = C (T, L, M) > 0.

Yukarıdaki formül oluşturulduğunda, 0tT aralığında x (t) ve xGD (t) 'nin yakınsadığı sonucuna kolayca varabiliriz.

Bu nedenle, sınırlı bir süre içinde, SGD süreci x (t), O başlangıç noktasının çevresine çekilecektir.

O, f (x) dışbükey kayıp fonksiyonunun tek minimum noktası olduğundan, R'deki her nokta, Rd gradyan akışı tarafından O'ya çekilir.

Yalnızca bir minimum O noktası olması durumunda, çekicilerin küçük rastgele bozulmalar nedeniyle kaçış özelliklerinin anlaşılması da gerçekleştirilebilir.

Yörünge uzayında yol integrali olarak açıklanan büyük sapma teorisi

Bu kaçış özelliğini nicel olarak açıklamak için, olasılık teorisinde Büyük Sapma Teorisini (LDT) kullanmanızı öneririz. Kabaca konuşursak, bu teori, yol uzayındaki olasılık ağırlığını verir ve ağırlığın üstel kısmı bir eylem fonksiyonel S ile verilir.

Varyasyon probleminin çözümü olarak yerel sözde potansiyel fonksiyon ve Hamilton-Jacobian denklemi

Yerel bir sözde potansiyel işlevi şu şekilde tanımlayabiliriz:

Aşağıdaki formül (5) ve formül 6) birleştirin

Durağan ölçünün üstel asimtotiğini verir:

Bu, gradyan sistemi yalnızca bir kararlı çekiciye O sahip olduğunda, sözde potansiyel QP (x) 'nin varyasyonel problemin çözümü olan yerel QPloc (x; x0) tarafından verildiği anlamına gelir (Denklem 5).

Yerel minimum noktanın kaçış niteliği (yerel sözde potansiyele göre)

Yerel sözde potansiyel QPloc'un (x; x0) bir diğer dikkat çekici özelliği, yerel minimum noktanın kaçış özelliğini tanımlamasıdır. Keskin minimumdan düz minimuma kaçış, iyi genellemeye götüren temel bir özelliktir.

LDT tahmini, çıkış olasılığının üstel bir tahminini elde etmek ve çekiciden ortalama ilk çıkış süresini elde etmek için bir araç sağlar.

Ve yerel minimum noktadaki bir x (t) sürecinin çıkış olasılığı, ortalama kaçış süresi ve hatta ilk çıkış konumu gibi kaçış özelliklerinin hepsinin sözde potansiyel ile ilgili olduğunu kanıtlayabiliriz.

Küresel sözde potansiyel: Yerel minimum noktalar arasındaki SGD Markov zincir dinamiği

Şimdi f (x) kayıp fonksiyonunun dışbükey olmadığını ve birden fazla yerel minimum nokta olduğunu varsayalım. Bu durumda, yerel minimum noktanın her çekim alanı için, yukarıda tanıtılan yerel sözde potansiyel matematiksel olarak inşa edilebilir.

SGD yerel bir minimum noktaya girdikten sonra, kovaryans yapısının neden olduğu gürültünün etkisi altında bu yerel minimum noktadan kaçacak ve sonra başka bir yerel minimum noktaya girecektir.

Yukarıdaki girişe göre, bu kaçış yerel bir sözde potansiyel tarafından verilebilir. Bununla birlikte, küresel durumda, farklı minimum noktalar arasındaki yerel sözde potansiyeller farklıdır ve kaçışın neden olduğu bir minimum noktadan diğer bir minimum noktaya geçiş, yerel bir aşırılığı tetikleyecektir. Küçük değer noktaları arasındaki Markov zinciri.

Makalemiz, SGD'nin uzun vadeli limit davranışının, Markov zincirinin tam olarak bu şekilde, olası yerel minimum noktaları geçerek ve nihayet küresel bir minimum noktaya ulaştığına işaret ediyor.

Bu küresel minimum noktanın, orijinal kayıp fonksiyonunun küresel minimum noktası olması gerekmediğini, ancak önceki bölümde yerel sözde potansiyellerin inşası ile belirlenebilen SGD'nin rastgele kovaryans yapısı ile ilgili olduğunu belirtmek gerekir. Görmenin yolu.

Bu, SGD'nin rastgeleliği tarafından üretilen kovaryans yapısının, onun uzun vadeli davranışını ve nihai küresel minimum nokta seçimini etkilediğini gösterir.

Makalede, kayıp fonksiyonu f (x) iki tam simetrik global minimum noktaya sahip olduğunda ve karşılık gelen kovaryans yapıları farklı olduğunda, SGD'nin küresel uçlardan birini seçme eğiliminde olacağını göstermek için bir örnek verilmiştir. Küçük değer noktası, bu minimum değer noktasına karşılık gelen kovaryans yapısı izotropiğe daha yakındır.

Gelecek iş

Araştırmacılar, bu çalışmayı, SGD tarafından eğitilen yerel minimumların genelleme performansını, özellikle genelleme yeteneği ile kovaryans yapısı arasındaki ilişkiyi daha iyi anlamak için kullanmayı umuyorlar. Buna dayanarak, daha fazla sonucun yalnızca aşırı parametreleştirilmiş sinir ağlarıyla sınırlı kalmayacağını, aynı zamanda genel derin öğrenme modellerine de uygulanabileceğini umuyorlar.

İlk 2 turda 1 puan dünyanın sonu değil! Tarihte bu ikilemde 4 takım var ama karşı saldırıya uğradı
önceki
şok! Bir Fener Festivali aniden uçtu ve patladı! Kızgın yağ gözlerine bile düştü ...
Sonraki
C Grubu'nun son sıralaması: Fransa, programın önünde bir galibiyet serisi kazandı, Peru elendi ve Avustralya bir ipte asılı kaldı
Yeni Jeep Commander: Reddetmesi zor, beş kişilik büyük bir SUV
"Sıkmayın! Kendinizi tek tek yavaşça çevirin!"
Fan tanrısı P figürü, İran ve İzlanda karşılaşma sahnesini aldattı, 10-0-0 otobüs karşılaşması, Mourinho da öğretmeni çalmaya geldi
Ali, LV, Samsung vb. Sahtekarlıkla savaşmak için bir araya geldi, Ma Yun kaynağı ortadan kaldırmak için her yolu kullanacaklarını söyledi.
Yeni Jeep Commander: Reddedilmesi zor, beş kişilik büyük bir SUV
Chen Yufan uyuşturucu kullandığı için tutuklandı ve kendisine gerçek bir çekiç verildi. Konserin başlangıçta yıl sonunda iptal edilmesi planlanmıştı.
Google açık kaynak GPipe: tek bir hızlandırıcı 318 milyon parametreyi işler, 25 kat hız artışı
ABD düşünce kuruluşu raporu: Çin'in çip yeniliği yavaş, aşmak çok zor
İspanya, daha az kart tutarak geçici olarak Portekiz'i geçti ve B Grubu'nun son turu sıralama harikalarını belirlemek için çekilebilir.
Yeni Jeep Commander: Reddetmesi zor, beş kişilik büyük bir SUV
Çin'in güçlü tüketim gücü var
To Top