Bayesci sinir ağları anlamsız mı? Barut dolu Twitter ve Reddit ikili savaş alanı tartışması

Yazar | Lei Feng.com AI Technology Review

Editör | Lei Feng Net Camel

Son zamanlarda, Twitter ve Reddit'te bir tartışma yükseldi. İlk olarak, François Chollet, Yann LeCun ve diğerleri "derin öğrenmenin ne olduğunu" analiz ettiler ve ardından çok sayıda araştırmacı "Bayesian sinir ağları mantıklı mı?" ". Yeni yıl barut dolu, bu aynı zamanda derin öğrenme araştırmalarının kaotik bir döneme girdiği anlamına mı geliyor? Ayrımcılık yapılmadan gerçek net değildir; bilgi, tartışma olmaksızın açık değildir.

Bayesçi sinir ağı denen şey, basit bir ifadeyle, genel bir sinir ağındaki ağırlığı ve önyargıyı belirli bir değerden bir dağıtıma değiştirmektir.

Genel anlayışa göre, parametreleri olasılık dağılımları şeklinde ifade etmenin bu yolu, ağ muhakemesi için belirsizlik tahminleri sağlayabilir; Ayrıca, parametreleri temsil etmek için önceki olasılık dağılımları formunu kullanarak, ortalama değer, eğitim sırasında birçok model üzerinde hesaplanabilir. Aşırı uyumu önlemek için ağa düzenlileştirme etkileri sağlayın. Ardından, yaklaşık bir ay önce, OpenAI araştırmacısı Carles Gelada bir dizi Twitter yayınladı:

Belki de Bayesci sinir ağlarının pek işe yaramadığını belirtti. Genel görüş şudur: 1) Bayes kurallarını yalnızca makul parametre önceliklerimiz olduğunda kullanacağız, ancak kimse öncüllerin sinir ağı ağırlıklarını kodlayacağını bilmiyor, öyleyse neden bunu kullanıyoruz Önsel? 2) Birçok düzenleme Bayes tarafından açıklanabilir, ancak aslında herkes düzenlemeye ilişkin bir açıklama verebilir. Öyleyse, düzenlileştirmeyi açıklamak için Bayes teorisini kullanmanın amacı nedir? 3) Bazı insanlar, BNN'lerin, düzenlemeyi bulmak için deneyimi doğrudan kullanmamıza izin verdiğini söyleyebilir. Ancak BNN'ler tarafından bulunan düzenleme alanının optimal olduğunu kim garanti eder? 4) BNN'ler Bayesian meta-öğrenme çerçevesinde kullanılabilir. Ancak bu uygulamanın diğer meta öğrenme çerçevelerinden daha iyi olacağına inanmak için hiçbir neden yok. Carles tarafından ortaya atılan bu itirazlara yanıt olarak Twitter, çok sayıda araştırmacıyı tartışmaya katılmaya çabucak çekti. Birçoğu, tarihsel gelişim, güncel araştırma ve pratik deneyim gibi çeşitli perspektiflerden klasikleri ve tartışmaları aktarır ve ya katılır ya da buna karşı çıkar.

1. Bayes sinir ağı yararlı mı?

Carles Gelada ve Jacob Buckman, "Bayes ağı işe yaramaz" konumunu açıklığa kavuşturmak için kısa süre önce fikirlerini yeniden düzenlediler ve Bayes ağı prensibinden başlayarak ayrıntılı olarak "BNN'lerin ihtiyacı olan" bir blog yazdılar. Önceden zengin bilgi içeren ön bilgi, belirsizlikle baş edebilir "ve genellemenin maliyetinin göz ardı edilemeyeceğine işaret etti.

1. Bayesçi sinir ağlarının belirsizliğinin nedenleri: genelleme önceden bilinemeyen

Buckman, Bayesçi ağlarda öncüllerin önemini göstermek için blogunda genelleme-agnostik önsözler sundu. Bayesci çıkarım için bu "bilinmeyen önseller" i kullanmaz Modelin belirsizliğini azaltın. Carles ve Buckman, Bayesci çerçeveyi derin öğrenmede kullanmak istiyorsanız, yalnızca önceleri sinir ağının genelleme özellikleriyle ilişkilendirirseniz iyi sonuçlar elde edebileceğinize inanmaktadır.Yöntem, iyi genelleme yeteneği olan bir işlevi daha yüksek bir değere vermektir. Olasılık. Bununla birlikte, mevcut akademik topluluk, hangi a priori durumun koşulu tatmin edebileceğini kanıtlamak için yeterli yeteneğe (yazarın tahmini) sahip değildir. Buckman ayrıca blogunda somut bir örnek verdi: Bir veri kümesi C

İki veri çifti içerir: biri verilen girdi ve çıktı doğru; diğeri verilen girdi ve çıktı yanlış. Sinir ağını eğiterek elde edilen parametreler

Sinir ağı hem doğru çıktıyı hem de yanlış çıktıyı ifade edebilmelidir. Model, veri seti üzerinde eğitim aldıktan sonra koşullu olasılığı p (f | c) = 1 alabilse bile, model test setinde kötü performans gösterebilir. Ek olarak, önceki bir Q olasılığını tanımlamak için, Q (f *) = Q (f) olmasına izin verebilirsiniz; bu, iyi genelleştirilmiş bir fonksiyon ve yetersiz genelleştirilmiş bir fonksiyonun aynı dağılım olasılığını alması anlamına gelir. Ancak bu tür bir öncel sorunludur: f * ve f verilerinin olasılığı 1 olduğundan ve önceki olasılıklar benzer olduğundan, bu, son olasılıkların da benzer olduğu anlamına gelir (aşağıdaki formül).

Not: Aslında, bazı veriler için, f yanlış çıktı üretebilir, yani Q (f *), Q (f) 'ye eşit değildir.

Özetle, Carles ve Buckman, veri setine bakılmaksızın, bilinemeyen genelleme koşullarında modelin belirsizliğinin azaltılamayacağına inanıyor. Yani Bayes sinir ağının temel faktörü şudur: priori, iyi genelleştirilmiş işlevler ile zayıf genelleştirilmiş işlevler arasında ayrım yapabilir.

2. Mevcut Bayes ağının genelleme yeteneği bilinmemektedir

Bayesçi bir sinir ağı kurarken, herkesin fikir birliği, önceden nispeten basit bir olasılık kullanmaktır, yani parametrelerin bağımsız bir Gauss dağılımına uyduğunu varsayarsak. Bununla birlikte, Gauss öncüllerinin yapısal önsellere yol açacağı açıktır ve bu önsellerin genelleme yeteneği yoktur.İki nedeni vardır: 1. Gauss öncülleri olasılıkları düzgün bir şekilde dağıtır. 2. Sinir ağlarını eğitirken, veri setine bakılmaksızın, en mantıklı strateji, farklı genelleme işlevlerine aynı ağırlığı vermek gibi görünmektedir. Diğer bir nokta da hesaplama probleminin göz ardı edilemeyeceğidir.Aslında, Bayesci çıkarımın nasıl hesaplanacağı q (F | D) Bayes sinir ağının (a priori genelleme agnostik) makul bir etkiye sahip olması için anahtar faktör olabilir.

3. BNN'leri rasyonel bir şekilde eleştirin

Carles ve Buckman ayrıca bloglarında yukarıdaki nedenlerin tahmin edildiğini, çünkü sinir ağlarının genelleme yeteneğini hangi faktörlerin belirlediğini bilmenin imkansız olduğunu, dolayısıyla Bayesci çıkarımın uygulanmasını tanımlayan öncüllerin belirsiz olduğunu belirtti. Bayesçi sinir ağı sadece bir sinir ağıdır ve önceki, sadece içindeki bir hiperparametredir. Carles ve Buckman, Bayes'i ağa eklemenin herhangi bir fayda sağlamayacağına, ancak iyi bir öncül bulunduğunda ve gerekçenin doğruluğu doğrulanabilirse yardımcı olacağına inanıyor. Ayrıca bir alan olarak aşkınlığın Bayesci çerçevede önemli bir rol oynadığını ve bu şüphesiz ki Bayes ağlarının rasyonel bir eleştirisine ihtiyaç duyulduğunu belirtmişlerdir. "Deneyim belirsizlik altında iyi performans gösterir" (bilgilendirici olmayan öncelikler belirsizlik altında iyidir).

2. Reddetme ve eleştiri: Twitter ve Reddit ikili savaş alanları

Bu blog eşzamanlı olarak Twitter ve Reddit'te yayınlandı ve bu da doğal olarak her iki platformda da çürütücüleri çekti.

1. Twitter savaş alanı: teknik bir hata var

New York Üniversitesi'nde matematik ve veri bilimi profesörü olan Andrew Gordon Wilson Twitter'da görüşlerinin yanlış olduğunu söyledi: bu blogda bir hata var.

1. Veriler, sığdırmak istediğimiz dağıtımdan geliyorsa, kullandığımız verilerin ölçeği arttıkça, olasılık o "iyi işleve" düşecektir, çünkü kötü işlevler gittikçe daha fazla hale gelecektir. Nadiren meydana gelir, bu da gözlemlerimizle tutarlıdır.

2. Gürültüye uyan bir modelde şaşırtıcı hiçbir şey yoktur ve "endüktif bir önyargı vardır ve gürültülü bir çözüm seçmeye daha meyillidir" ile aynı şey değildir. İşlevden önce basitçe standart bir GP-RBF eklemek gürültüyü destekleyebilir, ancak yapılandırılmış çözümleri modellemede yine de daha iyidir.

3. Genellikle sinir ağları tarafından çözülen sorunlar için, iyi çözümlerin sayısı genellikle kötü çözümlerin sayısından fazladır. Sinir ağlarının yapısı, daha iyi genelleme yapılmasına yardımcı olan tümevarımsal önyargılar içerir. Sinir ağı işlevlerinin "genelleme ile hiçbir ilgisi olmadığı" ifadesi biraz sorumsuzdur.

4. Aslında, işlev uzayında birçok farklı "ilgisiz genelleme" önceliği oluşturmak çok basittir ve davranışları sinir ağlarından çok farklı olacaktır. Sıradan yapılardan oluşabilirler ve kesinlikle herhangi bir genelleme yeteneklerine sahip olmayacaklardır.

5. İdeal posterior kasılma eksikliği birkaç durumda ortaya çıkar:

  • Hayali mekan iyi çözümler içermez;

  • A priori, kötü bir çözüm konusunda çok güvenlidir (örneğin, herhangi bir x'e aynı p etiketini atamak).

Ancak sinir ağının güçlü bir ifade yeteneği vardır ve buradaki durum b "önceden bulanık ağırlık" ile tamamen zıttır! Teknik tartışmalara ek olarak, ikinizin daha fazla soru sormanızı, daha fazlasını öğrenmenizi ve Bayes derin öğrenmeye açık fikirli olmanızı öneririm.

Belki de "Bayes sinir ağınız irrasyoneldir" a priori anlamak için çok güçlüdür (gülümsemek).

Carles Gelada bu soruya cevap verdi:

Durum sizin söylediğiniz gibi ise, bunu kanıtlamak Bayes desteğinin (şüphecilerimizin değil) sorumluluğudur, özellikle de modelin iyi bir belirsizlik sağlayabileceğini iddia ettiklerinde. Aslında, sorgulama nedenimiz, her bir başlangıç değerinin yakınında hem iyi hem de kötü genelleme işlevlerinin bulunması, dolayısıyla onların iddia ettikleri şey de sorgulanabilir.

Ek olarak, "hasarlı numunelerin takılması" ile ilgili tartışmalar, "gürültü yerleştirme" ile karıştırılmamalıdır. Tartışmamızda, sınıflandırma görevinde gürültü olmadığını varsaydık, ancak gürültülü bir sınıflandırma görevi olsa bile, görüşümüz geçerlidir. Basit bir test, şu anda kullanılan önceliklerin genelleme ile alakasız olmadığını gösterebilir: iyi bir işlevi eğitin, kötü bir işlevi eğitin ve ardından öncekinin daha iyi bir işleve daha yüksek bir olasılık verip vermediğine bakın. Durumun bu olmadığından şüpheleniyorum, ancak Bayes taraftarlarının bana önsellerinin iyi olduğunu kanıtlamaları gerekiyor.

2. Reddit yanıtı: yetersiz seviye + çifte standart

Reddit'teki netizenler daha yoğun ve duygusal yanıtlar verdi ve en çok onay alan gönderiler bile sert eleştiri ve alay içeriyordu.

adversary_argument:

Blog yazarları Bayesci çıkarımdaki gerçek a priori anlayışından yoksun oldukları için, bu tartışmayı çok sıkıcı buluyorum ve hatta çifte standart kokuyor.

Tüm derin öğrenme araştırmacıları (ve yazarların kendileri) sinir ağlarının geniş ölçekli kullanımını kabul etmişlerdir Net bir genelleme sınırı bulamasak bile, sinir ağları hakkında hala çok az teorik anlayışa sahibiz. Ancak sinir ağı tatmin edici bir şekilde çalıştığından, bu sorunlar körü körüne göz ardı edilir - sinir ağı iyi ve adildir. Bununla birlikte, yazarlar şimdi Bayes sinir ağlarının a priori güçlü teorik garantiler sağlamasını talep ediyorlar, ancak Bayes sinir ağlarının etkili olduğunu da kabul ediyorlar ... emmm, sence bu bir hırsızı yakalamak için bağıran bir hırsız gibi mi?

Derin öğrenme yapan insanlar olumsuz yorumlar yayabilirler ... Özellikle belli bir keyfi ve bozuk test seti C'yi tartışma, tartışma yolları, yaptıkları bir hedefe saldırmaktan ibaret. Bu kadar.

Size açıklayayım: Bozuk verilerin sayısını vermediler, ancak f_theta'nın D_test'te kesinlikle kötü performans göstereceğini iddia ettiler? Temeli nedir? Örneğin, D, bir milyon iyi veri noktasından oluşan bir veri kümesidir ve C, D artı hasarlı bir veri noktasıdır. Yani teorilerine göre, D_test'teki test hatası özellikle kötü olmalı?

Çok fazla sıçradılar ve sonunda sadece eğitim verilerine zarar vermenin Bayes sinir ağının test doğruluğunu azaltacağını kanıtladılar ... Ah ... Öyleyse bu kadar garip olan ...

Blogcu cevap verdi:

Belki de bloga yeterince net yazmadık. Bozuk veriler içeren bir veri kümesini, bozuk veriler olduğu sürece kötü tahmin performansının olacağını göstermek için değil (özellikle bir milyona bir durum için), ancak sinir ağı uydurma işleminden sonra bozuk veri olduğunu göstermek için düşünüyoruz. Genelleme performansı zayıf olan veri kümeleri var. Varoluşu göstermek için buradayız. Bir priori böyle bir ağa yüksek bir olasılık atarsa, Bayesci çıkarımın bir faydası olmaz. Blogumuz, Bayes sinir ağlarının işe yaramaz olduğunu ifade etmek değil, "Önceden iyi bir şey yoksa, Bayes sinir ağları iyi belirsizlik tahminleri getiremez" demek içindir. "Bilgilendirici olmayan hakkında. Standart a priori tartışma yöntemi sorunludur "ve" İyi bir belirsizlik tahminine sahip olmak için, sinir ağlarının genellemesini anlamamız gerekir. " Buna ek olarak, diğer birçok Reddit netizeni de orijinal blog yazarlarının tartışma tutumunun sorunlu olduğunu ve buna "sakin bakış" demek zor olduğunu düşünüyor. Bazı basit deneyler de kendi başınıza denenebilir.

Lei Feng.com raporları.

Yapay sinir ağı çok ilkel. "Bilim" in yeni çalışması, nöronların dendritlerinin aynı zamanda hesaplama gücü anlamına geldiğini ortaya koyuyor.
önceki
İlk "Ulusal Yapay Zeka Yarışması" nın sonuçları belli oldu! En yüksek ödül 1 milyon yuan'a ulaştı
Sonraki
Rehabilitasyon robotlarından rehabilitasyon ekolojisine, Fourier Intelligence'ın küresel yerleşim mantığı
18 kurban itfaiyecinin külleri Ningnan'a geri gönderildi ve on binlerce insan "kahramanı eve götürdü"
2728 şehidin mezar taşlarına birer birer çiçek açan Yantai Laiyang Gaziler İşleri Bürosu, kahramanlara haraç ödüyor
Bir puan afişi | Bugün Liaocheng, 20 beyaz askeri zaferle karşılıyor
Sıcak haber alanı | Soğuk hava Shandong'u vurdu, en düşük sıcaklık 0 'ye düştü! Jinan'ın en güzel kolza tohumu tarlası çiçek açıyor
Patlamak! Chengyang Hetao'daki bir sanayi parkında yangın çıktı ve yerinde duman yükseldi
Başsağlığı! Salgından bu yana en az 59 sağlık çalışanı öldü, lütfen bu listeyi unutmayın
Weihai Kamu Güvenliği Bürosu, farklı pozisyonlardaki kahramanlara sessiz bir saygı duruşunda bulundu.
Jinan'da 1,88 milyon kişiye internete saygı duruşunda bulunuldu ve 2.769 kişiye şehirdeki mezarlığa dönmeleri tavsiye edildi
"Uzak Doğu Kaliteli Üretim" in arkasındaki hikayeyi dinlemek için Uzak Doğu Test Merkezine gidin
Lenovonun yeni VR başlığı geliyor ve hala bir cep telefonuna veya bilgisayara bağlanmaya gerek yok.
garip! Çin'in ilk programlama dili "Mulan" Python'u çaldığından şüpheleniliyor Bağımsız araştırma ve geliştirmeye ne dersiniz?
To Top