g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Bayesci sinir ağları anlamsız mı? Barut dolu Twitter ve Reddit ikili savaş alanı tartışması

Yazar | AI Technology Review Editör | Camel

Son zamanlarda, önce Franço ile olmak üzere, Twitter ve Reddit'te bir tartışma yükseldi. dır-dir Chollet, Yann LeCun ve diğerleri "derin öğrenmenin ne olduğunu" ayırt ettiler ve ardından çok sayıda araştırmacı "Bayes sinir ağının bir anlamı yok" hakkında tartıştılar. Yeni yıl barut dolu, bu aynı zamanda derin öğrenme araştırmalarının kaotik bir döneme girdiği anlamına mı geliyor? Ayrımcılık yapılmadan gerçek net değildir; bilgi, tartışma olmaksızın açık değildir.

Bayesçi sinir ağı denen şey, basit bir ifadeyle, genel bir sinir ağındaki ağırlığı ve önyargıyı belirli bir değerden bir dağıtıma değiştirmektir.

Genel anlayışa göre, parametreleri olasılık dağılımları şeklinde ifade etmenin bu yolu, ağ muhakemesi için belirsizlik tahminleri sağlayabilir; Ayrıca, parametreleri temsil etmek için önceki olasılık dağılımları formunu kullanarak, ortalama değer, eğitim sırasında birçok model üzerinde hesaplanabilir. Aşırı uyumu önlemek için ağa düzenlileştirme etkileri sağlayın.

Ardından, yaklaşık bir ay önce, OpenAI araştırmacısı Carles Gelada bir dizi Twitter yayınladı:

Belki de Bayesci sinir ağlarının pek işe yaramadığını belirtti. Genel görüş:

1) Bayes kurallarını yalnızca makul parametre önceliklerimiz olduğunda kullanacağız, ancak kimse öncüllerin sinir ağı ağırlıklarını kodlayacağını bilmiyor, öyleyse bunu neden önceden kullanıyoruz?

2) Birçok düzenleme Bayes tarafından açıklanabilir, ancak aslında herkes düzenlemeye ilişkin bir açıklama verebilir. Öyleyse, düzenlileştirmeyi açıklamak için Bayes teorisini kullanmanın amacı nedir?

3) Bazı insanlar, BNN'lerin, düzenlemeyi bulmak için deneyimi doğrudan kullanmamıza izin verdiğini söyleyebilir. Ancak BNN'ler tarafından bulunan düzenleme alanının optimal olduğunu kim garanti eder?

4) BNN'ler Bayesian meta-öğrenme çerçevesinde kullanılabilir. Ancak bu uygulamanın diğer meta öğrenme çerçevelerinden daha iyi olacağına inanmak için hiçbir neden yok.

Carles tarafından ortaya atılan bu itirazlara yanıt olarak Twitter, çok sayıda araştırmacıyı tartışmaya katılmaya çabucak çekti. Birçoğu, tarihsel gelişim, güncel araştırma ve pratik deneyim gibi çeşitli perspektiflerden klasikleri ve tartışmaları aktarır ve ya katılır ya da buna karşı çıkar.

1. Bayes sinir ağı yararlı mı?

Carles Gelada ve Jacob Buckman, "Bayes ağı işe yaramaz" konumunu açıklığa kavuşturmak için kısa süre önce fikirlerini yeniden düzenlediler ve Bayes ağı prensibinden başlayarak ayrıntılı olarak "BNN'lerin ihtiyacı olan" bir blog yazdılar. Önceden zengin bilgi içeren ön bilgi, belirsizlikle baş edebilir "ve genellemenin maliyetinin göz ardı edilemeyeceğine işaret etti.

1. Bayesçi sinir ağlarının belirsizliğinin nedenleri: genelleme önceden bilinemeyen

Buckman, Bayesçi ağlarda öncüllerin önemini göstermek için blogunda genelleme-agnostik önsözler sundu. Bayesci çıkarım için bu "bilinmeyen önseller" i kullanmaz Modelin belirsizliğini azaltın. Carles ve Buckman, Bayesian çerçevesini derin öğrenmede kullanmak istiyorsanız, yalnızca önceleri sinir ağının genelleme özellikleriyle ilişkilendirirseniz iyi sonuçlar elde edebileceğinize inanmaktadır.Yöntem, iyi genelleme yeteneği olan bir işlevi daha yüksek bir Olasılık. Bununla birlikte, mevcut akademik topluluk, hangi a priori durumun koşulu tatmin edebileceğini kanıtlamak için yeterli yeteneğe (yazarın tahmini) sahip değildir.

Buckman ayrıca blogunda belirli bir örnek verdi:

Bir veri seti iki veri çifti içerdiğinde: birine girdi verilir ve çıktı doğrudur; diğerine girdi verilir ve çıktı yanlıştır. Sinir ağını eğiterek elde edilen parametreler, sinir ağının hem doğru çıktıyı hem de yanlış çıktıyı ifade etmesine izin vermelidir.

Model, veri seti üzerinde eğitim aldıktan sonra koşullu olasılıklar elde edebilse bile, model test setinde kötü performans gösterebilir. Ek olarak, bir önceki olasılık tanımlanabilir; bu, iyi genelleştirilmiş bir fonksiyon ve yetersiz genelleştirilmiş bir fonksiyon aynı dağılım olasılığını elde ederse anlamına gelir. Ancak bu tür bir öncel sorunludur: çünkü verilerin toplamının olasılığı 1'dir ve önceki olasılık benzer olduğundan, bu, arka olasılığın da benzer olduğu anlamına gelir (aşağıdaki formül).

Not: Aslında bazı veriler için yanlış çıktı üretilebilir, yani.

Özetle, Carles ve Buckman, veri setine bakılmaksızın, bilinemeyen genelleme koşullarında modelin belirsizliğinin azaltılamayacağına inanıyor. Yani Bayes sinir ağının temel faktörü şudur: priori, iyi genelleştirilmiş işlevler ile zayıf genelleştirilmiş işlevler arasında ayrım yapabilir.

2. Mevcut Bayes ağının genelleme yeteneği bilinmemektedir

Bayesçi bir sinir ağı kurarken, herkesin fikir birliği, önceden nispeten basit bir olasılık kullanmaktır, yani parametrelerin bağımsız bir Gauss dağılımına uyduğunu varsayarsak. Bununla birlikte, Gauss öncüllerinin yapısal önsellere yol açacağı açıktır ve bu önsellerin genelleme yeteneği yoktur.İki nedeni vardır: 1. Gauss öncülleri olasılıkları düzgün bir şekilde dağıtır. 2. Sinir ağlarını eğitirken, veri setine bakılmaksızın, en mantıklı strateji, farklı genelleme işlevlerine aynı ağırlığı vermek gibi görünmektedir.

Diğer bir nokta da hesaplama probleminin göz ardı edilemeyeceğidir.Aslında, Bayesci çıkarımın nasıl hesaplanacağı q (F | D) Bayes sinir ağının (a priori genelleme agnostik) makul bir etkiye sahip olması için anahtar faktör olabilir.

3. BNN'leri rasyonel bir şekilde eleştirin

Carles ve Buckman ayrıca bloglarında yukarıdaki nedenlerin tahmin edildiğini, çünkü sinir ağlarının genelleme yeteneğini hangi faktörlerin belirlediğini bilmenin imkansız olduğunu, dolayısıyla Bayesci çıkarımın uygulanmasını tanımlayan öncüllerin belirsiz olduğunu belirtti.

Bayesçi sinir ağı sadece bir sinir ağıdır ve önceki, sadece içindeki bir hiperparametredir. Carles ve Buckman, Bayes'i ağa eklemenin herhangi bir fayda sağlamayacağına, ancak iyi bir öncül bulunduğunda ve gerekçenin doğruluğu doğrulanabilirse yardımcı olacağına inanıyor.

Ayrıca bir alan olarak aşkınlığın Bayesci çerçevede önemli bir rol oynadığını ve bu şüphesiz ki Bayes ağlarının rasyonel bir eleştirisine ihtiyaç duyulduğunu belirtmişlerdir. Deneyim belirsizlik altında iyi performans gösteriyor "(bilgilendirici olmayan öncelikler vardır Belirsizlik altında iyi) bu akılsız görüş tarafından etkilenir.

2. Reddetme ve eleştiri: Twitter ve Reddit ikili savaş alanları

Bu blog eşzamanlı olarak yayınlandı Twitter Reddit ve Reddit'te, doğal olarak her iki platformda da çürütücüler çekti.

1. Twitter savaş alanı: Teknik hata

New York Üniversitesi matematik ve veri bilimi profesörü Andrew Gordon Wilson Twitter'da görüşlerinin yanlış olduğunu belirtti:

Bu blogda bir hata var.

1. Veriler, sığdırmak istediğimiz dağıtımdan geliyorsa, kullandığımız verilerin ölçeği arttıkça, olasılık o "iyi işleve" düşecektir, çünkü kötü işlevler gittikçe daha fazla hale gelecektir. Nadiren meydana gelir, bu da gözlemlerimizle tutarlıdır.

2. Gürültüye uyan bir modelde şaşırtıcı hiçbir şey yoktur ve "endüktif bir önyargı vardır ve gürültülü bir çözüm seçmeye daha meyillidir" ile aynı şey değildir. İşlevden önce basitçe standart bir GP-RBF eklemek gürültüyü destekleyebilir, ancak yapılandırılmış çözümleri modellemede yine de daha iyidir.

3. Genellikle sinir ağları tarafından çözülen sorunlar için, iyi çözümlerin sayısı genellikle kötü çözümlerin sayısından fazladır. Sinir ağlarının yapısı, daha iyi genelleme yapılmasına yardımcı olan tümevarımsal önyargılar içerir. Sinir ağı işlevlerinin "genelleme ile hiçbir ilgisi olmadığı" ifadesi biraz sorumsuzca.

4. Aslında, işlev uzayında birçok farklı "ilgisiz genelleme" önceliği oluşturmak çok basittir ve davranışları sinir ağlarından çok farklı olacaktır. Sıradan yapılardan oluşabilirler ve kesinlikle herhangi bir genelleme yeteneklerine sahip olmayacaklardır.

5. İdeal posterior kasılma eksikliği birkaç durumda ortaya çıkar:

Hayali mekan iyi çözümler içermez;

A priori, kötü bir çözüm konusunda çok güvenlidir (örneğin, herhangi bir x'e aynı p etiketini atamak).

Ancak sinir ağının güçlü bir ifade yeteneği vardır ve buradaki durum b "önceden bulanık ağırlık" ile tamamen zıttır!

Teknik tartışmalara ek olarak, ben Önermek İkisi daha fazla soru sorabilir, daha fazla şey öğrenebilir ve Bayes derin öğrenmeye açık fikirli olabilir. Belki de "Bayes sinir ağınız irrasyoneldir" a priori anlamak için çok güçlüdür (gülümsemek).

Carles Gelada bu soruya cevap verdi:

Durum sizin söylediğiniz gibi ise, bunu kanıtlamak Bayes desteğinin (şüphecilerimizin değil) sorumluluğudur, özellikle de modelin iyi bir belirsizlik sağlayabileceğini iddia ettiklerinde. Aslında, sorgulama nedenimiz, her bir başlangıç değerinin yakınında hem iyi hem de kötü genelleme işlevlerinin bulunması, dolayısıyla onların iddia ettikleri şey de sorgulanabilir.

Ek olarak, "hasarlı numunelerin takılması" ile ilgili tartışmalar, "gürültü yerleştirme" ile karıştırılmamalıdır. Tartışmamızda, sınıflandırma görevinde gürültü olmadığını varsaydık, ancak gürültülü bir sınıflandırma görevi olsa bile, görüşümüz geçerlidir.

Basit bir test, şu anda kullanılan önceliklerin genelleme ile alakasız olmadığını gösterebilir: iyi bir işlevi eğitin, kötü bir işlevi eğitin ve ardından öncekinin daha iyi bir işleve daha yüksek bir olasılık verip vermediğine bakın. Durumun bu olmadığından şüpheleniyorum, ancak Bayes taraftarlarının bana önsellerinin iyi olduğunu kanıtlamaları gerekiyor.

2. Reddit yanıtı: yetersiz seviye + çifte standart

Reddit'teki netizenler daha yoğun ve duygusal yanıtlar verdi ve en çok onay alan gönderiler bile sert eleştiri ve alay içeriyordu.

adversary_argument:

Blog yazarları Bayesci çıkarımdaki gerçek a priori anlayışından yoksun oldukları için, bu tartışmayı çok sıkıcı buluyorum ve hatta çifte standart kokuyor. Tüm derin öğrenme araştırmacıları (ve yazarların kendileri) sinir ağlarının geniş ölçekli kullanımını kabul etmişlerdir Net bir genelleme sınırı bulamasak bile, sinir ağları hakkında hala çok az teorik anlayışa sahibiz. Ancak sinir ağı tatmin edici bir şekilde çalıştığından, bu sorunlar körü körüne göz ardı edilir - sinir ağı iyi ve adildir.

Bununla birlikte, yazarlar şimdi Bayes sinir ağlarının a priori güçlü teorik garantiler sağlamasını talep ediyorlar, ancak Bayes sinir ağlarının etkili olduğunu da kabul ediyorlar ... emmm, sence bu bir hırsızı yakalamak için bağıran bir hırsız gibi mi? Derin öğrenme yapanlar olumsuz yorumlar yayabilirler ...

Özellikle, keyfi, bozuk bir test seti C'yi tartışma ve tartışma tarzlarının, yaptıkları bir hedefe saldırmak olduğunu düşünüyorum. Size açıklayayım: Bozuk verilerin sayısını vermediler, ancak f_theta'nın D_test'te kesinlikle kötü performans göstereceğini iddia ettiler? Temeli nedir? Örneğin, D, bir milyon iyi veri noktasından oluşan bir veri kümesidir ve C, D'dir. Artı Bozuk bir veri noktası, yani teorilerine göre, D_test'teki test hatası özellikle kötü olmalı?

Çok fazla sıçradılar ve sonunda sadece eğitim verilerine zarar vermenin Bayes sinir ağının test doğruluğunu azaltacağını kanıtladılar ... Ah ... Öyleyse bu kadar garip olan ...

Blogcu cevap verdi:

Belki de bloga yeterince net yazmadık. Bozuk veriler içeren bir veri kümesini, bozuk veriler olduğu sürece kötü tahmin performansının olacağını göstermek için değil (özellikle bir milyona bir durum için), ancak sinir ağı uydurma işleminden sonra bozuk veri olduğunu göstermek için düşünüyoruz. Genelleme performansı zayıf olan veri kümeleri var. Varoluşu göstermek için buradayız. Bir priori böyle bir ağa yüksek bir olasılık atarsa, Bayesci çıkarımın bir faydası olmaz.

Blogumuz, Bayes sinir ağlarının işe yaramaz olduğunu ifade etmek değil, "Önceden iyi bir şey yoksa, Bayes sinir ağları iyi belirsizlik tahminleri getiremez" demek içindir. "Bilgilendirici olmayan hakkında. Standart a priori tartışma yöntemi sorunludur "ve" İyi bir belirsizlik tahminine sahip olmak için, sinir ağlarının genellemesini anlamamız gerekir. "

Buna ek olarak, diğer birçok Reddit netizeni de orijinal blog yazarlarının tartışma tutumunun sorunlu olduğunu ve buna "sakin bakış" demek zor olduğunu düşünüyor. Bazı basit deneyler de kendi başınıza denenebilir.

AAAI 2020 | Bilgisayar Teknolojisi Enstitüsü'nden WeChat AI: Eğitim hedeflerini iyileştirin ve otoregresif olmayan modellerin (açık kaynaklı) çeviri kalitesini iyileştirin

ICLR 2020 | 15.000 sinir ağını eğitin, NAS'ı hızlandırın ve aramayı yalnızca 0,1 saniyede tamamlayın