Liselerde derin öğrenme kursları sunmadan önce hâlâ ne kadar temel kuramımız yok?

Leifeng.com AI teknolojisi inceleme notu: Bu makale, kıdemli bir makine öğrenimi uzmanı ve NIPS 2017 "Test of Time Award" (Test of Time Award) sahibi Ali Rahimi'den geliyor. Ali'nin ödüllü konuşmasında derin öğrenmeyi simyayla en son karşılaştırması derin öğrenme çemberinde geniş çaplı bir tartışmaya neden oldu. Yann LeCun da onu sıkıştırdı, ancak sonunda herkes derin öğrenmenin teorik temelinin yeterince sağlam olmadığını kabul etti. Öte yandan, derin öğrenmenin popülaritesi azalmıyor, sadece tanınmış üniversitelerden yüksek lisans ve doktorlara yapılan başvurular sıcak değil, aynı zamanda lisans ve lise okulları bile makine öğrenimi / yapay zeka kursları açmayı düşünmeye başladı.Tabii ki, trendin tepesinde olanlar da var. Derin öğrenme.

Ardından Ali şu soruyu sordu.

Ali, bu konunun tetiklediği düşüncelerle ilgili bir makale yazdı. Leifeng.com AI Technology Review'in tam metni aşağıdaki gibi derlenmiştir.

Derin öğrenme teknolojisinin bu dersi ortaokullarda öğretecek kadar olgun olduğunu düşünüyor musunuz?

Neden soruyorum Kısa bir süre önce, büyük bir şirketin ürün yöneticisinden bir e-posta aldım. Şahsen özel posta yayınlamayı sevdiğim için, aşağıda yayınlayacağım:

Gönderen: M.

Merhaba Ali,

Takımın genç üyelerine model parametreleri hakkındaki önsezilerini test etmeyi veya bu sezgiyi kazanmayı nasıl öğretirsiniz?

Ekibimizdeki mühendisler genellikle hiperparametreleri diğer bilim adamlarının araştırma sonuçlarından "miras alırlar", ancak parametreleri kendileri ayarlamaktan çok korkarlar.

Bu e-posta beni birkaç gün düşünmeye itti. Uzun zamandır yapıcı bir cevap düşünemedim.

Gerçekten cevap vermek istiyorsam şunu söylemek istiyorum: Mühendisleri gerçekten korkmalı!

Eğer bir mühendis iseniz, yukarıdaki ağla yüzleşiyorsanız, belirli bir veri seti üzerinde daha iyi çalışmasını sağlamanız gerekir. Nedenlerle bu ağ katmanlarının varlığını düşünebilirsiniz. Ancak bilimsel bir alan olarak, bu nedenleri ifade etmenin hala evrensel bir yolu yok. Derin öğrenmeyi öğretme şeklimiz, diğer konuları öğretme şeklimizden çok farklıdır.

Optik mühendisleri nasıl çalışır?

Birkaç yıl önce optik alanıyla tanıştım. Optik alanında, girdiyi işlemek için bileşen katmanları da oluşturursunuz. İşte bir kamera merceği:

Bunun gibi bir şey tasarlamak için, önce onu icat eden ünlünün adını taşıyan temel optik yapıları kullanacaksınız. Hangi bölümlerinin gereksinimlerinizi karşılamadığını bulmak için simülasyon deneyleri yapacak ve ardından eksiklikleri gidermek için ek lensler takacaksınız.

Daha sonra, bazı tasarım hedeflerini en üst düzeye çıkarmak için tüm sistemi sayısal bir optimize edici aracılığıyla işlemeniz ve eğimli yüzeyin şekli, konumu ve eğimi gibi parametreleri ayarlamanız gerekir. Ardından, simüle edecek, tasarımı değiştirecek, sistemi optimize edecek ve sistem gereksinimleri karşılayana kadar bu işlemi tekrar tekrar yapacaksınız.

Bu süreç derin bir sinir ağına ne kadar benziyor!

Bu yapı serisindeki 36 mercek, onlara belirli anlamlarla yerleştirilir ve belirli anormal durumların düzeltilmesinden sorumludurlar. Bu, her merceğin içinden geçen ışık üzerindeki etkisini anlamak için çok net bir zihinsel modele sahip olmamızı gerektirir. Bu zihinsel model genellikle kırılma, yansıma, kırınım, dağılım veya dalga önü düzeltme gibi belirli bir işleve dayanır.

İnsanlar bu tasarım sürecinden korkmuyor. Her yıl, Amerika Birleşik Devletleri'ndeki yüzlerce optik mühendisi lens tasarımı üzerinde çalışmak üzere mezun oluyor. İşlerinden korkmuyorlar.

Bunun nedeni, optiğin çok basit olması değildir. Bunun nedeni, optik zihinsel modeli iyi organize etmiş olmalarıdır.

Modern optik öğretimi farklı seviyelerde soyutlanmıştır.

En üstte, en basit katman ışını optiği var. Işın optiği, dalga optiğinin basitleştirilmesidir.Dalga optiğinde ışık, dalga cephesinin normal vektörünü temsil eder. Dalga optiği, Maxwell denklemlerinin yaklaşık bir çözümüdür. Maxwell denklemleri kuantum fiziğinden türetilebilir, ancak bunu çok iyi bilmiyorum.

Her katman, varsayımları basitleştirerek aşağıdaki katmanlardan türetilmiştir. Bu nedenle, her katman, üst katmandan daha karmaşık olayları açıklayabilir.

Zamanımın çoğunu ilk dört soyut katmanı tasarlamakla geçirdim.

Bugün optiği bu şekilde öğretiyoruz. Ancak bu teoriler her zaman yukarıdaki ağ yapısı gibi organize edilmez. Yüz yıl öncesine kadar, bu teorilerin bazıları çelişkili bir durumda bir arada var oldu. Uygulayıcılar, yalnızca optikle ilgili bazı izinsiz, gayri resmi teorilere güvenebilirler.

Newton'un ışın optiğinin tanımını resmileştirmesinden neredeyse yüz yıl önce, yukarıda bahsedilen durum Galileo'nun harika bir teleskop yapmasını engellemedi. Galileo'nun zihninde, yeterince iyi bir zihinsel ışık modeline sahip, bu da ona nesneleri on kat büyütebilen bir teleskop yaratmasına izin veriyor. Bununla birlikte, optik anlayışının da bazı eksiklikleri vardır, bu nedenle renk sapmalarını düzeltemez veya daha geniş bir görüş alanı elde edemez.

Bu ışık teorileri bir dizi soyut katman halinde birleştirilmeden önce, her doktrinin temel ışık kavramıyla başlaması gerekir. Bu, yeni bir dizi gerçekçi olmayan varsayımlar yaratacaktır. Newton'un ışın optiği, ışık ışınlarını katı madde tarafından çekilebilen veya itilebilen sis benzeri parçacıklar olarak modeller. Huygens, ışığı gizemli ortam "eter" boyunca yayılan uzunlamasına bir basınç dalgası olarak modelledi. Işığı ses gibi modelledi. Maxwell ayrıca ışığın "eter" içinden geçtiğini varsayar. Bu varsayımın izlerini Maxwell denklemlerinin katsayılarında da görebilirsiniz.

Evet bu aptal bir model! Ancak ölçülebilir ve tahmin etme yeteneğine sahiptir.

Bu hipotezler kulağa aptalca gelse de, bu modeller ölçülebilir ve tahmin etme yeteneklerine sahipler. Verileri bu sistemlere doldurabilir ve çıktı olarak sayısal tahminler alabilirsiniz. Bu, mühendisler için çok yararlıdır!

Yani derin öğrenme için ...

Derin öğrenmede keşfetmek istediğimiz şey, derin öğrenmedeki her katmanın işlevlerini açıklamak için modüler bir dil bulmaktır.

Derin bir sinir ağındaki her bir katmanın işlevini, ışığın optikte bir optik cihazdan nasıl geçtiği gibi tanımlayabilirsek, derin bir sinir ağı tasarlama işimiz daha kolay olacaktır.

Bence evrişimli katmanın işlevi, girdileriyle eşleşen filtreleri çalıştırmaktır ve havuzlama katmanı, onu takip eden doğrusal olmayan birimdir. Bu, Maxwell denklemlerinin perspektifinden bir merceğin işlevini açıklamaya benzer, nispeten "düşük seviyeli" bir tanımdır.

Güvenebileceğimiz daha "üst düzey" soyut kavramlar olabilir. Ağ katmanının işlevini, ağ katmanından geçtikten sonra veri değerinin ölçülmesine göre tanımlayabiliriz, bu da lensin ışığı nasıl büktüğüne göre işlevini açıklamaya benzer. .

Ve bu soyut kavram ölçülebilirse, daha da yüksektir. Bu şekilde, ağ yapınızı tasarlamanıza yardımcı olacak kaba bir analiz için sayıları bir formüle girebilirsiniz.

Hala böyle bir dilden çok uzağız. Öyleyse daha basit bir durumla başlayalım.

Ama belki fantezi tarafından yönlendirildim!

Daha basit bir durumla başlayalım. Derin sinir ağı eğitiminin nasıl çalıştığına dair birçok zihinsel modelimiz var. Açıklamaya değer bazı vakalar topladım. Bu zihinsel modellerin bu fenomeni nasıl açıkladığını görelim.

Analize girmeden önce, bu küçük araştırmanın çok zor olduğunu kabul ediyorum. Optik bunu yapmak için 300 yıldan fazla zaman kullandı ve ben sadece bu araştırmayı yapmak için bir Cumartesi öğleden sonrasını geçirdim. Buna göre, bulgularımı sadece blogumda yayınladım.

  • Olgu: Stokastik gradyan iniş (SGD) algoritmasının rastgele başlatılması yeterince iyidir, ancak daha sonra küçük bir sayısal hata veya uygun olmayan adım boyutu, rastgele gradyan iniş sürecini yok edecektir.

Bazı uygulayıcılar, gradyanların birikme şeklindeki küçük değişikliklerin test setinde büyük performans farklılıklarına neden olabileceğini fark etmişlerdir. Örneğin, eğitim için CPU yerine GPU kullandığınızda (https://github.com/tensorflow/tensorflow/issues/2226, https://github.com/tensorflow/tensorflow/issues/2732), bu görünecektir Bu durum.

Bunun açıklamaya değer makul bir gözlem olduğunu düşünüyor musunuz? Yoksa bunun sahte ve gerçek dışı bir gözlem olabileceğini mi düşünüyorsunuz? Ya da belki bu gözlemde yanlış olan bir şey olduğunu düşünüyorsunuz, sanki mantıksal olarak bir dereceye kadar çelişiyormuş gibi? Veya sunumu uygunsuzdur.

Eminim şu anda karışık duygular içindesinizdir. Ama şimdilik bunu bir fenomen olarak kaydedelim ve araştırmamıza devam edelim.

  • Olgu: Sığ modelin yerel minimumunun, keskin minimumdan daha iyi genelleme yeteneği vardır.

Bu ifade şimdi çok popüler. Bazı insanlar bunun doğru olduğu konusunda ısrar ediyor (https://arxiv.org/abs/1609.04836, https://arxiv.org/abs/1611.01838, https://arxiv.org/abs/1704.04289, https: // arxiv. org / abs / 1710.06451), ben dahil diğerleri, bu ifadenin mantıksal olarak yanlış olduğunu düşünür ve bunun doğru olduğunu düşünenler çürütür: ampirik olarak, bu ifade gerçekten doğrudur (https: // arxiv.org/abs/1703.04933)! Günümüzde, bazı araştırmacılar bu ifadeyi geliştirdiler ve değişken bir versiyon buldular (https://arxiv.org/abs/1706.08947). Bu ifade hala kafa karıştırıcıdır (https://twitter.com/beenwrekt/status/941005520420225025).

Bu fenomenin tartışmalı olabileceğini, ancak yine de altta tuttuğunu belirtmem gerekiyor.

  • Olgu: Toplu düzenleme (BN) katmanının gömülmesi, rastgele gradyan inişini hızlandıracaktır.

"Toplu düzenleme etkilidir" neredeyse tartışmasızdır. Burada bir karşı örnek veriyorum ( ve bu fenomeni yorum yapmadan kaydediyorum.

  • Olgu: Birçok yerel optimal nokta ve eyer noktası olmasına rağmen, stokastik gradyan iniş algoritması optimizasyon problemini her zaman başarılı bir şekilde çözebilir

Bu konuda çeşitli görüşler var. Sıklıkla bahsedilen bir argüman, eyer noktalarının ve yerel minimumların, derin öğrenme ile eğitilen kayıp fonksiyonunun yüzeyinde ortak olduğudur (https://arxiv.org/abs/1712.04741). Buna ek olarak, insanlar eğimli inişin bu sorunun üstesinden gelebileceğini (https://arxiv.org/abs/1412.6544) veya iyi genelleştirilebilecek bir çözüme ulaşmak için bu sorunun üstesinden gelmeye gerek olmadığını düşünüyor (https: / /arxiv.org/abs/1712.04741). Bazı insanlar derin öğrenme modelinin kayıp yüzeyinin genellikle iyi işlendiğini düşünür (

Burada, bu fenomeni isteksizce kaydettim.

  • Olgu: Bırakma, diğer "randomizasyon stratejilerinden" daha etkilidir

Dropout'a benzer algoritmaları nasıl kategorize edeceğimi bilmiyorum, bu yüzden burada bunlardan "randomizasyon stratejileri" olarak bahsediyorum.

Üzgünüm, sadece yorum yapmadan buraya kaydettim.

  • Olgu: Derin sinir ağları rastgele etiketleri hatırlayabilir ve bunları genelleştirebilir

Buradaki kanıt çok açık (https://arxiv.org/abs/1611.03530), sevgili arkadaşlarım onları buldu ve bu görüşü destekliyor.

Tartışmaya rağmen burada kaydedeceğim.

Açıklama

Bazı fenomenler keşfettik. Yukarıda bahsettiğim makalelerden, bu fenomeni en iyi şekilde açıklayabileceğini düşündüğüm akademik teoriler de edindim.

Araştırma ilerlememize bir göz atalım:

Ama yine de erken mutlu değiliz, hala aşağıdaki sorunlarla karşı karşıyayız:

Öncelikle, başlangıçta açıklamak istediğimiz bazı gözlemlerin makul olduğuna katılmıyorum.

İkincisi, bu açıklamaları hiyerarşik bir soyutlama halinde düzenleyemem ve bunu optik hiyerarşik soyutlama kadar açık ifade edemem.

Üçüncüsü, gazeteden alıntı yaptığım bazı teorilerin doğru olmadığından şüpheleniyorum.

bakış açım

Sektörümüze çok sayıda yeni gelenler akın etti ve genellikle onları bazı düzensiz yollarla eğitiyor, onlara önceden eğitilmiş derin sinir ağlarını öğretiyor ve sonra kendi başlarına yenilik yapmalarını istiyoruz. Açıklanması gereken olaylarla ilgili olarak kendi başımıza bir anlaşmaya varamayız. Bunları lisede öğretmek için çok uzaktayız.

Yani ne yapmalıyız?

Derin öğrenme ağındaki her katmanın işlevini tanımlamak için farklı soyutlama düzeylerinden oluşan zihinsel bir model sunabilirsek harika olurdu. Derin öğrenme alanında, "kırılma indisi", "dağılma" ve "kırınım" ile ilgili kavramlarımız nelerdir? Belki bu konuları düşündünüz, ancak dilimizi bu kavramlar üzerine standartlaştırmadık.

Hepimizin hemfikir olduğu bir grup olguyu bir araya getirelim. Daha sonra bunları net bir şekilde açıklamaya çalışabiliriz. Newton'un halkaları, Kerr etkisi ve Faraday etkisiyle eşdeğerlerimiz nelerdir?

Küçük bir grup meslektaşım ve ben, alanımızdaki zihinsel modelleri sınıflandırmaya ve resmileştirmeye çalışarak deneysel bir çalışmaya başladık ve sonra bunları doğrulamak için deneyler yaptık. Bu büyük bir proje. Bence bu, derin öğrenmenin hiyerarşik bir psikolojik modeli oluşturmanın ve liselerde derin öğrenme kursları sunmanın ilk adımıdır.

Lei Feng.com AI Technology Review tarafından derlenen argmin aracılığıyla

Sonunda yapmak istedim! MIUI 9, kenar akıllı hareketleri destekliyor, Xiaomi Mi Note 2 deneyiminin iyileştirilmesi bekleniyor
önceki
Meitu son zamanlarda sessizce iyi bir pirinç kazandı, yoksa yeni projeler yüzeye çıkacak mı?
Sonraki
Tian Zhuangzhuang'ın yapımcısı "Over the Spring" 9.8 Toronto Film Festivali galasında uluslararası afişi sergiliyor.
Yerli cep telefonu üreticileri iyi oynayamıyor: Google, Adnroid 7.0 AOSP spesifikasyonunu duyurdu
Kısa süre önce yapay zeka finansman rekoru kıran Shangtang Gang, 5 yeni ürün piyasaya sürdü
Tasarımcının "Final Fantasy 15" yeni çalışması iki demo tanıtım videosunu duyurdu
Bu sefer gerçek bir "400". Guangzhou ve Shenzhen'de Chery New Energy Arrizo 5e 450 test sürüşü
iPhone 7, 800 yuan'a kadar indirim sağlıyor! Double 11 promosyonunda 5 cep telefonu
Fotoğrafın erkek arkadaşından daha iyi olduğu Xiaomi Mi 6X, yönetim kurulu net donanım kârının% 5'i geçmemesi gerektiğine karar verdi.
Yurtdışına çıktıktan sonra akıllı bir ampulün hızla yükselen değerinin arkasında kimin kredisi var
"O Kadınlar" itibarını yeniden yaratmaya devam ediyor
BMW, yıllık 500.000 BAYRAK satışını onurlandırmak için 3 yeni enerji ve yeni otomobil bağladı?
Bao Beier, "Fatty Action Team" ile Chongqing'de göründü ve Clara'yı çekim sahnesinde ağlaması için korkuttu.
"Çifte Uçan Aile" yalnızca 11 yılda bir Yeni Yıl akşam yemeğini birlikte yemiştir.
To Top