g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Liu Tieyan makine öğrenimi hakkında konuşuyor: eğilimi çok fazla takip edin, düşünmemiz gerekiyor | Milyonlarca insan yapay zekayı öğreniyor

Dingdong ~ Refah tarafından vuruldun! Şu andan itibaren, "2020 AI Developer Ten Thousands Conference" için 299 bilet ücretsiz olarak verilecek! Kayıt sayfasına girin [2020 AI Geliştirici On Bin Kişi Konferansı (Çevrimiçi Canlı Biletler) -IT Eğitimi Canlı-CSDN Akademisi], "Şimdi kaydolun" u tıklayın, ödeme sırasında "AIP1410" indirim kodunu kullanın ve fiyat "0" yuan olacaktır !

Yapay zeka giderek daha fazla ilgi görüyor ve bu yapay zeka dalgasının arkasındaki en büyük itici güç "makine öğrenimi". Makine öğrenimi uygulayıcılarının şu anda uzmanlaşması gereken en son teknolojiler nelerdir? Geleceğe baktığımızda, başka hangi teknolojik trendleri dört gözle beklemeye değer?

Son zamanlarda, AI Technology Base Camp ve Huazhang Technology, Microsoft Research Asia'nın başkan yardımcısı Dr. Liu Tieyan'ı çevrimiçi açık sınıfları paylaşmaya davet ederek bize Microsoft Research'ün en son araştırma sonuçlarını ve makine öğrenimi alanındaki gelecekteki gelişme eğilimlerini getirdi.

Aşağıda, AI Technology Base Camp tarafından düzenlenen bu açık sınıfın heyecan verici içeriği yer almaktadır.

Herkese merhaba, ben Microsoft Research Asia'dan Liu Tieyan. Bugün sizinle Microsoft Research'ün makine öğrenimi alanındaki en son araştırma sonuçlarından bazılarını paylaşmak büyük bir onur.

Herkes makine öğreniminin son yıllarda çok popüler olduğunu ve çok fazla ilerleme kaydedildiğini biliyor. Bu resim, ResNet, Kapsül Ağı, Seq2Seq Modeli, Dikkat Mekanizması, GAN, Derin Güçlendirme Öğrenme vb. Gibi makine öğrenimi alanındaki en son çalışmaları özetlemektedir.

Bu sonuçlar, makine öğrenimi alanının hızlı gelişimini teşvik etti, ancak bu, makine öğrenimi alanının çok olgun olduğu anlamına gelmiyor. Aslında, hala çok büyük teknik zorluklar var. Örneğin, genel makine öğrenimi algoritmalarının daha iyi performansa sahip bir makine öğrenimi modelini eğitmek için büyük miktarda eğitim verisine ve bilgi işlem kaynağına güvenmesi gerekir. Aynı zamanda, derin öğrenme popüler olmasına rağmen, derin öğrenme anlayışımız, özellikle teorik anlayışımız hala çok sınırlıdır. Derin öğrenme neden etkilidir ve derin öğrenme ile optimize edilen kayıp işlevi neye benzer? Klasik optimizasyon algoritmasının optimizasyon yolu nedir? Son zamanlarda, bilim adamları bu yönde, stokastik gradyan iniş yönteminin küresel optimal çözümü bulabileceği koşulları tartışmak veya yerel optimal çözüm ile global optimal çözüm arasında bir boşluk olması gibi birçok yararlı girişimde bulundular. Ne tür bir ilişki.

Başka bir örnek olarak, son zamanlarda pek çok bilim insanı makine öğrenimine, özellikle de derin öğrenmeye, hiperparametreleri ayarlamak ve sinir ağlarının yapısını aramak için otomatikleştirilmiş yöntemler kullanmaya başladılar. İlgili alana meta-öğrenme deniyor. Temel fikir, başka bir makine öğrenimi algoritmasının eğitim sürecini otomatik olarak yönlendirmek için bir makine öğrenimi algoritması kullanmaktır. Ancak meta öğrenmenin aslında makine öğreniminin temel çerçevesinin dışına çıkmadığını kabul etmeliyiz. Daha ilginç olan soru ise, bir makine öğrenimi algoritması başka bir algoritmanın makine öğreniminin mevcut sınırlarını aşmasına ve makine öğrenimini daha etkili hale getirmesine nasıl yardımcı olabilir? Bunların hepsi cevaplamamız gereken sorular. Bu zorlukların yanı sıra, geçtiğimiz birkaç yıl içinde Microsoft Research Asia, çok keşif niteliğinde akademik araştırmalar yaptı.

İkili öğrenme, makine öğreniminin büyük miktarda etiketli veriye olan bağımlılığını çözer

İlk olarak, ikili öğrenmeye bakıyoruz. İkili öğrenme, temel olarak mevcut derin öğrenme yöntemlerinin eğitim verilerine aşırı bağımlılığı sorununu çözmektir. İyi etiketlenmiş eğitim verilerimiz olmadığında, yine de anlamlı makine öğrenimi yapabilir miyiz? Geçtiğimiz birkaç yıl içinde, insanlar denetimsiz öğrenme, yarı denetimli öğrenme vb. Gibi birçok girişimde bulundu. Ancak her halükarda, etkili öğrenmenin ancak sinyaller ve geri bildirimlerle elde edilebileceğini herkes yürekten netleştirmelidir.Dünya hakkında hiçbir şey bilmiyorsak, etkili bir şekilde öğrenemeyiz.

Bu düşünce çizgisi boyunca şunu düşünüyoruz: Yapay olarak sağlanan etiketlere ek olarak, kapalı bir öğrenme döngüsü oluşturabilecek başka etkili geribildirim sinyalleri var mı? Pek çok makine öğrenimi görevinin aslında yapısal ikiliği olduğunu ve doğal kapalı döngüler oluşturabildiğini gördük.

Makine çevirisi gibi. Bir yandan İngilizceden Çinceye çeviri yapmayı önemseyeceğiz, öte yandan Çinceden İngilizceye çeviriyi de önemsemeliyiz aksi takdirde iki dil arasında kesintisiz iletişim sağlayamayacağız. Diğer bir örnek ses işlemedir. Konuşma tanımayı önemsediğimizde, konuşma sentezini de önemsemeliyiz, aksi takdirde insanlar ve makineler arasında gerçek iki yönlü diyaloğu elde etmenin bir yolu olmayacaktır. Ayrıca görüntü anlama, diyalog motorları, arama motorları vb. Vardır, aslında hepsi ikili bir yapıya sahip bir çift görev içerir.

Yapay zekanın yapısal ikiliği nasıl daha doğru tanımlanır? İlk görevin girdisi ikinci görevin çıktısı olursa ve ilk görevin çıktısı ikinci görevin girdisi olursa, iki görev arasında belli bir yapı oluşur. Dualite ". Bunları bir araya getirmek, "ikili öğrenmenin" temel fikri olan kapalı bir öğrenme döngüsü oluşturacaktır.

Bu tür bir düşünceyle, etkili geribildirim sinyalleri sağlamayı öğrenmek için iki görevi bir araya getirebiliriz. Bu şekilde, çok sayıda etiketli örnek olmasa bile, öğrenme için etkili sinyaller çıkarabiliriz.

Aslında ikili öğrenmenin arkasında katı bir matematiksel açıklama var. İki görev ikili olduğunda, aşağıdaki olasılık ilişkisini kurabiliriz:

Burada X ve Y, sırasıyla belirli bir görevin girdi uzayına ve çıktı uzayına karşılık gelir.X ve Y'nin birleşik olasılık dağılımını hesaplarken, P (x) P (y | x; f) 'e ayrıştırılabilen iki ayrıştırma yöntemi vardır. P (y) P (x | y; g) olarak ayrıştırılabilir. Burada, P (y | x; f) bir makine öğrenimi modeline karşılık gelir.x girdisini bildiğimizde, y çıktısının olasılığı bu model aracılığıyla tahmin edilebilir.Bu modele ana görev makine öğrenimi modeli P (x | y; g) tersi, ikili görev adı verilen bir makine öğrenimi modelidir.

Bu matematiksel bağlantı ile, sadece etkili denetimsiz öğrenme değil, aynı zamanda daha iyi denetimli öğrenme ve çıkarım da yapabiliriz. Örneğin, denetimli öğrenmenin daha iyi genelleme becerisine sahip olması için bu bağlantıyı düzenli bir terim tanımlamak için kullanabiliriz. Başka bir örnek için, P (x) P (y | x; f) 'e göre, bir çıkarım sonucu elde edebiliriz.Sırasıyla Bayes formülü kullanarak, iki çıkarımı birleştirerek ters model g ile yapılan çıkarımı da elde edebiliriz, Daha doğru sonuçlar alabiliriz. Yukarıda bahsedilen ikili öğrenme teknolojisini makine çevirisine uyguladık ve Çince-İngilizce haber çevirisi görevinde sıradan insanların seviyesini aşan çok iyi sonuçlar elde ettik.

Makine öğreniminin büyük miktarda hesaplamaya olan bağımlılığını çözün

Hafif makine öğrenimi

Son zamanlarda, makine öğrenimi alanında bazı kötü değerler var. Bazı kağıtlar çok fazla bilgi işlem kaynağı kullanacak, örneğin yüzlerce GPU kartı veya her fırsatta daha fazla bilgi işlem kaynağı kullanılacak. Bu tür sonuçların yeniden üretilmesi zordur ve bir dereceye kadar akademik araştırma tekeline ve Matthew etkisine yol açmıştır.

Sonra insanlar şöyle sorular sorabilir: Makine öğrenimi ille de bu kadar çok bilgi işlem kaynağı kullanıyor mu? Yine de anlamlı makine öğrenimi modellerini birkaç kat daha az bilgi işlem kaynağıyla eğitebilir miyiz? Bu, hafif makine öğreniminin araştırma hedefidir.

Son birkaç yılda, araştırma grubumuz çok ilginç birkaç hafif makine öğrenimi modeli yaptı. Örneğin 2015 yılında yayınlanan lightLDA modeli oldukça verimli bir konu modelidir. Bundan önce, dünyadaki mevcut büyük ölçekli konu modelleri genellikle ne tür bilgi işlem kaynaklarını kullanırdı? Örneğin, Google'ın LDA'sı, onlarca saatlik eğitim yoluyla 100.000 konu elde etmek için on binlerce CPU çekirdeği kullanır. Bilgi işlem kaynaklarına olan talebi azaltmak için, her bir belirtecin ortalama örnekleme karmaşıklığını O (1) 'e düşürmek için çarpımsal ayrıştırmaya dayalı yeni bir örnekleme algoritması tasarladık, bu da örnekleme karmaşıklığının konu sayısıyla değişmediği anlamına geliyor. Çeşitlilik. Bu nedenle, bu konu modelini çok geniş ölçekli konu analizi yapmak için kullansak bile, hesaplama karmaşıklığı da çok düşüktür. Örneğin, sadece 300'den fazla CPU çekirdeği, yani yaklaşık 8 ana makine kullanıyoruz ve 1 milyondan fazla konunun tematik analizini gerçekleştirebiliyoruz.

Bu örnek size bazen sorunları çözmek için kaba kuvvet kullanmamız gerekmediğini söylüyor. Bu algoritmaların arkasındaki mekanizmayı dikkatlice analiz edebilir ve algoritmalarda yenilikler yapabilirsek, birkaç büyüklükteki bilgi işlem kaynağından tasarruf ederken daha büyük ilerleme kaydedebiliriz. , Daha etkili bir model.

Aynı fikri sinir ağlarına da uyguluyoruz. 2016'da yayınlanan LightRNN algoritması, tekrarlayan sinir ağlarının açık ara en verimli uygulamasıdır. Büyük ölçekli bir dil modeli yapmak için LigthtRNN kullandığımızda, elde edilen modelin boyutu, geleneksel RNN modelinden birkaç kat daha küçüktür. Örneğin, geleneksel modelin boyutu 100GB olduğunda, LightRNN modeli sadece 50MB'dir ve eğitim süresi büyük ölçüde azalır. Sadece bu değil, LightRNN modelinin şaşkınlığı geleneksel RNN'den bile daha iyidir.

Bazı öğrencilerin soruları olabilir: Nasıl küçük ve iyi olabilir? Aslında bu, tekrarlayan sinir ağı dil modelinin algoritması üzerindeki yenilikçi tasarımımızdan geliyor. Kelime ifadesini tek boyutludan iki boyutluya değiştirdik ve farklı kelimelerin yerleştirmenin belirli bir bölümünü paylaşmasına izin verdik. Hangi parçaların paylaşıldığı ve hangilerinin paylaşılmayacağına gelince, belirlemek için iki taraflı bir grafik eşleştirme algoritması kullanıyoruz.

Üçüncü hafif makine öğrenimi algoritmasına LightGBM adı verilir. Bu araç, şimdiye kadar GBDT algoritmasının en verimli uygulamasıdır. LightGBM'nin arkasında, numunelere bağımlılığı etkili bir şekilde azaltabilen Gradient tabanlı tek taraflı örnekleme gibi birçok teknolojik yenilik içeren iki NIPS kağıdı vardır; Birçok özellik olduğunda bazı standart dışı özellikleri kaldırabilen özel özellik gruplaması. Çakışan özellikler birkaç yoğun özelliğe yapıştırılmıştır ve bu özellik histogramlarının oluşturulmasını çok verimli hale getirir. Aynı zamanda, çok iyi bir hızlanma sağlayabilen Oylamaya dayalı bir paralelleştirme mekanizması da önerdik. Tüm bu teknikler bir araya getirilerek LightGBM'nin yüksek verimliliğini ve yüksek hassasiyetini elde eder.

Dağıtılmış makine öğrenimi

Çok sayıda hafif makine öğrenimi algoritması yapmış olsak da, eğitim verileri ve makine öğrenimi modelleri özellikle büyük olduğunda sorun tamamen çözülemeyebilir. Şu anda, dağıtılmış makineleri uygulamak için daha fazla bilgi işlem düğümünü nasıl kullanacağımızı incelememiz gerekiyor. Öğrenin.

Yeni bir kitap yayınladık ... "Dağıtılmış Makine Öğrenimi: Algoritmalar, Teori ve Uygulama" , Dağıtık makine öğreniminin çok iyi bir özetini yaptık ve ayrıca araştırma sonuçlarımızın çoğunu bu kitapta ayrıntılı olarak açıkladık. Aşağıda bunlardan birkaçını seçip sizinle paylaşacağım.

Dağıtılmış makine öğreniminin anahtarı, işlenecek büyük verilerin veya büyük modellerin nasıl bölümlere ayrılacağı ve birden çok makinede paralel eğitimin nasıl gerçekleştirileceğidir. Bu veriler ve modeller birden çok bilgi işlem düğümüne yerleştirildikten sonra, iki temel konu ele alınacaktır: Birincisi, makine öğrenimi modellerini eğitmek için işbirliği yapabilmeleri için farklı makineler arasında iletişim ve senkronizasyonun nasıl sağlanacağı. İkinci olarak, her bilgi işlem düğümü yerel bir model eğittikten sonra, bu yerel modellerin nihayet birleşik bir makine öğrenimi modeli oluşturmak için nasıl toplanacağı.

Veri segmentasyonu

Veri bölümleme kulağa basit geliyor, ancak aslında pek çok yol var. Örneğin, yaygın bir yol, verileri rastgele bölmektir. Örneğin, rastgele N parçaya bölünmüş çok sayıda eğitim verisine sahibiz ve bunlardan birini eğitim için yerel bir çalışma düğümüne koyuyoruz. Bu segmentasyon için herhangi bir teorik garanti var mı?

Makine öğreniminin, öğrenme sürecindeki verilerin teorik garanti için bağımsız ve aynı şekilde örneklendiğine dair temel bir varsayıma sahip olduğunu biliyoruz. Ancak yukarıda bahsedilen veri bölümleme aslında rastgele veri örneklemesi değildir. Bir anlamda, bağımsız, özdeş dağıtılmış örnekleme, değiştirme ile örneklemedir ve veri bölümleme, değiştirilmeden örneklemeye karşılık gelir. Çok ilginç bir teorik soru, veri bölümleme yaparken, değiştirme örneklemesi olduğu gibi öğrenme süreci için belirli bir teorik garantiye sahip olabilir miyiz? Araştırmamız yayınlanmadan önce, akademik topluluğun bu soruya tam bir cevabı yoktu.

Verileri önce global olarak karıştırır ve sonra verileri bölümlere ayırırsam, temelde yakınsama oranında yer değiştirmeli rastgele örneklemeyle aynı olduğunu kanıtladık. Ancak, yalnızca kısmi veri karıştırma yapabilirsek, ikisi arasındaki yakınsama oranında bir boşluk olacaktır. Dolayısıyla, yalnızca kısmi veri karıştırmayı yapabilirsek, çok fazla dönem eğitemeyiz, aksi takdirde orijinal dağıtımdan çok uzaklaşacak ve nihai öğrenme etkisini kötüleştirecektir.

Eşzamansız iletişim

Veri segmentasyonu hakkında konuştuktan sonra, çeşitli çalışma düğümleri arasındaki iletişim sorunlarından bahsedelim. Hepinizin bildiği gibi, farklı çalışma düğümleri arasında eşzamanlı hesaplama gerçekleştirebilen MapReduce gibi birçok popüler dağıtılmış çerçeve vardır. Ancak makine öğrenimi sürecinde, farklı makineler arasında eşzamanlı iletişim gerekirse, bir darboğaz olacaktır: bazı makineler daha hızlı çalışır, bazı makineler daha yavaş çalışır ve tüm küme kümedeki en yavaş makineden etkilenir. Aşağı sürükleyin. Çünkü diğer makinelerin eğitime devam edebilmeleri için onunla senkronizasyonu tamamlamaları gerekir.

Verimli dağıtılmış makine öğrenimi elde etmek için, insanlar tüm kümenin en yavaş makine tarafından aşağıya çekilmesini önlemek için zaman uyumsuz iletişime giderek daha fazla önem veriyorlar. Asenkron iletişim sürecinde, her makine yerel eğitimi tamamladıktan sonra yerel modeli, yerel eğimi veya model güncellemesini global modele iter ve diğer makineleri beklemeden yerel eğitim sürecine devam eder.

Ancak insanların eşzamansız iletişim konusunda her zaman kalıcı korkuları olmuştur. Çünkü eşzamansız iletişim yapılırken, daha hızlı performans gösteren bazı makineler de vardır ve bazıları daha yavaştır.Daha hızlı makine, yerel gradyanı veya model güncellemesini global model üzerine bindirdiğinde, global modelin sürümü güncellenir. , İyi bir model oldu. Ancak bir süre sonra, daha yavaş hesaplamalara sahip makine, eski gradyanı veya modeli güncelleyecek ve onu global modelin üzerine yerleştirecek ve bu da daha iyi yapmış olan modeli yok edecektir. İnsanlar bu soruna "gecikmeli güncellemeler" diyor. Ancak, araştırmamızdan önce, hiç kimse bu gecikmenin etkisini nicel olarak tanımlamamıştır.

Geçtiğimiz yıl ICML'de Taylor genişlemesini kullanarak standart stokastik gradyan iniş yöntemi ile asenkron paralel stokastik kademeli iniş yöntemi arasındaki boşluğu nicel olarak tanımlayan bir makale yayınladık.Bu boşluk esas olarak gecikmiş güncellemelerden kaynaklanıyor. Sadece eşzamansız SGD kullanırsak ve gecikmiş güncellemelerle uğraşmazsak, aslında Taylor genişlemesinde sıfır derece terimini gerçek bir yaklaşım olarak kullanıyoruz. Aralarındaki boşluk, yüksek dereceli terimlerin eksikliğinden kaynaklandığı için, bu yüksek dereceli terimleri bir tür algoritma yoluyla telafi etme yeteneğine sahipsek, bu eski görünümlü gecikmiş gradyanları canlandırabiliriz. Bu, gecikme telafili stokastik gradyan iniş yöntemimizdir.

Bu meseleyi söylemek basit ama pratikte çok zor. Çünkü gradyan fonksiyonunun Taylor açılımındaki birinci dereceden terim, aslında Hessian Matrix olarak adlandırılan orijinal kayıp fonksiyonunun ikinci dereceden terimine karşılık gelir. Model çok büyük olduğunda, Hessian matrisini hesaplamak için gereken bellek ve hesaplama çok büyük olacaktır ve bu algoritma pratik olmayacaktır. Makalemizde, Hessian matrisine çok verimli bir yaklaşım önerilmektedir. Çok yüksek boyutlu Hessian matrisini gerçekten hesaplamamıza ve saklamamıza gerek yok, yalnızca nispeten küçük bir hesaplama ve depolama maliyeti deniz hıyarı matrisine oldukça doğru bir yaklaşım sağlayabilir. Bu temelde, orijinal gecikme gradyanı için telafi elde etmek için Taylor genişletmesini kullanabiliriz. Gecikme telafili asenkron stokastik gradyan iniş yönteminin yakınsama oranının, sıradan asenkron stokastik gradyan iniş yönteminden çok daha iyi olduğunu kanıtladık ve çeşitli deneyler de etkisinin gerçekten beklentilerimize ulaştığını gösterdi.

Model toplama

Eşzamansız iletişime ek olarak, her yerel düğüm yerel bir modeli hesapladıktan sonra, nasıl bir araya getirileceği de düşünmeye değer bir sorudur. Sektörde en yaygın olarak kullanılan yöntem, farklı yerel modellerin parametrelerinin basitçe ortalamasını almaktır. Bununla birlikte, teorik olarak konuşursak, parametre ortalaması sadece dışbükey problemlerde makuldür. Dışbükey fonksiyonların özellikleri hakkında biraz anlayışınız varsa, model dışbükeyse, dışbükey model parametrelerinin ortalamasının alınmasıyla elde edilen modelin performansının her modelin performans ortalamasından daha kötü olmayacağını bilirsiniz.

Ancak bu yöntemi, derin sinir ağları gibi ciddi dışbükey olmayan modellerle uğraşmak için kullandığımızda, artık teorik bir garanti kalmıyor. 2017'de bu makalelerde bu teorinin eksikliğine işaret ettik ve performans garantisi elde etmek için model parametrelerinin ortalamasını almamamız gerektiğini, ancak ortalama model çıktısını almamız gerektiğini, çünkü sinir ağı modeli dışbükey olmamasına rağmen Evet, ancak yaygın olarak kullanılan kayıp işlevinin kendisi dışbükeydir.

Ancak modelin ortalama çıktısı, modelin entegrasyonuna eşdeğerdir, bu da modelin boyutunu kat kat büyütür. Makine öğrenimi yinelemeye devam ettiğinde, bu modelin entegrasyonu model boyutunda bir patlamaya yol açacaktır. Dışbükeyliğin faydalarını model boyutlarının patlamasından rahatsız olmadan sürdürmek için, sadece model entegrasyonu yapmamız değil, aynı zamanda tüm makine öğrenimi sürecinde etkili model sıkıştırması yapmamız gerekiyor.

Bu, önerdiğimiz model entegrasyon-sıkıştırma döngüsüdür. Model entegrasyonu yoluyla, dışbükeyliğin faydalarını koruyoruz Model sıkıştırması yoluyla, model boyutunun patlamasını önlüyoruz, böylece sonunda çok iyi bir uzlaşma elde edeceğiz.

Derin öğrenme teorisi keşfi

Daha sonra derin öğrenmenin teorik sınırlarını nasıl keşfedeceğimiz hakkında konuşacağız. Hepimiz derin öğrenmenin çok etkili olduğunu biliyoruz.Yeterince karmaşık bir derin sinir ağı olduğu sürece herhangi bir sürekli fonksiyona çok iyi yaklaşılabilir. Ancak bu, makinenin gerçekten iyi bir modeli öğrenebileceği anlamına gelmez. Çünkü amaç fonksiyonunun arayüzü çok karmaşık olduğunda, yerel minimumlar tuzağına düşebilir ve istediğimiz en iyi modeli elde edemeyebiliriz. Model çok karmaşık olduğunda, optimizasyon sürecinde iyi sonuç veren aşırı uyuma eğilimlidir, ancak öğrenilen modeli bilinmeyen test verilerine uyguladığınızda, etki çok iyi olmayabilir. Bu nedenle, derin öğrenmenin optimizasyon sürecine ilişkin derinlemesine araştırma yapılması gerekmektedir.

g-Uzay

Bu doğrultuda bu yıl g-Space Deep Learning adında çok ilginç bir iş yaptık.

Bu çalışmanın amacı, görüntü işleme görevlerinde yaygın olarak kullanılan büyük bir derin sinir ağları sınıfıdır ve bu tür bir ağın aktivasyon işlevi ReLU işlevidir. ReLU, negatif yarı eksende 0 değeri ve pozitif yarı eksende doğrusal bir fonksiyona sahip parçalı bir doğrusal fonksiyondur. ReLU Ağı, pozitif ölçek değişmezliği olan iyi bilinen bir özelliğe sahiptir, ancak bu özelliğin sinir ağı optimizasyonu üzerindeki etkisine ilişkin anlayışımız çok sınırlıdır.

Peki pozitif ölçek değişmezliği nedir? Bir örnek alalım. Bu, ara gizli düğümün aktivasyon fonksiyonunun ReLU fonksiyonu olduğu varsayılarak bir sinir ağının parçasıdır. Bu nöronun iki giriş tarafındaki ağırlıkları normal bir c sayısı ile çarptığımızda ve çıktı tarafındaki ağırlıkları aynı normal sayı c'ye böldüğümüzde, yeni bir sinir ağı elde ederiz çünkü parametreleri oluşmuştur. Çeşitlilik. Ancak tüm sinir ağını tam bir kara kutu olarak ele alırsak, bu işlev aslında değişmemiştir, yani ne tür bir girdi olursa olsun, çıktı sonucu aynı kalır. Bu, pozitif ölçek değişmezliğidir.

Bu değişmezlik aslında çok zahmetlidir.Aktivasyon işlevi bir ReLu işlevi olduğunda, tamamen farklı parametrelere sahip birçok sinir ağı aslında aynı işleve karşılık gelir. Bu, sinir ağını ifade etmek için sinir ağının orijinal parametrelerini kullandığımızda, parametre uzayının oldukça fazlalık bir alan olduğunu gösterir, çünkü farklı parametreler aynı ağa karşılık gelebilir. Bu tür bir fazlalık alan, sinir ağlarını doğru bir şekilde ifade edemez. Aynı zamanda, böylesine fazlalık bir uzayda birçok yanlış uç nokta olabilir.Bunlara orijinal sorunun gerçek uç noktaları değil, uzamsal fazlalık neden olur. Sinir ağı optimizasyonu sürecinde genellikle karşılaştığımız gradyan azaltma ve gradyan patlama fenomenlerinin çoğu, fazlalık ifadesiyle ilgilidir.

Parametre alanı artıklığının pek çok dezavantajı olduğundan, bu sorunu çözebilir miyiz? Parametre uzayında gradyan iniş yöntemini yapmazsanız, ancak daha kompakt bir ifade uzayında optimize ederseniz, bu sorunlar çözülebilir mi? Bu dilek kulağa hoş geliyor ama aslında yapılması çok zor. Derin bir sinir ağı çok karmaşık bir işlev olduğundan, onu doğru ve kompakt bir şekilde ifade etmek için çok güçlü bir matematiksel temel ve geometrik ifade yeteneği gerektirir. Grubumuzdaki araştırmacılar çok çalıştılar ve g-Space dediğimiz bu kompakt uzayın tam bir tanımını vermek bir yıldan fazla sürdü.

g-Uzay aslında bir sinir ağındaki bir dizi doğrusal ilişkisiz yollardan oluşur.Yol adı verilen yol, girdiden çıktıya, yani bazı kenarların bağlantı kümesidir. Nöral ağdaki bu yollar bir boşlukta şekillenirse, bu uzaydaki temelden oluşan ifadenin aslında sinir ağının kompakt bir ifadesi olduğunu kanıtlayabiliriz.

G-Space ile içindeki gradyanı hesaplayabiliriz ve ayrıca g-Space cinsinden mesafeyi hesaplayabiliriz. Bu mesafe ile, sinir ağının aşırı uymasını önlemek için g-Uzayda bazı düzenli terimler de tanımlayabiliriz.

Makalemiz, yeni kompakt uzayda gradyan inişinin hesaplama karmaşıklığının yüksek olmadığını ve parametre uzayındaki tipik BP işleminin karmaşıklığının neredeyse aynı olduğunu gösteriyor. Diğer bir deyişle, dahiyane bir algoritma tasarladık.Karmaşıklığı artmadı, ancak orijinal parametre uzayında pek çok sorunu önledi, ReLU Ağı için kompakt bir ifade elde etti ve daha fazlasını elde etmek için doğru gradyanı hesapladı. İyi model optimizasyonu.

Bunlarla yeni bir derin öğrenme optimizasyon çerçevesi oluşturduk. Bu yöntem çok geneldir. Sinir ağının amaç işlevini veya yapısını değiştirmez.Sadece bir dizi optimizasyon yöntemini değiştirir.Tüm makine öğrenimi araç setinde yalnızca alt katmanı değiştirmeye eşdeğerdir ve daha iyi eğitim alabilirsiniz. Model geliyor.

Meta öğrenmenin sınırları

Dördüncü araştırma yönü de çok ilginç. Ona Öğretmeyi Öğrenmek diyoruz. Çince için özellikle iyi bir çeviri beklemiyordum. Şu anda buna "Öğretmeyi Öğrenmek" deniyor.

Öğretmeyi Öğrenmeyi, mevcut makine öğrenimi çerçevesinin sınırlamaları üzerine düşüncelere dayalı bir araştırma yönü olarak öneriyoruz. Bu formül çok basit görünse de, büyük bir sınıfı veya makine öğrenimi problemlerinin çoğunu tanımlayabilir. Bu formül ne anlama geliyor? İlk olarak, (x, y) eğitim veri seti D'den örneklenen eğitim örneğidir. f () modeldir, örneğin belirli bir sinir ağını temsil edebilir. X girdi örneğine f () uygularız ve girdi örneğinin bir tahminini alırız. Daha sonra tahmin sonucunu doğruluk etiketi y ile karşılaştırarak, bir kayıp fonksiyonu L tanımlanabilir.

Çoğu makine öğrenimi artık model alanındaki kayıp işlevini en aza indiriyor. Dolayısıyla bu formülde üç miktar vardır, yani eğitim verisi D, kayıp fonksiyonu L ve model alanı . Bu üç miktarın tümü hiperparametrelerdir, yapay olarak tasarlanmıştır ve sabittir. Makine öğrenimi sürecinin çoğu, en iyisini bulmak için bu üç durum altında optimize etmektir , böylece eğitim veri setinde yapay olarak tanımlanan kayıp işlevini en aza indirebiliriz. Son birkaç yılda önerilen meta öğrenme veya öğrenme2learn bile bu çerçevenin dışına çıkmadı. Makine öğrenimi çerçevesinin kendisi, minimizasyon sürecinin yalnızca gradyan iniş yöntemini kullanabileceğini hiçbir zaman şart koşmadığı için, herhangi bir yöntemi kullanabilirsiniz ve bu formülle ifade edilen çerçeveyi aşmayacaktır.

Fakat eğitim veri seti D, kayıp fonksiyonu L ve model parametre alanı neden önceden yapay olarak verilmelidir? Verilene ulaşılmazsa, ancak makine öğrenimi sürecinde dinamik olarak ayarlanırsa, nasıl görünecek? Bu, Öğretmeyi Öğrenmek olarak adlandırılır. Mevcut makine öğreniminin sınırlarını genişletmek ve daha güçlü makine öğrenimi modellerini eğitmemize yardımcı olmak için eğitim veri kümesi D'yi, kayıp işlevi L'yi ve model parametre alanını otomatik olarak ayarlamayı umuyoruz.

Bunu başarmak kolay değil, yeni bir fikir ve perspektif kullanmamız gerekiyor. Bu yıl arka arkaya üç makale yayınladık ve eğitim verilerini, işlev alanını ve kayıp işlevini otomatik olarak belirlemek için çok sistematik bir çalışma yaptık.

Size araştırmamızın canlı bir tanımını vereceğim. Örneğin, uygun verileri seçmek için otomatik yöntemleri nasıl kullanırız? aslında gerçekten çok kolay. Orijinal makine öğrenimi modeline ek olarak, bir de öğretmen modelimiz var. Bu model, orijinal makine öğrenimi sürecini, aşamasını ve etkisini girdi olarak alacak ve bir sonraki aşama için eğitim verilerinin seçimini çıkaracaktır. Bu öğretmen modeli, performansı en üst düzeye çıkarmak için orijinal makine öğrenimi modelinin ilerlemesine göre en uygun eğitim verilerini dinamik olarak seçecektir. Aynı zamanda, öğretmen modeli kendi kendine öğrenme ve kendini geliştirme için geri bildirim olarak makine öğreniminin çapraz doğrulama setindeki etkisini de alacaktır.

Benzer şekilde, model öğretim döngüsünde, orijinal makine öğrenimi sürecinin aşamasına ve eğitimin etkisine göre uygun işlev alanını seçecek ve böylece orijinal makine öğreniminin arama aralığını genişletebilecek bir öğretmen modeli de vardır. Bu süreç aynı zamanda Uyarlanabilir ve dinamik. Orijinal makine öğrenimi modeline öğrenci modeli denir. Tanıttığımız öğretmen modeli ile etkileşime girerek, öğrenme süreci yeni bir seviyeye itilebilir.

Benzer şekilde, öğretmen modeli de orijinal öğrenci modelinin optimize etmek istediği hedefleri dinamik olarak ayarlayabilir. Örneğin, öğrenme hedeflerimiz basitten zora kadar değişebilir Başlangıçta, basit bir öğrenme hedefi bir şeyi hızlı bir şekilde öğrenmemize izin verir, ancak bu öğrenme hedefi, son problemimizin değerlendirme kriterlerinden uzak olabilir. Öğrenci modelinin yeteneklerini sürekli olarak geliştirmesine ve sonunda iyi bir öğrenme etkisi elde etmesine rehberlik edecek olan problem değerlendirmesinin karmaşık süreksiz işlevine yönelik basit ve pürüzsüz hedefe yaklaşmaya devam ediyoruz.

Özetlemek gerekirse, eğitim veri setlerini dinamik olarak tasarlayabilen, model alanını değiştirebilen ve amaç işlevini ayarlayabilen bir öğretmen modelimiz olduğunda, orijinal "öğrenci modelinin" eğitimini daha geniş ve daha etkili hale getirecek ve sınırları olacaktır. büyüt. Üç makalede birçok farklı veri seti üzerinde deneysel sonuçlar gösterdik.

Kişisel olarak Öğretmeyi Öğrenmenin büyük bir potansiyele sahip olduğunu düşünüyorum ve geleneksel makine öğreniminin sınırlarını genişletiyor. Üç makalemiz, herkese bunun yapılabileceğini anlatmak için bazı öneriler sunmaktır, ancak daha önümüzde uzun bir yol var.

Şimdiye kadar sizinle Microsoft Research Asia'nın geçtiğimiz iki yıldaki makine öğrenimi alanındaki bazı araştırma sonuçlarını paylaştım.Bunlar araştırma sonuçlarımızın sadece küçük bir alt kümesidir, ancak bunları düşünüyorum Yön çok ilginç ve umarım herkese daha anlamlı araştırmalar yapma konusunda ilham verebilir.

Geleceğe bakmak

Şimdi makine öğrenimi alanındaki konferanslar gittikçe daha kapsamlı hale geliyor ve bu biraz mantıksız. Her yıl bu kadar çok gazete olduğu için hangilerini okuyacağımı bile bilmiyorum. İnsanlar makale yazarken ve araştırma yaparken bazen nereye odaklanacaklarını bilemezler. Örneğin, tüm akademik topluluk öğreniyor2 öğreniyorsa, bir öğrenme2 öğrenme kağıdı yazmalı mıyım? Herkes otomatik olarak sinir mimarisi araması yapıyor, ben de bir tane yapmalı mıyım? Şimdi bu tür akışla ve bulutla sürüklenme zihniyeti çok fazla.

Aslında şunu düşünmeliyiz: Herkesin ilgilendiği gündemdeki konular araştırmaya değer tüm konuları kapsayacak mı? Gerçekte hangi önemli yönler göz ardı edilir? Size bir örnek vereyim, örneğin Öğretmeyi Öğrenme gibi hafif makine öğrenimi, derin öğrenmenin bazı teorik keşifleri gibi Bu yönler günümüzün sıcak araştırma alanlarına pek dahil değildir, ancak bu yönler aslında çok önemlidir. Yalnızca bu yönleri çok derinlemesine kavrayarak makine öğreniminin gelişimini gerçekten teşvik edebiliriz. Umarım herkes, akademik ilginin ana akımı olmasa bile, kesinlikle inandığınız araştırma yönlerine odaklanabilir.

Daha sonra, makine öğreniminin gelecekteki gelişimi için bazı beklentiler oluşturacağız. Bu beklentiler gerçekçi olmayabilir, ancak herkese ilham vermeyi umarak bazı anlamlı felsefi düşünceler içerirler.

Kuantum hesaplama

İlk yön, makine öğrenimi ve kuantum hesaplama arasındaki ilişkiyle ilgilidir. Kuantum hesaplama da çok sıcak bir araştırma konusudur, ancak makine öğrenimi kuantum hesaplamayla karşılaştığında, ne tür kıvılcımlar üretecek? Aslında bu, dikkate almaya değer bir sorudur.

Mevcut akademik sorunlardan biri, kuantum hızlandırma denen makine öğreniminin optimizasyon sürecini hızlandırmak için kuantum hesaplamanın hesaplama gücünün nasıl kullanılacağıdır. Ama tüm hikaye bu mu? Herkes bunun hakkında düşünmeli. Buna karşılık, bir makine öğrenimi uzmanı olarak, kuantum hesaplamaya yardım etmemiz mümkün mü? Veya makine öğrenimi ve kuantum hesaplama ayrı ayrı ilerlediğinde, karşılaştıklarında hangi yeni kıvılcımlar patlayacak?

Aslında, kuantum hesaplamada çok önemli bazı temel sorunlar var.Örneğin, kuantum hesaplamanın sonuçlarını almadan önce kuantum durumunu (kuantum durumu) değerlendirmemiz veya tahmin etmemiz gerekiyor. Bu süreç, en kötü durumda, kuantum durumu hakkında daha iyi bir tahminde bulunmak için üstel örneklemeye ihtiyacımız olduğu geleneksel teoride kanıtlanmıştır. Ancak bu konu olumsuz etkiler getirecek Kuantum hesaplama çok hızlı olmasına rağmen, kuantum halini örneklemek çok zaman alırsa, orijinal hızlanma etkisini aşağı çekecek ve nihayet birlikte herhangi bir ivme elde edemeyecektir.

NP Complete problemi gibi en kötü durumdaki çok karmaşık problemlerin birçoğunun makine öğrenme yöntemleriyle çözülebileceğini biliyoruz, bu da ortalama anlamda çok iyi sonuçlar elde edebilir. Bu yıl ACML'de en iyi makaleyi elde etmek için yaptığımız iş, seyahat eden satıcı problemini çözmek için makine öğrenimini kullanmak ve geleneksel kombinatoryal optimizasyondan daha verimli sonuçlar elde etmektir. Bu düşünce çizgisi boyunca, kuantum durum tahmini gibi kuantum hesaplamadaki problemlerin üstesinden gelmeye yardımcı olmak için makine öğrenimini kullanabilir miyiz, üstel örnekleme olmadan oldukça iyi bir tahmin elde edebilir miyiz? Çevrimiçi öğrenme, pekiştirmeli öğrenme vb. Bu konuda yardımcı olabilir.

Aynı zamanda, kuantum ve makine öğrenimi teorileri birbiriyle çarpıştığında, bazı çok ilginç fenomenler ortaya çıkar. Kuantumun belirsizliği olduğunu biliyoruz Bazen bu belirsizlik mutlaka kötü bir şey değildir, çünkü makine öğrenimi alanında genellikle belirsizlik isteriz ve hatta bazen modele gürültü eklemek için verilere kasıtlı olarak gürültü ekleriz. Daha iyi genelleme performansı elde etmek için eğitim sırasında gürültü eklenir.

Bu anlamda, kuantum hesaplamanın belirsizliği, makine öğreniminin daha iyi genelleme performansı elde etmesine yardımcı olabilir mi? Kuantum hesaplamanın belirsizliğini ve makine öğreniminin genelleştirilmesini birleşik bir teorik çerçeve oluşturmak için bir araya getirirsek, bunun karşılığının nerede olduğunu söyleyebilir miyiz? Kuantum hallerini bu kadar zor tespit etmemiz gerekli değil mi? Çünkü algılama ne kadar zor olursa, fazla takmak o kadar kolay olur. Daha iyi bir uzlaşma var mı? Aslında, bunlar çok ilginç sorular ve kuantum hesaplama ve makine öğrenimi alanındaki araştırmacıların uzun yıllar birlikte keşfederek geçirmeleri faydalı.

Kompleksi yönetmek basit

İkinci yön de çok ilginç, eğitim verilerine nasıl bakmamız gerektiğini içeriyor. Derin öğrenme, kompleksleri çoğaltma ve kontrol etme sürecidir.Çok karmaşık eğitim verileriyle başa çıkmak için neredeyse daha karmaşık bir model kullanır. Ama buna gerçekten değer mi? Geçtiğimiz on yıllar ve hatta yüzlerce yıldır temel bilim yapma düşüncemizle tutarlı mı?

Fizik, kimya ve biyoloji alanlarında insanlar dünyanın basit ve güzel yasalarını izlerler. Kuantum fiziği, kimyasal bağlar, hatta ekonomi, genetik, birçok karmaşık fenomen aslında Maxwell denklemleri gibi Schrödinger denklemi gibi ikinci dereceden kısmi diferansiyel denklemlerdir. Bu denklemler bize görünüşte karmaşık olan dünyanın arkasındaki matematiksel modellerin aslında basit ve güzel olduğunu söylüyor. Bu basit ve karmaşık fikirler, derin öğrenmeden çok farklıdır.

Makine öğrenimi bilim adamları da bunun hakkında düşünmeli Çarpma ile derin öğrenmenin gerçekten doğru olduğu doğru mu? Verileri Tanrı olarak görüyoruz ve ona uyması için çok karmaşık bir model kullanıyoruz Bu fikir gerçekten doğru mu? Biraz fedakarlık var mı? Basit ve karmaşık yöntemlerle ilgili önceki fikir, veriyi hiçbir zaman Tanrı olarak görmedi, arkasındaki yasanın Tanrı olduğuna ve verinin sadece bir temsil olduğuna inanıyorlardı.

Öğrenmemiz gereken, verinin kendisi değil, veri üretme yasasıdır Bu yön aslında dikkate alınmaya değerdir. Bu yönde iyi araştırma yapmak için, makine öğrenimi akademisyenlerinin bilgilerini genişletmelerine ve dinamik sistemler veya kısmi diferansiyel denklemler hakkında daha fazla bilgi edinmesine ve geleneksel bilimdeki çeşitli matematiksel araçlara ihtiyacımız var. Verileri sığdırmak için doğrusal olmayan bir model kullanın.

Doğaçlama Öğrenme

Üçüncü yön, biz insanların nasıl öğrendiğiyle ilgilidir. Şimdiye kadar, birçok alanda derin öğrenmenin başarısı aslında örüntü tanımadır. Örüntü tanıma kulağa harika geliyor ama aslında çok basit bir şey. Hemen hemen tüm hayvanlar kalıpları tanıyabilir. İnsanların yüksek zekaya sahip olmasının nedeni, örüntü tanıma yapabildiğimiz için değil, bilgi ve sağduyuya sahip olmamızdır.Yann LeCun Predictive Learning

The only thing predictable about life is its unpredictability