Sinir ağı yapısı arama serisi (1): Makineye otonom tasarım modeli "yeteneği" verir, yapı aramanın kökeni hakkında bir makale özeti

Yazar | Li Yinqiao

Birim | Mavericks Çeviri / Doğal Dil İşleme Laboratuvarı, Northeastern Üniversitesi

Yinqiao Li, 2018'de Northeastern Üniversitesi Doğal Dil İşleme Laboratuvarı'nda doktora öğrencisi. Araştırma yönü: sinir ağı yapısı arama, makine çevirisi, model hızlandırma, vb. Konferanslarda ve dergilerde ijcai, nlpcc ve Chinese Journal of Information gibi çeşitli akademik makaleler yayınladı.

Önsöz

Yapay zeka teknolojisinin hızla gelişmesiyle birlikte, konuşma tanıma ve makine çevirisi gibi çeşitli bilimsel ve teknolojik terimler, artık geleneksel anlamda girişimciler tarafından rafa kaldırılan ileriye dönük uygulamalar değil, araştırmacıların sır olarak sakladığı karmaşık kavramlar değil, büyük veri çağının gelişiyle eşlik ediyor. Sıradan insanların yanına yürüdü. Günümüz hayatında her yerde yapay zeka teknolojisinin getirdiği rahatlığın tadını çıkarıyoruz ... Bilim kurgu filmi Star Trek'te kullanılan evrensel çevirmen, insanların seyahat ederken kullanabilecekleri küçük bir çevirmen haline geldi. Ve bu pratik uygulamaların perdesini bir kenara bırakırsak, arkasındaki teknoloji, genellikle yıllar boyunca çok fazla dikkat çeken sinir ağı modelidir.

Genel olarak konuşursak, harici girdi bilgilerini öğrenmek için matematiksel bir model veya hesaplama modelidir. İç yapısını ayarlayarak girdi verilerine uyabilir Algoritmanın geniş çok yönlülüğü ile konuşma, görüntü ve doğal dil işleme gibi birçok alanda yaygın olarak kullanılmaktadır.

"Star Trek" filminde Captain Cork ve Old Bones tarafından kullanılan gerçek zamanlı çeviri ekipmanı

Sinir ağı teknolojisine dayanan mevcut görevler için ana süreç, ortak tekrarlayan sinir ağımız (RNN) ve evrişimli sinir ağımız gibi araştırmacılar tarafından yeni ağ yapılarını manuel olarak keşfetmektir. (Evrişimli Sinir Ağı; CNN) vb. Ama bunu yapmak aslında çok sistematik bir mühendislik yaklaşımıdır. Araştırmacıları görevleriyle sınırlıyoruz ve sürekli olarak sözde daha iyi yapılar "tasarlıyoruz". Modelin kalitesi genellikle insanların görevi ve Model tasarımının hayal gücü, araştırmacıların tüm süreçte ilgili alanları tam olarak anlamalarını gerektirir, bu da uygulayıcılar için dolaylı olarak giriş engelini yükseltir.Aynı zamanda manuel çalışma yoluyla model yapısını sürekli iyileştirmek çok zaman alır.

Bilgisayar ekipmanının bilgi işlem gücü ve depolama kapasitesi son yıllarda her geçen yıl artarken, insanlar yavaş yavaş bilgisayarların öğrenme ağı parametreleri gibi sinir ağı modellerinin yapısını öğrenmesine izin verip veremeyeceğimizi düşünmeye başladılar. Araştırmacıların bu şekilde model yapı tasarımcısı pozisyonundan "kurtarılabileceği" umulmaktadır, bu nedenle makine öğrenimi-Sinirsel Mimari Arama (NAS) alanında böyle bir araştırma dalı vardır.

Aslında, mevcut sinir ağı yapısı arama teknolojisi çeşitli alanlarda ortaya çıkmıştır.Örneğin Google ekibi, Relu gibi geleneksel yapay olarak tasarlanmış etkinleştirme işlevleriyle karşılaştırılan Etkinleştirme İşlevlerini Arama [1] belgesinde etkinleştirme işlevi alanını arayarak Swish işlevini buldu. Daha hızlı yakınsama hızına sahiptir. WMT19 makine çevirisi değerlendirme görevinde, Microsoft ekibi ayrıca sinir ağı yapısını otomatik olarak optimize etmek için ekip tarafından önerilen NAO [2] yöntemini kullandı ve hem İngilizce-Fince hem de Fince-İngilizce görevlerinde iyi sonuçlar elde etti. Kaba notlar.

Ağ yapısı arama teknolojisinin kullanımının çeşitli görevlerde model yapısının tasarımında çok iyi bir rol oynadığı görülüyor, peki arkasında ne tür bir teknoloji kullanılıyor? Sinir ağı yapısını otomatik olarak nasıl iyileştirebilir? Mevcut ağ yapısının arama teknolojisi hala yükselişte olsa da, sektörden ve akademiden sürekli olarak daha iyi yöntemler keşfetmeye çalışan birçok ekip var.

Yakın gelecekte, araştırmacıların çabaları ve bilgi işlem kaynaklarının daha da iyileştirilmesiyle, ağ yapısı arama teknolojisinin, model yapısı değişiklikleri için gereken süreyi büyük ölçüde azaltacağı ve aynı zamanda araştırmacıların daha fazla enerjiye sahip olmasına izin vereceği tahmin edilebilir. İlginç uygulamaları keşfedin veya sinir ağlarının ardındaki yorumlanabilirliği tartışın. Tabii bu süreçte bu teknolojinin gelişim geçmişini incelememiz ve aynı zamanda gelecekteki gelişme trendini de dört gözle beklememiz gerekiyor.

Microsoft ekibi tarafından WMT19 makine çevirisi değerlendirme görevinde İngilizce-Fince görevinin gönderim bilgileri

"Manuel" den "otomatik" e geçiş

İnsanoğlunun otomasyon arayışı hiç durmadı.Bu, üç sanayi devriminin hedeflerinden de anlaşılıyor: Hepsi, insanları karmaşık işlerden kurtarmak için aralıksız çaba sarf ediyor. Makine öğrenimi görevlerine gelince, insanlar, aşırı insan müdahalesi olmadan daha fazla işi tamamlamak için makinelerin gerçekten insanların yerini almasını umarak hala sürekli keşif yapıyor. Bu süreçte, araştırmacılar her zaman Bu atılımı "manuel" den "otomatik" e yapmaya çalışın ve çabalayın.

Makine öğrenimi yöntemlerinin evrimi ve değişiklikleri

Geleneksel makine öğrenimi

Makine öğreniminin ele aldığı görevleri girdiden çıktıya kadar bir haritalama öğrenimi olarak modellersek, ilk nesil makine öğrenimi algoritmalarında, yalnızca mevcut göreve uygun bir yöntem tasarlamamız gerekmez (yaygın olarak kullanılan karar ağacı gibi) , Destek vektör makinesi, vb.) Ve aynı zamanda ona yapay olarak tasarlanmış bir dizi özellik sağlar.Bu görevleri tamamladıktan sonra, modeldeki parametreleri ayarlamak için veriler kullanılabilir.

Duygu analizini örnek olarak ele alırsak, konuşmanın parçası, kelime frekansı ve duygu nitelikleri gibi bilgileri modele girebilir ve ardından, konuşmanın parçası, kelime frekansı ve duygu niteliklerinin cümleden öğrendiğimiz duygu analizi görevlerini modellemek için destek vektör makine modelini kullanabiliriz. Destek vektör makinesi, mevcut problemi çözmek için seçtiğimiz makine öğrenme algoritmasıdır.

Hem girdi özelliklerinin hem de modelin kendisinin araştırmacılar tarafından özetlendiğini görebiliriz.Bu süreç, etkili özelliklerin ve mantıksız model tasarımının kolaylıkla ihmal edilmesine neden olabilir. Bu nedenle, bu geleneksel makine öğrenimi algoritmasına dayanmaktadır. IMDB Film İncelemelerinin [3] duygu analizi görevinin doğruluğu genellikle% 92'yi aşmak zordur (Stanford University Baselines ve Bigrams'ın çalışması: Simple, Good Sentiment ve Topic Classification [4], Naive Bayes kullanılarak) Yöntem, IMDB Film İncelemeleri veri setinde yalnızca% 91,22 doğruluk elde etti). Görülüyor ki, makine öğrenimi teknolojisinin ilk günlerinde, tüm sistem hala büyük ölçüde insan gücüne bağlı olduğu bir çağda idi.

Derin öğrenme

Derin öğrenme teknolojisinin yaygınlaşmasıyla birlikte, insanlar otomatik olarak tamamlamak için özellik çıkarma sürecini modele devretmeye ve veriye dayalı bir yaklaşımla geleneksel yöntemlerde özellik ihmal sorununu azaltmaya başladı. Örneğin, görüntü işleme görevleri için, görüntüdeki yerel özellikleri insan deneyimine dayalı olarak tasarlamamız gerekmez, sadece resmi eğitim için doğrudan modele göndermemiz gerekir.

Aşağıdaki şekil, yüz tanıma görevinde farklı sinir ağları katmanları tarafından görüntü bilgilerinin çıkarılmasını göstermektedir.Altında yatan ağın, öğrenme sürecinde ağırlıklı olarak görüntüdeki yerel dokuları yakaladığını ve katman sayısı arttıkça modele göre başladığını görebiliriz. Alt katmanda toplanan doku bilgileri, yüzün yerel yapısını (gözler, kulaklar vb.) Modellerken, üst katman, yüzün görüntüdeki konumunu belirlemek için yukarıdaki yerel özellikleri entegre edecek ve nihayet yüz tanıma amacına ulaşacaktır. .

Yüz tanıma görevlerinde farklı katmanlarda görüntü bilgilerinin çıkarılmasındaki farklılıklar

Ek olarak, yukarıda bahsedilen duygu analizi görevleri için, dili modellemek için derin öğrenmeyi kullanmak da mümkündür. Geleneksel makine öğrenimi algoritmalarına dayalı modellerle karşılaştırıldığında, derin öğrenme yöntemleri doğrudan metin girdisi alır ve kelime dağarcığı, yüksek boyutlu vektörler biçiminde kelime gömme olarak modellenir. Bu yöntem, kelime dağarcığındaki anlamsal bilgileri yakalamak için yüksek boyutlu alan kullanır, böylece bir sonraki duygu analizi için çok yeterli bilgi sağlar.

Derin öğrenmeye dayalı duyarlılık analizi modeli, IMDB Film İncelemeleri veri setinde geleneksel makine öğrenimi yöntemlerini çok geride bırakıyor. XLNet: Dil Anlamak için Genelleştirilmiş Otomatik Aşamalı Ön Eğitim, Carnegie Mellon Üniversitesi ve Google ekibi tarafından NIPS 2019'da yayınlandı. [5] 'de doğruluk oranı% 96,8'e ulaştı.

Yukarıdaki örneklerden görülebileceği gibi, derin öğrenme teknolojisi, günümüzün makine öğrenimi alanında birçok mükemmel sonuç elde etmiştir. Çok önemli katkılardan biri, ilk girdi bilgilerindeki etkili bilgileri otomatik çıkarma kullanarak elde etmektir, bu da büyük ölçüde azalır. Manuel tasarım özelliklerinin neden olduğu bilgi kaybı, aşağı akış görevleri için daha sağlam bir temel sağlar.

Derin öğrenme ağ yapısı araması

Derin öğrenme teknolojisinin gelişiyle, orijinal olarak manuel olarak gerçekleştirilen özellik çıkarma işlemi makine tarafından otomatik olarak tamamlanır ve modelin orijinal verilerden kendi ihtiyaçlarına göre özellikleri yakalamasına olanak tanır.Bu veri odaklı yaklaşım, manuel çıkarımı etkili bir şekilde azaltır. Bilgi kaybı riski. Ancak tüm derin öğrenme sistemini gözden geçirdiğimizde, aslında beklediğimiz tam otomatik bir süreç değil Model yapısının tasarımında, model yapısını görev odaklı tasarlamak için hala büyük ölçüde endüstri uzmanlarına güveniyoruz.

Makine çevirisi görevlerini bir örnek olarak ele alan araştırmacılar, modelin yapısını keşfetmeyi asla bırakmamışlardır. Metin dizilerinin temsilinin RNN'ye [6] dayalı ilk geliştirilmesinden dikkat mekanizmasının [7] girişine ve daha da yakın zamanda Araştırmacılar, CNN [8] 'in çeviri sistemine ve büyük ilgi gören Transformer [9] sistemine dayanarak, görevler için model yapısını sürekli olarak tasarlıyor ve iyileştiriyorlar. Bununla birlikte, derin öğrenmenin ilk gelişimiyle birlikte araştırmacılar, bir gün model yapı tasarımı sürecinin de artık manuel tasarıma çok fazla dayanmayacağını ve özellik seçimine benzer bir şekilde otomatik olarak öğrenebileceğini umuyor, bu nedenle derin öğrenme yöntemlerine dayanarak , İnsanlar model yapısını otomatik olarak almak için ağ yapısı arama yöntemini denemeye başladı.

Aslında, ağ yapısı arama görevi son yıllarda ortaya çıkmadı. 1980'lerin başlarında, Stanford Üniversitesi'nden Miller, Geoffrey F. ve diğerleri, Genetik Algoritmaları Kullanarak Sinir Ağları Tasarımı [10] makalesinde sinir ağları için evrimsel algoritmaların kullanılmasını önerdiler. Ağ yapısının öğrenilme şekli.Bundan sonra, birçok araştırmacı da bu düşünce çizgisi boyunca ilgili keşifler yaptı (örneğin, sinir ağlarının temsili ve evrimi [11] makalesi evrimsel algoritmaların kodlama biçimini geliştirdi. JR Koza ve ark. bir sinir ağı için hem ağırlıkların hem de mimarinin oluşturulması [12], ağın yapısını ve parametrelerini aynı anda öğrenmeyi önerdi).

Ancak, o zamanki sınırlı bilgi işlem kaynakları nedeniyle, sinir ağlarının yapı araması için çok az uygulama senaryosu vardı, bu nedenle bu çalışma birçok araştırmacının dikkatini çekmedi. Son yıllarda sinir ağlarının ve derin öğrenme teknolojilerinin yaygın olarak uygulanmasıyla, ağ yapılarının kendi kendine öğrenmesine olan talep de artmıştır.Aynı zamanda, yarı iletken teknolojisinin hızlı gelişimi, ekipmanın hesaplama gücünü ve depolama yeteneklerini büyük ölçüde geliştirmiştir. Ağ yapısı arama görevi için gerekli desteği sağlar.

Makine öğrenimi algoritmalarının tüm geliştirme sürecine bakıldığında, ağ yapısı arama görevlerinin ortaya çıkışı tarihsel bir zorunluluk olarak görülebilir. Veri kaynaklarının birikimi veya bilgi işlem gücünün iyileştirilmesi olsun, hepsi veri odaklı ağ yapısı tasarımını doğurur. Mevcut ağ yapısı arama teknolojisi hala nispeten ilkel bir aşamada olmasına rağmen, yüksek kaynak tüketimi ve model yapısı istikrarsızlığı her zaman araştırmacıları rahatsız etmiştir, ancak gelişme ivmesi hızlıdır ve görüntü ve doğal dil işleme alanlarında ortaya çıkmaya başlamıştır.

Derin öğrenme ağ yapısı arama kombinasyonunun, araştırmacıları model mühendisliği bataklığından kurtaran saman olacağı tahmin edilebilir.Ayrıca, ağ yapısı arama teknolojisinin, makine öğrenimi için "manuel" den "manuel" e olan süreci sonunda tamamlayacağına inanıyoruz. Oyunsonunu "otomatik olarak" bozar.

Bu sayıda, esas olarak ağ yapısı arama görevinin kökenini ve tarihsel gelişimini tanıtıyoruz Sonraki sayıda, bu görev için kullanılan genel çerçeveyi özel olarak tartışacağız.

Referanslar:

Ramachandran P, Zoph B, Le Q V.Aktivasyon fonksiyonları aranıyor. ArXiv preprint arXiv: 1710.05941, 2017.

Luo R, Tian F, Qin T, vd., Sinir mimarisi optimizasyonu // Nöral bilgi işleme sistemlerindeki gelişmeler. 2018: 7816-7827.

Maas AL, Daly RE, Pham PT, et al. Duygu analizi için kelime vektörlerini öğrenmek // Hesaplamalı dilbilim derneğinin 49. yıllık toplantısının bildirileri: İnsan dili teknolojileri-cilt 1. Hesaplamalı Dilbilim Derneği, 2011: 142-150 .

Wang S, Manning C D. Temeller ve bigrams: Basit, iyi duyarlılık ve konu sınıflandırması // Hesaplamalı dilbilim derneğinin 50. yıllık toplantısının bildirileri: Kısa makaleler-cilt 2. Hesaplamalı Dilbilim Derneği, 2012: 90-94.

Yang Z, Dai Z, Yang Y, vd.Xlnet: Dil anlayışı için genelleştirilmiş otoregresif ön eğitim // Sinir bilgi işleme sistemlerindeki gelişmeler. 2019: 5754-5764.

Sutskever I, Vinyals O, Le Q V. Sinir ağları ile öğrenmeyi sıraya koyma // Sinir bilgi işleme sistemlerindeki gelişmeler. 2014: 3104-3112.

Bahdanau D, Cho K, Bengio Y. Hizalamayı ve çevirmeyi birlikte öğrenerek sinirsel makine çevirisi arXiv ön baskı arXiv: 1409.0473, 2014.

Gehring J, Auli M, Grangier D ve diğerleri. Sıralı öğrenmeye evrişimli dizi // 34. Uluslararası Makine Öğrenimi Konferansı-Cilt 70 Bildirileri JMLR. Org, 2017: 1243-1252.

Vaswani A, Shazeer N, Parmar N, ve diğerleri Dikkat tek ihtiyacınız olan // sinirsel bilgi işleme sistemlerindeki gelişmeler. 2017: 5998-6008.

Miller G F, Todd P M, Hegde S. U. Genetik Algoritmalar Kullanarak Sinir Ağlarının Tasarımı // ICGA. 1989, 89: 379-384.

Mandischer M. Sinir ağlarının temsili ve evrimi // Yapay Sinir Ağları ve Genetik Algoritmalar Springer, Viyana, 1993: 643-649.

Koza J R, Rice J P. Bir sinir ağı için hem ağırlıkların hem de mimarinin genetik üretimi // IJCNN-91-seattle sinir ağları üzerine uluslararası ortak konferans. IEEE, 1991, 2: 397-404.

Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı

Today Paper | Belirsizlik ölçümü; kenar algılama derinlik tahmini; binoküler derinlik tahmini; uyarlanabilir derinlik stereo eşleştirme, vb.
önceki
Canlı yayın | Luo Yonghao'nun mallarla birlikte ikinci canlı yayını, Hubei için portakal satışı
Sonraki
Douyin, Kuaishou, Taobao ve Tencent Live'ın trafik mantığı nedir? Süper Görüntü
Jinan, sahte KDV faturası düzenleyen üç özel girişim personelini "muaf tuttu"
Mou Zhongzhong'un "efsanevi en zengin adam" mahkumu ve Hubei'nin eski en zengin adamı, üç kez hapishanede kaldı ve şimdi tekrar aranıyor.
Tüm alıcılar "kamu paylaşımını iptal etmek" istiyor, uzmanlar şunları söylüyor: iptal etmemelisiniz, acı çekenler sizsiniz
322 gün sonra Huang Guangyu hapisten çıktı! "Gizlice" 3 büyük "düzen" ve karısı bir keresinde öyle demişti
Yoğun bir bahar günü
Sanya, Hainan: Bilimsel araştırma sağlamak için birden fazla önlem alın
Geçmiş 13,7 milyar yıl öncesine göz atmak mı? NASA James Webb Uzay Teleskobu bekleniyor
Yıldız canlı yayınının ilk aşaması, yüksek kaliteli projelere ve verimli sermaye bağlantılarına öncülük ederek güçlü bir şekilde başlatıldı.
Illinois Valisi, Chicago'nun Çin Mahallesi'nde zencefilli şeker satın aldı: Virüs özellikle belirli bir ırka işaret etmiyor
Günlük maske çıktısı 200 milyona çıktı! Çılgın maskeler ve patronlar, bazıları zengin olur, bazıları para kaybeder
Çin'in "iyi karısı": eski kocasından 20 milyar yuan boşandı, ancak eski kocası geri döndü ama lüks bir ev satın aldı ve bir uçuş görevlisi ile evlendi
To Top