g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

4D SenseTime ICLR2019 Makalesinin Yorumlanması: Rastgele Sinir Ağı Yapısı Araması

Leifeng.com AI Technology Review News, birkaç gün önce, SenseTime Bilim ve Teknoloji Enstitüsü'nden "Stokastik Sinir Mimarisi Araştırması" (SNAS) makalesi, makalenin ilk yazarı olan en iyi derin öğrenme konferansı ICLR (Uluslararası Öğrenme Temsilcisi Konferansı) tarafından kabul edildi. SenseTime Araştırma Enstitüsü'nün Otonom Sürüş Departmanı'ndan yazar, pekiştirmeli öğrenme (pekiştirmeli öğrenme) ve otomatik makine öğrenimi (AutoML) araştırmalarına odaklanıyor.

Bu makalenin yazarı, NAS görevlerinde pekiştirmeli öğrenmenin verimliliği hakkında derinlemesine düşünmüştür ve teorik olarak, NAS'ta pekiştirmeli öğrenmenin yavaş yakınsamasının nedenlerini verir. Bu makale yeni bir ekonomik, verimli ve yüksek oranda otomatik sinir ağı yapısı arama (NAS) yöntemi önermektedir. NAS görevinin MDP'sinin derinlemesine analizi sayesinde, daha verimli bir yöntem-rastgele sinir ağı yapısı araması önerdiler ve NAS problemini yeniden şekillendirdiler. Takviye öğrenmeye (ENAS) dayalı yöntemlerle karşılaştırıldığında, SNAS arama optimizasyonu farklılaştırılabilir ve arama verimliliği daha yüksektir. Diğer farklılaştırılabilir yöntemlerle (DARTS) karşılaştırıldığında, SNAS, NAS görevlerinin amaç işlevini doğrudan optimize eder ve arama sonuçlarının sapması daha azdır. Ek olarak, stokastisitenin avantajlarını sürdüren SNAS'a dayalı olarak, makale ayrıca ağ kaybı işlevinin beklentisini ve aynı zamanda ağ ileriye doğru gecikme beklentisini optimize etmeyi ve otomatik olarak donanım dostu bir seyrek ağ oluşturmayı önerir.

Bu, SenseTime'ın en önemli konferansta NAS ile ilgili makaleleri ilk kez yayınlaması değil. 2018'de SenseTime, CVPR üzerine NAS üzerine bir makale yayınladı, "Derin Güçlendirme Öğrenme Otomatik Ağ Yapısı Tasarımı" Öğrenilen ağ yapısı otomatik tasarım algoritması, "ağ bloğu" tasarım fikri aracılığıyla, arama alanını büyük ölçüde azaltır ve tasarlanan ağın çok güçlü bir aktarılabilirliğe sahip olmasını sağlar.

NAS, Otomatik Makine Öğreniminde (AutoML) gün geçtikçe gündemde olan konulardan biri haline geldi. Uygun maliyetli bir arama yöntemi tasarlayarak, otomatik olarak güçlü genelleme yeteneğine sahip ve donanım dostu bir sinir ağı yapısı elde edebilir, bu da Ar-Ge maliyetlerini büyük ölçüde azaltabilir ve araştırmacıların yaratıcılığını özgürleştirebilir.

Öyleyse, mevcut sorunlar için SenseTime'ın en son makalesinde hangi optimizasyonlar yapılmıştır? Aşağıda, bu makalenin araştırma ekibi tarafından ayrıntılı bir yorumu yer almaktadır.

1. Arkaplan

1.1 NAS'ta MDP

Şekil 1, yapay sinir ağı yapısı tasarımı ile NAS arasındaki karşılaştırmayı göstermektedir.

Şekil 1: Yapay sinir ağı yapısı tasarımı ile otomatik sinir ağı yapısı araması

Tamamen yapay olan bir sinir ağı yapısı tasarımı genellikle aşağıdaki temel süreçleri içerir:

1) Evrişim (evrişim) havuzlama vb. Gibi bilinen sinirsel dönüşümlerden (işlemler) bazı topolojik yapıları tasarlayın,

2) Bu ağları verilen eğitim setinde yakınsama için eğitin,

3) Bu ağ yakınsama sonuçlarını test setinde test edin,

4) Ağ yapısını test doğruluğuna göre seçin,

5) Topoloji tasarımını manuel olarak optimize edin ve 1. adıma dönün.

Bunların arasında, 5. adım, çok fazla insan gücü ve zaman gerektirir ve insanlar ağ yapısını, net teorik rehberlikten yoksun olarak daha çok deneyimlerden keşfederler. Bu adımı otomatikleştirmek ve onu aracıya aktarmak, deneme yanılma sırasında ağ yapısını sürekli olarak optimize etmek için NAS'ın temel amacıdır.

İnsan öznel bilişinde, bir sinir ağı yapısı oluşturmak, sığdan derine kadar katman katman sinirsel dönüşümleri (operasyonları) seçme işlemidir. Örneğin, bir CNN oluştururken, evrişim çekirdek boyutunu ve kanal sayısını katman katman seçmeniz gerekir.Bu süreç sürekli karar almayı gerektirir, bu nedenle NAS görevi doğal olarak bir Markov Karar Süreci (MDP) olarak modellenir.

Basitçe ifade etmek gerekirse, MDP bir yapay zeka ajanı ile çevre arasındaki etkileşimde ajan eylemi sürecini (eylem, at) ve çevresel durum geçişini (durum geçişi) modeller. Bir CNN oluşturma örneğine dönersek, ortam ağ yapısının soyutlamasıdır, durum (durum, st) evrişim yönteminin seçildiği tüm katmanları temsil eder ve eylem sonraki katmandaki seçimi temsil eder. Ne tür bir kıvrım.

Bazı durumlarda, her eyaletteki temsilci eylemlerinin dağılımını ifade etmek için politika işlevini (politika, ) kullanacağız. Bu süreçte temsilcinin toplam puanı, yani test seti üzerindeki yerleşik ağın doğruluğu, Takviye Öğrenmenin genel kara kutu algoritması ile optimize edilir. Bununla birlikte, pekiştirmeli öğrenmenin kendisi düşük veri kullanımı özelliklerine sahip olduğu için, bu optimizasyon süreci genellikle çok fazla bilgi işlem kaynağı gerektirir.

Örneğin, NAS'ın [1] ilk çalışmasında Google, CIFAR-10'daki aramayı tamamlamak için 1800 GPU gününü kullandı. Çok sayıda paralel hesaplamadan geçmesine rağmen, bu sürecin gerçek süresi (duvar saati süresi) manuel tasarımdan daha kısa olacaktır, ancak bu kadar büyük bilgi işlem kaynağı gereksinimleri aslında NAS'ın yaygın kullanımını sınırlamaktadır. [1] 'den sonra, NAS verimliliğini tasarım arama alanı [4], arama süreci [2] ve model tabanlı pekiştirmeli öğrenme [5] perspektiflerinden optimize etmeye yönelik çok sayıda makale var, ancak "MDP ve pekiştirmeli öğrenmeye dayalı modelleme" Tartışılmadan kara kutu muamelesi gördü.

Şekil 2: NAS, belirli bir ortamda tamamen geciktirilmiş bir ödül görevidir. Bu DAG'de, kutular düğümleri temsil eder ve spesifik fiziksel anlam, özellik haritasıdır. Farklı renkli oklar, farklı işlemleri gösterir. s, mevcut ağ yapısı durumunu, a her adımın eylemini ve r, puanı temsil eder. Temsilci, yalnızca ağ yapısı tamamlandıktan sonra, sıfır olmayan bir puan alabilir.

Bu makalenin yazarının temel kavrayışı, NAS görevleri için MDP'nin özelliklerini keşfetmekten gelir. Şekil 2, bir NAS MDP'nin tüm sürecini göstermektedir. Her durumda, aracı harekete geçtiğinde, ağ yapısı durumundaki değişikliğin kesin olduğu görülebilir. Bir ağ tam olarak kurulmadan, eğitilmeden ve test edilmeden önce, temsilcinin her eylemi doğrudan bir puan ödülü alamaz. Temsilci, ancak tüm gidişat bittikten sonra bir puan alacaktır.

NAS'ın ortamdaki gecikmiş ödülün tamamını belirleme görevi olduğunu kısaca özetleyelim. (Belirleyici bir ortamda ödülü tamamen geciktirilmiş bir görev.) Ağ yapısı durum değişikliklerinin determinizminin nasıl kullanılacağı bir sonraki bölümde tartışılacaktır.

Bu bölümün bir sonraki bölümünde, ilk olarak pekiştirmeli öğrenme alanında bazı arka planlardan bahsedeceğiz, bir eylem dizisinin puanının her eyleme nasıl atandığını ve gecikmiş ödüllerin neden bu puan dağılımının verimsizliğine neden olduğunu açıklayacağız.

1.2 TD Öğrenme ve katkı dağıtımı

Pekiştirmeli öğrenmenin amaç işlevi, gelecekteki toplam puanın beklentisidir. Her eyaletteki eylemler açısından, temsilci uzun vadede en büyük faydayı sağlayacak eylemi seçmeye çalışmalıdır. Bununla birlikte, herhangi bir yardımcı tahmin mekanizması yoksa, aracı her durumda her bir eylemin gelecekteki toplam puanını tahmin edemez. TD Learning, bu problemi çözmek ve her eylemin gelecekteki toplam puana katkısını tahmin etmek için kullanılır. TD (0), her durumda toplam puan beklentisinin en temel hesaplaması (

) TD Learning, aşağıdaki formülde gösterildiği gibi:

Şekil 3: TD Learning'de, ajanın belirli bir durumun değerine ilişkin değerlendirmesi, gelecekteki durumu değerlendirmesine dayanır, resim

Dinamik programlamaya dayalı bir şekilde, temsilcinin gelecekte her bir eyaletin toplam puanı için beklentilerinin gelecekteki durumdan geçmişe doğru yayıldığı görülebilir. Sutton, Şekil 3'te gösterildiği gibi, bu skorun arkadan öne dağılımını göstermek için [6] 'da bir resim kullandı.

Başka bir deyişle, temsilcinin bir devletin değerine ilişkin değerlendirmesi, devletin gelecekteki durumuna ilişkin değerlendirmesine dayanır. (1) 'deki TD'nin geri dönüşünün kısmi bir dönüş olduğunu ve son durumun bilgisinin bir dönüşte önceki her düğüme iletilmeyeceğini belirtmek gerekir. Bu çok uç bir örnek. Temsilcinin st için değer değerlendirmesi tamamen st + 1'e bağlıdır. Bir güncellemede, bilgi yalnızca bir adım ileriye iletilecektir. Dinamik programlamaya göre, eğer sadece bu yörünge mümkünse, bu transfer için toplam süre bu yörüngenin uzunluğudur. Birden fazla yörünge olabileceği zaman, oluşma olasılığına dayalı olarak beklentileri almak gerekir.

(1) gibi dinamik programlamanın kısmi bilgi aktarımı riski, gelecekte bazı durumların değer değerlendirmesi saptığında, geçmiş durumunun değer değerlendirmesinde de problemler olacaktır. Ve bu sapma ancak daha dinamik programlamayla onarılabilir.

Bir görev karmaşık olma eğiliminde olduğunda ve durum uzayının boyutu gittikçe yükseldiğinde, yukarıda bahsedilen gelecekteki durum değeri değerlendirmesinin sapması temelde kaçınılmazdır ve TD öğrenmenin yakınsama süresi büyük ölçüde artar.

Klasik pekiştirmeli öğrenme alanında bu sorunu çözmeye çalışmak için birçok yöntem vardır. Örneğin, TD'den vazgeçin ve doğrudan Monte Carlo (MC) örneklemesi yoluyla değer değerlendirmesi yapın. Ek olarak, uygunluk takibini de kullanabilirsiniz.

TD (0) ve MC tabanlı değer değerlendirmesinde değiş tokuş yapın, böylece temsilci

Sapma riski, gelecekte daha fazla rt + k tarafından paylaşılacaktır. Burada ayrılmaya devam etmeyeceğiz ve ilgilenen okuyucular Sutton'ın ders kitabına [6] başvurabilirler.

1.3 Geciken ödüllerde katkı dağıtımı

1.1'de, NAS'ın tamamen gecikmiş bir ödül görevi olduğunu tanıtmıştık. 1.2'de tanıttığımız matematiksel modeli kullanarak bu bulguyu şu şekilde ifade edebiliriz:

(2) 'yi (1)' e değiştirdiğimizde, TD Öğrenmenin değer değerlendirmesine dayalı olarak, TD öğrenmenin erken aşamasında, doğru katkı tahsisinin nihai ağ yapısı durumundan sığ ağ eyleminin kararına iletilmediğini bulacağız. Şu anda, ortamın kendisi bu adım için puanı geri beslemediğinden, sığ ağa atanan katkı, doğal bir sapma olan 0'a yakındır. Elbette, 1.2'de tanıtıldığı gibi, bu sapma, Monte Carlo'nun tahminlerini birleştirmek için çeşitli yollar tasarlayarak da telafi edilebilir, ancak ödülün tamamen gecikmesi MC yöntemini ortaya çıkaracaktır.

Titreşim uygun değildir

Yakınsama.

Geciken ödüllerle ilgili olarak, RUDDER [7] bir dizi katı kanıtın ardından aşağıdaki sonuçları elde etti:

1) Geciken ödüller, TD yakınsaması için gereken güncelleme sayısını katlanarak artıracaktır;

2) Geciken ödüller, katlanarak daha fazla durumda MC değer değerlendirmesinde titreme getirecektir.

Önerdikleri çözüm, her bir yörüngenin toplam puanına uyacak bir sinir ağı kullanmak ve puanları, TD ve MC'yi atlayarak bu sinir ağındaki gradyan aracılığıyla giriş katmanının tüm durumlarına dağıtmaktır. Bir CNN oluşturma örneğine geri dönelim Bu yöntemi uygulamak istiyorsak, girişi ağ yapısını ifade eden kodlama ve çıktı ağ yapısının tahmin edilen doğruluğu olan yeni bir sinir ağı oluşturmamız gerekir.

[7] 'nin deneyinde, ek olarak farklılaştırılabilir bir toplam puan fonksiyonunu eğiterek katkıları dağıtmanın bu yöntemi, Şekil 4'te gösterildiği gibi yakınsama hızında çok belirgin bir gelişme gösterdi. Bununla birlikte, bu ek sinir ağı, ek veri ve ek eğitim gerektirir ve gerçek toplam puana yaklaşabileceğinin garantisi yoktur. Daha da önemlisi, bu sinir ağının döndürdüğü gradyan dağılımının katkısı makul olsa da, sıradan gecikmeli ödül görevinde sadece fenomen düzeyinde bir değerlendirme olabilir ve yorumlanabilirlik sınırlıdır.

Şekil 4: Gecikmeli ödül oyunları Bowling ve Venture'da, farklılığa dayalı katkı tahsis yöntemi RUDDER, TD ve MC tabanlı yöntemlerden önemli ölçüde daha hızlı bir şekilde birleşir.

2. Yöntem

2.1 NAS'ı Yeniden Şekillendirme

Bu makalenin yazarının ilk önemli kavrayışı, doğruluk oranını değiştirmek için bir kayıp fonksiyonu kullandığımızda, RUDDER gibi ek bir skor fonksiyonu yerleştirmeye gerek olmadığıdır.NAS probleminin toplam skoru artık ortamdan sabit değildir. Türevlenebilir bir işlevdir. 1.3'ün girişine dayanarak, bu NAS'ın arama verimliliğini büyük ölçüde artıracaktır. Ve hem kayıp fonksiyonu hem de doğruluk oranı bir ağ öğreniminin sonuçlarını ifade edebildiğinden, bu değiştirme, NAS problemlerinin "beklenen performansı en iyi hale getirmek için ağ yapısı dağıtımını optimize etme" asıl amacını değiştirmez. Böylece sahibiz

onların arasında

Yörüngeyi, bir ağ parametresini veya daha spesifik olarak tüm olası sinirsel dönüşüm parametrelerini temsil eder.

İkinci içgörü, 1.1'de sunduğumuzdan gelir. NAS görevinin durum geçişi belirlenir. Belirleyici bir ortamda, bir durum eylem dizisinin olasılığı, strateji fonksiyonu olasılığının çarpımı olarak ifade edilebilir

(3) ve (4) 'ü birleştirerek buluyoruz

Bu, çok yaygın bir üretken modelin amaç işlevidir. Dolayısıyla, üretken modeldeki bazı yöntemleri yeniden ifade etmek için kullanabiliriz.

. Örneğin,

Tamamen çarpanlara ayrılabilir bir dağıtım olarak modellenmiştir

Her eylemin birbirinden bağımsız olduğunu varsayarsak, bu ayrıştırma şu şekilde yazılabilir:

Bunların arasında, MDP modellemesinden ayırmak için eylem a'yı karar z ile değiştiriyoruz. (6) veya (7) 'yi (5)' e alarak yeni bir amaç işlevi elde ederiz

2.2 NAS görevlerini ifade etmek için stokastik sinir ağlarını kullanma

Takviye öğrenmeye dayalı klasik NAS yönteminde, ajanın kayıp işlevi ve ağın kendisinin kayıp işlevi birbirine bağlı değildir:

Bu nedenle, hesaplama grafiklerinin birbirine bağlanmasına gerek yoktur. Şekil 5, takviye öğrenmeye dayalı olarak bir NAS'ta aracı ve ağ etkileşiminin ileri ve geri güncelleme sürecini göstermektedir.

Şekil 5: Takviye öğrenmeye dayalı NAS'ın ileri ve geri yönü, ağ yapısı stratejisinin geriye doğru, katkı tahsisi için TD kullanması gerekir, yakınsama hızı garanti edilemez ve kaynak tüketimi büyüktür

(9) 'dan farklı olarak, bu makalenin yazarı tarafından yeniden modellenen amaç fonksiyonunda (8), ağ yapısı dağılımını ifade eden parametresi ve ağ dönüşümünün parametresi, 'nın geriye doğru eşzamanlı bir güncellemesi olan birlikte birleştirilmiştir. Ve , her bir kenarın kararına farklılaştırılabilir toplam puanı atarken 'yi güncellemek olasılığını sağlar. Ancak bu hedefe ulaşmak için öncelikle ağ yapısını dağıtmamız gerekiyor.

İleri yönde alt ağ yapısının örneklemesini gerçekleştirmek için sinir ağının hesaplama grafiğine yerleştirilmiştir.

Şekil 6: SNAS'ta alt ağın örnekleme ve iletme süreci. Soldaki DAG, ana ağdır, ortadaki matris, her seferinde ana ağın her iki tarafında örneklenen kararı z temsil eder ve sağ, bu sefer örneklenen alt ağdır.

Bu makalenin yazarı, bu örnekleme sürecinin, bir Stokastik Sinir Ağı (SNN) oluşturmak için ana ağa ağ yapısı dağıtımını birleştirerek gerçekleştirilebileceğini önermektedir. Spesifik olarak, ana ağdan alt ağlar oluşturmak, ana ağın her iki tarafındaki olası tüm sinirsel dönüşümlerin sonuçlarının bir sıcak vektör ile çarpılmasıyla elde edilebilir. Alt ağın örneklemesine gelince, bu nedenle doğal olarak bir dizi tek sıcak rastgele değişkeni örneklemeye dönüştürülür.

Bunların arasında düğüm xi (düğüm), gerçek fiziksel anlam özellik haritasıdır (özellik haritası), Oi, j kenarda (i, j) seçilen sinirsel dönüşümü (işlemleri) ve Zi, j kenarı (i, j) temsil eder. ) Tek sıcak rastgele değişkenler hakkında. Şekil 6, bu SNN'deki bir hücrenin örnekleme yöntemini gösterir.

SNAS, genel bir sinir ağı yapısı arama yöntemi olarak konumlandırıldığı için, yazar, ana haritayı oluştururken ENAS ve DARTS ile aynı yöntemi kullanır. Bu şu şekilde yansıtılır:

1) Modülün (hücre) temel ana grafiğinde, birden fazla giriş düğümü (giriş düğümü), hücrenin girişinin önceki modüllerin çıkışından geldiğini gösterecek şekilde tasarlanmıştır, böylece hücreler arasında atlama ve dallanma oluşturma olasılığını içerir;

2) Her hücrede ara düğümün (ara düğüm) girişini tasarlarken, hücredeki önceki tüm ara düğümlerden gelen tüm giriş kenarları dikkate alınır ve her bir giriş kenarında nöral dönüşüm (işlem) sağlanır. Kimlik dönüşümünü ve 0'ın bu giriş kenarını atlamak ve doğrudan silmek için dönüşümünü içerir. Bu nedenle, atlama ve dallanma arasındaki tüm olasılıklar dikkate alınır.

Bu ebeveyn ağı (10) ile birleştirerek, her düğümün gerçek matematiksel ifadesini elde edebiliriz.

Bu, daha önce belirlenen sinir katmanı üzerinde rastgele bir doğrusal dönüşümdür. Bunu dikkate alarak, SNAS'ın amaç işlevini daha da geliştirebiliriz

2.3 Diferensiyellenebilir yaklaşım

2.1 ve 2.2'den sonra, NAS görevini ifade eden rastgele bir sinir ağı elde ettik ve kayıp fonksiyonunu tanımladık. Çözmemiz gereken bir sonraki problem, bu kayıp fonksiyonunun gradyanının ağ yapısı parametresi ve sinirsel dönüşüm parametresi 'ye nasıl hesaplanacağıdır.

(12) gibi nesnel bir fonksiyonun türetilmesi için, özellikle beklenen terimin türetilmesi için, en klasik yöntem, pekiştirmeli öğrenmede politika gradyanının türetilmesinde kullanılan olabilirlik oranı hilesidir. Ancak, bu yöntemle ilgili temel sorun şudur:

Jitter'in neden olduğu daha büyük gradyan farkı, tüm optimizasyon sürecinin yakınsamasına elverişli değildir. Özellikle dikkate alındığında

Boyutun kendisi nispeten yüksektir (boyutu tüm girdi kenarlarının toplam sayısına eşittir), olasılık oranı hilesinin neden olduğu gradyan varyansının nasıl azaltılacağı hala açık bir sorudur.

Burada yazar başka bir mikronize edilebilir yaklaşım yöntemi olan yeniden parametreleştirmeyi seçer. Bu, mevcut Derin Üretim Modelinde etkinliği kanıtlanmış bir yöntemdir. Spesifik olarak, ayrık bir dağılım uygularken, bir yöntem, ilk önce tek sıcak vektörün boyutuyla aynı sayıda sürekli tekdüze dağılımlı rasgele değişkenleri örneklemek, bunları Gumbel dönüşümü yoluyla Gumbel rastgele değişkenlerine dönüştürmek ve En büyük boyut (argmax) 1, diğer boyutlar 0 olarak seçilir. Bu dönüşüme Gumbel-max denir. Bu şekilde örneklenen rastgele değişkenlerin dağılımı, ayrık dağılımla aynıdır ve ayrık dağılımın parametreleri Gumbel max'daki parametrelere dönüştürülerek ayrık dağılımın yeniden parametrelendirilmesi gerçekleştirilmektedir.

Ancak argmax'ın işleyişi türevlenebilir olmadığından, [8, 9] max'ı softmax'a yaklaştırmayı önerdi,

Ayrıca softmax sıcaklığı 0'a yaklaştığında, bu yöntemle üretilen rastgele değişkenin ayrık dağılıma yaklaştığını da kanıtladılar. Yazar, makaledeki yaklaşık kayıp fonksiyonunu verir

Döndürülen gradyan için, ekte ayrıntılı bir türetme verilmiştir. Bu minyatürleştirmeden sonra, SNAS'ta ileri ve geri ifade etmek için Şekil 7'yi kullanabiliriz.

Şekil 7: SNAS'ta ileri ve geri, rastgele sinir ağının inşası ve mikronize edilebilir yaklaşım yoluyla, ileri örneklemenin NAS'ın optimizasyon hedefini tahmin edebilmesi ve geriye doğru eğimi ağ yapısı dağılımının parametrelerine geri gönderebilmesi sağlanır. , Çok tarafsız ve verimli.

2.4 Ağ iletme gecikmesi cezası ve ağ seyrekliği

Başlangıçtan beri bahsedilen arama verimliliği problemine ek olarak, klasik NAS yönteminin daha pratik bir problemi vardır, yani tasarlanan ağ genellikle doğruluk arayışı için çok karmaşıktır. Bu özellikle, aracının nihayetinde karmaşık bir topolojiye sahip bir ağ kurmayı öğrenmesi ve bu da eğitimde nispeten uzun bir süre harcanmasına yol açması gerçeğinde yansıtılmaktadır.Gerçek kullanımda bile, ağın ileri gecikmesi çok uzundur.

Bu makalenin yazarının üçüncü görüşü, aracının bu karmaşık ağlara yönelik tercihinin, bir yandan optimizasyon hedefinde ileri gecikmede herhangi bir sınırlama olmamasından, diğer yandan da nihai ağın hala seçilmiş olmasından kaynaklandığıdır. Optimizasyon hedefindeki manuel işlem (örneğin, DARTS'ta, her ara düğüm, ilk 2 ağırlığın giriş kenarındaki ilk 1 ağırlığın sıfır olmayan nöral dönüşümünü seçmeye zorlanır), bu nedenle tüm ağ yapısını aramak mümkün değildir Ağın seyrekliği otomatik olarak fark edilir, bu da sonunda bazı arama alanlarının terk edildiği anlamına gelir.

2.2'de tanıtılan ana ağın tasarımının aslında bir giriş kenarını doğrudan silme olasılığını içerdiği gerçeği göz önüne alındığında, bu makalenin yazarı, alt ağ seçimine manuel eklemeden otomatik edinimi elde etmek için ek optimizasyon hedefleriyle başlamaya çalışmaktadır. Seyrek ağların amacı. Bu amaç, "belirli bir ağ ileri gecikme bütçesi altında ağ doğruluğunu optimize etme" sorunu olarak modellenmiştir.

Lagrange dönüşümü sayesinde, (14) 'ü ağ iletme gecikmesi için bir cezaya dönüştürebiliriz

Bunların arasında, her ağın ileri gecikmesi özel olarak konuşlandırılmış donanımda ölçülebiliyorsa,

Optimizasyon, strateji gradyan yöntemini kullanabilir. Ancak ağ aramasının amacının çeşitli donanımlar için daha genel olduğu söylenirse, bu ileri gecikme, sinir ağı tasarımında yaygın olarak kullanılan bir değerle yaklaşık olarak tahmin edilebilir [10,11].

Bu miktarlar parametre miktarlarını, kayan nokta hesaplamalarını (FLOP'lar) ve gerekli belleği içerir. Bu miktarları kullanmanın en büyük avantajı, örneklenen alt ağın bu değerlerinin toplam hesaplamasının, her aday sinir dönüşümü için bazı sabitlerle (uzunluk, genişlik, kanal sayısı gibi) rastgele doğrusal olan (11) ile aynı olmasıdır. Dönüşüm. (11) 'e benzer olarak, bizde

Bu nedenle, her bir giriş kenarında küresel bir ağ iletme gecikmesini optimize etmek yerine, yalnızca her bir kenarın gecikmeye katkısını optimize etmemiz gerekir. Önceki katkı tahsisi bağlamına geri dönersek, küresel gecikme cezası C (Z) doğrusal olarak her kenarın Zi, j kararına tahsis edilir ve bu yakınsama verimliliğini iyileştirmeye yardımcı olur. Ve (16) doğrusal bir dönüşüm olduğundan, hesaplamak için yeniden parametrelemeyi kullanabiliriz

Beklenti için strateji gradyan yöntemi de kullanılabilir.

3. Derinlemesine araştırma

3.1 SNAS'ta katkı dağılımı

Önceki girişte, 2.1'de bahsedilen SNAS'daki puanların farklılaşabilirliğinin kullanılması, TD Learning'in 1.3'te bahsedilen NAS'ın tamamen gecikmiş ödül görevinde karşılaşabileceği sorunları çözebilmesine rağmen, bu puan dağılımı Hala bir kara kutu. Yöntemin yorumlanabilirliğini geliştirmek için yazar, SNAS'ta P (z) 'yi matematiksel türetme yoluyla güncellemek için kullanılan gradyanı kanıtlar

Politika gradyanındaki eşdeğer beklenti biçimi, her bir giriş kenarındaki (i, j) Z (i, j) kararına bir puan verilir

Açıkçası, bu puan şu şekilde yorumlanabilir:

Birinci dereceden Taylor Ayrıştırması (Taylor Ayrıştırması). Hücredeki belirli bir düğüm xj için, çıktı kenarından döndürülen tüm katkıları toplayacaktır.

, Ve ağırlığa göre tüm giriş kenarlarına (i, j) atayın. Ayrıca (10) 'dan (i, j)' ye tahsis edilen katkının rastgele değişken Zi, j'ye göre tahsis edileceğini biliyoruz.Zi, j sonsuz bir şekilde tek sıcak yaklaştığında, katkı tamamen seçilene tahsis edilecektir. Bu sinir dönüşümü.

Birinci dereceden Taylor genişlemesine dayanan bu tür katkı dağılımı [12] 'de sinir ağındaki her bir nöronun önemini açıklamak için kullanılmıştır ve şu anda sinir ağındaki farklı modüllerin önemini açıklamak için daha kabul gören bir yöntemdir.

1.2'de, TD Learning'in erken araştırmasında MDP modellemesini tanıttık, çünkü değer değerlendirmesinin sığ eyleme dönmek için zamanı yoktu, atanmış katkıları makul değil. 1.3'te, bu mantıksızlık eninde sonunda düzeltilebilse de, tüm düzeltme sürecinin nispeten uzun bir zaman aldığını duyurduk. SNAS'daki katkıların dağıtımı başından beri makul ve her adım makul olduğundan, bu sefer neyse ki maliyetten kaçınılır.

Bu, SNAS aramalarının neden takviye öğrenmeye dayalı aramalardan daha hızlı birleştiğini bir dereceye kadar açıklayabilir. 1.3'te bahsedilen RUDDER ile karşılaştırıldığında, SNAS, NAS görevinin özelliğinden yararlanır ve bağlı ağ yapısı dağılımı p (z) ve ağ yapısı olan görev ortamının bir hesaplama grafiğini oluşturur, böylece toplam puan işlevi doğal olarak farklılaştırılabilir. Ve katkı dağılımı makul ve açıklanabilir.

2.4'te belirtilen ağın ileri gecikmesi ile birleştirildiğinde, (17) 'de belirtilen puana bir ceza maddesi eklenecektir ve bu ceza maddesi ayrıca 2.4'te tanıtılan (16)' nın doğrusal ayrılabilirliğinden kaynaklanmaktadır. Birinci dereceden Taylor açılımı olarak yorumlanabilir.

3.2 SNAS ve DARTS arasındaki ilişki

SNAS'tan önce Liu ve diğerleri, farklılaştırılabilir bir sinir ağı yapısı araştırması olan DARTS'ı önerdiler. Tam olasılıklı modelleme yoluyla SNAS tarafından önerilen yeni yöntemden farklı olarak, DARTS, dikkat mekanizmasına benzer şekilde ağ yapısını doğrudan belirleyici bir sürekli ağırlık olarak yaklaştırır. Arama sürecinde, softmax'ın sürekli ağırlığını ifade eden parametresi ve ağın nöral dönüşümünün parametresi aynı anda güncellenir.Tam yakınsamadan sonra, alt ağı oluşturmak için 'nın argmax'ı seçilir ve ardından yeniden eğitilir.

Şekil 8: DARTS'ta ileri ve geri, alt ağ örnekleme süreci olmadığından, optimize edilmiş kayıp işlevi NAS'ın amaç işlevi değildir

SNAS, NAS'ın hedefini doğrudan optimize ettiği için yazar, SNAS'ın modellemesinden başlar ve DARTS'ın bu yaklaşımını olasılıklı modelleme altında açıklar: Bu süreklilik yaklaşımı, (12) 'nin bir kombinasyonu olarak anlaşılabilir.

Küresel beklentiler

Doğrudan her bir girdi tarafına ayrıştırın ve analitik bir beklenti hesaplayın

Her Z için L doğrusal ise, (19) ve (18) eşdeğerdir. Ancak ReLU-Conv-BN yığınının tasarımı doğrusal olmama durumu getirdiğinden, bu iki hedef eşdeğer değildir.

Başka bir deyişle, DARTS'ın süreklilik yaklaşımı büyük bir önyargı getiriyor. Bu husus, nihai optimizasyon sonuçlarının teori tarafından garanti edilmemesi sorununu ortaya çıkarır, bu da tek seviyeli optimizasyon sonuçlarını yetersiz kılar; Öte yandan, süreklilik yaklaşımı kesikli olma eğiliminde olmadığından, sonunda silinir. Düşük ağırlıklı kenarlar ve sinirsel dönüşüm tarafından oluşturulan alt ağ, eğitim sırasında tüm ana ağın doğruluğunu koruyamayacaktır.

Liu ve arkadaşları, ilk problemi gradyan tabanlı meta öğrenme yoluyla çözmek için iki seviyeli optimizasyonu kullanmayı önerdiler, ancak ikinci problem için otomatik bir çözüm vermediler , Ancak kenarları ve sinirsel dönüşümleri seçmek, alt ağlar oluşturmak ve yeniden eğitmek için bazı kuralları manuel olarak tanımladı.

4. Deney

4.1 CIFAR-10'da arama verimliliği

ENAS'tan başlayarak, arama kaynağı maliyetlerinin aşırı derecede sıkıştırılması yönünde, daha yaygın bir yöntem, önce az sayıda hücreyi aramak, onları istiflemek ve yeniden eğitmektir. Mevcut genel NAS yöntemiyle adil bir karşılaştırma yapmak için, bu makalenin yazarı, bir GPU'da CIFAR-10 görevi için hücre yapısını aramak için aynı yöntemi benimsedi.

Şekil 9: Aramada SNAS, ENAS ve DARTS'ın doğrulama doğruluğu eğitim dönemi sayısına göre değişir

Şekil 9, tüm arama süreci boyunca dönem sayısı ile SNAS, ENAS ve DARTS'ın test doğruluğunu göstermektedir. Yazarın teorisinin öngördüğü gibi SNAS'ın ENAS'tan önemli ölçüde daha hızlı yakınsadığı ve nihai yakınsama doğruluğunun ENAS'tan çok daha yüksek olduğu görülebilir. Bu resimden DARTS'ın yakınsama hızının SNAS'ınkinden daha hızlı olduğu ve ikisinin yakınsama doğruluğunun benzer olduğu görülmesine rağmen, bu doğruluk oranı tüm üst görüntünün doğruluk oranıdır. 3.2'deki analize göre, son alt ağı yansıtmaz. Verim.

4.2 Alt ağ, aramadan hemen sonra oluşturulur

3.2'de bahsedilen ikinci problemi görselleştirmek için, yani nihayet DARTS tarafından elde edilen alt ağ doğrudan kullanılamaz ve parametrelerle yeniden eğitilmelidir ve yazarın SNAS'ın bu sorunu önleyebileceğine dair teorik tahminini tespit etmek için yazar yukarıdaki resmi sağlar. Arama bittikten sonra, DARTS ve SNAS, alt ağın doğruluğunu kendi yöntemleriyle üretir.

Şekil 10: Yakınsama ararken SNAS ve DARTS'ın doğruluğunun karşılaştırılması ve doğrudan alt ağlar oluşturmanın doğruluğu

Şekil 10'dan görülebileceği gibi, SNAS'ta oluşturulan alt ağ, arama sırasında test setinin doğruluğunu koruyabilirken, DARTS'ın sonucu bunu yapamaz. Liu ve diğerleri tarafından önerilen çözüm, alt ağı 100 epoch için yeniden eğitmektir. Zamanın bu kısmı da dahil edildiğinde ve ayrıca DARTS'ın en iyi garantiye sahip olmadığı durumlarda, seçim yapmadan önce birden fazla ağı eğitmek gerekebilir. (Örneğin, orijinal metinde Liu ve diğerleri en iyisini seçmek için on kez arama yaptı). Asıl SNAS Arama verimliliği DARTS'tan çok daha yüksektir.

Aynı zamanda, alt ağın oluşturulması sürecinde yazar, SNAS'ın ağ yapısı dağılımı olan 150 dönemlik aynı eğitimin, DARTS'taki softmax ile karşılaştırıldığında, her bir uçtaki kararın daha kesin olduğunu buldu. Şekil 11, bu iki dağılımın entropisinin karşılaştırmasını göstermektedir SNAS'ın entropisi DARTS'ınkinden daha azdır.

Şekil 11: SNAS ve DARTS arama yakınsamasından sonra ağ yapısı dağıtımının bilgi entropisi

4.3 Arama sürecinde ağ gelişimi

2.4'te tanıtılan, NAS problemini yeniden modellemeye ek olarak, SNAS'ın bir başka yeniliği, ağ ileri gecikme cezasını optimize ederek ağ seyrekliğini otomatik olarak gerçekleştirmek ve çok uzun ileri gecikmeli ağları aramaktan kaçınmaktır. ENAS ve DARTS'ta son ağ, her düğümde iki giriş kenarı seçmek için yapay kurallar kullanır. Bu kural altındaki evrim süreci, esas olarak her bir uçtaki sinir dönüşümünün yerini almaktır. Ve SNAS, arama işlemi sırasında ağ topolojisinin evrimine sahip olabilir.

Şekil 12: Normal hücre ve indirgeme hücresinin güçlü gecikme cezası altında evrim süreci

Şekil 12, güçlü bir gecikme cezası altında normal hücrenin ve SNAS indirgeme hücresinin gelişimini gösterir. Aramanın çok erken aşamasında, kenarların çoğunun otomatik olarak silindiği görülebilir. İki ilginç gözlem daha var:

1) Giriş düğümü olan mavi düğümden gelen kenar, 80 epoch sonrasına kadar indirgeme hücresinde görünmez, bu da indirgeme hücresinin ilk 80 dönemde atlandığı ve ihtiyaç duyulana kadar sokulmadığı anlamına gelir.

2) Normal hücrede son öğrenmenin sonucu, her düğümün yalnızca iki giriş kenarına sahip olduğu bir topolojik yapının otomatik olarak üretilmesidir; bu, ENAS ve DARTS'ta ilk 2 seçiminin makul olduğunu gösterir. Ancak indirgeme hücresindeki nihai sonuç, düğümlerin yarısının kullanılmamasıdır, bu da yapay olarak tasarlanmış alt ağ oluşturma kurallarına bir zorluk çıkarır.

4.4 Farklı derecelerde gecikme cezasının etkisi

Yazar, deneyde üç farklı gecikme cezası denedi:

1) Daha zayıf gecikme cezası, gecikme cezasının bir sınır değeridir.Onun tarafından aranan ağ, kenarları otomatik olarak silecektir.Arama sonucu Şekil 13'te gösterilmiştir. Gecikme cezası bu değerden düşük olduğunda, gecikme cezası her bir kenardaki basit sinir operasyonları tercihinde daha fazla yansıtılır.

Şekil 13: Daha zayıf gecikme cezası altında aranan ağ yapısı, (a): normal hücre, (b): azaltma hücresi

2) Daha zayıf gecikme cezası ile karşılaştırıldığında, orta gecikme cezası, ağın derinliğini ve ağ parametrelerinin miktarını azaltır ve belirli bir düzenli etki göstererek daha yüksek bir doğruluk oranı getirir (bkz. Bölüm 4.5). Arama sonuçları Şekil 14'te gösterilmektedir.

Şekil 14: Orta gecikme cezası altında aranan ağ yapısı, (a): normal hücre, (b): azaltma hücresi

3) Ara düğümler doğrudan güçlü gecikme cezası altında silinebilir.Arama sonuçları Şekil 15'te gösterilmektedir. 2. ve 3. düğümlerin giriş kenarlarının tamamen silindiğini görebilirsiniz. Aynı zamanda, giriş düğümü k-1'in çıkış kenarı olmadığı için, tüm hücrenin topolojisi büyük ölçüde basitleştirilmiştir.

Şekil 15: Güçlü gecikme cezası altında aranan ağ yapısı, (a): normal hücre, (b): azaltma hücresi

4.5 CIFAR-10 Arama Sonuçları Ağının Değerlendirilmesi

DARTS gibi yazar, SNAS tarafından aranan hücreleri yığdı, CIFAR-10 üzerindeki parametreleri yeniden eğitti ve Şekil 16'da gösterildiği gibi son teknoloji doğruluğu elde etti.

Şekil 16: SNAS tarafından aranan hücrenin diğer NAS yöntemleriyle ve CIFAR'da yapay olarak tasarlanmış yapılarla karşılaştırılması

Birinci dereceden optimize edilmiş DARTS'ın sonucunun, ağ yapısı dağıtımını optimize etmeden tamamen tek tip dağıtımın sonucu kadar iyi olmadığını, birinci dereceden optimize edilmiş SNAS ise DARTS'ın ikinci dereceden optimizasyonuyla elde edilen doğruluk oranına ulaştığını belirtmek gerekir. Ve ileri gecikme cezasının eklenmesi nedeniyle, SNAS tarafından aranan ağ, parametreler açısından diğer ağlardan daha azdır, ancak benzer doğruluğa ulaşmıştır. Özellikle orta gecikme cezası altında, SNAS alt ağının doğruluğu, daha az parametre kullanıldığında daha zayıf gecikme cezası ile elde edilen ağı aşarak gecikme cezasının normal etkisini göstermektedir.

4.6 CIFAR-10 Arama Sonuçları Ağının ImageNet'i Genişletmesi

DARTS gibi yazar, SNAS tarafından aranan hücreyi Şekil 17'de gösterildiği gibi küçük ImageNet'e genişleterek elde edilen sonuçları sağlar. Daha az parametre ve FLOP kullanmasına rağmen, alt ağ en son teknoloji doğruluğa ulaşabilir.

Şekil 17: SNAS tarafından aranan hücrelerin ImageNet'teki diğer NAS yöntemleri ve yapay olarak tasarlanmış yapılarla karşılaştırılması

5. Sonuç

Stokastik Sinir Ağı Yapısı Arama (SNAS), yüksek verimlilik, düşük sapma ve yüksek derecede otomasyona sahip bir sinir ağı yapısı arama (NAS) çerçevesidir. Yazar, NAS'ı yeniden modelleyerek, takviye öğrenme yöntemlerine dayalı olarak tam gecikme ödülündeki yavaş yakınsama sorununu teorik olarak atladı ve elde edilen ağın ağ parametrelerinin doğrudan kullanılabilmesini sağlamak için NAS'ın amaç işlevini gradyan yoluyla doğrudan optimize etti. .

Yazar, belirli kurallara göre alt ağlar oluşturan diğer NAS yöntemleriyle karşılaştırıldığında, ağ yapısının karmaşıklığını ve ileri gecikmesini sınırlarken ağın doğruluğunu optimize eden daha otomatik bir ağ topolojisi evrim yöntemi önermektedir. . Bu araştırma derinleştikçe, büyük veri kümelerinde, büyük ağlarda ve diğer görevlerde daha fazla SNAS gelişimi göreceğimize inanıyorum.

Referans

Barret Zoph ve Quoc V Le. Takviye öğrenme ile nöral mimari araştırması. ICLR'de, 2017

Hieu Pham, Melody Y. Guan, Barret Zoph, Quoc V. Le ve Jeff Dean.Parametre paylaşımı yoluyla verimli sinir mimarisi araştırması. ICML, 2018'de.

Hanxiao Liu, Karen Simonyan ve Yiming Yang. DARTS: Farklılaştırılabilir mimari arama. ICLR, 2019'da.

Han Cai, Jiacheng Yang, Weinan Zhang, Song Han, Yong Yu. Verimli Sinir Mimarisi Araması için Yol Seviyesi Ağ Dönüşümü. ICML'de, 2018

Chenxi Liu, Barret Zoph, Jonathon Shlens, Wei Hua, Li-Jia Li, Li Fei-Fei, Alan Yuille, Jonathan Huang ve Kevin Murphy. Progressive nöral architecture search. ArXiv preprint arXiv: 1712.00559, 2017.

Richard S Sutton, Andrew G Barto, et al., Reinforcement learning: An Introduction. MIT press, 1998.

Jose A Arjona-Medina, Michael Gillhofer, Michael Widrich, Thomas Unterthiner ve Sepp Hochreiter. Rudder: Geciken ödüller için dönüş ayrıştırma. ArXiv ön baskı arXiv: 1806.07857, 2018.

Chris J Maddison, Andriy Mnih ve Yee Whye Teh. Somut dağılım: Kesikli rasgele değişkenlerin sürekli gevşemesi. ICLR, 2017'de.

Eric Jang, Shixiang Gu, Ben Poole. Gumbel-Softmax ile Kategorilere Göre Yeniden Parametreleme. ICLR'de, 2017.

Ariel Gordon, Elad Eban, Ofir Nachum, Bo Chen, Hao Wu, Tien-Ju Yang, and Edward Choi. Mor- phnet: Fast and simple resource-constrained structure learning of deep networks. In CVPR, 2018.

Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. Shufflenet v2: Practical guidelines for efficient cnn architecture design. arXiv preprint arXiv:1807.11164, 2018.

Gregoire Montavon, Sebastian Lapuschkin, Alexander Binder, Wojciech Samek, and Klaus-Robert Muller. Explaining nonlinear classification decisions with deep taylor decomposition. Pattern Recognition, 65:211222, 2017.

Lei Feng Ağı Lei Feng Ağı

Saygılarımla, Cannes, ışığından bıktım.

"Sessiz Bir Yer": Çok utanç verici, bu korku filmini izlerken ağladım!