ICLR 2018'in en iyi makalesi çıktı! Adam'ın yeni algoritması, küresel CNN vb. Dikkat çekiyor

Yazar: Pen

Xin Zhiyuan Rehberi Bugün, ICLR resmi web sitesi ICLR 2018'in en iyi makalelerini, toplam üç bildiriyi duyurdu. Bu makaleler, önerilen yeni Adam varyant algoritması, küresel görüntü problemleriyle ilgilenen küresel CNN ve öğrenmenin çerçeveyi öğrenmek için sürekli uyarlanması dahil olmak üzere ICLR tarafından kabul edildikten sonra sürekli olarak tartışıldı. Bu makale ayrıntılı bir yorum getiriyor.

Xinzhiyuanın WeChat Diyalog Sayfasında [ICLR Best Papers] 'ı yanıtlayın ve 3 ICLR 2018 en iyi makalesini indirin.

Adam algoritmasının yakınsaması ve iyileştirme yöntemleri üzerine tartışma

RMSPROP, ADAM, ADADELTA, NADAM, vb. Gibi bazı yeni stokastik optimizasyon yöntemleri, sinir ağı eğitim görevlerine başarıyla uygulanmıştır. Bu yöntemler, gradyan güncelleme algoritmalarına dayanmaktadır Güncelleme sürecinde, ölçeklendirme için geçmiş gradyan karesinin üstel hareketli ortalamasının karekökü kullanılır. Gözlemlere göre çıktı uzayının görece geniş olması gibi birçok uygulamada bu algoritmalar konveks olmayan problemlerde optimal çözüme veya kritik noktaya yakınlaşamaz. Makale, yakınsama başarısızlığının sebebinin, algoritmanın üssel hareketli ortalama kullanması olduğunu kanıtlıyor. Makale, basit bir dışbükey optimizasyon problemi olan Adam'ın optimum çözüme yakınlaşamadığını kanıtlamak için basit bir örnek veriyor ve Adam algoritma analizinde var olan temel problemleri açıklıyor. Analiz gösterir, Bu algoritmaları tarihsel gradyanların "uzun süreli hafızası" ile birleştirerek yakınsama problemi çözülebilir ve yeni bir Adam varyant algoritması önerilebilir.Bu algoritma sadece bilezik problemini çözmez, aynı zamanda deneyim performansını da değiştirebilir.

Bu araştırmanın katkıları:

  • Basit bir dışbükey optimizasyon problemi, TMSprop ve Adam'ın kullanımını göstermektedir Üstel hareket Ortalama alma nasıl yakınsamamaya yol açar? Makaledeki analiz, Adadelta ve NAdam gibi diğer üstel hareketli ortalama yöntemlerine genişletilebilir.

  • Algoritmanın yakınsamasını sağlamak için makale, tarihsel gradyanların "uzun vadeli belleğini" kullanır. Ve bir önceki makale KingmaBa'da (2015) Adam yakınsamasının ispatı sürecindeki sorunlara dikkat çekti. Makale, bu problemi çözmek için Adam'ın varyant algoritmasını önermektedir: Algoritma, tarihsel gradyanın "uzun süreli hafızasını" kullanırken algoritmanın zaman karmaşıklığını ve uzay karmaşıklığını artırmamaktadır. Ek olarak, makale KingmaBa (2015) 'e dayalı Adam algoritmasının yakınsamasının bir analizini de veriyor.

  • Adam algoritmasının bir varyantının deneysel bir kanıtı sağlanmıştır ve sonuçlar şunu göstermektedir: Bazı yaygın makine öğrenimi problemlerinde, bu varyantın performans algoritması orijinal algoritmaya benzer veya ondan daha iyidir.

  • Deneysel sonuçlar:

    Şekil 1'de gösterildiği gibi, tek boyutlu basit bir dışbükey problemde Adam ve AdamSRAD'ın performans karşılaştırması yakınsamadan esinlenmiştir. İlk iki resim çevrimiçi ayarlar içindir ve sonuncusu rastgele ayarlar içindir.

    Şekil 1

    Şekil 2'de gösterildiği gibi, Adam ve AMSGRAD'ın lojistik regresyon, ileri beslemeli sinir ağı ve CIFARNET'teki performans karşılaştırması. Üst satır, ADAM ve AMSGRAD'ın lojistik regresyondaki performansını (ilk iki şekil) ve gizli katman = 1 ile ileri beslemeli sinir ağını gösterir (sağdaki şekil). Alt sırada, bu iki rakam Adam ve AMSGRAD eğitimini ve testini karşılaştırır ve bunları CIFARNET'e göre karşılaştırır.

    şekil 2

    Küresel CNN'ler

    Evrişimli Sinir Ağı (CNN), iki boyutlu düzlemsel görüntüler sorunuyla çok iyi başa çıkabilir. Bununla birlikte, küresel görüntülerin işlenmesine olan talep artıyor. Örneğin, dronların, robotların, otonom araçların, moleküler regresyon problemlerinin, küresel hava ve iklim modellerinin çok yönlü görsel işlenmesi. Aşağıdaki Şekil 1'de gösterildiği gibi, bir konvolüsyonel sinir ağının girişi olarak küresel bir sinyalin düz bir projeksiyonunu kullanmanın naif yaklaşımı, başarısız olmaya mahkumdur ve bu projeksiyonun neden olduğu uzaysal bozulma, CNN'lerin ağırlıkları paylaşamamasına neden olacaktır.

    Şekil 1

    Bu makale küresel bir CNN modülünün nasıl oluşturulacağını açıklamaktadır. Hızlı grup evrişimi (çapraz korelasyon) işlemi için genelleştirilmiş Fourier dönüşümünün (FFT) kullanımını öneriyoruz. Fourier dönüşümü aracılığıyla küresel CNN uygulamanın şematik diyagramı aşağıdaki gibidir:

    Deneysel sonuçlar:

  • Bu makale önerilen eğitim modelini değerlendirmek için resmi göstergeleri kullanır ve her kategorideki en iyi üç model ile karşılaştırır Sonuçlar Tablo 1'de gösterilmektedir. Doğruluk ve F1 @ N'ye ek olarak, bu makalede önerilen model üçüncü sıradadır ve diğer tüm göstergelerde lider konumdadır. Ana rakipler olan Tatsuma_ReBGG ve Furuya_DLAN, SHREC17 görevi için özel olarak tasarlanmış özellikleri ve ağ yapılarını kullanır. Önerilen modelin görev-agnostik mimarisi ve modelde kullanılan kayıplı girdi temsili dikkate alındığında, modelin performansı küresel CNN'nin etkinliği için güçlü bir ampirik destek olarak yorumlanabilir.

  • tablo 1

    2. RMSE'yi gösterge olarak kullanarak, önerilen yöntemi Tablo 2'de gösterildiği gibi diğer bazı yöntemlerle karşılaştırın. Tablodan, makalede önerilen algoritmanın tüm çekirdek tabanlı yöntemlerden ve sıralanmış Coulomb matrisine göre eğitilmiş MLP algoritmasından daha üstün olduğu görülmektedir. Yalnızca rastgele Coulomb matris eğitimine dayalı MLP daha iyi sonuçlar elde edebilir. Bununla birlikte, rastgele permütasyonların tam örneklemesi, N ile üssel olarak artar, bu nedenle bu yöntemin büyük verilerde genişletilmesi olası değildir.

    Tablo 2

    sonuç olarak

    Bu makale küresel CNN'yi tanıtmakta ve önerilen algoritmayı iki önemli öğrenme problemi üzerinde değerlendirmektedir. Ek olarak, makale S2 ve SO (3) arasındaki çapraz korelasyonu tanımlar ve özelliklerini analiz eder ve ardından genel bir RRT korelasyon algoritması uygular. Deneyin sayısal sonuçları, derin ağlarda bile algoritmanın kararlılığını ve doğruluğunu onaylıyor. Ek olarak, küresel CNN'nin özellik ve model ayarlaması için yüksek gereksinimler gerektirmeden tüm rotasyon sürecine etkili bir şekilde genişletilebileceğini ve en gelişmiş 3B model tanıma ve moleküler enerji regresyonuna yakın bir performans sağladığını kanıtladık. sonuç.

    3D model tanıma gibi üç boyutlu görevler için, SO3'ü roto-çeviri grubu SE3'e genişleterek daha fazla iyileştirme yapılabileceğine inanıyoruz. Küresel CNN'nin geliştirilmesi, bu yönde önemli bir ilk adımdır. Belki de bu küresel CNN'nin önemli uygulama senaryosu, çok yönlü görme problemlerinin işlenmesidir. Şu anda herkese açık veri tabanlarında çok az çok yönlü görüntü verisi bulunmasına rağmen, Drone'larda, robotlarda ve sürücüsüz arabalarda, çok yönlü sensörlerin popülaritesi bu işi olağanüstü bir önem taşıyor.

    Durağan olmayan ve rekabetçi bir ortamda meta-öğrenme yoluyla sürekli adaptasyon

    Durağan olmayan ortamlarda sürekli öğrenme ve sınırlı deneyime uyum sağlama yeteneği, bilgisayarların gerçek yapay zekaya ulaşması için önemli bir kilometre taşıdır. Bu makale öneriyor "Öğrenmeyi öğrenme" çerçevesinin sürekli uyarlanması . Dinamik değişikliklere ve muhalif senaryolara uyum sağlamak için gradyan tabanlı bir meta öğrenme algoritması tasarlayarak. Ek olarak, makale ayrıca çok aracı tabanlı bir rekabet ortamı tasarladı: RoboSumo ve sistemin sürekli uyarlanabilir performansını farklı yönlerden test etmek için uyarlanabilir bir yinelemeli oyun tanımladı. Deneyler, meta-öğrenmenin, az vuruş durumunda yanıt temelinden daha güçlü bir uyarlanabilirliğe sahip olduğunu ve çok etmenli öğrenme ve rekabet için uygun olduğunu göstermektedir.

    Şekil 1 (a) 'da gösterildiği gibi deneyde aracı olarak üç model kullanılmıştır. Anatomide farklılık gösterirler: bacakların sayısı, pozisyonları ve uyluk ve diz eklemlerindeki sınırlamalar. Şekil 1 (b) durağan olmayan hareket ortamını göstermektedir. Kırmızı bacağa uygulanan tork, bir Dinamik değişiklikler Faktörler. (c) RoboSumo'nun rekabet ortamını temsil etmek için kullanılır.

    Şekil 1

    Deneysel sonuçlar:

  • Aşağıdaki şekil, bir temsilcinin, birden fazla tur içeren yinelemeli bir uyarlama oyununda rakibiyle rekabet ettiğini göstermektedir. Birden fazla tur kazanırsa (zaferi veya yenilgiyi belirtmek için renkleri kullanarak), o zaman bir tur kazanır. Temsilciler ve rakipleri stratejilerini sürekli değiştirebilirler.

  • şekil 2

    2. Yinelemeli oyunda, raund sayısı ve rakipten öğrenilen sonuçlar Şekil 3'te gösterilmektedir. Şekilden, her raunttaki yineleme sayısı 50 katın üzerine çıktığında, teknik izleme yoluyla adaptasyon sorununun ortaya çıktığı görülmektedir. "Test ederken öğrenme" problemine ek olarak, eğitimde hiç görülmemiş rakiplerle rekabet edebilir. Az sayıdaki ve standart öğrenme sistemleri altında, meta-öğrenme uyarlama stratejilerinin uygulama sonuçları hemen hemen aynıdır. Bu, meta-öğrenme stratejisinin eğitim sırasında özel bir önyargı öğrenebileceğini ve bunun sınırlı deneyimlerden daha iyi performans göstermesini sağladığını ancak aynı zamanda daha fazla veri kullanma yeteneğini de sınırladığını gösterir.

    resim 3

    Topluluğa katıl

    Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstri uygulamasına ilgi duyan öğrenciler, gruba katılmak için küçük bir WeChat hesabı ekleyebilir: aiera2015_1; incelemeyi geçtikten sonra gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra grubu değiştirdiğinizden emin olun Açıklamalar (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).

    Sichuan'daki bahara Daocheng denir.
    önceki
    Hanchuan Mahkemesi Parti Tarzı ve Temiz Hükümet İnşaatı Tanıtım ve Eğitim Ayı Çalışma ve Eğitim Konferansını Düzenledi
    Sonraki
    Şok oldum! Keskin nişancı eğitim sahnesi açığa çıktı, çok yanıyordu!
    Hanchuan Mahkemesi: Denemelerin kalitesini ve etkililiğini iyileştirin
    Hong Kong polis memuru Weibo açıldı! Yorum alanı "sır" tarafından kaydırıldı ve anakara polisi izlemek için bir kalabalık örgütledi
    Kim Michelin = pahalı diyor? Kişi başına düşen bu Michelin memnun değil!
    Inanılmaz! MIT'in yeni "piksel ses" sistemi, ses ve görüntünün (videolu) mükemmel ayrımı
    Sarılmak ne kadar kolay! Ama 52 saat harcamak ve 2.000 kilometreden fazla yol kat etmek zorundalar ...
    22 yaşındaki Guangzhou fotoğrafçısı INS ile popüler oldu ve sayısız yabancı netizen bunu beğendi: Çin'in kentsel güzelliği ağlıyor!
    Hanchuan gelini çılgına dönüyor, keşke daha önce bilseydim ...
    Yaşlı iblis sonsuza kadar ve saçlar sonsuza dek yayılıyor! 40 yaşındaki Yaodao, harika bir oyuncunun ne olduğunu açıklamak için bir saldırı ve bir savunma kullanıyor
    Mutlu! Bu zorbalar ağır şekilde cezalandırıldı!
    Hanchuan Pozitif Enerjisi: Yağmurda kırmızı ışıkta insanları kurtaran Hanchuan arabasının sahibi bulundu
    Dönüştürmek zor, pahalı trafik nasıl kırılır? Daily Youxian operasyonlardan sorumlu başkan yardımcısı size 0'dan 1'e büyümenin sırlarını anlatıyor
    To Top