CVPR 2018 Çin Kağıt Paylaşım Konferansı - `` Derin Öğrenme ''

AI Technology Review Press: Bu makale, 11 Mayıs 2018'de Microsoft Research Asia'da düzenlenen CVPR 2018 Çin Bildiri Sunumu Sempozyumunun "Derin Öğrenme" bölümündeki, Derin Öğrenmenin fazlalık, yorumlanabilirlik, göç öğrenimi ve göç öğrenimine odaklanan dört bildiri raporudur. Küresel havuz, derinlemesine paylaşım yaptı.

Bu çalışmaların çoğu Daniel Group'tan geldi.Örneğin ilk rapor Microsoft Wang Jingdong ekibinden, ikinci rapor Zhang Bo ve Zhu Jun ekibinden geldi, üçüncü rapor Michael I. Jordan'ın katılımını içeriyordu ve dördüncü rapor ise Dalian Teknoloji Üniversitesi'nden Profesör Li Peihua tarafından yönetiliyor.

Özet

1. Ağ yedekliliği nasıl azaltılır

İlk raporda, Microsoft Asya Araştırma Enstitüsü'nden Zhang Ting, aralıklı grup evrişimi yoluyla sinir ağının temel evrişim birimindeki fazlalık sorununu çözmek için çalışmalarını tanıttı, modeli düşürdü ve kayıpsız performans öncülüğünde hesaplama hızını iyileştirdi. Bu çalışma, geçen yılki IGCV1'in devamı niteliğindedir. (Seri çalışma)

2. Derin öğrenme kara kutusu nasıl açılır?

İkinci raporda, Tsinghua Üniversitesi'nden Su Hang, yorumlanabilirlik konusundaki çalışmalarını tanıttı. Model tahmininde her bir nöronun oynadığı rolü açık hale getirmek için ağ katmanları arasına kontrol geçitleri (yani ağırlıklar) eklerler.

3. Kısmi transfer öğrenimi nedir?

Ardından Tsinghua Üniversitesi'nden Long Mingsheng, kaynak etki alanının etiket alanı, aktarım öğrenimi sırasında hedef etki alanından daha büyük olduğunda, yani aktarım öğreniminin bir parçası olduğunda, aktarım öğrenimi için etiket alanının bir kısmının nasıl seçileceğini tanıttı.

4. Doğrusal havuzlama bir kaynak israfı değil mi?

Son olarak, Dalian Teknoloji Üniversitesi'nden Profesör Li Peihua, derin öğrenme ağının sonunda küresel havuzlamanın yeniden yapılandırılmasına yönelik çalışmalarını tanıttı ve şu anda yaygın olarak kullanılan birinci dereceden küresel ortalama yönteminin yerini almak için ikinci dereceden küresel kovaryans havuzunu kullanmayı önerdiler. Kanallar arasındaki ilgili bilgiler atılmak yerine etkin bir şekilde kullanılabilir. (Seri çalışma)

AI Teknolojisi Yorumu:

CVPR 2018 Çin Bildiri Sunum Semineri, Microsoft Research Asia, Tsinghua University Media and Network Technology Ministry of Education-Microsoft Key Laboratory, SenseTime Technology, Computer Vision Special Committee of China Computer Society ve Visual Big Data Special Committee of China Graphics and Graphics tarafından organize edilmektedir. İşbirliği ile gerçekleştirilecek CVPR 2018'de yer alan onlarca makale yazarı bu forumda en son araştırmalarını ve teknik görüşlerini paylaşacak. Seminer 6 oturum (toplam 22 rapor), 1 forum ve 20'den fazla posteri içeriyordu. AI Technology Review, sizin için ayrıntılı olarak rapor verecek.

CVPR 2018, 18-22 Haziran tarihlerinde ABD'nin Salt Lake City şehrinde yapılacak. CVPR'nin resmi web sitesine göre, bu yıl konferansa 3.300'den fazla bildiri gönderildi, 979'u kabul edildi; geçen yıl 783 bildiriye kıyasla bu yıl yaklaşık% 25 arttı.

Daha fazla rapor için lütfen bkz:

1. Oturum: GAN ve Sentez

2. Oturum: Derin Öğrenme

Oturum 3: Kişi Yeniden Tanımlama ve İzleme

4.Oturum: Vizyon ve Dil

5. Oturum: Segmentasyon, Algılama

Oturum 6: İnsan, Yüz ve 3D Şekil

1. Ağ yedekliliği nasıl azaltılır?

Kağıt: IGCV2: Interleaved Structured Sparse Convolutional Neural Networks

Konuşmacı: Zhang Ting-Microsoft Research Asia

https://arxiv.org/abs/1804.06202

Kod 1:

https://github.com/zlmzju/fusenet(Deep Merge-and-Run Net)

Kod 2:

https://github.com/hellozting/InterleavedGroupConvolutions(IGC)

Not: IGC = Interleaved Group Convolutions, interleaved group evrişimi

Bu IGCV 1, IGCV 2 ve IGCV 3 adlı bir dizi çalışmadır.

Sinir ağı 2012'de yaygın bir ilgi gördükten sonra, esas olarak iki yönde gelişti. Birincisi, doğruluğu iyileştirmek için ağı daha derin hale getirmektir, ancak bununla birlikte bellek ve hesaplamalara olan talep gittikçe artmaktadır; pratik uygulamalarda daha fazlasının küçük bir model olması gerektiği düşünüldüğünde. Aynı doğruluğu elde etmek için, ikinci araştırma yönü, esas olarak sinir ağındaki evrişimi değiştirerek elde edilen ağdaki fazlalığı azaltmaktır (sözde evrişim aslında matris çarpımıdır).

Artıklığı azaltmanın üç yolu. Birincisi, çekirdeği tam sayı, katmanlaştırmak veya ikilileştirmek için düşük hassasiyetli bir çekirdek kullanmaktır; ikincisi, filtre budama (matrisi küçültme) gibi çekirdeğin bazı satırlarını veya sütunlarını ortadan kaldıran düşük seviyeli bir çekirdektir. Satır sayısı), kanal budaması (matrisin sütun sayısını azaltma), vb. Üçüncüsü, seyrek çekirdek kullanmaktır, yani bazı parametreleri seçici olarak sıfıra ayarlamaktır, bu, yapısal olmayan seyrek veya yapısal seyrek olabilir, ki şimdi nispeten sıcak Grup evrişimi aslında yapısal bir seyreklik olarak kabul edilebilir.

Zhang Ting'e göre, çalışmaları grup evrişimi temel alınarak geliştirildi.Şu anda ICCV 2017 ve CVPR 2018'de yayınlanan iki versiyon var: IGCV1 ve IGCV2.

1. IGCV 1

6 giriş ve çıkış kanalı olduğu ve çekirdeğin 5 × 5 olduğu ve karmaşıklığı 6 × 5 × 5 × 6 olduğu için geleneksel bir evrişimi düşünün. İki gruba ayrılmış bir grup evrişimi için, her grubun 3 kanalı vardır ve iki grup ayrı ayrı evrişim işlemleridir ve karmaşıklık 2 × (3 × 5 × 5 × 3) olacaktır. Bunun avantajının azaltılmış karmaşıklık olduğu görülebilir.

IGCV 1

Bununla birlikte, iki evrişim kümesi arasında etkileşim olmadığından, farklı evrişimler arasındaki özellikler birbiriyle birleştirilemez. Bu özelliklerin entegrasyonunu sağlamak için Zhang Tingin ekibi ikinci bir grup evrişimi tanıttı, yani ikinci grup evrişim sürecinde, her grubun giriş kanalları birinci grup evrişim sürecindeki farklı gruplardan geliyor. Aşamalı tamamlayıcılık amacına ulaşmak için. Sonuç olarak, doğruluk, parametreler ve karmaşıklıktaki performans iyileştirilir.

Xception, serpiştirilmiş grup evrişiminin aşırı özel bir durumudur

Zhang Ting daha sonra Google'ın Xception'ının aslında sıralı grup evrişiminin aşırı bir durumu olarak görülebileceğini, yani her grubun birinci grup evrişiminde sadece bir kanala sahip olduğunu ve ikinci grup evrişimin 3 × 3 bir evrişim olduğunu söyledi. ürün. Hemen akla gelen bir soru şudur: Hangi grup evrişim tahsis modunda en iyi sonuç elde edilebilir? Zhang Ting'in ekibi de bu problemle ilgili deneyler yaptı ve ilk grup evrişimde, her gruba iki kanal atanmış en iyi doğruluğu elde edeceklerini buldu.

2. IGCV 2

IGCV 1'in çalışmasında Zhang Tingin ekibi iki şeyi doğruladı: Birincisi, grup evrişimi performansı sağlarken karmaşıklığı ve hesaplama miktarını azaltabilir; ikincisi, grup evrişimi her gruba iki kanal tahsis edebilir. En iyi performansı elde etmek için. Ancak IGCV 1 modelindeki ilk grup evrişiminin tüm kanalları iki gruba ayırmak olduğunu ve her grubun hala çok yoğun ve zaman alıcı bir işlem olduğunu görüyoruz. Böylece bu parçayı serpiştirilmiş grup evrişim yöntemiyle değiştirdiler ve IGCV 2 aldılar.

IGCV 2 (Dağıtım için burada 8 kanal seçilir ve IGCV 1'deki ilk grup evrişim geride bırakılır)

Yukarıdaki gösterimi yeniden düzenleyerek, aşağıdaki üç katmanlı serpiştirilmiş grup evrişim grafiğini elde edebilirsiniz ve sonuç yine de çekirdek matrisinin yoğun olmasını sağlayabilir.

IGCV 2

IGCV 1 ile karşılaştırıldığında sonuçlar önemli ölçüde iyileştirildi.

3. IGCV 3

IGCV 2 son değil. Zhang Tingin ekibi daha sonra IGCV 2'yi düşük dereceli filtrelerle birleştirdi, yani boyutları yükseltmek için önce 1 × 1 grup noktasal ortak evrimi kullanın, ardından 3 × 3 grup evrişimi gerçekleştirin ve sonra 1 × 1 grup noktasal ortak evrim yoluyla boyutluluğu azaltın.

4. Özet

Zhang Ting ve diğerleri, evrişimde serpiştirilmiş grup evrişimi kullanarak (yeni grup evrişimi (IGCV 1) ekleme ve orijinal grup evrişimini (IGCV 2) değiştirme dahil) kullanarak daha hızlı, daha küçük ve daha doğru sonuçlar elde edebilirler Model.

Referanslar:

MSRA Wang Jingdong, ICCV 2017 Seçilmiş Makaleleri Açıklıyor: Genel Evrişimli Sinir Ağı Aralıklı Grup Evrişimi

https://arxiv.org/abs/1707.02725

2. Derin öğrenme kara kutusu nasıl açılır?

Makale: Kritik Veri Yönlendirme Yollarını Tanımlayarak Sinir Ağlarını Yorumlayın

Konuşmacı: Su Hang-Tsinghua Üniversitesi

Derin öğrenmenin mevcut etkinliği temelde büyük veri + hesaplama gücüne dayanmaktadır, ancak derin öğrenme ağının kendisi bizim için hala bir kara kutu. Derin öğrenme ağı modelinin ürettiği sonuçların nasıl yorumlanacağı güncel araştırmaların sıcak bir konusu haline geldi.

Öyleyse "yorumlanabilirlik" nedir? Bunun üç boyutu vardır:

  • Tahminin yorumlanabilirliği, yani neden bu kadar sınıflandırıldığı, kullanıcının bakış açısından sorular sorun;

  • Modelin yorumlanabilirliği, yani model içerisinde böyle bir sonuca nasıl ulaşılacağı, çoğunlukla geliştiriciler ve araştırmacılar tarafından;

  • Verilerin yorumlanabilirliği, verilerin boyutları gerçekten görev üzerinde bir etkiye sahiptir.

Mevcut makine öğreniminin çoğu, özellikle de istatistiğe dayalı istatistiksel öğrenme, verileri öğrenme için özellik alanına eşlemektir, ancak buradaki sorun, insanların makinenin özellik öğrenimini anlamaması ve insanların bir yönü anlayabilmesidir. Orijinal veri alanıdır (algımızla ilgili) ve bir yandan üst düzey bilgi alanıdır (algımızla ilgili).

Bu nedenle, Su Hang'in ekibi, makine öğreniminin yorumlanabilirliğini çözmenin iki yönde gerçekleştirilebileceğine inanıyor: Biri orijinal veri alanını izlemek, diğeri ise düşük seviyeli özellik alanını yüksek seviyeli bilgi alanıyla bağlamak. Sonuç olarak, yorumlanabilirlik araştırmasının iki yönünü de gerçekleştirdiler: İkincisi CVPR 2017'de yayınlandı ve birincisi de bu raporun ana içeriği olan CVPR 2018'de yayınlandı.

1. Düşünce

Ağa bir resim girdiğinde, çok katmanlı evrişimli bir katmandaki birden çok nörondan geçecek ve sonunda sonucu verecektir. Öyleyse bu karmaşık ağda, son Tahmin'de en kritik rolü hangi nöronlar oynuyor?

Su Hang, tahmin kritik düğümlerde anahtar rol oynayan bu nöronları çağırır ve bu kritik düğümlerin veri akışı aktarım yollarına kritik veri yönlendirme yolları denir. Bu kritik düğümler 0'a ayarlanırsa, tüm ağın tahmini açıkça hızla bozulacaktır.

2. Yöntem

Karşılık gelen yöntem, her katmanın çıkış kanalı üzerindeki kontrol geçidi olarak bir skaler 'yı ilişkilendirmektir ve bir sonraki katmana geçirilen girdi, önceki katmanın çıktı sonucunun kontrol kapısı _k ile çarpılmasının sonucudur. değerinde iki kısıtlama vardır: negatif olmama, yani çıktı sonucunu yalnızca artırabilir ve bastırabilir, ancak sonucun işaretini değiştiremez; seyreklik, genellikle ayrıştırılabilir özelliklere sahip seyrek modellerin açıklanması daha kolaydır.

Ağ eğitimi (Distilasyon Kılavuzlu Budama, DGP) yoluyla, bir matrisi öğrenilebilir. matris elemanının boyutu, karşılık gelen nöronun tahmin için önemini belirler.

3. Deney

Su Airlines ekibi önce aşağıdaki tabloda gösterildiği gibi seyrekliği doğruladı

Aynı doğruluk oranıyla, ağın seyrekliğinin büyük ölçüde azaldığı görülebilir. (Not: Burada sözde seyreklik, seçilen kritik yönlendirme düğümlerini / toplam düğümleri ifade eder). Başka bir deyişle, nöronların sadece yüzde bir düzine kadarı aslında tahminde rol oynar.

İkincisi, bu kritik düğümler gerçekten beklendiği kadar önemli mi? Su Airlines ekibi, kritik düğümleri kademeli olarak kaldırarak tahminin doğruluğunu test etti ve yalnızca% 1 kaldırıldığında doğruluk oranının% 70'den% 40'ın altına düştüğünü buldu. Bu ayrıca, bu kritik düğümlerin tahmin için çok kritik olduğunu da gösteriyor. Görevi.

Ek olarak, kontrol kapılarını ağın farklı katmanlarında görselleştirdiler. Tüm modelde, sığ katmandaki kritik düğümlerin dağılımının daha dağınık olduğunu ve katman ne kadar derin olursa, o kadar alakalı düğümlerin kümelendiğini buldular.

4. Uygulama

Bu yorumlanabilirlik yönteminin açık bir uygulaması, rakip numune tespitidir. Aşağıda gösterildiği gibi

Bir Alpler, gürültü eklendikten sonra% 99,9 olasılıkla bir köpek olarak tahmin edilecek ve bir kirpi balığı, gürültü eklendikten sonra% 100 olasılıkla bir yengeç olarak tahmin edilecektir. Aslında, bu seslerin ağın sığ katmanına eklenmesinin çok fazla etkisi olmayacak ve bu seslerin derin katmana eklenmesi, orijinal yönlendirme yollarını yanlış yönlendirecek (değiştirecek) ve diğer kategorilere geçecektir.

Referans

Akademisyen Zhang Bo: Profesörler yapay zeka bilimsel atılımının arifesinde ne görmeli?

https://arxiv.org/abs/1703.04096

3. Kısmi transfer öğrenimi nedir?

Bildiri: Seçici Çekişmeli Ağlarla Kısmi Transfer Öğrenimi

Konuşmacı: Long Mingsheng-Tsinghua Üniversitesi

https://arxiv.org/abs/1707.07901

Kod:

Sözde transfer öğrenme, farklı olasılık dağılımlarına sahip iki alan arasında öğrenmektir ve zaten çok sıcak bir araştırma alanıdır. Peki Kısmi Transfer Öğrenimi nedir?

1. Kısmi transfer öğrenimi

Basitçe ifade etmek gerekirse, transfer öğrenimi yapılırken, kaynak alandaki sınıf sayısı hedef alandaki sınıf sayısından fazla ise, kaynak alandaki hedef alandaki sınıflara benzeyen sınıfların transfer öğrenimi için olumlu olacağı açıktır. Hedef alanda olmayan bu sınıfların da transfer öğrenimi üzerinde olumsuz bir etkisi olacaktır. Transfer öğrenimi için yalnızca pozitif sınıfları kullanabiliyorsanız, transfer öğrenimi için tüm kaynak alanı kullanmaktan daha iyi olmalıdır. Kısmi transfer öğrenme fikri budur.

2. Transfer öğrenmenin iki yöntemi

Mevcut transfer öğrenme yönteminin temel fikri, kaynak alanın ve hedef alanın veri dağıtımını mümkün olduğunca yakın hale getirmektir. Şu anda başlıca iki yöntem var.

1) Çekirdek Gömme

Bir yöntem istatistiklerden, yani Kernel Gömme'den genişletilmiştir. Bu yöntem, iki veri seti arasındaki mesafeyi tanımlayarak mesafeyi en aza indirir, bu da iki alanın yaklaştırıldığı anlamına gelir.Bu sırada kaynak alanın modeli hedef alana taşınabilir. İlgili çalışma Song ve diğerlerinin IEEE 2013'teki çalışmasıdır.

Temsili çalışma, ICML 2015'te Long Mingsheng ekibi tarafından önerilen Derin Adaptasyon Ağı'dır. Bu makale şu anda 346 kez atıf oranına sahiptir.

2) Tartışmalı öğrenme

Kaynak alan ve hedef alan arasında bir ayırıcı öğrenin Bu ayırıcı iki alanın özelliklerini / dağılımlarını ayıramazsa, bu, transfer öğrenimi için kullanılabilecek bir özelliktir. İlgili çalışma Goodfellow ve arkadaşlarının NIPS 2014 üzerine yaptığı çalışmadır.

Temsili bir çalışma, Yaroslav Ganin ve diğerleri tarafından JMLR 2016'da önerilen Etki Alanı Karşıt Sinir Ağıdır (DANN). Bu makale şu anda 282 kez alıntılanmıştır.

3. Kısmi transfer öğrenimi nasıl yapılır

Yukarıdaki iki yöntem, iki alan arasındaki etiket boşluğunun aynı olduğunu varsayar. Ancak kaynak etki alanı ile hedef etki alanının etiket alanını eklemek aynı değildir, bu nedenle Kernel Gömme yönteminde tüm ilgili ve ilgisiz etiket boşlukları bir araya getirilecek ve yüzleşme yöntemindeki tutarsız etiket alanı da olumsuz bir rol oynayacaktır. etki.

Bu düşünceye dayanarak, Long Mingsheng ekibi Seçici Çekişmeli Ağlar önerdi Fikir çok basittir, yani orijinal yüzleşme yöntemine dayanarak, belirli bir kaynağı ayırt edebilen bir dizi ayrımcı eklenmiştir.

Bu büyük ağ çerçevesi DANN'ye benzer: x girişi yapın ve bir CNN aracılığıyla özellikleri ayıklayın; bu özelliklere dayanarak, bir G'yi eğitebilir, kaynak etki alanını sınıflandırabilir ve ardından kaynak etki alanını ve hedef etki alanını çatışma yoluyla ayrılmaz kılan özellikleri öğrenebilirsiniz. Aradaki fark, kaynak alanın etiket alanının hedef alandan daha büyük olmasıdır, bu nedenle kaynak ve hedef arasında birden fazla ayırıcı oluşturmuşlardır.Her ayırıcı yalnızca bir şey yapar, yani belirli bir kategorinin kaynaktan mı yoksa hedeften mi geldiğini belirlemek için. Bu nedenle, kaynak alanındaki pozitif örnekler, sınıf ağırlıklandırma yöntemi ile seçilebilir. Ağın Seçici Çekişmeli Ağlar olarak adlandırılmasının nedeni budur. Ayırıcının özel yapım formülü burada ayrıntılı olarak açıklanmayacaktır.

4. Deney

Yukarıdaki çeşitli deneysel sonuçların karşılaştırılmasıyla, farklı veri setlerinin transfer öğrenmesinde, bazı transfer öğrenmelerinin performansının diğer transfer öğrenme yöntemlerinden çok daha iyi olduğu görülebilir.

Bu analiz diyagramında, belirli bir kaynak etki alanında, hedef etki alanındaki sınıfların sayısı ne kadar azsa, seçilen düşman ağın performansının o kadar iyi olduğu görülebilir.Karşılaştırma olarak, karşı ağa dayalı derin göç modeli RevGrad takip edecektir. Hedef alandaki sınıfların sayısı azalır ve performans kademeli olarak düşer. Öte yandan SAN hatası diğer modellere göre çok daha düşüktür ve yinelemelerde kararlılığa daha hızlı ulaşır.

Sonuçları da görselleştirdiler. SAN'ın farklı sınıfları açıkça ayırt edebildiği ve kaynak etki alanındaki benzer sınıfların ve hedef etki alanındaki benzer sınıfların etkin bir şekilde kümelenebildiği görülebilir; karşılaştırma için, diğer yöntemlerdeki iki etki alanındaki sınıflar tamamen / kısmen karıştırılır. .

Referans malzemeleri:

Koşullu Dağıtımların Çekirdek Gömme İşlemleri (IEEE 2013)

Derin Adaptasyon Ağları ile Aktarılabilir Özellikleri Öğrenme (ICML 2015)

Üretken Çekişmeli Ağlar

Sinir Ağlarının Etki Alanında Tartışmalı Eğitimi (JMLR 2016)

Wu Enda neden geleceğin transfer öğrenmeye ait olduğuna inanıyor?

4. Doğrusal havuzlama kaynakları israf ediyor mu?

Makale: Yinelemeli Matris Karekök Normalleştirmesiyle Küresel Kovaryans Havuzlama Ağlarının Daha Hızlı Eğitimine Doğru

Konuşmacı: Li Peihua-Dalian Teknoloji Üniversitesi

https://arxiv.org/abs/1712.01034

Kod:

https://github.com/jiangtaoxie/iSQRT-COV-ConvNet

Bu bir dizi çalışmadır.

1. Motivasyon

Derin evrişimli sinir ağları, büyük ölçekli nesne sınıflandırmasında ve diğer bilgisayar görüş alanlarında büyük başarılar elde etti.Bu ağ aslında bir öğrenme ve temsil süreci, yani hiyerarşik evrişim ve havuzlama yoluyla yerel öğrenme süreci olarak görülebilir. özellik ve son olarak görüntü düzeyinde bir temsil elde etmek için genel bir ortalama havuzlama (Küresel ortalama havuzlama) ve ardından sınıflandırma için sınıflandırıcıya gönderilir.

Buradaki odak noktası, küresel ortalama havuzlamadır. Bu katmanla ilgili çalışma ilk olarak ICLR 2014'te önerildi (Min Lin ve diğerleri) ve şu anda Inception, ResNet, DenseNet, vb. Gibi ana akım derin ağlarda yaygın olarak kullanılmaktadır. Ancak bu küresel ortalama havuzlamayla ilgili sorun, önceki ağın sürekli öğrenme yoluyla çok etkileyici bir özellik kazanması, ancak sonunda görüntüyü temsil ederken küresel bir ortalama yapmasıdır.İstatistiksel anlamda, ortalama sadece Birinci dereceden bir mesaj. Çok güçlü bir özellik öğrendiğimizde, kapıya gelince sadece birinci dereceden bilgileri alırız, bu kendi içinde çok garip: neden daha anlamlı temsiller kullanmıyoruz?

Bu düşünceye dayanarak, Li Peihua'nın ekibi birinci dereceden küresel ortalama havuzlamayı ikinci dereceden (hatta daha yüksek dereceden) bir istatistiksel yöntemle değiştirmeyi düşündü ve bundan CVPR 2016'da (Matematiksel Teori Kesintisi) yayınlanan bir dizi çalışma yaptı. Ve doğrulama), ICCV 2017 (büyük ölçekli görüntü tanımada ilk kullanım, mükemmel performans) ve CVPR 2018 (matrisin karekökünün yinelemeli hesaplaması, oran iyileştirildi).

2. Yöntem

Temel yöntem çok basittir, yani birinci dereceden ortalama ikinci dereceden kovaryans ile değiştirilir. Bununla birlikte, buradaki kovaryans bir güce sahiptir. Güç değeri 0.5 olduğunda performansın en iyi olduğu doğrulanmıştır.İki sorunu çözer: küçük örneklemler ve yüksek boyutlu istatistikler sorununu çözer; kovaryans matrisini (bir Lie Grup) geometri. Bu alandaki teorik çalışma CVPR 2016'da yayınlandı.

İkinci dereceden kovaryansın karekökünü küresel havuzlama olarak kullanmak, derin ağ öğreniminden sonra kanallar arasında ilgili bilgileri kullanabilme avantajına sahiptir. Önceki küresel ortalama havuzlama, yalnızca her kanalın ortalama değerini hesapladı ve kanallar arasındaki ilgili bilgileri göz ardı etti. ICCV 2017'de yayınlanan bu makalede, küresel kovaryans havuzlama yöntemini ilk kez büyük ölçekli görsel tanıma görevlerine uyguladılar.Aynı 50 katmanlı İncil ağ modeli altında, küresel kovaryans havuzunu kullanarak tanıma oranı Yüzde 2 puan artırın. Bu makalede, kovaryansın karekökünü çözme yöntemlerinin, özdeğer elde etmek için kovaryansı öz-ayrıştırmak ve ardından özdeğerin karekökünü bulmak olduğu unutulmamalıdır.

Verimlilik sorunu var. Şu anda, neredeyse tüm GPU tabanlı platformlar eigende bileşimi için çok zayıf desteğe sahiptir, bu nedenle verimlilik açısından çok kötüdürler. Örneğin, Matlab kullanıldığında, GPU tabanlı platformlar CPU tabanlı platformlardan en az 5 kat daha yavaştır. CVPR 2018'de yer alan bu makalede, Li Peihuanın ekibi tam olarak bu sorunu, yani verimliliği nasıl artırabileceğimizi çözdü.

Düşünmenin yolu şudur: kovaryansın karekökünü bulurken, eigendecomposition artık kullanılmaz, iSQRT-COV adı verilen yinelemeli bir yöntemdir. Yinelemeli yöntem, büyük ölçekli GPU uygulaması için çok uygundur. Makalede kullanılan yinelemeli yöntemin yapısı aşağıdaki şekilde gösterilmektedir:

Ön normalizasyon, Newton-Schulz İterasyonu ve Telafi sonrası olmak üzere üç katman vardır. Ön normalizasyonun nedeni, yinelemenin kendisinin küresel olarak yakınsak olmamasıdır. Kovaryans matrisini matrisin izine bölmek yakınsamasını sağlayabilir; ancak iz ile bölmek kovaryansın boyutunu değiştirir, bu nedenle Post- telafi edin ve ardından izin değerini telafi edin. Bu iki katman çok kritiktir ve bu iki yineleme katmanı olmadan hiç yakınsama olmayacaktır.

Deney, bu yinelemeli yöntemin çok fazla yineleme gerektirmediğini ve çok iyi sonuçlar almak için 5 katın yeterli olduğunu; performansın 3 yineleme için biraz düşeceğini, ancak hızın artacağını göstermektedir.

3. Deney

Li Peihuanın ekibi ImageNet üzerinde deneyler yaptı:

Görüldüğü gibi 1) ICCV 2017 çalışmaları ile karşılaştırıldığında bellek tüketimi artmış, ancak hız iyileştirilmiştir; 2) Diğer yöntemlerle karşılaştırıldığında bellek tüketimi temelde aynıdır, ancak hız bir dereceye kadar artmıştır.

ResNet-50 mimarisi altında, iSQRT-COV ağı 50'den daha az yinelemede iyi sonuçlar alabilirken, diğer yöntemler en az 60 yineleme gerektirir; performans kaybı yoktur ve hatta küçük bir iyileştirme bile vardır.

Diğerleri de yöntemi küçük bir veri seti üzerinde doğruladılar ve sonuçlar, performansın da büyük ölçüde iyileştirileceğini gösteriyor.

4. Sonuç

Oluşturulan evrişimli ağda, küresel kovaryans havuzlaması, küresel ortalama havuzlamadan daha iyi bir seçimdir. Üç neden vardır: 1) daha iyi performans ve daha güçlü genelleme yeteneği; 2) istatistik ve geometride iyi teorik açıklama; 3) hızlı yakınsama hızı ve daha yüksek hesaplama verimliliği.

Yine, bu bir dizi çalışma.Li Peihua ekibi küresel kovaryans havuzlama çalışmasına ek olarak global Gauss havuzlama çalışması da yaptı.

Referans malzemeleri:

RAID-G: Malzeme Tanıma Uygulamasıyla Yaklaşık Sonsuz Boyutlu Gauss'un Güçlü Tahmini (CVPR 2016)

İkinci Dereceden Bilgi Büyük Ölçekli Görsel Tanıma İçin Yararlı mı? (ICCV 2017)

G2DeNet: Global Gaussian Dağıtım Gömme Ağı ve Görsel Tanıma Uygulaması (CVPR 2017, sözlü)

Yerel Log-Öklid Çok Değişkenli Gauss Tanımlayıcısı ve Görüntü Sınıflandırmaya Uygulaması (IEEE TPAMI, 2017)

İlgili Makaleler:

Bu arada, insanları işe alıyoruz, öğrenelim mi?

BAT kıdemli algoritma mühendisleri için özel araştırma ve geliştirme kursları

Hayata ve işe en yakın eğlenceli pratik projeler

Profesyonel öğretim asistanları ile sınıf yönetimi yardımı

Bir teklif almak için öğrendiklerinizi uygulayın, öğrenmeyi bitirir bitirmez işe alınmanız tavsiye edilir.

Kodu tarayın veya öğrenmek için orijinal metni okumak için tıklayın!

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

2016'da mobil oyun verileri için büyük bir PK vardı, fazladan 10 milyar nereye gitti?
önceki
Sis bilgi işlem ve uç hesaplamanın Nesnelerin İnterneti için önemi nedir?
Sonraki
Lenovo Z5s resmi olarak piyasaya sürüldü: Snapdragon 710+ arka zoom üçlü kamera, 1398 yuan'dan başlayan fiyatlarla
Ferrari Portofino'nun statik deneyimi Carfornia başarılı
Li Ruotong, yirmi yıldan fazla bir süredir bir anda, "The Legend of Condor Heroes" da ejderhadır, ancak Gu Tianle artık bir geçiş değil
"Zibuyu" film dosyasında "ileri" tanıtım, Xia Da Yaofei La devam filmini mi yırtıyor?
NBA'i en iyi bilen Westbrook resmi olarak moda çevresine mi giriyor? Gelin ve ilk önce kişisel markasını Honor the Gift'i görün!
Özel | Yağmurlu ve alacakaranlık yoğun saatlere meydan okuyun, Momenta'nın toplu üretilen otonom sürüş çözümlerine ilk kez maruz kalması
Lin Chaoxian, on milyarlarca gişe rekorunun yönetmeninden çok da uzak olmayan 5 yıl içinde 3 gişe rekorları kıran film gösterecek!
Benzersiz moda markası tasarımcısı deneyimi Changan CS55
En iyi sınırlı sürüm! YEEZY BOOST 350 V2 "Yarı Dondurulmuş Sarı" artık Çin'de kayda açıldı!
"Kaynakları Şangay ve Chongqing arasında paylaşın ve enerjiye tam anlamıyla başlayın" 2019 Fudan Üniversitesi profesörü Şangay ve Chongqing'deki yeni fırsatlardan bahsediyor
Finansal dolandırıcılıktan en çok etkilenen sektör film ve televizyon mu? "Ferryman" "yatırım ve finans yönetimi" fırtınasına yakalandı
Academia Görüntü tanıma saldırısı henüz tam olarak çözülmedi, konuşma tanıma saldırısı yine burada!
To Top