MnasNet: Hafif Terminal Modeli için Yeni Fikirler

Lei Feng Net AI Technology Review Press Bu makalenin yazarı Chen Taihong (ahong007@yeah.net), AI Technology Review için MnasNet üzerine özel bir yorumlama makalesi yazmıştır.

1. Motivasyon

CNN modeli, son yıllarda çok hızlı bir şekilde gelişti ve çoklu görsel görevlerde mükemmel performans gösterdi. Bununla birlikte, CNN modeli boyut olarak çok büyük ve bilgi işlem performansında düşüktür Bu görece bariz bir eksikliktir Bilgisayar gereksinimlerindeki artış, en gelişmiş CNN modelini terminallere (cep telefonları / AR / VR / UAV'ler) yerleştirmeyi zorlaştırır.

Terminal hafif sinir ağı modelinin aynı anda üç boyutu dikkate alması gerekir: birkaç parametre, hızlı hız ve yüksek hassasiyet. Şu anda, Mobile V1V2 ve shuffle Net V1 gibi CNN modelleri, mobil tarafta bir miktar ilerleme kaydetmiştir, ancak FLOPS vb. Gibi dolaylı değerlendirme kriterlerini kullanarak, manuel tasarım modelinin evrişimli mimarisinin üç boyutunu dengelemek zordur. Google ekibi kısa süre önce pekiştirmeli öğrenme fikrini kullanarak MnasNet'i önerdi ve kaynak kısıtlı bir terminal CNN modeli otomatik sinir yapısı arama yöntemi önerdi. Kağıt, gerçek zamanlı performansı ana hedefle açık bir şekilde birleştirir, böylece arama alanı, doğruluk ve gerçek zamanlı performans arasında iyi bir denge sağlayan bir modeli, yani ödül olarak gerçek zamanlı performans ve doğruluk oranı belirleyebilir ve doğrudan cep telefonu platformunu (Pixel telefonlar) kullanabilir. Vb.) Gerçek zamanlı performans ve doğruluğu doğrudan ölçmek için modeli çalıştırın. Esneklik ve arama alanının boyutu arasında uygun bir denge elde etmek için, makale ayrıca tüm ağın hiyerarşik çeşitliliğine izin veren yeni bir ayrıştırma hiyerarşik arama alanı önermektedir.

MnasNet modeli, doğrudan Pixel telefonlarda çalışır ve ImageNet sınıflandırması ve COCO hedef tespiti gibi bilgisayarla görme alanlarında son teknoloji seviyelere ulaşmıştır. ImageNet sınıflandırma görevinde, 76 milisaniye süren, MobileNetV2'den 1,5 kat daha hızlı ve NASNet'ten 2,4 kat daha hızlı olan piksel 1'de ilk 1 doğruluğun% 74,0'ı elde edildi. COCO hedef tespiti görevinde, MobileNet'lerden daha iyi harita ve gerçek zamanlı performans elde etti.

2. İlgili çalışma

CNN model sıkıştırması için yaygın olarak kullanılan bazı yöntemler vardır: niceleme, dal azaltma ve sinir ağı mimarisinin manuel tasarımı (evrişim yöntemi). İyi bilinen nicel modeller arasında Deepcompression, Binary-Net, Tenary-Net, Dorefa-Net, SqueezeNet, Mobile V1V2 ve shuffle Net V1V2 bulunur.

SongHan'ın DeepCompression ürününün, üç ana bölüme ayrılan sinir ağı sıkıştırma alanında öncü çalışma olduğu söylenebilir: budama, niceleme ve Huffman kodlama. Niceleme, birçok matematiksel işlemi bit işlemlerine (Binary-Net) dönüştürür, bu da çok fazla alan ve ileriye doğru yayılma süresi kazandırır ve sinir ağlarının uygulama eşiğini düşürür. Ancak bu sıkıştırma algoritmalarının doğruluk açısından büyük sınırlamaları vardır. Makalelerin çoğu test nesneleri olarak geleneksel CNN mimarilerini (AlexNet, VGG) kullanır ve bu ağların fazlalığı yüksektir.

Sinir ağı mimarisi tasarlama yöntemi şu anda terminallerde yaygın olarak kullanılmaktadır.Örneğin, MobileNet V2, AI kameraları ve Xiaomi cep telefonlarının parmak izi tanıma ve yüz tanıma gibi uygulama senaryolarında uygulanmıştır.

Model parametrelerini azaltmak için SqueezeNet, 3x3 evrişimli çekirdeği 1x1 evrişimli çekirdek ile değiştirerek, 3x3 evrişime giriş özelliği eşlemlerinin sayısını azaltır ve havuzlamayı azaltır.

MobileNet V1'in ana işi, hesaplama verimliliği ve evrişimli ağların parametre miktarı sorununu çözmek için geçmiş standart evrişimleri değiştirmek için derinlemesine ayrılabilir evrişimler kullanmaktır. MobileNet V2'de iki ana geliştirme vardır:

  • 1. Doğrusal Darboğazlar. Yani, modelin ifade yeteneğini sağlamak için küçük boyutlu çıktı katmanının arkasındaki doğrusal olmayan aktivasyon katmanı kaldırılır.

  • 2. Tersine Çevrilmiş Artık blok. Bu yapı, boyutların önce küçültüldüğü ve ardından genişletildiği geleneksel artık bloğun zıttıdır, böylece boyut küçültme bağlandıktan sonra atış kesimi özellik haritası haline gelir.

Shuffle Net, verimlilik sorunlarını çözmek için noktasal grup evrişimi ve kanal karıştırmayı sunar.Örneğin, dahili 0,5 saniyelik yüz tanıma otomatik kilit açma özelliği olan Xiaomi MIX2, Shuffle Net kullanır. Shuffle Net V2, ECCV2018'de yayınlanan en son makaledir. Dört yönerge önerir ve ağda dört iyileştirme yapar: (1) Aynı kanal genişliğinde evrişim; (2) Grup evrişimi kullanmayı düşünün; (3) Parçalanma derecesini azaltın; (4) Eleman seviyesindeki işlemleri azaltın.

Terminal ekipmanında sinir ağlarını manuel olarak tasarlarken doğruluk ve gerçek zamanlı performans arasında bir denge sağlamak zordur. Daha karmaşık olan, her ekipman türünün kendi yazılım ve donanım özelliklerine sahip olması ve en iyi doğruluğu elde etmek için farklı mimariler gerektirmesidir. - Verimlilik değiş tokuşu. Şu anda Qualcomm, Xiaomi, Huawei ve Apple gibi çip tasarım şirketleri, CNN'in gerçek zamanlı performansını iyileştirmek için kendi çiplerini optimize ettiler.

3. Mimarlık

3.1 Arama algoritması

Bu makale, mobil CNN modellerini tasarlamak için otomatik bir sinir yapısı arama yöntemi önermektedir. Şekil 1, kağıdın genel görünümünü göstermektedir.Önceki yöntemden temel fark, çok amaçlı ödül ve yeni arama alanıdır. Makalede iki faktör ele alınmaktadır: Birincisi, tasarım problemi, CNN modelinin doğruluğu ve gerçek zamanlı çıkarım dikkate alınarak çok amaçlı bir optimizasyon problemi olarak tanımlanmaktadır. Modelleri bulmak ve doğruluk ile gerçek zamanlı performansı dengelemek için mimari arama ve güçlendirme öğrenimini kullanın. İkinci olarak, önceki otomatikleştirilmiş arama yöntemlerinin çoğu, esas olarak birkaç tür birimi arar ve daha sonra, evrişim işleminin neden olduğu operasyonel verimlilikteki farkı dikkate almadan, CNN ağı yoluyla aynı birimleri tekrar tekrar üst üste getirir.

Pareto optimal (Pareto optimal olarak adlandırılır), ideal bir kaynak tahsisi durumuna atıfta bulunan bir ekonomi kavramıdır. İçsel bir grup insan ve tahsis edilebilir kaynaklar göz önüne alındığında, bir dağıtım durumundan diğerine geçiş, en az bir kişiyi, kimseyi daha da kötüleştirmeden daha iyi hale getiriyorsa, bu Pareto geliştirildi. Pareto'nun optimal durumu, artık Pareto iyileştirmelerinin olamayacağıdır.

m modeli temsil eder, ACC (m) hedef modelin doğruluğunu temsil eder, LAT (m) zaman alıcıyı temsil eder ve T hedef zaman alıcıyı temsil eder. Makale, ACC (m) ve LAT (m) Pareto'yu geliştirirken, gradyan tabanlı güçlendirme öğrenme yöntemine dayalı olarak Pareto'yu optimal bulmak için bir strateji önermektedir.

Şekil 1'de gösterildiği gibi, model üç bölümden oluşur: RNN tabanlı kontrolör, modelin doğruluğunu elde etmek için kullanılan eğitmen ve çıkarım motoruna dayalı zaman alıcı ölçüm. Makale, model birleşene kadar denetleyiciyi eğitmek için bir değerlendirme güncelleme döngüsü kullanır.

3.2 Hiyerarşik arama alanı

Kağıt, hiyerarşik arama alanını kullanıyor, yani CNN katmanlarını birden çok gruba ayırıyor ve her grup için evrişim ve bağlantı arar. Diğer algoritmalarla karşılaştırıldığında, yalnızca birkaç karmaşık birim arayın ve ardından aynı birimleri tekrar tekrar üst üste getirin. Kağıt her birimi basitleştirir Kılavuzun arama alanı, ancak her hücrenin farklı olmasına izin verir.

Şekil 3'te gösterildiği gibi, kağıt CNN modelini bir dizi önceden tanımlanmış Blok dizisine böler, kademeli olarak giriş çözünürlüğünü azaltır ve filtre boyutunu artırır. Her Blok bir dizi özdeş katman içerir ve onun evrişim işlemi ve bağlantısı her Blok arama alanı tarafından belirlenir. İ-inci Blok için aşağıdaki parametreler tarafından belirlenir:

Evrişimli türler (Evrişimli işlemler ConvOp): Düzenli dönüşüm (dönüşüm), derinlemesine dönüşüm (dconv) ve çeşitli genişletme oranlarıyla mobil ters çevrilmiş darboğaz dönüşümü

Evrişimli çekirdek boyutu KernelSize: 3x3, 5x5.

Katman bağlantı yöntemini atla İşlemleri atla SkipOp: maksimum veya ortalama havuzlama, kimlik kalıntı atlama veya atlama yolu yok.

Fi çıkış filtresi boyutu

Ni bloğu başına katman sayısı.

ConvOp, KernelSize, SkipOp, Fi her bir evrişimli katmanın mimarisini belirler ve Ni, her bloğun evrişimli katmanı tekrarlama sayısını belirler.

4. Deney

Kağıt, ImageNet eğitim setinde doğrudan en uygun çözümü arar ve ardından az miktarda eğitim gerçekleştirir ve doğrulama seti olarak eğitim setinden 50K görüntü seçer. Denetleyici, arama mimarisindeki yaklaşık 8k modeli örnekler, ancak yalnızca birkaç model (

ImageNet'in eğitim süreci: model testi RMSProp optimizasyonu, bozunma = 0.9, momentum = 0.9. Her evrişim katmanından sonra, Batch normu, momentum 0.9997, ağırlık azalması = 0.00001 vardır ve modelin eğitim süreci MnasNet belgesine başvurabilir.

Makalenin deneysel sonuçlarından, MnasNet modelinin, MnasNet sınıflandırma görevi ve COCO hedef tespit görevinde daha önce şirket tarafından önerilen MobileNet V1V2'den daha iyi olduğu görülmektedir. İyi ekiplerin gerçek iş ihtiyaçları vardır, sunucu kümeleri tarafından desteklenir ve dikkatlice parlatılmış çağrışımlara sahiptir.

5. Tartışma

Makalenin Şekil 7'si, doğrusal olarak bağlanmış bir dizi blok içeren MnasNet algoritmasının sinir ağı mimarisini göstermektedir.Her blok farklı tipte evrişimli katmanlar içermesine rağmen, her bir evrişimli katman, modelin hesaplamasını en üst düzeye çıkarmak için derinlemesine evrişimli evrişim işlemleri içerir. etkililik. Ancak MobileNet V1V2 gibi algoritmalardan önemli ölçüde farklıdır:

1. Model daha fazla 5x5 derinliğe doğru kıvrımlar kullanır. Derinlemesine ayrılabilir evrişim için 5x5 evrişimli çekirdek, iki 3x3 evrişimli çekirdekten daha verimlidir:

Giriş çözünürlüğü (H, W, M) ve çıktı çözünürlüğü (H, W, N) ise, C5x5 ve C3x3 sırasıyla 5x5 evrişim çekirdeği ve 3x3 evrişim çekirdeğinin hesaplama miktarını temsil eder.N hesaplanarak görülebilir. > 7'de, C5x5 hesaplama verimliliği C3x3 hesaplama verimliliğinden daha büyüktür:

2. Katman sınıflandırmasının önemi. Birçok hafif model, blok mimarisini tekrarlar, yalnızca filtre boyutunu ve uzamsal boyutu değiştirir. Makalede önerilen hiyerarşik arama alanı, modelin her bloğunun farklı evrişimli katmanları içermesine izin verir. Ablasyon çalışması turu, MnasNet'in çeşitli varyantlarını karşılaştırdı (yani, her bloğu ayrı ayrı yeniden kullanarak), katman sınıflandırmasının önemini doğrulayan doğruluk ve gerçek zamanlı performans arasında bir denge sağlamak zordur.

Kişisel görüş: Kağıt, pekiştirmeli öğrenme fikrini kullanır.İlk olarak, bloğun bağlantı yöntemini belirler ve her bir evrişim katmanının, evrişim çekirdeğinin, atlama katmanı bağlantı yönteminin ve filtrenin evrişim türünü belirlemek için her bloktaki hiyerarşik arama alanını kullanır. Boyut vb. Takviye öğrenmenin, Encoder-Decoder, U-Net, FPN vb. Gibi modelin mimarisini seçmesine izin verirseniz, hedef algılamanın anlamsal bölümlemesinde daha iyi performansa sahip olup olmadığı.

Yukarıdakiler sadece kişisel anlayış, özet ve MnasNet makalesini okuduktan sonraki bazı düşüncelerdir. Görüşler kaçınılmaz olarak önyargılı olacaktır. Okuyucuların şüpheyle okumaları beklenmektedir. İletişim kurmaya ve düzeltmeye hoş geldiniz.

Referanslar:

1. MnasNet: Platform-Aware Nöral Mimari Mobil Arama.

https://arxiv.org/pdf/1807.11626.pdf

2. Mobilenets: Mobil görüntü uygulamaları için verimli evrişimli sinir ağları.

https://arxiv.org/pdf/1704.04861.pdf

3. Mobilenetv2: Tersine çevrilmiş artıklar ve doğrusal darboğazlar CVPR2018.

4. ShuffleNet: Mobil Cihazlar için Son Derece Etkili Evrişimli Sinir Ağı.

https://arxiv.org/pdf/1707.01083.pdf

5. Shu eNet V2: Etkin CNN Architecture Design.ECCV2018 için Pratik Kılavuz

"Saat 21: 00'de Araç Seçimi" nin gözden geçirilmesi Hangi SUV iki tekerlekten çekişi veya dört tekerlekten çekişi seçer?
önceki
24 Ocak'ta dosyalayın! "Fighting Nation Cultivation", müstakbel damadını test etmek ve kızı savunma savaşını başlatmak için "aşk için savaş ilan etme" parçasını ortaya çıkarır.
Sonraki
Bu konfigürasyon gerçek atış Jeep Freeman'ın manuel kinetik enerji versiyonunu oynayabilir
iRobot, yeni roomba i7 + süpürme robotunu iter: çöpü otomatik olarak temizleyebilir
Son 10 gün içinde bana iPhone 8 hakkında bilmen gereken bir şey söyle
Dünyanın ikinci OPPO süper amiral gemisi mağazası Shenzhen'de bulunuyor. Bu yeni perakende uygulamalarını gördük
"Dedektif Pu Songling" Çin Yeni Yılı partisi ziyareti yapıyor "Çabuk" Qiao Shan Yeni Yıl için size eşlik ediyor
Donanım olmadan görüntü kalitesini iyileştirin: Galaxy S8, Google Pixel kamera ile karşılaştığında
Yeni renklerin ötesinde, Apple AirPods 2 yakında piyasaya sürülecek
Tüfler, salkımlar, katman katman, parça parça ... 3000 dönümlük kiraz çiçekleri açar
Adidas'ın resmi yeni favorisi çıktı ve yeni SWIFT ailesi yeni üyeler ekledi!
"Ev ve Her Şeyi Şaşırttı" incelikleri ile toplumun mevcut durumunu yansıtan yeni bir afiş yayınladı
BMW'nin yeni 5 Serisi Travel Edition resmi haritası, arkaya yeni bir dokunuş katıyor
1 Eylül'den itibaren Charm Blue Note 61099 yuan'dan başlıyor
To Top