Xinzhiyuan Derlemesi
(Metin / Alfredo Canziani, vb.) Derin sinir ağlarının ortaya çıkışından bu yana, bilgisayar görüşü alanında çok önemli bir teknoloji haline geldi. Bunların arasında, ImageNet görüntü sınıflandırma yarışması bu yeni teknolojinin gelişimini büyük ölçüde destekledi. Doğru hesaplama seviyesi istikrarlı bir büyüme sağlamıştır, ancak çekici model uygulamaları doğru şekilde kullanılmamıştır.
Bu makale, pratik uygulamalardaki birkaç önemli göstergeyi kapsamlı bir şekilde analiz edecektir: doğruluk, bellek kullanımı, parametreler, çalışma süresi, işlem sayısı, muhakeme süresi, güç tüketimi ve aşağıdaki ana araştırma sonuçlarını çizin:
Güç tüketiminin parti boyutu ve mimari ile ilgisi yoktur;
Doğruluk ve muhakeme süresi arasında hiperbolik bir ilişki vardır;
Enerji sınırı, maksimum ulaşılabilir doğruluk ve model karmaşıklığının üst sınırıdır;
İşlem sayısı, muhakeme süresini etkili bir şekilde değerlendirebilir.
ImageNet'in önceki şampiyon mimari değerlendirme göstergeleri
2012 ImageNet yarışmasından bu yana, Alexnet çığır açan bir gelişme kaydetti ve derin sinir ağlarını uygulayan ilk uygulama oldu.DNN'nin diğer daha karmaşık uygulamaları da arka arkaya ortaya çıktı.
Görüntü İşleme Yazılımı Sınıflandırma Zorluğunun nihai amacı, gerçek muhakeme süresini göz önünde bulundurarak çok katmanlı sınıflandırma çerçevesinin doğruluğunu iyileştirmektir. Bu hedefe ulaşmak için aşağıdaki üç sorunu çözmemiz gerekiyor. İlk olarak, genel olarak, her bir doğrulama görüntüsünün birden çok benzer örneğinde belirli bir modelin birden çok eğitim örneğini çalıştıracağız. Bu yönteme model ortalama veya DNN entegrasyonu adı verilir ve bu, yayınlanmış doğruluğu elde etmek için çıkarım için gereken hesaplama miktarını büyük ölçüde artırabilir. İkincisi, farklı araştırma raporlarında doğrulama görüntüsü için tahmin modelinin (toplama) işlem sayısı farklıdır ve model seçimi etkilenecektir.Bu nedenle, farklı örnekleme yöntemleri (ve örnekleme koleksiyonlarının farklı boyutları) raporun doğruluğu ile sonuçlanır. Sapmalar olacak. Üçüncüsü, akıl yürütme sürecini hızlandırmak, kaynak kullanımı, güç tüketimi ve muhakeme gecikmesi gibi faktörleri etkileyen modelin pratik uygulamasının anahtarıdır ve şu anda muhakeme süresini kısaltmanın bir yolu yoktur.
Bu makale, son 4 yılda görüntü işleme yazılımı sınıflandırma sorununda ortaya çıkan farklı gelişmiş DNN mimarisi türlerini karşılaştırmayı amaçlamaktadır. Bilgi işlem ihtiyaçları ve doğruluğu perspektiflerinden analiz etmekte ve esas olarak bu mimarilerin birçok yönünü ve kaynak kullanımının fiili dağıtımını karşılaştırmaktadır. Doğruluk, bellek kullanımı, parametreler, çalışma süresi, işlem sayısı, muhakeme süresi, güç tüketimi olmak üzere üç gösterge.
Makalenin temel amacı, analiz yoluyla bu göstergelerin önemini vurgulamaktır, çünkü bu göstergeler, sinir ağlarının fiili konuşlandırılmasını ve uygulamasını optimize etmek için temel zor kısıtlamalardır.
Evrim metodu
Farklı modellerin kalitesini karşılaştırmak için, literatürden bazı veriler topladık ve analiz, farklı örnekleme yöntemlerinin farklı sonuçlara ulaştığını buldu. Örneğin, VGG-16 ve GoogleNet'in merkezi mahsul hataları sırasıyla% 8,7 ve% 10,07'dir ve bu, VGG-16'nın performansının googleNet'ten daha iyi olduğunu gösterirken, 10-mahsul örnekleme kullanılırken, hatalar sırasıyla% 9,33 ve% 9,15'dir. GoogleNet'ten daha kötü. Bu nedenle, tüm ağları analize dayalı olarak yeniden değerlendirmeye ve tek bir merkezi ürün örnekleme yöntemi kullanmaya karar verdik.
Şekil 1: İlk 1 - ağ. Tek ürünlü ilk 1, doğruluğu algılamak için en yüksek puanlama sistemini kullanır. Yukarıdaki resimdeki farklı renk şemaları, farklı mimarileri ve yazarları temsil etmektedir. Aynı ağ grubunun aynı tonu paylaştığını, örneğin tüm ResNet serilerinin pembe ile temsil edildiğini unutmayın.
Şekil 2: İlk 1'e karşı işlem, miktar boyutu, tek yönlü ileri aktarım için gereken işlem sayısıyla karşılaştırıldığında İlk 1 tek ürün doğruluğu parametresi. Şekildeki baloncuğun boyutu, ağ parametrelerinin sayısıyla orantılıdır; sağ alt köşe, 5 * 106'dan 155 * 106'ya kadar olan parametre değerlerinin geçmiş maksimum değerini kaydeder; tüm veriler bir y eksenini paylaşır ve gri nokta, kabarcık merkezinin değerini temsil eder.
Çıkarım süresini ve bellek kullanımını ölçmek için cuDNN-v5 ve CUDA-v8 ile yapılandırılmış Torch 7'yi kullanıyoruz. Tüm deneylerde JstPack-2.3 NVIDIA Jetson TX1, yerleşik görsel hesaplama sistemi, 64-bit ARM A57 CPU kullanıldı.
Bu sınırlı seviyeli ekipmanın kullanımı, esas olarak NVIDIA K40 veya Titan X gibi mevcut GPU'ların çoğunun temelde aynı sonuçları alması nedeniyle ağ mimarisindeki farkı daha iyi vurgulamaktır. Güç tüketimini ölçmek için, yerleşik Keysight MSO-X 2024A 200MHz dijital ekrana sahip Keysight 1146B Hall akım probunu kullandık, örnekleme süresi 2sn ve örnekleme hızı 50kSa / s. Sistem, Keysight E3645A GPIB dijital olarak kontrol edilen DC güç kaynağı tarafından desteklenmektedir.
Somut sonuç
Aşağıdaki DDN'leri karşılaştırdık:
AlexNet (Krizhevsky ve diğerleri, 2012); toplu olarak normalleştirilmiş AlexNet (Zagoruyko, 2016); toplu normalleştirilmiş Ağ İçi Ağ (NIN) (Lin ve diğerleri, 2013);
ImageNet için ENet (Paszke ve diğerleri, 2016) (Culurciello, 2016);
GoogLeNet (Szegedy ve diğerleri, 2014);
VGG-16 ve -19 (Simonyan ve Zisserman, 2014);
ResNet-18, -34, -50, -101 ve -152 (He ve diğerleri, 2015);
Inception-v3 (Szegedy ve diğerleri, 2015) ve Inception-v4 (Szegedy ve diğerleri, 2016).
1. Doğruluk
Şekil 1, AlexNet en solda ve Inception-v4 en sağda olmak üzere ImageNet Challenge'a sunulan mimarinin tek ürün doğruluğunu göstermektedir. En son ResNet ve Inception mimarileri, diğer mimarilere göre en az% 7 daha doğrudur. Bu yazıda, farklı mimarileri ve yazarlarını ayırt etmek için farklı renkler kullanıyoruz.Aynı ağın renkleri aynı.Örneğin pembe olanların hepsi ResNet.
Şekil 2, hesaplama maliyetini ve ağ parametrelerinin sayısını görselleştirerek her ağın daha ayrıntılı doğruluk değerlerini sağlar. Birçok uygulamada yaygın olarak kullanılmasına rağmen, VGG'nin hesaplama gereksinimleri ve parametre sayısı açısından en pahalı mimari olduğu ilk bakışta çok açıktır. VGG'nin 16. ve 19. katmanlarının uygulanması aslında diğer tüm ağlardan izole edilmiştir. Diğer mimariler çapraz bir çizgi oluşturdu ve Inception ve ResNet geldiğinde bu çizgi düzleşmeye başladı. Bu, bu modellerin bu veri setinde bir dönüm noktasına ulaştığını gösterir. Bu dönüm noktasında, hesaplama maliyeti (karmaşıklık), doğruluğun faydalarından daha ağır basmaya başlar.
2. Çıkarım Süresi
Yukarıdaki şekil (Şekil 3), görüntü yığın boyutunun bir fonksiyonu olarak (1'den 64'e kadar) her bir görüntü üzerindeki her mimarinin çıkarım süresini göstermektedir. VGG'nin bir görüntüyü işlemesinin yaklaşık 1/5 saniye sürdüğünü ve bunun da NVIDIA TX1'de gerçek zamanlı olarak uygulanma olasılığının azaldığını fark ettik. AlexNet'in parti boyutu 1'den 64'e değiştiğinde, işlem hızı 3 kat artar Bu, tamamen bağlı katmanının zayıf optimizasyonundan kaynaklanmaktadır.Bu bulgu şaşırtıcıdır.
3. Güç tüketimi
Akım tüketiminin yüksek frekans dalgalanması nedeniyle, güç tüketiminin ölçümü oldukça karmaşıktır ve karışıklığı önlemek için yüksek örnekleme akımı okuması gereklidir. Bu çalışmada kullandığımız ölçüm aracı, akım problu 200 MHz dijital osiloskoptur. Yukarıdaki şekilde gösterildiği gibi, güç tüketimi çoğunlukla parti boyutundan bağımsızdır. Şekil 3'ten, AlexNet'in (parti boyutu 1) ve VGG'nin (parti boyutu 2) düşük güç tüketiminin daha yavaş çıkarım süresi ile ilişkili olduğu görülebilir.
4 Hafıza (Hafıza)
TX1 cihazının CPU ve GPU paylaşılan hafızasını kullanarak sistem hafıza tüketimini analiz etmenin sonuçları aşağıdaki şekilden görülebilir: Başlangıçta maksimum sistem hafıza kullanımı değişmez.Batch boyutu arttıkça hafıza tüketimi artar. Bunun nedeni, ağ modelinin ilk bellek tahsisinin ve toplu işlem sırasında bellek gereksinimlerinin görüntü sayısındaki artışla orantılı olarak artmasıdır.
TX1 cihazının CPU ve GPU paylaşılan hafızasını kullanarak sistem hafıza tüketimini analiz etmenin sonuçları yukarıdaki şekilden görülebilir.Başlangıçta maksimum sistem hafıza kullanımı değişmez.Batch boyutu arttıkça hafıza tüketimi artar. Bunun nedeni, ağ modelinin ilk bellek tahsisinin ve toplu işlem sırasında bellek gereksinimlerinin görüntü sayısındaki artışla orantılı olarak artmasıdır.
Yukarıdaki şekilden, 100 MB'den küçük bir ölçeğe sahip bir ağ için, başlangıç bellek tahsisinin 200 MB'den az olmayacağını ve daha sonra 1.3 eğimli doğrusal bir fonksiyon olarak görüneceğini fark ettik.
5 Operasyon (Operasyonlar)
Sinir ağı hızlandırıcısının özel uygulamasında, çıkarım süresini ve donanım devresi hacmini tahmin etmek için işlem sayısı gereklidir.
Analiz, toplu iş boyutu 16 olan görüntüler için, her görüntü için hesaplama miktarı ile çıkarım süresi arasında doğrusal bir ilişki olduğunu buldu. Bu nedenle, bir ağ tasarlarken, gerçek zamanlı uygulamalar veya sınırlı kaynaklara sahip uygulamalar için işlem hızını kabul edilebilir aralıkta tutmak için hesaplama miktarı kontrol edilebilir.
6. Çalıştırma ve güç tüketimi
Belirli bir model için gereken işlem sayısı ile güç tüketimi arasındaki ilişkiyi analiz ettikten sonra, farklı mimariler arasında belirli bir güç ayak izi olmadığını gördük (yukarıdaki şekle bakın). Tam kaynak kullanımına ulaşıldığında, parti boyutu genellikle büyüktür, tüm ağların ek tüketimi kabaca 11,8 W, standart sapma 0,7 W ve boşta güç 1,30 W'dir. Bu, kaynaklar tamamen kullanıldığında maksimum sistem güç tüketimidir. Bu nedenle, güç tüketimi, pil cihaz sınırlamaları gibi odaklanmamız gereken noktalardan biriyse, en düşük güç gereksinimlerini karşılayan en yavaş mimariyi seçebiliriz.
7 Doğruluk ve verim
Birim zamanda, doğruluk oranı ile çıkarım sayısı arasında önemsiz olmayan doğrusal bir üst sınır olduğunu fark ettik. Aşağıdaki şekil, belirli bir kare hızı için elde edilebilecek maksimum doğruluğun kare hızıyla doğrusal orantılı olduğunu göstermektedir. Burada analiz edilen tüm ağlar, halka açık olarak yayınlanan makalelerden alınmıştır ve diğer araştırma ekipleri tarafından bağımsız olarak eğitilmiştir. Doğruluğun doğrusal uyumu, tüm mimarilerin doğruluğu ve hızı arasındaki ilişkiyi gösterir.
Ek olarak, bir muhakeme süresi seçilerek, kaynakların tam olarak kullanılması koşuluyla teorik maksimum doğruluk oranı elde edilebilir. Sabit güç tüketimi nedeniyle, gömülü sistemlerde çalışması gereken ağlar için temel bir tasarım faktörü olarak kullanılabilen, enerji tüketimi sınırının altındaki maksimum doğruluk oranını daha da elde edebiliriz. Spoiler olmadığından, ileri çıkarım süresi düşünüldüğünde, doğruluk ve çıktı arasındaki doğrusal ilişki hiperbolik bir ilişkiye dönüşür. Daha sonra, hesaplama miktarı ile çıkarım süresi arasında doğrusal bir ilişki olduğu varsayıldığında, doğruluk, ağın gerektirdiği hesaplama miktarına hiperbolik bir bağımlılığa sahiptir.
8 parametre kullanımı
DNN'nin tüm öğrenme yeteneklerini (parametre sayısı / serbestlik derecesi) kullanmada çok verimsiz olduğunu zaten biliyoruz. Han ve diğerlerinin araştırması, 2015, ağ boyutunu 50 kat azaltmak için ağırlık budama, niceleme ve değişken uzunlukta sembol kodlama kullanarak DNN'nin bu kusurundan yararlandı. Daha verimli bir mimari kullanmanın daha kompakt bir sunum üretebileceğini belirtmekte fayda var. Yukarıdaki şekilde gösterildiği gibi, VGG, AlexNet'ten daha yüksek bir doğruluk oranına sahip olmasına rağmen (Şekil 1), bilgi yoğunluğu AlexNet kadar iyi değildir. Bu, VGG mimarisine getirilen özgürlük derecesinin doğrulukta çok fazla gelişme sağlamadığı anlamına gelir.
Sonuç
Bu makale, pratik uygulamalar için tasarlanmış verimli sinir ağları için referanslar sağlamak ve kaynakları optimize etmek amacıyla ImageNet yarışmasındaki çok sayıda gelişmiş derin sinir ağını doğruluk, bellek kullanımı, parametreler, hesaplamalar, çıkarım süresi ve güç tüketimi açısından analiz eder. Çünkü gerçek dağıtımda kullanabileceğimiz kaynaklar genellikle çok sınırlıdır. Yukarıdan, sinir ağının doğruluğunun ve çıkarım süresinin hiperbolik olduğu görülebilir: doğruluktaki küçük bir artış da çok fazla hesaplama süresi alacaktır. Ek olarak, ağ modelinin hesaplama yükü, muhakeme için gereken süreyi etkin bir şekilde tahmin edebilir.
ImageNet için ENet'i (Efficient-Network) yaratmamızın nedeni budur. ENet şu anda parametre alanı kullanımı için en iyi mimaridir.
[Xinzhiyuan'ın resmi hesabını girin, tam metni indirmek için iletişim kutusuna "1127" yazın]
Xinzhiyuan İşe Alım
Operasyon Direktörü
Yıllık maaş pozisyonu: 360.000-500.000 (maaş + ikramiye)
İş yeri: Pekin-Haidian Bölgesi
Departman: Operasyon Departmanı
Raporlama nesnesi: COO
Astların sayısı: 2
Yaş gereksinimi: 25 ila 35 yaş arası
Cinsiyet gereksinimleri: sınırsız
Çalışma yılları: 3 yıldan fazla
Dil: İngilizce seviye 6 (denizaşırı geçmiş tercih edilir)
iş tanımı
Büyük ölçekli fuar sponsorlarından ve katılımcılardan, potansiyel müşterilere, vb. Genişleme, dokunma, yapay zeka ve robotik endüstri yönü sorumlusu
Pazarları açmada ve potansiyel müşterilerle iyi kişiler arası ilişkiler kurmada iyidir
Yapay zeka ve robotik endüstrisi ile ilgili piyasa koşullarının derinlemesine anlaşılması ve pazar trendlerini yakından takip edin
Departmanlar arasında proje işbirliğini aktif olarak koordine edin, departmanlar arası işbirliği organize edin ve iyi bir etkiye sahip olun
Ekibe satış hedefini tamamlamak ve proje durumunu izlemek ve yönetmek için liderlik edin
Şirketin platform operasyonları için stratejik planların ve işbirliği planlarının formülasyonundan ve uygulanmasından sorumlu
iş gereksinimleri
Lisans derecesi veya üstü, yüksek lisans derecesi tercih edilir, yüksek İngilizce iletişim becerileri gereklidir
3 yıldan fazla iş geliştirme deneyimi, ekip yönetimi deneyimi, işletme departmanının genel yönetimine aşina
Geleneksel halkla ilişkiler, geleneksel entegre iletişim genel planları ve stratejik genel planlar hakkında derinlemesine bilgiler
Keskin pazar bilgisi ve doğru müşteri analizi yetenekleri, güçlü ekip yönetimi yetenekleri ile
Mükemmel zaman yönetimi, stres direnci ve çoklu görev planlama ve yürütme yeteneklerine sahip olun
TMT alanında geniş ağ kaynakları, Parti A'nın pazarlama departmanında çalışma deneyimi tercih edilir
Medya reklamcılığı departmanı, pazarlama departmanı, ilk 20 halkla ilişkiler şirketi pazar geliştirme departmanı tercih edilir
Xinzhiyuan, yüksek ideallere sahip kişilerin görüşmeye gelmesini memnuniyetle karşılıyor. Daha fazla işe alım pozisyonu için lütfen Xinzhiyuan'ın resmi hesabını ziyaret edin.
Xinzhiyuan'ın işe alım detaylarını görüntülemek için orijinal metni okumak için tıklayın