Xinzhiyuan Raporu
Kaynak: Vimicro
Xin Zhiyuan Rehberi Son zamanlarda, uluslararası bilgisayarla görme yarışması PASCAL VOC'de, Vimicro toplam 89.0 puanla birinci oldu ve hedef tespit tekli modelde birinciliği kazandı. Kazanan model, tek adımlı bir hedef tespit modelidir.Bu makale ayrıntılı teknik açıklamalar sağlayacaktır.
Son zamanlarda, PASCAL VOC comp4 hedef tespit yarışmasında Vimicro başka bir büyük başarı elde etti ve kazandı Hedef tespit tek modelinde birincilik .
Pascal VOC, dünyada bilgisayar görüşü alanında tanınmış bir yarışmadır.Yarışmada katılımcılar, insanlar, kediler, kuşlar, uçaklar, arabalar, tekneler ve saksı bitkileri dahil olmak üzere 20 tür nesneyi tespit etmek zorundadır. Eğitim örneklerinin az olması nedeniyle, sahne çok değişiyor ve bu çok zorlu. Vimicro yapay zeka ekibi VIM_SSD toplam 89.0 puanla birinci oldu.
Vimicro Yapay Zeka Yonga Teknolojisi Ltd. Şti.'nin Başkanı ve Genel Müdürü Zhang Yundong şunları söyledi: "Bu yarışmadaki model, terminal cihaz dağıtımının basit tek adımlı algoritması için uygundur. Bulut sunucularının karmaşık çok modelli algoritmasıyla karşılaştırılabilir sonuçlar elde etmek kolay değildir. Yapay zeka yonga şirketleri için, yalnızca yonga tasarımında mükemmellik için çabalamakla kalmamalı, aynı zamanda müşterilere ön uç akıllı cihazlar için genel çözümler sunmak için algoritmaların düzene sokulması ve optimizasyonunda atılımlar yapmalıyız. "
Tek adımlı hedef tespit modeli
Vimicro tarafından bu kez sunulan derin öğrenme modeli temelde son yarışmaya katılan derin öğrenme modeliyle aynı ve halen kullanılıyor Tek adımlı hedef tespit modeli , Temel ağ VGG16 kullanır ve ResNet-101, ResNet-152 gibi daha karmaşık ağları kullanmaz ve doğruluk garanti edildiğinde hız daha hızlıdır. Yarışmaya ilk katıldığımda skor 87.6 idi, bu sefer 89.0 idi, doğruluk çok gelişti. Bu sonuç yalnızca tüm tek adımlı algoritmaların önünde değil, aynı zamanda tüm iki adımlı algoritmaları da yener.
Vimicro Yapay Zeka Çip Teknolojisi Şirketinin Araştırma ve Geliştirmeden Sorumlu Başkan Yardımcısı Ai Guo şunları söyledi: Bu sefer derin öğrenme modelimiz önceki modelin kapsamlı bir yükseltmesidir. Eğitimle ilgili yöntemleri ve teknolojileri iyileştirmeye ve optimize etmeye odaklanarak hala tek adımlı ağ mimarisini kullanıyoruz. Algoritmanın karmaşıklığını artırmadan, ağın doğruluğu gittikçe artmaktadır.Bu, şirketimizin oluşturmak istediği temel teknolojidir. Ön uç gömülü cihazların sınırlı bilgi işlem kaynakları olması durumunda, Ağ karmaşıklığını sürekli artırmak yerine ağ yapısını ve eğitim yöntemlerini ayarlayarak doğruluğu artırın . "
VOC 2012 veri seti görüntü testi sonuçları
Yalnızca tek bir model değil, aynı zamanda tek adımlı bir yöntem, özellikle gömülü NPU için uygun
Çok modelli füzyon Genellikle derin öğrenme yarışmalarında kullanılan bir silahtır. Genellikle çeşitli makine öğrenimi görevlerindeki sonuçları iyileştirebilir. Adından da anlaşılacağı gibi, çoklu model füzyon, birden fazla farklı modelin durumunu kapsamlı bir şekilde ele almak ve sonuçlarını bir araya getirmektir.
Modeller aracılığıyla füzyon genellikle etkili olsa da, uygulama maliyeti ve hesaplama ek yükü de nispeten büyüktür. Şu anda, Vimicro esas olarak fiili proje uygulamaları, özellikle de genellikle tek model olan ön uç uygulamaları açısından değerlendirmektedir. Elbette, oyun sonuçlarının doğruluğunu artırmak için model füzyonu da daha sonra ele alınacaktır.
Aşağıdaki tablo, mevcut PASCAL VOC rekabetinin ilk onudur.Aşağıdaki algoritmaların çoğunun daha karmaşık temel ağlar ResNet-101 ve ResNet-152'yi uyguladığı ve iki aşamalı bir yöntem olduğu ve ayrıca çok modelli füzyon (topluluk) da olduğu görülebilir. Ve Vimicro'nun modeli Bu sadece tek bir model değil, aynı zamanda gömülü NPU'da yüksek bir kare hızı elde edebilen tek adımlı bir yöntemdir.
Yöntem
Omurga
harita (%)
Ali_DCN_SSD_ENSEMBLE
ResNet-101
89.2
topluluk
VIM_SSD (COCO + 07 ++ 12, tek model, tek aşamalı)
VGG16
89.0
tek aşamalı
tek
FOCAL_DRFCN (VOC + COCO, tek model)
ResNet-152
88.8
iki aşamalı
tek
R4D_faster_rcnn
-
88.6
-
-
FF_CSSD (VOC + COCO, tek aşamalı, tek model)
ResNet101
88.4
tek aşamalı
tek
R-FCN, ResNet Topluluğu (VOC + COCO)
ResNet
88.4
iki aşamalı
topluluk
HIK_FRCN
ResNet-101
87.9
iki aşamalı
tek
VIM_SSD
VGG16
87.6
tek aşamalı
tek
Deforme Edilebilir R-FCN, ResNet-101 (VOC + COCO)
ResNet-101
87.1
iki aşamalı
tek
RefineDet (VOC + COCO, tek model, VGG16, tek aşamalı)
VGG16
86.8
tek aşamalı
tek
Alibaba Dharma Academy'nin çoklu model entegrasyon ağının Ali_DCN_SSD_ENSEMBLE puanı, Vimicro tek model ağından yalnızca 0,2 puan daha yüksek olan 89,2 puan, Alibaba Dharma Academy FF_CSSD (VOC + COCO, tek aşamalı, tek model) tek adımlı tek modele sahip. Doğruluk 88.4'tür ve temel ağ ResNet101'dir ve Zhongxing'den 0.6 puan daha kısadır.
Güvenlik izlemeden nesli tükenmekte olan vahşi hayvanların korunmasına kadar çok çeşitli uygulama senaryoları
Hedef tespit teknolojisi yaygın olarak kullanılmaktadır ve AI olay yerine iniş için anahtar teknolojilerden biridir. Vimicro'nun derin öğrenme modeli, ön uç akıllı cihazlarda (akıllı kameralar gibi) çalışır ve güvenlik izleme, güvenlik üretimi, çevre koruma, kişisel sağlık izleme ve diğer alanlarda yaygın olarak kullanılır.
Aşağıda, korunan vahşi hayvanları tespit etmek, tanımlamak ve saymak için yapay zeka ve derin öğrenmeyi kullanan, Batı Çin ve Tibet bölgelerinde uygulanan bir çevre koruma örneği verilmiştir. Yabani hayvanları koruma ve ekolojik çevreyi dengeleme hedefine ulaşmak için. Ulusal gerekliliklere göre, yabani hayvanları koruma ve çevreyi koruma bilinci güçlendirilmeli, özellikle nesli tükenmek üzere olan vahşi hayvanların araştırılması ve korunması; yaban hayatı koruma ve miktarının gerçek zamanlı durumu bilimsel araştırma ve teknoloji perspektifinden çözülmelidir.
Aşağıdaki şekil Tibet antilopunun tespitini, tanımlanmasını ve istatistiklerini göstermektedir:
Aşağıdaki şekil Tibet yaban eşeklerinin izlenmesi, tanımlanması ve istatistiklerini göstermektedir:
Konsept açıklaması
Doğruluk: Hedef tespitte tanıma doğruluğunu ölçen indeks harita (Ortalama ortalama hassasiyet). Birden fazla nesne algılama kategorisinde, her kategori geri çağırma ve hassasiyete dayalı bir eğri çizebilir, AP eğrinin altındaki alandır, mAP birden fazla AP kategorisinin ortalamasıdır, teorik olarak en yüksek mAP 1.0'dır, yani 100 noktanın 89 noktası aslında 0,89 haritalardır.Aşağıda bir örnek verilmiştir.
Ön uç zeka ve bulut zekası : Ön uç istihbaratı, akıllı analiz algoritmalarını ön uç ekipmana yerleştirmektir.Örnek olarak bir güvenlik kamerası alın Kamera tarafından toplanan video içeriği, yapılandırılmış veriler oluşturmak için ekrandaki anahtar, ilginç ve etkili bilgileri çıkarmak için hemen analiz edilir. Ön uç zeka, çeşitli kaynaklarla sınırlıdır ve algoritma karmaşıklığını ve ağ modeli boyutunu sınırlaması gerekir.
Bulut zekası, bulut aracılığıyla, genellikle büyük bir GPU sunucusu aracılığıyla ön uç sensörleri tarafından toplanan veriler aracılığıyla akıllı analizi tamamlamaktır. Bu nedenle, ön uç zekası ile karşılaştırıldığında, bilgi işlem kaynakları, bellek kaynakları, depolama kaynakları, ağ kaynakları vb. Nispeten büyüktür, bu nedenle algoritma modelindeki kısıtlama nispeten küçüktür ve büyük ve karmaşık ağ modelleri devreye alınabilir.
Topluluğa katıl
Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstrisiyle ilgilenen öğrenciler küçük bir WeChat asistanı hesabı ekleyebilirler: aiera2015_3 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmeniz gerekir (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).