Kuru mallarPRCV2018 Meitu Kısa Video Gerçek Zamanlı Sınıflandırma Yarışmasında birincilik için çözüme giriş

Takım tanıtımı

Takım adı: CASIA-AIRIA.

Ekip üyeleri: Shi Lei (doktora öğrencisi), Cheng Ke (doktora öğrencisi).

Eğitmen: Yardımcı Araştırmacı Zhang Yifan.

Birimler: Otomasyon Enstitüsü, Çin Bilimler Akademisi, Nanjing Yapay Zeka Çip İnovasyonu Enstitüsü, Otomasyon Enstitüsü, Çin Bilimler Akademisi.

Yarışma tanıtımı

Bu yılın Mayıs ayında, Meitu ve Çin Örüntü Tanıma ve Bilgisayarla Görme Konferansı (PRCV2018) tarafından ortaklaşa düzenlenen PRCV2018 "Meitu Kısa Video Gerçek Zamanlı Sınıflandırma Yarışması" resmi olarak başlatıldı. Çin Bilimler Akademisi Otomasyon Enstitüsü, Çin Bilimler Akademisi ve Nanjing Yapay Zeka Çip İnovasyon ve Araştırma Enstitüsü'nden yardımcı araştırmacı Zhang Yifan'ın rehberliğinde Shi Lei ve Cheng Ke, PRCV2018 "Meitu Kısa Video Gerçek Zamanlı" ödülünü kazandı. Sınıflandırma Mücadelesi" şampiyonu. Sadece sınıflandırma doğruluğuna odaklanan önceki yarışmalardan farklı olarak, bu yarışma "algoritma doğruluğu" ve "gerçek zamanlı sınıflandırma" olmak üzere iki yönü kapsamlı bir şekilde inceler ve uygulamayı teşvik edecek değerlendirmeye katılmak için önemli bir gösterge olarak çalışma süresini alır. sektördeki video sınıflandırma algoritmalarının Aşağıda, şampiyon takımın mücadelesinin teknik paylaşımının bir özeti yer almaktadır:

  • Veri kümesi tanıtımı

Bu yarışmada kullanılan kısa video veri seti (MTSVRC veri seti), eğitim seti 50.000 video olmak üzere toplam 100.000 video, doğrulama seti ve test seti 25.000 video içermektedir. Videolar çoğunlukla kısa, yaklaşık 5-15 saniye uzunluğunda videolar. Veri seti 50 kategori içerir ve video kategorileri dans, şarkı söyleme, el sanatları ve fitness gibi popüler kısa video türlerini içerir.İnsanlarla ilgili bazı davranış kategorilerine ek olarak, manzara ve evcil hayvanlar gibi bazı kategoriler de vardır. Şekil 1 bazı örnek verileri göstermektedir:

Şekil 1 Örnek veriler

Bu verilerin ana kaynağı cep telefonları ile çekilen günlük videolar olduğu için videoların boyutu, şekli ve çekim koşulları (ışık, alan derinliği gibi) tek tip olmayıp sınıflar arası ve sınıf içi büyük farklılıklara neden olmaktadır. Aynı zamanda, son işleme nedeniyle, videonun genellikle kategoriyle alakasız bazı özel efektleri ve metinleri vardır, bu da video tanıma zorluğunu artırır. Şekil 2, modelin tasarımı için büyük bir zorluk teşkil eden bazı zor örnekleri göstermektedir.

Şekil 2 Zor örnek

  • Evrim metodu

Yarışma hem zamanı hem de doğruluğu dikkate aldığından, geçmiş sınıflandırma hataları model performansını değerlendirmek için yeterli değildir. Şekil 3, bu yarışma için kullanılan değerlendirme metodolojisini göstermektedir.

Şekil 3 Değerlendirme yöntemi

Bunlar arasında turuncu üçgen resmi kıyaslama zamanı ve hatasıdır.Yalnızca kıyaslama yönteminden daha iyi olan sonuçlar geçerli sonuçlar olarak kabul edilirken diğer sonuçlar (siyah üçgenler) geçersiz sonuçlar olarak kabul edilir. Zamanlar ve hatalar, kıyaslama puanlarına dayalı olarak 0-1 aralığına normalleştirilir. Geçerli dereceler arasında en küçük hataya ve en kısa zamana sahip iki derece bulunur (yeşil üçgen ve kırmızı üçgen), ardından en küçük hata ve en kısa süre bir referans noktası (mavi daire) oluşturur. Sonunda, tüm geçerli puanlar referans noktasına olan mesafeyi hesaplayacak ve en kısa mesafeye sahip yöntem kazanan olarak kabul edilecektir. Değerlendirme yönteminin analizinden, zaman ve kesinlik önemli faktörlerdir. Zaman ve kesinlik genellikle çelişkilidir, bu nedenle bazı ödünleşimler yapılmalıdır.

video kod çözme

Zaman çok önemli bir faktör olduğundan ve video kod çözme zaman alıcı bir süreç olduğundan, kod çözme modülünün nasıl tasarlanacağı bu yarışmada anahtardır. Anahtar kareleri çıkarmak için çok iş parçacıklı yumuşak çözüm yöntemini benimsiyoruz.

Ana video kodlama yöntemlerinde, her video esas olarak üç resim çerçevesi içerir, bunlar: İç kodlanmış çerçeve (I çerçevesi), Öngörülü çerçeve (P çerçevesi) ve Bi-Öngörülü çerçeve (B çerçevesi). çerçevelediğim yer tam bir resim. P çerçevesi, önceki çerçeveden farkı kaydeder, bu nedenle P çerçevesinin kodunu çözerken önceki resim çerçevesine başvurmak gerekir. B çerçevesinin yalnızca önceki resim çerçevesine başvurması gerekmez, aynı zamanda tam kod çözme için sonraki resim çerçevesine de başvurması gerekir. Şekil 4, bu üç kavramı göstermektedir.

Şekil 4 I-çerçevesi, P-çerçevesi ve B-çerçevesi

Açıktır ki, P-karelerinin ve B-karelerinin kodunun çözülmesi nispeten yavaşken, I-karelerinin doğrudan kodunun çözülmesi daha yüksek hızlara ulaşabilir. Aynı zamanda, birden fazla çerçevenin kodunu çözmemiz gerektiğinden, çok iş parçacıklı bir yaklaşım benimsiyoruz ve her bir iş parçacığı, bir anahtar çerçevenin kodunu çözmekten sorumlu. Tüm kod çözme işlemi FFmpeg kullanılarak gerçekleştirilir.

model tasarımı

Kod çözme problemini çözdükten sonraki problem, elde edilen çoklu çerçevenin sınıflandırma için nasıl kullanılacağıdır.

  • ana akım yöntemi

Şu anda, ana akım video sınıflandırma yöntemlerinin üç ana kategorisi vardır: LSTM tabanlı yöntemler, 3B evrişim tabanlı yöntemler ve çift akış tabanlı yöntemler. Şekil 5, bu üç çerçevenin genel yapısını göstermektedir.

  • LSTM tabanlı yöntem, videonun her karesinden her karenin özelliklerini çıkarmak için bir evrişimli ağ kullanır ve ardından her özelliği bir zaman noktası olarak kullanır ve sırayla LSTM'ye girer. LSTM dizinin uzunluğunu sınırlamadığından, bu yöntem herhangi bir uzunluktaki videoları işleyebilir. Ancak aynı zamanda, LSTM'nin kendisinde gradyan kaybolması ve patlama sorunu olduğu için, tatmin edici sonuçlarla antrenman yapmak genellikle zordur. Ayrıca, LSTM kare kare giriş gerektirdiğinden, diğer yöntemler kadar hızlı değildir.

  • 3B evrişim tabanlı yöntemler, orijinal 2B evrişim çekirdeğini 3B'ye genişletir. 2B evrişimin uzamsal boyutta çalışma şekline benzer şekilde, zamansal boyutta aşağıdan yukarıya özellikleri çıkarabilir. 3B evrişim tabanlı yöntemler, iyi sınıflandırma doğruluğu elde etme eğilimindedir. Ancak evrişim çekirdeği 2B'den 3B'ye genişletildiğinden ve parametre sayısı da katlanarak arttığından, ağın hızı da buna bağlı olarak azalacaktır.

  • İki akışlı ağ tabanlı yöntemler, ağı iki kola böler. Biri, seyrek olarak örneklenmiş görüntü çerçevelerini sınıflandırmak için bir 2B evrişimli ağ kullanır ve diğeri, örnekleme noktası etrafındaki çerçevelerin optik akış alanı bilgisini çıkarır ve ardından bunları sınıflandırmak için bir optik akış ağı kullanır. Son sınıf etiketini elde etmek için iki ağın sonuçları birleştirilir. İki akış tabanlı yöntem, ön eğitim için mevcut 2B evrişimli ağdan iyi bir şekilde yararlanabilir ve aynı zamanda optik akış, hareket bilgilerini modelleyebilir, bu nedenle doğruluk genellikle yüksektir. Ancak, optik akışın yavaş ekstraksiyon süreci nedeniyle, bu yöntemin genel hızı sınırlıdır.

Şekil 5 Yaygın video sınıflandırma yöntemleri

Özetlemek gerekirse, ana akım yöntemler kısa video gerçek zamanlı sınıflandırma görevi için uygun değildir, bu nedenle kısa video gerçek zamanlı sınıflandırma için özel olarak uygun bir çerçeve tasarladık.

  • bizim yolumuz

Şekil 4, çözümümüzün genel çerçevesini göstermektedir: bir video verildiğinde, önce ondan seyrek olarak sabit sayıda görüntü karesini örnekliyoruz, ardından bu kareleri bir toplu iş halinde gruplandırıyor ve bir BaseNet'e besliyoruz. Bu BaseNet, mevcut 2B evrişim ağı temelinde optimize edilmiş ve geliştirilmiştir ve güçlü özellik çıkarma yeteneğine sahiptir. BaseNet tarafından üretilen yüksek seviyeli özellikler genellikle güçlü semantik bilgilere sahiptir, ancak zamansal bir birleştirme yoktur. Bu nedenle, çerçeveler arası dikkat mekanizmasına dayalı özel bir füzyon modeli tasarladık ve BaseNet tarafından çıkarılan farklı çerçevelerin özniteliklerini füzyon modeline girdi olarak gönderdik ve sonunda füzyon modeli tahmin edilen sonucu elde etti. Füzyon modeli nispeten küçük olduğundan, çıkarım hızı hızlıdır ve parametre sayısı azdır ve eğitilmesi daha kolaydır. Modelin tamamı mxnet üzerinde oluşturulmuş ve eğitilmiştir. Bu tasarıma dayanarak, modelimiz çok fazla doğruluk kaybetmeden hızlı çıkarım hızına ulaşabilir.

Şekil 6 Genel çerçeve

model sıkıştırma

Eğitilmiş bir model mevcut olduğunda, hızı daha da artırmak için model sıkıştırması gereklidir. Bilgi işlem platformu GPU olduğundan, GPU için daha uygun iki yöntem kullanıyoruz: budama ve niceleme.

  • model budama

GPU üzerinde işlem yapma ihtiyacı nedeniyle, burada esas olarak kanal boyutunda budama yapmayı düşünüyoruz. Evrişim parametrelerinin seyrek olduğunu varsayarak, bazı önemsiz parametreleri budadık ve ağ hala önceki doğruluğu elde edebilir.

Resim 7 Budama

Budama işlemi iki adıma bölünmüştür: ilk olarak, LASSO regresyonuna dayalı olarak her katmanda en temsili kanalı bulacağız, ardından işe yaramaz kanalları kaldıracağız ve ardından yeniden yapılandırma hatasını en aza indirmek için budanmış ağa ince ayar yapmak için kare farkı kaybı kullanacağız. . Bu işlem her katman için ayrı ayrı gerçekleştirilecek ve birkaç tur yinelemeden sonra iyi bir sıkıştırma etkisi elde edilebilir ve aynı zamanda doğruluğun çok fazla kaybolmamasını da sağlayabilir.

  • Model niceleme

Yarışma tarafından sağlanan GPU int8 hesaplamasını desteklediğinden, float32 veri türüne göre eğitilmiş orijinal modeli çıkarım, yani nicemleme işlemi için int8 veri formuna dönüştürmeyi düşünüyoruz. Burada, aynı zamanda TensorRt'de kullanılan yöntem olan nispeten basit bir doğrusal niceleme kullanıyoruz.

Şekil 8 Lineer Niceleme

Her tensörün verilerinin tek tip bir dağılıma uyduğunu varsayarsak, içindeki her öğe bir int8 sayısının bir float32 ölçek faktörü ile çarpılmasının sonucu olarak gösterilebilir. Ölçek faktörü tüm dizi için paylaşılır. Bu şekilde, tensörler arasında çarpma yapılırken önce int8 hesaplanabilir ve son olarak işlemi hızlandırmak için ölçek faktörü ile çarpılabilir. Daha sonra bir sonraki soru, ölçek faktörünün nasıl belirleneceğidir, ölçek faktörünün rolü, orijinal tensörün sayısal aralığını -127 ila 127 (int8 sayısal aralığı) olarak haritalamaktır. Veriler çoğu durumda tamamen tekdüze olmadığından, doğrudan eşleme doğruluk kaybına neden olur.

Şekil 9 Eşik tabanlı doğrusal haritalama

Bu sorunu çözmek için TensorRt, her katmanın veri dağılımını sayacak ve ardından elde edilen dağılıma göre bir eşik belirleyecektir (resim 9 gibi). Eşleme işlemi sırasında, eşiğin dışındaki sayılar -127 ile 127 arasında tek biçimli eşlenecek ve eşik içindeki verilerin tek biçimli bir dağılım olduğu varsayılarak eşlenecektir. Bu sayede hızlanırken büyük bir doğruluk kaybı yaşanmaması sağlanabilir.

özetlemek

Çözümümüz üç bölümde özetlenebilir: video kod çözme bölümü, I-karelerini çıkarmak için çoklu iş parçacığı kullanıyoruz. Model tasarımı bölümünde, seyrek örnekleme ve çerçeveler arası dikkat birleştirme yöntemini benimsiyoruz. Model sıkıştırma bölümünde, kanal budama ve niceleme yöntemini benimsiyoruz. Son olarak çözümümüz, test setinde %87,9 doğrulukla video başına ortalama 58,9 ms hıza ulaşıyor.

Referanslar

"AI Challenge | Giriş.". Mevcut: https://challenge.ai.meitu.com/mtsvrc2018/introduction.html. .

"Video Sıkıştırma Görüntü Türleri," Wikipedia, özgür ansiklopedi. 08-Tem-2018.

J. Carreira ve A. Zisserman, Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

S. Migacz, TensorRT ile 8-bit Çıkarım. Mevcut:

Meitu'nun çevrimdışı ETL uygulaması hakkında bilgi edinmek için orijinal metni okumak için tıklayın

Çıktı Louis Koo'yu geride bıraktı ve Chow Yun-fat tarafından Zhou Xingchi'nin halefi seçildi. Hala TVB dizileri yapması gerekiyor mu?
önceki
Altı Hong Kong Yeni Yıl filmi bir yakın dövüşte ve Kanton'un tadı yıldızlarla dolu bir ejderha ve anka kuşu!
Sonraki
OPPO Find X, cep telefonu tasarımının gelecekteki geliştirme yönünü temsil eden "Swan Ödülü" nü kazandı
Yetenekli ve yakışıklı! Uçuş görevlisi iş fuarında güzel kadınlar
Piao Home Decline, Star City International Rise: İnternet Üniversitesi'nin Yükseltilmesinden Sonra Issızlık ve Karnaval
AJ son zamanlarda insanları ellerini kesmeye nasıl zorlayabilir? ! İnsanlar Air Jordan 10 I'm Back'in ayrıntılarını nasıl kontrol ediyor?
Sağlam pil ömrü vivo Y93 satışa çıkıyor
38 yaşındaki Joey Yung tekrar bekar olacağını açıkladı Kadınların erkeklere saygı duyması ve kadınlardan aşağı olması zor mu?
VANS'ı farklı şekilde mi giymek istiyorsunuz? Kesinlikle ayrıntılarda kazanmanıza izin vermek için bu VANS Full Cab Pro serisini kullanma zamanı!
Ebeveynlere en kaliteli keyfi yaşatın, yardımcı olacak akıllı cihazları seçin
Hangi park yeri satın almaya değer? Park yeri satın almak için mücadele ettiğini duydum
Myolie Wu Happily, ikinci bir çocuğa hamile olduğunu ve "Hong Kong Kardeş Katil" ile evlendikten sonra sarı yüzlü bir kadın olmadığını açıkladı.
NIKE Air Presto Ultra'nın yeni renk şeması yayınlandı! Turuncu süslemenin bir dokunuşu çok dikkat çekici olmalı!
Performans gücü, Vivo Z3 resmi olarak bugün satışta: 1598 yuan'dan başlıyor
To Top