Derin öğrenmeye dayalı insan davranışı tanıma algoritması

0 Önsöz

İnsan davranışı tanıma, bilgisayarla görme alanında önemli bir konudur. Davranış algılama, video gözetimi ve diğer alanlarda geniş bir uygulama değeri yelpazesine sahiptir. Basit resim tanımadan farklı olarak, insan davranışı tanıma, ışık ve arka plan gibi birçok faktör tarafından engellenecektir. Geleneksel yöntemlerde, belirli belirli özellikler genellikle veri kümesindeki belirli eylemleri, tipik olarak HOG / HOF, vb. Tanımlamak için manuel olarak tasarlanır. Literatür, yoğun optik akış yörüngelerine ve seyrek kodlama algoritmalarına dayanan bir davranış tanıma yöntemi önermektedir.Füzyon çerçevesi tarafından çıkarılan davranış özellikleri işlenir ve sınıflandırma için modeli elde etmek için destek vektör makinesine gönderilir; literatür, eylem konusunu elde etmek için belirginlik tespitini kullanır Yoğun yörüngeleri konumlandırın ve ayıklayın, özellikleri geliştirmek için Fisher Vector'ü kullanın ve ardından tanıma için SVM'yi kullanın; literatür, kemik özelliği vektörlerini çıkarmak için serileştirme fikrini kullanır ve statik özellikleri eğitmek ve tanımak için SVM'yi kullanır. Ancak, gerçek sahnelere yakın birçok durumla karşılaşıldığında, geleneksel yöntemlerin iyi tanıma sonuçları elde etmesi genellikle zordur.

Son yıllarda yapay zeka teknolojisinin yükselişiyle birlikte derin öğrenme modelleri insan davranışını tanıma görevlerine de uygulandı. Özelliklerin otomatik olarak çıkarılması için derin öğrenme modellerinin kullanılması, manuel özellik tasarımı sürecindeki körlüğü ve farklılığı önleyebilir. Görüntü tanıma alanında mükemmel sonuçlar elde eden görüntüyü tanımlamak ve sınıflandırmak için, giriş verilerinin evrişim işlemi yoluyla, özellikleri katman katman çıkararak derin öğrenme modeli-evrişimsel sinir ağı. AlexNet ağı 2012'de ImageNet veri kümesindeki ilk 5 hata oranını% 16,4'e düşürdü; 2015'te Inception v2 ağı bir toplu normalleştirme yöntemi önerdi; SeNet ağı 2017'de ILSVRC yarışmasını yine kazandı. şampiyon.

Videodaki insan davranışı tanıma problemi için, kareler arasındaki zamansal korelasyon nedeniyle, çıkarılan RGB verilerini sadece sınıflandırma için evrişimli sinir ağına girmek iyi bir sonuç alamaz. Literatür, video verilerinin yoğun optik akışını ve RGB verilerini eğitim için CNN'e gönderir, böylece ağ uzay-zamansal bilgileri iyi işleyebilir ve ardından çift akışlı ağ tarafından elde edilen sonuçları birleştirir; literatür verileri bir dizi sabit bağlı çekirdek aracılığıyla işler, İnsan davranışı tanıma için bilgi elde etmek için 3B evrişimli ağ eğitimini kullanın.

Ek olarak, tekrarlayan sinir ağları (RNN) genellikle bu tür problemlerle başa çıkmak için kullanılır. RNN, aynı sinir ağına çoklu atamalar olarak görülebilen ve bilginin kalıcılığına izin veren döngüleri olan bir ağdır. Bununla birlikte, RNN'de gradyan kaybolma problemi vardır.Bu nedenle HOCHREITER S ve diğerleri, uzun süreli bağımlılık problemini bilinçli tasarım yoluyla ortadan kaldıran, uzun ve kısa süreli hafızalı tekrarlayan sinir ağı ünitesi olan yeni bir RNN ünitesi önermiştir. Literatür, video tanıma ve video tanımlama alanında ilk kez CNN ve LSTM'yi birleştirir; literatür, veri özelliklerini çıkarmak için 3D evrişimi kullanır ve ardından bunları davranış tanıma için LSTM ağına gönderir.

Bu kağıt, CNN ve LSTM'yi parti normalleştirme yöntemiyle birleştiren bir ağ tasarlar. Parti normalleştirme işlemi, tasarlanan CNN'ye uygulanır.Tamamen bağlı katman, elde edilen özellik dizisini işlemek için LSTM birimine gönderilir. Softmax katman haritalama kategorisi. Algoritma, uzamsal akış girişi olarak video verilerinin RGB görüntüsünü ve zaman akışı girişi olarak optik akış alanı görüntüsünü çıkarır ve ardından insan davranışını tanıma için nihai sınıflandırma sonuçlarını elde etmek için ilgili sınıflandırma sonuçlarını ağırlıklandırır ve birleştirir. Bu algoritmanın KTH video veri setindeki tanınma oranı% 95,8'e ulaştı ve bu, insan davranışını tanıma görevlerinde etkin bir şekilde kullanılabiliyor.

1 Model yapısı

1.1 İki akışlı model çerçevesi

Video verileri, zaman ve mekan özelliklerine sahiptir. RGB görüntüsünün uzamsal kısmı nesnenin görünüm bilgisini içerir ve optik akış alanı görüntüsünün geçici kısmı nesnenin hareket bilgisini içerir. Bu nedenle, videonun optik akış alanı görüntüsü ve RGB görüntüsü sırasıyla girdi verileri olarak çıkarılır ve ilgili sınıflandırma sonuçları elde edilir ve ardından ağırlıklandırılır ve birleştirilir.Şekil 1'de ağ yapısı gösterilmiştir.

1.2 Evrişimli Sinir Ağı

Evrişimli sinir ağları genellikle evrişimli katmanlar, havuz katmanları ve tamamen bağlantılı katmanlarla istiflenir. Evrişimli katman, hedefin özelliklerini çıkarmak ve bir özellik haritası oluşturmak için birden çok farklı evrişim çekirdeği kullanır; havuz katmanı alt örnekleme için kullanılır ve boyutu azaltmak için bitişik özellik haritalarının özelliklerini birleştirir; tamamen bağlı katman oynar Öğrenilen dağıtılmış özellikler, örnek etiketleme alanı rolüyle eşleştirilir.

Bununla birlikte, derin bir sinir ağı eğitildiğinde, ağın her katmanının giriş dağılımı bir önceki katmandan etkilenecektir.Ağ derinleşmeye devam ettikçe, ağ katmanındaki küçük değişikliklerin etkisi büyütülecek ve bu da gradyan kaybolması, gradyan patlaması ve ağ ile sonuçlanacaktır. Yerel bir optimal değere yakınsama ve diğer sorunlar. Bu amaçla, bu makale, görüntü sınıflandırma alanından davranış tanıma alanına toplu normalleştirme fikrini tanıtmakta ve ağ girdi örneklerinde küçük gruplar halinde normalleştirme gerçekleştirmektedir.

Geleneksel toplu normalleştirme işlem formülü aşağıdaki gibidir:

Bu formül için, tüm eğitim örnek kümelerinde çalışmak ve kovaryans matrisini hesaplamak gerektiğinden, hesaplama miktarı son derece büyüktür. Bu bağlamda, literatür iki iyileştirme önermektedir:

(1) Girdi verilerinin her boyutu bağımsız toplu normalleştirme işlemine tabi tutulur;

(2) Mini parti kullanın.

D boyutlu girdisi x = (x (1) ... x (d)) olan sinir ağı katmanı için, her bir boyutu normalleştirmek için denklem (3) kullanın:

Denklemin (3) beklentisi ve varyansı, her bir mini partideki her katman için hesaplanır. Bu normalleştirme işlemi, özellikler arasında herhangi bir korelasyon olmasa bile yakınsamayı hızlandırabilir. Ve mini parti yöntemiyle, parti normalizasyonu için gereken bilgi geri yayılmada kullanılabilir.

Aynı zamanda, denklem (4) 'te gösterildiği gibi, her x (k) giriş parametresi için bir çift (k) ve (k) parametresi eklenir:

1.3 Uzun ve kısa süreli bellek sinir ağı

İnsan eylemi tanıma verileri bir dizi sürekli veridir ve bitişik çerçeveler arasında büyük bir korelasyon vardır, bu nedenle bu sorunu çözmek için tekrarlayan sinir ağları kullanılır. Geleneksel tekrarlayan sinir ağı, giriş sırası X, gizli sıra H ve çıktı dizisi Y içerir. Gizli katman, zaman serilerinin tarihsel bilgilerini içerir ve ileriye dönük formül şu şekilde ifade edilebilir:

1.4 Füzyon modeli

Bu yazıda CNN yapısı, evrişimli katmanlardan, havuz katmanlarından ve tamamen bağlantılı katmanlardan oluşmaktadır.Her evrişimli katmanın ardından, küçük parti normalizasyonu için batchnorm işlemi eklenmiştir.

Deneysel veriler 25 f / s'lik bir görüntü dizisini kullanır ve çıkarılan her resmin boyutu 227 × 227'ye genişletilir. Girdi verilerinin boyutu 25 × 227 × 227 × 3'tür. 25, video veri çerçevesi sayısı, 227 × 227 resim boyutu ve 3 RGB resminin 3 kanalıdır. Füzyon modelinin CNN kısmı Şekil 2'de gösterilmektedir.

Şekil 2'de üst kısım özellik haritasının boyutudur ve alt kısım sinir ağının işlem katmanıdır. Modelin insan davranışı tanıma CNN kısmı toplam 5 evrişimli katmana sahiptir.Her evrişimli katmandan sonra doğrusal olmayanlığı artırmak için doğrusal olmayan bir aktivasyon fonksiyonu ReLU vardır.Aynı zamanda her evrişimli katmandan sonra bir toplu form katmanı ve ölçeği de vardır. Katman kombinasyonu, küçük parti normalleştirme işlemini birlikte tamamlar. CNN'nin sonuncusu, giriş verilerini LSTM ağına göndermeden önce vektörleştiren, tamamen bağlı bir katmandır.

Veriler LSTM'ye girildikten sonra, özyinelemeli işlem, zaman sırasına göre uzun ve kısa süreli tekrarlayan sinir ağında gerçekleştirilir Her özyinelemeli işlemin sonucu, önceki tüm özelliklerin ve mevcut özelliğin toplamıdır. Bu makale tek katmanlı bir LSTM modeli kullanır, yapı Şekil 3'te gösterilmiştir.

Füzyon modeli Şekil 4'te gösterilmektedir. Video verilerinin optik akış alanı ve RGB formu, ayrı eğitim için iki veri akışı zaman ve alan olarak tasarlanan ağa girilir ve ardından ilgili sınıflandırma sonuçları ağırlıklandırılır ve birleştirilir. Sonunda insan davranışını tanıma görevleri için kullanılır.

2 Deneysel süreç

2.1 Veri seti

Bu makale, algoritmanın etkisini test etmek için deneysel veri olarak genel KTH video veri setini kullanır.Bazı eylemlerin şematik diyagramı Şekil 5'te gösterilmektedir. Veri seti, sabit kameralarla çekilen 600 hareket videosunu içerir. Video karelerinin sayısı 25 f / s'dir ve videonun her karesinin çözünürlüğü 160 piksel × 120 pikseldir. 25 farklı konu, 4 farklı deney sahnesi vardır: dış mekan, iç mekan, dış mekan ölçek değişimi, açık havada kıyafet değişimi, 6 farklı insan davranışı: yürüme, koşu, koşma, sallama, alkışlama, boks.

2.2 Deneysel sonuçlar ve analiz

Bu makale, Linux sistemi altında oluşturulmuş bir platform üzerinde eğitim için tek çekirdekli bir GTX 1070 GPU kullanır. KTH veri seti eylem kategorilerine ayrılmıştır, her eylemin ilk% 80'i eğitim seti olarak ve son% 20'si test seti olarak kullanılır. Video verilerinin optik akış alanı görüntüsü ve RGB görüntüsü önceden çıkarılır ve çıkarılan her bir resim 227 × 227'ye genişletilir.Özelliğin kaybolmaması koşuluyla eğitim ağının CNN kısmı ImageNet veri setine yüklenir. 300.000 kez eğitilmiş önceden eğitilmiş modelin parametreleri, modelin sağlamlığını artırmak, aşırı uydurmayı önlemek ve yakınsamayı hızlandırmak için hazırlanmıştır.

Şekil 6, eğitim sayısı arttıkça optik akış alanı zaman ağı ve RGB uzay ağının eğitim süreci sırasında eğitim verilerinin tanıma doğruluğundaki değişiklikleri göstermektedir. Uzay akışında, yineleme sayısı 10.000'e yaklaştığında, doğruluk oranının% 86'ya ulaştığı ve sabit olma eğiliminde olduğu şekilden görülebilmektedir.İterasyon ilerledikçe, doğruluk oranı yavaşça artmaktadır; zaman akışında, yineleme sayısı arttığında 16.000 katına yaklaşıldığında, doğruluk oranı% 90'ın üzerine çıkar. Yineleme ilerledikçe, doğruluk oranı kademeli olarak artar ve yakınsama neredeyse doygun hale gelir.

Uzay-zamansal ağ tarafından eğitilen modeller elde edildikten sonra ikili akımların sınıflandırma sonuçları ağırlıklandırılır ve birleştirilir. Şekil 7'de RGB uzamsal ağ sınıflandırma sonuçlarının ağırlığı 0,05'lik adımlarla artırılarak orantı kademeli olarak artırılmıştır.

İnsan vücudunun davranış tanıma işlemi yalnızca uzaysal akış ağı veya zaman akışı ağı tarafından gerçekleştirildiğinde, zaman akışı ağı tarafından çıkarılan hareket bilgilerinin, uzaysal akış ağı tarafından çıkarılan görünüm ve arka plan bilgilerinden daha yüksek bir tanıma oranına sahip olduğu görülebilir. Davranış tanıma görevlerinde, optik akış verilerinde bulunan hareket bilgileri, RGB verilerinde bulunan görünüm bilgilerinden daha etkilidir. Tanıma ağırlık oranı RGB: optik akış alanı = 0.35: 0.65 olduğunda, bu makalede tasarlanan model en iyi tanıma etkisini elde eder.Belirli bir ağırlık oranı ile kaynaşmış uzay-zamansal çift akışlı sinir ağı, tanımada tek ağın doğruluğunu etkili bir şekilde artırabilir. .

Tablo 1'de bu makale, mevcut bazı algoritma modelleriyle karşılaştırmak için KTH veri setindeki füzyon uzamsal-zamansal çift akışlı ağın en iyi tanıma sonuçlarını seçmektedir.

Bu yazıda tasarlanan toplu normalizasyona dayalı LSTM ile birleştirilen evrişimli sinir ağının ağ yapısının, 0.35: 0.65 oranında RGB uzay görüntüsü ve optik akış alanı zaman görüntüsünde elde edilen sınıflandırma sonuçları ile ağırlıklandırıldığı ve kaynaştırıldığı görülmektedir. Bundan sonra literatürde ve literatürde önerilen iki geleneksel algoritmadan daha iyi sonuçlar alabiliriz. Yine derin öğrenmeye dayalı algoritmalarla karşılaştırıldığında, bu yazıda tasarlanan model yapısı da literatürde ve literatürde önerilen iki algoritmadan daha iyidir. Bu, bu makalede önerilen algoritmanın insan davranışını tanıma görevlerinde uygulanabilir olduğunu tam olarak göstermektedir.

Tablo 2'de gösterilen kafa karışıklığı matrisi, test setindeki 6 farklı eylem davranışının tanıma sonuçlarını görselleştirir ve köşegen öğeler doğru tanıma oranını temsil eder. KTH veri setinde, modelin en yüksek tanıma oranına sahip "boks" ve "dalga" olduğu görülebilir. "Alkışlar" ve "dalgalar" arasındaki benzerlik nedeniyle, bazı "alkışlar" olarak tanınır. "Dalga." "Jogging" ile "yürüme" ve "koşma" arasındaki benzerlikler nispeten yüksektir, bu nedenle, üçü arasında bazı yanlış tanıma oranları üretilir. Ancak genel olarak, model hala iyi bir genelleme yeteneğine ve sağlamlığa sahiptir.

3 Sonuç

Bu makale, toplu olarak normalleştirilmiş evrişimli sinir ağlarını ve LSTM ağlarını kullanan bir derin öğrenme ağı yapısı önermektedir. Video verilerinin RGB görüntüsü ve optik akış alanı görüntüsü sırasıyla mekansal akış ağının girdisi ve zaman akış ağının girdisi olarak kullanılır ve daha sonra uzay-zamansal ikili akış ağı ile elde edilen sınıflandırma sonuçları belirli bir ağırlık oranı ile birleştirilir. Bu modelin KTH veri setinin test setinde tanınma oranı% 95,8'e ulaştı. Makalede karşılaştırılan iki geleneksel yöntem ve iki derin öğrenme yöntemi ile karşılaştırıldığında, bu makaledeki model videonun zamansal ve mekansal özelliklerini daha iyi çıkarabilir ve tanıma oranı daha iyidir. Tüm model, önceden deneyime sahip olmayan derin bir sinir ağına dayanmaktadır ve iyi bir genelleme ve uygulanabilirliğe sahiptir.

Referanslar

LAPTEV I, MARSZALEK M, SCHMID C, ve diğerleri Filmlerden gerçekçi insan eylemlerini öğrenmek.IEEE Bilgisayarla Görü ve Örüntü Tanıma Konferansı, 2008.CVPR 2008.IEEE, 2008: 1-8.

Zhao Xiaojian, Zeng Xiaoqin. Yoğun optik akış yörüngesine ve seyrek kodlama algoritmasına dayalı davranış tanıma yöntemi Bilgisayar Uygulamaları, 2016, 36 (1): 181-187.

Lu Tianran, Yu Fengqin, Yang Huizhong ve diğerleri Belirginlik tespiti ve yoğun yörüngeye dayalı insan davranışı tanıma.Bilgisayar Mühendisliği ve Uygulamaları, 2018, 54 (4): 163-167.

Hu Qingsong, Zhang Liang.İnsan davranışının serileştirilmiş tanıma algoritması üzerine araştırma.Elektronik Teknolojinin Uygulanması, 2018, 44 (4): 122-125.

Luo Haibo, Xu Lingyun, Hui Bin ve diğerleri.Derin öğrenmeye dayalı hedef izleme yöntemlerinin araştırma durumu ve beklentileri.Kızılötesi ve Lazer Mühendisliği, 2017 (5): 6-12.

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Derin evrişimli sinir ağları ile Imagenet sınıflandırması Sinirsel Bilgi İşlem Sistemlerinde Gelişmeler, 2012: 1097-1105.

IOFFE S, SZEGEDY C. Toplu normalleştirme: dahili değişken kaymayı azaltarak derin ağ eğitimini hızlandırmak 32. Uluslararası Makine Öğrenimi Konferansı Bildirileri, 2015: 448-456.

HU J, SHEN L, SUN G. Sıkıştırma ve uyarma ağları. ArXiv ön baskı arXiv: 1709.01507, 2017, 7.

WANG L, XIONG Y, WANG Z, vd. Geçici segment ağları: derin eylem tanıma için iyi uygulamaları ödüllendirir. Avrupa Bilgisayarla Görü Konferansı. Springer, Cham, 2016: 20-36.

JI S, XU W, YANG M, ve diğerleri.İnsan eylemi tanıma için 3B evrişimli sinir ağları. Desen Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 2013, 35 (1): 221-231.

HOCHREITER S, SCHMIDHUBER J. Uzun kısa süreli bellek Neural Computation, 1997, 9 (8): 1735-1780.

DONAHUE J, ANNE HENDRICKS L, GUADARRAMA S, et al.Görsel tanıma ve açıklama için uzun vadeli tekrarlayan evrişimli ağlar.IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansı Bildirileri, 2015: 2625-2634.

Qin Yang, Mo Lingfei, Guo Wenke ve diğerleri.Davranış tanımada 3D CNN'lerin ve LSTM'lerin kombinasyonu ve uygulaması. Ölçüm ve Kontrol Teknolojisi, 2017 (2): 28-32.

yazar bilgileri:

Huang Youwen, Wan Chaolun

(Bilgi Mühendisliği Okulu, Jiangxi Bilim ve Teknoloji Üniversitesi, Ganzhou, Jiangxi 341000)

Bu şehir aynı zamanda "Gümüş Şehir" olarak da bilinir, ancak artık "Akıllı Şehir" haline gelmiştir.
önceki
Yann LeCun'un yeni çalışması: 473 modelin büyük bir karşılaştırması Çin, Japonya ve Kore'de metin sınıflandırması için ne tür kodlama kullanılmalıdır?
Sonraki
Yuelu Zirvesi "Mobil Hunan Ordusu" nun Hunan'ın gelişimine nasıl yardımcı olduğunu görün
TensorFlow derin öğrenmeye dayalı el yazısı rakam tanıma ve uygulama
SUV, pazardaki karanlık atı kapıyor, sahne 580 bir sonlandırıcı olabilir
Kuvvetli rüzgar ve şiddetli yağmur Quanzhou'ya baskın düzenledi! Ağaç küçük arabaya düştü! Lütfen Qingming'e geri dönün ...
"Blog Makale Serisi" Xilinx-7Series-FPGA yüksek hızlı alıcı-verici öğrenme-RX alıcı girişi
Genel evrim, yeni Kia K2 muhteşem dönüşümü
"Endüstri Sıcak Noktaları" Yerli cipsler neden yetersiz? Gerçekten çünkü yapması zor
Oyun Karakter Popülerlik Genel Seçimi 2018 Kadınlar 8 DAY1'de 16 Oylama Noktası
Çalışan ailelerin araç satın alma ihtiyaçlarını karşılamak için 100.000 bağımsız evsel SUV
Vatanseverlik eğitiminin güçlendirilmesi Hunan'da 2019 yılında "Kitabevim · Hayalim" okuma uygulaması başlatıldı
Bellek / SSD fiyatları düşüyor mu? Yetersiz talep nedeniyle, depolama peletlerinin sözleşme fiyatı düşmeye devam ediyor
Çin'deki Veri Bilimi Forumu: Büyük ineklerin bir araya gelmesi, endüstri-üniversite entegrasyonunda yeni bir yükselişin başlangıcı | KDD 2017
To Top