Evrişimli Sinir Ağı Yüz Algılama Algoritması

Son yıllarda, yapay zeka endüstrisi hızlı bir gelişme yaşadı. Derin öğrenme (yapay sinir ağı) bunda hayati bir rol oynuyor. Yüz algılama, derin öğrenme alanında da sıcak bir noktadır. Araştırmaları, insanların kimliklerini belirlemek için kullanılır ve yaygın olarak kullanılabilir. Kamu güvenliği, şirket ofisi, eğitim, insan-bilgisayar etkileşimi ve diğer alanlarda yaygın olarak kullanılmaktadır. Parmak izi ve iristen farklı olarak, özel bir toplama cihazına gerek yoktur.Yüz tanıma sistemi, gereksinimleri karşılamak için yalnızca kamera işlevlerine (cep telefonları, kameralar vb.) İhtiyaç duyar ve benzersiz avantajlara sahiptir.

Şu anda, yüz tanıma iniş teknolojisi her yerde görülmüştür ve yaygın olarak bilinmektedir. Örneğin, güvenliği sağlamak için Sydney Cricket Ground yüz algılama teknolojisini tamamen kapsadı; sahte hesap açmayı önlemek için ICBC, 215 şubede yüz algılama özelliğini etkinleştirdi; küçükleri korumak için, Douyin'e yüz algılama güvenlik duvarı eklendi; "Yüz algılama", kurtarma istasyonlarının akrabaları vb. Bulmasına yardımcı olur. Aynı zamanda, İnternet + çağı geldi ve gizlilik koruması insanlardan giderek daha fazla ilgi gördü, bu da yüz tanıma teknolojisi araştırmalarının hızlı gelişimini teşvik etti.

Akıllı yüz algılama sisteminin genel akışı Şekil 1'de gösterilmektedir.

Günümüzde yüz tanıma teknolojileri esas olarak aşağıdaki üç kategoriye ayrılır:

(1) Harr özelliklerine dayalı Kademeli Adaboost sınıflandırıcı Bu yöntem VIOLA P ve JONES M J. tarafından ortaklaşa önerilmiştir. Başlangıçta, özellikler kaba yoğunluk ile çıkarılır ve belirsiz veriler ve sonraki aşamadaki veriler birlikte optimize edilir ve eğitilir ve yinelemeli olarak yinelemeli olarak hassas bir özellik çıkarıcı elde eder ve ardından çok sayıda güçlü çıkarıcıyı daha yüksek hassasiyetli bir kademeye aktarır. Detektör, görüntünün etkili özellik değerini çıkarmak için entegre görüntüyü kullanır.

(2) Deforme Olabilir Parça Modeline göre, yüz, parçaların bir kombinasyonu olarak kabul edilir. Başlangıçta, bir histogram elde etmek için her bileşenin yön gradyanı hesaplanır ve ardından sınıflandırıcıyı eğitmek için bir destek vektör makinesi (Surpport Vektör Makinesi) kullanılır ve sınıflandırma işlemi sınıflandırıcı tarafından gerçekleştirilebilir.

(3) Yüz algılama için iki seviyeli evrişimli sinir ağı kullanan sinir ağlarına dayalı yüz algılama, birinci seviye kaba yüz konumlandırma gerçekleştirir ve ikinci seviye ince yüz konumlandırma gerçekleştirir. 2015 yılında, ImageNet yarışmasının popülaritesi ile Yahoo'dan Sachin ve diğerleri, yüzleri tespit etmek ve bulmak için yukarıdaki yöntemleri kullandı ve iyi sonuçlar elde etti. Yüz algılamadan sonra, ön işleme operasyonları gereklidir Amaç, bazı görüntü işleme teknikleriyle gürültünün görüntü üzerindeki etkisini azaltmak ve doğruluğu iyileştirme etkisini elde etmek için kontrastı, parlaklığı ve doygunluğu uygun şekilde değiştirmektir.

Gerçek hayattaki çekimlerde donanım gürültüsü, aydınlatma ve kameranın bozulması gibi pek çok belirsiz faktör vardır. Dış etkenlerin etkisini ortadan kaldırmak için orijinal resim üzerinde ilgili ön işlemlerin yapılması gerekmektedir. Ön işleme esas olarak parlaklık telafisi, histogram eşitleme ve yüz görüntülerinin gürültü azaltma filtrelemesini içerir. İlk ön işleme genellikle 2B görüntülerin basit işlemine dayanır ve yavaş yavaş teknolojinin gelişmesiyle birlikte 3B modellemeye dayalı bir ön işleme aşamasına dönüşmüştür.

Belirli bir dereceye ulaşmak için yukarıdaki üçüncü yöntemi kullanın. Bu makale, eğitimden sonra 20.000'den fazla görüntü verisi içeren LFW (Labled Faces in the Wild) yüz veri kümesini kullanır ve tamamen bağlı bir kafemodeli elde etmek için 50.000 kez yinelenir. Şekil 2, yüz verilerinin ve yüz olmayan verilerin bir bölümünü gösterir Veriler, Şekil 3 ve Şekil 4, eğitimle elde edilen veri etiketleme formu ve model sınıflandırıcıdır.Etiketleme verileri yüz kimliği, veri yolu ve yüz koordinat pozisyonunu içerir ve modelin iyi bir sınıflandırma etkisine sahip olduğu kanıtlanmıştır. Ardından yüz görüntülerini algılamak için kullanın. Algılanacak görüntü verileri, saptanacak yüzün koordinatlarının belirlenebildiği bir özellik haritası elde etmek için ileri yayılma için eğitilmiş kafemodeli kullanır.

1 AlexNet evrişimli sinir ağı yapısı

Genel evrişimli sinir ağı, evrişimli bir katmandan, bir havuz katmanından ve tamamen bağlantılı bir katmandan oluşur. Evrişim katmanı, insan beyninin yerel algısına eşdeğer olan, ağdaki bir görüntünün yüksek boyutlu özelliklerini çıkarmak için önemli bir yapıdır: bir resmi algılama sürecinde, tüm görüntü aynı anda algılanmaz, ancak resimdeki her özellik önce yerel olarak algılanır ve ardından güncellenir. Küresel bilgi elde etmek için parçalar üzerinde üst düzey kapsamlı işlemler gerçekleştirilir.

ReLU aktivasyon fonksiyonu, evrişimli katmanın çıktı sonucu üzerinde doğrusal olmayan bir haritalama gerçekleştirir. Havuzlama katmanı Havuz aynı zamanda yetersiz örnekleme veya aşağı örnekleme olarak da adlandırılır. Esas olarak özellik boyutunu küçültmek, veri ve parametre sayısını sıkıştırmak, aşırı uydurmayı azaltmak, modelin hata toleransını iyileştirmek ve modelin daha hızlı ve daha iyi hareket etmesini sağlamak için kullanılır. Optimum yön uydurma.

AlexNet, yukarıdaki işlemleri başarıyla uygulayan klasik bir yapıdır. KRIZHEVSKY A ve diğerleri tarafından tasarlandı ve 2012'de ILSVRC'de şampiyonluk kazandı. Nesne sınıflandırma hata oranını% 25,8'den% 16,4'e düşürerek en uygun seviyeye ulaştı. AlexNet, daha büyük veri kümelerini ve daha derin ağları eğitebilir. Model 8 katmana, 5 evrişimli katmana ve 3 tamamen bağlı katmana bölünmüştür. Şekil 5, AlexNet ağ yapısı diyagramı ve her katmanın ayrıntılı parametreleridir.Cafffe, ağı oluştururken her katmanı tanımlamak için bu parametreleri kullanabilir, ancak yüz algılama için bu iki sınıflı bir görevdir ve son katmanın tamamen bağlanması gerekir Seviyeyi gerekli görevlerin sayısına değiştirin, orijinal 1000, 2 olarak değiştirilir.

Şekil 6, Caffe'nin yerleşik evrişim işlevini kullandıktan sonraki çıkarma etkisini göstermektedir.Bundan sonra, daha yüksek boyutlu soyut yararlı bilgiler elde etmek için evrişim havuzlaması gerçekleştirilebilir.Şekildeki koordinatlar piksel boyutunu ve değişimi temsil eder.

2 Caffe derin öğrenme çerçevesi

Caffe, Berkeley'deki California Üniversitesi mezunu Dr. Jia Yangqing tarafından yazılmış açık ve etkili bir derin öğrenme çerçevesidir. Caffe saf bir C ++ / CUDA mimarisidir ve aşağıdaki avantajlara sahiptir:

(1) Modülerlik: Caffe, sıfırdan mümkün olduğunca modüler olacak şekilde tasarlanmıştır ve yeni veri formatlarının, ağ katmanlarının ve kayıp işlevlerinin genişletilmesine izin verir.

(2) Segmentasyonun temsili ve gerçekleştirilmesi: kod programlaması gerekmez, yapılandırma dosyasındaki ağ modelini özelleştirmek için Protokol Tampon dilini kullanmanız yeterlidir. Herhangi bir yönlendirilmiş çevrimsiz grafik biçiminde, Caffe ağ mimarisini destekler. Caffe, aşırı bellek kullanımından kaçınmak için ağ boyutuna göre uygun belleği otomatik olarak arayacaktır ve ayrıca CPU ve GPU arasında serbestçe geçiş yapabilir.

(3) Test kapsamı: Caffe'de her modül bir teste karşılık gelir.

(4) Caffe resmi olarak Python ve MATLAB'ın iki derlenmiş versiyonuna sahiptir.Bu deneyde derlenen versiyon Python versiyonudur.Son olarak, uygulama Python 2.7'de doğrulanmıştır.

(5) Eğitim öncesi referans modeller: Görme projeleri için Caffe, sadece akademik ve ticari olmayan alanlarda kullanılan bazı referans modelleri sağlar.Modellerin çoğu caffe model hayvanat bahçesinde bulunabilir, ancak lisans BSD açık kaynak sözleşmesi değildir.

Daha sonra, Jia Yangqing ve Facebook'taki ekibi yeni nesil bir Caffe2 çerçevesi araştırdı ve geliştirdi. 18 Nisan 2018'de Facebook açık kaynaklı Caffe2. Yeni nesil çerçeve, modülerliğe daha fazla önem veriyor ve mobil ve büyük ölçekli dağıtımda iyi performans gösteriyor. TensorFlow gibi, Caffe2 de C ++ Eigen kitaplığını kullanır ve ARM mimarisini destekler.

3 Algoritma gerçekleştirme prensibi

AlexNet ağının giriş özelliklerine göre, görüntü boyutu 227 × 227 girdidir. Ancak, orijinal görüntü verilerindeki yüz boyutu 227 × 227 olmayabilir, bazıları çok büyük ve bazıları çok küçüktür. Bu nedenle, çok ölçekli dönüşüm gerçekleştirmek için Görüntü Piramidi kullanmak ve daha sonra evrişimli sinir ağının ileri yayılması yoluyla özellik haritasını elde etmek ve ardından tüm pencerelerin yüz olasılık değerini elde etmek için orijinal görüntü ile eşleştirmek gerekir. Bu yöntemde, olasılık değeri 0.95'ten büyük olan özellik noktaları, yüz çerçevesinin konumu olan orijinal görüntünün karşılık gelen alanına ters şekilde dönüştürülür.

Yüz çerçevesinin koordinatları elde edilmiş olmasına rağmen, gereksinimleri karşılayan birçok pencere olduğu ve yüzü karakterize etme olasılığı en yüksek olan yalnızca bir pencerenin verilmesi gerektiği görülecektir.Bu nedenle, geçişi ortadan kaldırmak için NMS (maksimum olmayan bastırma) algoritmasının uygulanması gerekmektedir. Pencereyi tekrarlayın ve yüzün en iyi pozisyonunu bulun, yüzün en iyi pozisyonunu bulun. Şekil 7'de gösterildiği gibi, NMS algoritmasının ilkesi kabaca şu şekildedir: A ve B kutularının her ikisinin de yüzler içeren aday kutu olduğu varsayıldığında, aralarındaki kesişim 0.8'den (Birleşim üzerinden Kesişim) büyüktür ve Oldukça örtüşüyorlarsa, aday çerçeve A, yüze ait oldukları olasılık değeri P (B)> P (A) 'ye göre elenir.

Şekil 8, genel algılama algoritmasının bir akış şemasıdır. Algılanacak görüntüyü okumak için önce OpenCV'yi kullanın ve ardından aşağıdaki işlemleri gerçekleştirin.

4 Sonuçlar ekranı

Bu yöntemin uygulama platformu Linux sistemi, sürüm numarası Ubuntu16.04 ve GPU grafik kartı modeli GTX1080'dir. Yazılım Caffe + Python 2.7 + OpenCV 3.4.1 kullanır.

Eğitimde, video belleği nedenlerinden dolayı, batch_size genel 128 yerine 64 olarak ayarlanır. Şekil 9 eğitimin sonucunu göstermektedir Her 100 seferde bir kayıp değerini kaydettikten sonra, temelde gereksinimleri karşılayan Eğitim Kaybı: 0,00301 ve Test Kaybı: 0,00139 olduğunu ve aşırı uydurma olgusunun olmadığını görebilirsiniz.

ŞEKİL 10, görüntü verilerinin görüntü piramit dönüşümü ve ardından her ölçek dönüştürülmüş resmin ileriye doğru yayılmasıyla elde edilen özellik haritasının bir ısı haritasıdır. Şekildeki koordinat değişikliği, Şekil 6'daki ile aynıdır ve görüntü ölçeğindeki değişiklik kolaylıkla görülebilir Renk ne kadar koyu ise, ilgili orijinal görüntüdeki bölgenin yüze ait olma olasılığı o kadar büyüktür. Ölçek sürekli değişirken, yüzün tüm olası pozisyonları elde edilir ve son olarak NMS algoritması ile optimal bir yüz çerçevesi elde edilir.

Şekil 11, yüz çerçevesinin iyi tespit edilebildiği farklı boyutlarda ve farklı tanımlarda (resimler ağdan ve ön yüz, yan yüz ve çoklu yüzler dahil olmak üzere 300W veri setinden gelir) yüz görüntüsü verilerinin gerçek algılama sonuçlarını gösterir. Modelin iyi bir sınıflandırma etkisine sahip olduğunu ve insan yüzlerini algılama işlevini başardığını göstermektedir.

5. Sonuç

Bu yazıda yüz algılamanın gerçekleştirilmesi, AlexNet ağını kurmak için basit, verimli ve kullanımı kolay derin öğrenme çerçevesi Caffe'yi kullanır ve büyük miktarda veri eğitimi yoluyla caffemodel sınıflandırıcısını elde eder.Algoritma, piramit dönüşümü ve maksimum olmayan değerleri kullanarak geleneksel kayan pencere yöntemini kullanır. Yüzü çerçevelemek için ve diğer algoritmaları bastırın ve güçlü bilgisayar görme aracı OpenCV'yi kullanın ve evrişimli sinir ağının genel yüz algılaması gerçekleştirilir. Bununla birlikte, dezavantaj, modelin birden çok yüzü etkili bir şekilde tanıyamaması ve görüntü parlaklığının düşük olması ve tanınamamasıdır.Bir sonraki adım, birden çok kişiye ulaşmak için eğitim için daha büyük veriler ve daha iyi optimize edilmiş ağlar (VGGNet, GoogleNet ve ResNet gibi) kullanmaktır. Yüz algılama, temel nokta konumlandırma ve ifade algılama ve diğer işlevler veya mobil yüzle ilgili algılamayı gerçekleştirmek için Caffe2'yi kullanmayı deneyin.

Referanslar

Yang Danhui, Deng Zhou. Yapay zeka geliştirmenin temel alanları ve yönleri. Halk Forumu, 2018 (2): 22-24.

Li Wei. Görüntü Tanıma Alanında Derin Öğrenmenin Araştırılması ve Uygulanması. Wuhan: Wuhan Teknoloji Üniversitesi, 2014.

Jiang Zhaojun, Cheng Xiaogang, Peng Yaqin, vb. Derin öğrenmeye dayalı İHA tanıma algoritması üzerine araştırma Elektronik Teknoloji Uygulaması, 2017, 43 (7): 84-87.

Xu Guibao. "İnternet +" yapay zeka teknolojisi geliştirme strateji analizi. World Telecom, 2016 (3): 71-75.

VIOLA P, JONES M J. Sağlam gerçek zamanlı yüz algılama International Journal of Computer Vision, 2004, 57 (2): 137-154.

Song Zhen, Wang Shifeng. Deforme olabilen bileşen modelinin HOG özelliklerine dayalı insansı hedef tespiti Applied Optics, 2016, 37 (3): 380-384.

Hu Fahuan, Liu Guoping, Hu Ronghua, vd.Makine görmesi ve destek vektör makinesine dayalı göbek turuncusu kalite sınıflandırması tespiti.Pinek Teknoloji Üniversitesi Dergisi, 2014 (11): 1615-1620.

RUSSAKOVSKY O, DENG J, SU H, ve diğerleri ImageNet büyük ölçekli görsel tanıma mücadelesi. International Journal of Computer Vision, 2015, 115 (3): 211-252.

Wei Zheng. Caffe platformu derin öğrenmeye dayalı yüz tanıma araştırması ve uygulaması Xi'an: Xidian Üniversitesi, 2015.

Wang Qian, Zhang Haixian.Görüntü sınıflandırmada derin öğrenme çerçevesi Caffe'nin uygulaması Modern Bilgisayar, 2016 (5): 72-75.

Jia Yangqing, SHELHAMER E, DONAHUE J ve diğerleri.Cafffe: hızlı özellik yerleştirme için evrişimli mimari. ArXiv: 1408.5093, 2014.

KRIZHEVSKY A, SUTSKEVER I, HINTON G. Derin evrişimli sinir ağları ile ImageNet sınıflandırması Sinirsel Bilgi İşlem Sistemlerinde Gelişmeler, 2012, 25 (2): 1097-1105.

BADAWI A A, CHAO J, LIN J ve diğerleri.Homomorfik şifreleme için AlexNet anı: GPU'larla şifrelenmiş veriler üzerinde ilk homomorfik CNN olan HCNN.arXiv: 1811.00778v2, 2019.

Song Tingting, Xu Shixu. Tam örnekleme ve L1 norm alt örneklemeye dayalı evrişimli sinir ağı görüntü sınıflandırma yöntemi. Yazılım, 2018, 39 (2): 75-80.

Master Xu, Siyu Chen. Derin öğrenmeye dayalı görüntü sınıflandırma yöntemi. Application of Electronic Technology, 2018, 44 (6): 122-125.

Xie Jun, Chen Wei. Evrişimli Sinir Ağlarına Dayalı Yüz Tanıma Araştırması. Yazılım Kılavuzu, 2018 (1): 25-27.

yazar bilgileri:

Wang Jingbo, Meng Lingjun

(Ulusal Savunma Teknolojisi için Elektronik Test Teknolojisi Anahtar Laboratuvarı, Çin Kuzey Üniversitesi, Taiyuan 030051, Shanxi)

Yüksek performanslı bir darbe sinyali işleme devre modülü
önceki
Bu kısa film yanıyor! Vulcan Dağı tarafından oluşturulmuş tüm "içeriden" videolar
Sonraki
Taş el tipi kablosuz elektrikli süpürge H6 uygulamalı deneyim: ikili çevrimiçi görünüm ve performans, Dyson v10'dan daha düşük olmayan kapsamlı güç
Shen Sheng alay etti, "Profesyonel anne hanesi" Zhang Zhihua, Bi Shumin'in en çok satan romanı "Corolla Virüsü" nün nasıl yazıldığını anlattı
Bir kahramanın kız kardeşi değil, kahraman bir kardeş
Şangay Kahramanlar Meclisi'ni havaya uçurdu! League of Legends profesyonel lig bahar oyunu çevrimiçi geri dönüyor, S10 çok geride mi kalacak?
Chu Nehri ve Han Caddesi'nin dağları ve akan suları üzerinden uçarken, Wuhan'ın baharda yeniden başlamasını dört gözle bekliyoruz!
Wuhan Birinci Hastanesi polikliniğinin yeniden başlamasının ilk gününde yaklaşık 500 hasta randevu aldı
Topluluğa sebze ve taze balık dolu bir araba geldi
Tamamen kapalı ofis binalarında klimanın "doğru açma yöntemi"
İki gün "yarı at" koşan olgun bir adam, ayak seslerini 47 haneyi yalnız yaşayan yaşlı insanlarla birleştirmek için kullandılar
Yapım aşamasında olan ve yeni başlayan projelerin inşaat sürecini hızlandırmak
Trafo Modeline Göre Çince Metnin Otomatik Düzeltilmesi Araştırması
Programlanabilir kompanzasyonlu yüksek verimli ve yüksek yoğunluklu PSM Modülü regülatörü
To Top