g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Çin takımı, MegaFace Milyon Yüz Tanıma Şampiyonasını% 98 doğrulukla kazandı ve başka bir rekor kırdı

Xinzhiyuan Sütunu

Yazar: DeepInsight içgörü laboratuvarı

Xin Zhiyuan Rehberi İyi bilinen yüz tanıma değerlendirmesi LFW'de, birçok takım% 99,80'e yakın veya hatta daha fazla sonuçlar elde etti. Ancak büyük ölçekli yüz tanımada, zorluklar hala var. Örneğin, MegaFace milyonlarca yüz tanıma zorluğu, hatta LFW'de iyi performans gösteren modeller bile genellikle yalnızca% 60'ın üzerinde doğruluk elde edebilir. DeepInsight Insights Lab ekibi, MegaFace'in doğruluğunu% 98'e yükselterek bu zorluğun rekorunu kırdı ve Rus Vocord'un% 91'lik rekorunu aştı.

Yüz tanıma, çoğu kişi tarafından olgun bir alanda bir sorun olarak kabul edilir.İyi bilinen yüz tanıma değerlendirmesi LFW'de, birçok takım, 2017'de birçok yüz tanıma raporunda görülebilecek şekilde, neredeyse% 99,80'den fazla sonuç elde etti , LFW değerlendirmesindeki bireysel yanlış veriler nedeniyle, bu puan tam notlara yakın anlamına gelir.

LFW 1: 1 karşılaştırma görevi olmasına rağmen, daha küçük veri kümelerinde yüz tanıma sorununun temelde çözüldüğünü göstermektedir. Bununla birlikte, büyük ölçekli yüz tanımada hala zorluklar var. Örneğin, MegaFace Milyon Yüz Tanıma Mücadelesi 1: N'lik bir karşılaştırma testidir.LFW'de iyi performans gösteren modeller bile genellikle yalnızca% 60'ın üzerinde doğruluk elde edebilir. Şubat 2018'de bir dizi çabayla, MegaFace'in doğruluğu, Rus Vocord'un sahip olduğu% 91 rekorunu aşarak% 98'e yükseltti , Böylece bu büyük ölçekli yüz tanıma daha iyi bir temele sahip. Yapay zeka uygulayıcılarını daha büyük ölçekli yüz tanıma sorununu daha da çözmeleri için teşvik etmeyi umarak kodu, verileri ve ilgili belgeleri de duyurduk.

Makalede, sınıf içi mesafeyi aynı anda en aza indirmek ve sınıflar arası mesafeyi maksimize etmek için daha iyi geometrik yorumlanabilirliğe sahip bir kayıp fonksiyonu öneriyoruz. Yüz tanıma alanındaki en etkili yönleri de tartıştık ve birden fazla kamu değerlendirme setinde en iyi performansı elde ettik. Makalede belirtilen tüm kod uygulamaları, eğitim setleri ve sonuçlar doğrudan github'dan indirilebilir ve çoğaltılabilir.

Ağ yapısı

İlk olarak, yüz tanıma görevinde mükemmel bir ağ yapısı bulmaya çalışıyoruz.

3.1 Ağ giriş ayarları

Tüm deneylerimizde yüzün beş anahtar noktasına göre hizalama yapıldı ve kesim boyutu 112x112 olarak ayarlandı. Bu görüntü boyutu ImageNet girişinin 1 / 4'ü olduğundan, yaygın ağ yapıları tarafından başlatılan çözünürlük azaltma işlemini iptal etmeyi, yani (conv77-adım22) 'yi (conv33-adım11) ile değiştirmeyi düşünüyoruz. Giriş genişletilmiş sürümümüzün ağ yapısı L olarak etiketlenmiştir.

3.2 Ağ çıkışı ayarı

Buradaki çıktı, özellik vektör katmanını ifade eder. Son evrişim katmanından sonra özellik vektörüne nasıl bağlanılacağına dair çeşitli yöntemler denedik ve optimum yapı kodu E'yi bulduk, yani (Evrişim- > BN- > Bırakmak- > Tamamen Bağlı- > BN), daha fazla seçenek ve deneysel sonuç orijinal metne başvurabilir.

3.3 ResNet birimi ayarı

ResNet'te, 3 * BN biriminin orijinal uygulama ve olarak işaretlenen Kimlik Eşleme biriminden daha iyi performansa sahip olduğunu gördük. -IR .

Şekil 1: İyileştirilmiş artık birim: BN-Conv-BN-PReLu-Conv-BN

3.4 Değerlendirme

VGG2 veri setinde Softmax ile farklı ağ omurgalarını ve farklı konfigürasyonları test ettik ve aşağıdaki sonuçları aldık:

Tablo 1: Farklı omurgalar arasında doğruluk (%), hız (ms) ve model boyutu (MB) karşılaştırması (Softmax @ VGG2)

Buna göre seçeriz LResNet100E-IR Mükemmel performansı ve nispeten düşük genel giderleri nedeniyle ana ağ omurgamız olarak.

Kayıp İşlevleri

4.1 Softmax

Kayıp işlevi, tanıma doğruluğunu iyileştirmek için bir başka önemli görevdir.Herkes performans iyileştirme karşılığında ağ omurgası yapısını sıkıştırmaya çalıştığında, kayıp işlevine, ağ eğitiminin temeline geri dönün ve daha fazla keşif olacaktır. En yaygın sınıflandırma kaybı olan Softmax'ın tanımı aşağıdaki gibidir:

Softmax, yüz tanıma için en yaygın kayıp işlevidir. Softmax, sınıflar arasındaki ve sınıflar içindeki mesafeyi açıkça optimize etmediğinden, genellikle çok iyi bir performansa sahip değildir. .

4.2 Üçüz Kaybı

Bir Metrik Öğrenme olarak Triplet Loss, yüz tanımada da yaygın olarak kullanılmaktadır. şu şekilde tanımlanır:

Softmax ile karşılaştırıldığında, Karakteristik özelliği, video belleği ile sınırlandırılmadan büyük ölçekli (milyon, on milyonlarca) veri kümesini eğitmenin uygun olmasıdır. Ama buna uygun olarak, Odak noktası çok yerel olduğu için performans optimal değil ve eğitim döngüsü çok uzun.

4.3 SphereFace

Tripelet Loss'u eğitmek zor olduğundan, insanlar yavaş yavaş Metrik Öğrenme Softmaxin fikirlerini iyileştirmeye yönelik fikirler, SphereFace En iyilerden biri olup, 17 yılda önerilen bir yöntem olarak, o zaman en son teknolojiye ulaştı. Tanımı aşağıdaki gibidir:

Spesifik uygulamada, eklenen marjın (yani m) çok büyük olmasını önlemek için, Softmax ile birlikte eğitilen yeni bir hiperparametre () tanıtılır.

Öyleyse, buradaki özel marj nedir? Bu marj aşağıdaki algoritmalarda belirtilmiştir. Softmax ile başlayalım ve önceki bölümdeki formülüne bakalım

Hesaplamayı kolaylaştırmak için, önyargının = 0 olmasına izin verdik, ardından tam olarak bağlı WX şu şekilde ifade edilebilir:

, W ve X arasındaki açıyı temsil eder. W'yi normalleştirdikten sonra:

Belirli bir X için || X || kesindir, dolayısıyla Softmax'in şu anda optimize ettiği şey aslında cos değeri veya açılarıdır .

Böyle bir Softmax'ta, sınıf ve sınıf arasındaki sınır sadece bir çizgidir. Ortaya çıkacak sorunlar şunlardır: Sınırın yakınına düşen noktalar, tüm modelin genelleme yeteneğini zayıflatacaktır. . Yazar, bu sorunu çözmek için şöyle düşündü: Bu sınırı genişletin ve farklı sınıflar arasındaki noktaları mümkün olduğunca uzakta tutun. Bu, projeksiyon açısına bir kenar boşluğu ekleyerek elde edilebilir ,Aşağıda gösterildiği gibi:

Şekil 2: küre yüzey

Bunu yaptıktan sonra sınıflar arasındaki en yakın noktanın bile belli bir marjı olduğunu görebilirsiniz. Eğitim sırasında, aynı türdeki yüz görüntüleri kendi w - vektörlerine doğru sıkıştırılacaktır.

4.4 Toplamsal Kosinüs Marjı

Son zamanlarda, yazar, Kosinüs değerine aşağıdaki gibi tanımlanan bir Marj ekleme stratejisi önerdi:

Modele göre daha iyi performans elde etti ve aynı zamanda uygulaması da çok uygun.Ayrıca Softmax ile ortak eğitim sıkıntısını da ortadan kaldırıyor.Eğitimin ilk aşamasında artık bir yakınsama sorunu yok.

4.5 Katkı Açısal Kenar Boşluğu

Açıya sabit bir değer ekleyen bir Marj öneriyoruz Cosine Margin temelinde, daha geometrik (açı) açıklayıcıdır ve daha iyi performans sağlar. Aşağıdaki gibi tanımlanmıştır:

Burada ağırlığı (1'e) ve özelliği (s'ye, varsayılan 64'e) aynı anda normalize ediyoruz, sonra (aynısı Cosine Margin için de geçerlidir):

Şekil 3: ArcFace geometri yorumu

4.6 Karşılaştırma

İkili sınıflandırmayı örnek alırsak, yukarıdaki algoritmaların karar sınırı aşağıdaki gibidir:

Tablo 2: İkili sınıflandırma durumunda sınıf 1 için karar sınırları

Karşılaştırmayı kolaylaştırmak ve algoritmanın artılarını ve eksilerini bulmak için, hedef Logit'in değerini farklı Marjlar altında da karşılaştırdık:

Şekil 4: Hedef logit analizi

Değerlendirme

4.7.1 Doğrulama seti

İlk olarak, 1: 1 karşılaştırmalı 3 doğrulama seti üzerinde test ediyoruz.Ağ yapısı LResNet100E-IR ve eğitim veri seti Refined-MS1M.Tüm sonuçlar tekli modellerdir.

Tablo 3

4.7.2 MegaFace Milyon Yüz Testi

Belirtilmesi gereken şey, MegaFace girişim setini ((R) ile işaretli) dikkatlice karşılaştırıp temizlememizdir, böylece elde edilen performans modelin orijinal performansı olur ve gürültünün neden olduğu rastgelelik de giderilir. Gürültü gidermeden önce ve sonra SphereFace ve ArcFace (m = 0,4) performans karşılaştırmasına bakın. Gerçek performans ArcFace (m = 0.4) SphereFace'ten daha iyidir, ancak gürültü giderilmeden önce bunun tersi geçerlidir.

Tablo 4

Yukarıdaki deneye dayanarak, daha titiz bir deney yaptık: Eğitim setinden araştırma setine (FaceScrub) yeterince benzeyen tüm karakterleri kaldırın ve aşağıdaki sonuçları alın:

tablo 5

Prob seti ile çoğaltılan eğitim setindeki karakterlerin çıkarılmasının yine de belli bir etkisi olduğu görülmektedir ki bu da sağduyuya uygundur. Ek olarak, ArcFace ve CosineFace'in daha az etkilendiğini de görebiliriz.

Açık kaynak kitaplık InsightFace

Açık kaynak kodlu InsightFace'imizde, ArcFace'in resmi uygulamasını ve ayrıca Loss'un bir dizi üçüncü taraf uygulamasını sağlıyor ve tek tıklamayla eğitimi destekliyoruz. Projede sağlananları kullanın Rafine-MS1M eğitim veri seti Kağıtta nominal doğruluk değerine kolayca ulaşabilir.

5.1 Kurulum

Kurulum, Linux altında iki komutla tamamlanabilir:

pip altı scipy scikit yükleyin açıklayıcı öğrenin python scikit image easydict mxnet cu80

git klon https://github.com/deepinsight/insightface.git

5.2 Eğitim

En iyi model tek bir komut satırı ile elde edilebilir:

CUDA_VISIBLE_DEVICES = 0, 1, 2, 3 python u train_softmax. Py network r100 l prefix ../modelr100

Alıntı (basit versiyon)

https://github.com/deepinsight/insightface

Derin Yüz Tanıma için Katkı Maddesi Açısal Marj Kaybı: Jiankang Deng *, Jia Guo * ve Stefanos Zafeiriou

SphereFace: Yüz Tanıma için Derin Hipersfer Gömme: Liu, Weiyang ve Wen, Yandong ve Yu, Zhiding ve Li, Ming ve Raj, Bhiksha ve Song, Le

CosFace: Derin Yüz Tanıma için Büyük Marjlı Kosinüs Kaybı: Wang, Hao ve Wang, Yitong ve Zhou, Zheng ve Ji, Xing ve Li, Zhifeng ve Gong, Dihong ve Zhou, Jingchao ve Liu, Wei

Yüz Doğrulaması için Eklenti Marjı Softmax: Wang, Feng ve Liu, Weiyang ve Liu, Haijun ve Cheng, Jian

Derin piramidal artık ağlar: Han, Dongyoon ve Kim, Ji-whan ve Kim, Junmo

Görüntü Tanıma için Derin Artık Öğrenme: Kaiming He, Xi-angyu Zhang, Shaoqing Ren, Jian Sun

Derin Artık Ağlarda Kimlik Eşlemeleri: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Chen Geng tarafından komuta edilen Shentouling pusuya Japon ordusu tarafından "tipik gerilla taktikleri" deniyordu. Savaştan sonra Japon ordusu "386 tugayıyla özel olarak savaşmaya" yemin etti.

2019'da dünyanın ilk harikası! 80 milyar paramparça olan Çin, bu sefer UFO'lar bile yaptı ...