Son zamanlarda, tanınmış açık kaynak topluluğu Github'da DSFD (Dual Shot Face Detector) adlı bir algoritma sektörün dikkatini çekmiştir.Tencent'in yapay zeka laboratuvarı Tencent Youtu ekibinden geliyor. Algoritmanın en iyi bilgisayar görüşü konferansı CVPR 2019 tarafından kabul edildiği ve iki yetkili yüz algılama veri seti WIDER FACE ve FDDB üzerinde yeni kayıtlar oluşturduğu bildirildi.
(Github açık kaynak adresi: https://github.com/TencentYoutuResearch/FaceDetection-DSFD
Makalenin genel adresi: https://arxiv.org/abs/1810.10220v2)
Yüz algılama alanında en çok referans kodunu oluşturmak için "üç yenilik noktası"
Yüz algılama algoritması, yüz kaydı, yüz özelliği tanıma, yüz doğrulama, yüz alma ve diğer teknolojilerin temeli olan görüntüdeki yüzün konumunu (genellikle dikdörtgen bir kutu şeklinde çıktı) tespit etmektir. Bu sefer Youtu tarafından önerilen DSFD yüz algılama algoritmasının üç ana yeniliği var:
(1) Yeni bir "özellik geliştirme" modülü (FEM: Özellik Geliştirme Modülü) tasarlanmıştır
Yukarıdan Aşağıya katman arası bilgi füzyonunu benimserken, FEM aynı "alım alanında" daha fazla geliştirme yaptı. Bu nedenle, daha etkili bağlam ve anlamsal bilgiler genişlik ve derinlikte öğrenilir.
(2) "Katmanlı bağlantı noktası aşamalı" maliyet fonksiyonu denetimi önerdi (PLA: Aşamalı Çapa Kaybı)
Model, birinci (düşük düzey) ve ikinci (yüksek düzey) arasındaki farkı temel alan iki hiyerarşi kullanır ve farklı boyutlardaki çapaları uyarlar. Eğitim sürecinde PAL, tüm modelin daha etkili bir denetimini oluşturur.
(3) "Gelişmiş Çapa Eşleştirme Stratejisi" tasarladı (Gelişmiş Çapa Eşleştirme Stratejisi)
Tek aşamalı detektör, çıktı katmanında ayrılmış yoğun ankrajlara sahiptir ve ankrajların ve yüzlerin eşleştirilmesi, eğitim etkisini doğrudan etkiler. Youtu araştırmacıları, veri artırma sürecinde farklı boyutlardaki yüzler ve her çapa arasındaki ilişkiyi tam olarak değerlendirdiler ve yeni bir veri artırma yöntemi önerdiler.
(Genel algoritma akış şeması)
Etkinin iyileştirilmesi, Youtu'nun sürekli araştırılması ve keşfinden gelir.
Yapay zeka teknolojisinin son yıllarda gelişmesiyle birlikte yurt içi ve yurt dışında birçok kurum ve kuruluş yüz algılama konusunda araştırmalar yapmaktadır. Tencent Youtu'dan araştırmacılar, önceki yüz algılama algoritmalarının çoğunun derin öğrenme modellerini kullanmasına ve özellik öğrenme sürecinde Özellik Piramit Ağlarını kullanmasına rağmen, kapanma, karanlık ışık ve büyük Pozlar ve küçük yüzler gibi karmaşık sahnelerde, yanlış algılama veya gözden kaçan algılama yine de meydana gelebilir. Bu nedenle, FPN temelinde, Tencent Youtu ekibi 3 farklı basamaklı Dilate Convolution (Dilated Convolution) yöntemini benimsedi, FEM özellik geliştirme modülünü tasarladı ve farklı duyguların yüz özelliklerini tam olarak öğrendi.
(Karmaşık sahnelerde yüz algılama efektlerinin görüntülenmesi)
Bununla birlikte, yeni algoritmaları keşfetme süreci sorunsuz ilerlememiştir. Geçtiğimiz yıl Temmuz ayı ortalarında başlatılan proje, projenin üç çekirdek üyesi üçüncü haftada ilk 5'e ulaştı, bunun yeterli olmadığını biliyorlar. Önümüzdeki iki ayda, etkiyi iyileştirmek gittikçe zorlaştı. Bu bir dağa tırmanmak gibidir.Ön taraf çok hızlı tırmanır ve ne kadar arkaya giderseniz, dayanıklılık ve kararlılık gereksinimleri o kadar artar. Tencent Youtu'da kıdemli bir araştırmacı olan Case şunları hatırladı: "Bu süre zarfında ben ve diğer birkaç meslektaşım birçok çözümü denedik. Çoğu zaman birden fazla çözüm aynı anda çalıştı. Bazı çözümler bile 4-5 gün çalıştı ve başarısız olduklarını gördü. Yeni girişimlerde bulunun. " Başarısızlıktan sonra, birkaç araştırmacı iş istasyonunun yanındaki cam odadaydı, nedenleri birlikte analiz etti ve bir sonraki test çalıştırma planını keşfetmeye başladı. Üç aydan fazla tekrarlanan "deneme çalıştırma-devirme-deneme çalıştırması" nın ardından, sonunda herkesin memnun olduğu bir dizi algoritma çalıştırıldı. Beklendiği gibi, algoritma belgesi de CVPR2019 tarafından kabul edildi.
Laboratuvardan çıkın ve iş için gerçekten değer yaratın; açık kaynak kodu ve meslektaşlarla tartışın
Algoritmalar laboratuvardan çıktığında, doğrudan işletmeye hemen uygulanamazlar. Aslında, kağıttaki modeller genellikle nispeten büyüktür ve bu da gerçek zamanlı performansın düşük olmasına neden olur. Kullanımdayken, gerçek uygulamaya göre sıkıştırılması ve kesilmesi gerekir ve genel model bir dereceye kadar ayarlanacaktır. Şu anda, Tencent Youtunun yüz algılama teknolojisi güvenlik, finans, sosyal ağ ve ulaşım gibi çoklu uygulama senaryolarında uygulanmıştır ve mobil QQ, WeBank ve Tiantian P Tu gibi birden çok dahili ve harici üründe doğrulama için uygulanmıştır. Örneğin, güvenlik alanında, Tencent'in Youtu Tianyan akıllı güvenlik platformu polis ve güvenlik ihtiyaçlarına yöneliktir ve teftiş ve kontrol, adli soruşturma ve davanın ele alınması ve sosyal güvenlik gibi çok sayıda senaryo için akıllı büyük yüz erişim çözümleri başlatmıştır.
(Tencent Youtu Tianyan Akıllı Güvenlik Platformu)
Çinli İnternet devlerinden biri olan Tencent, son yıllarda yapay zeka yatırımını ve en ileri temel bilimsel araştırmaları artırmaya devam etti. 2017 yılında, Tencent'in harici açık kaynağının hızı, özellikle AI, bulut bilişim, Tencent oyunları, Tencent güvenliği, apletler ve diğer ilgili alanları kapsayan hızlanmaya başladı. Bunların arasında, Tencent Youtu'nun bilgisayarla görme yapay zeka teknolojisinin açık kaynağı, bunun önemli bir parçasıdır. Temmuz 2017'de, Tencent Youtu'nun ilk yapay zeka açık kaynak projesi ncnn resmi olarak açık kaynaklıydı.Bu, cep telefonları için optimize edilmiş yüksek performanslı bir sinir ağı ileri hesaplama çerçevesi ve sektörün mobil cihazlar için optimize edilmiş ilk açık kaynaklı sinir ağı çıkarım kitaplığıdır. Bir yıl sonra, ncnn resmen ONNX'e katıldı. AI geliştiricileri, araştırmadan model dağıtımına kadar dağıtımı hızla gerçekleştirebilir ve her görev için en iyi geliştirme araçlarını seçerek farklı çerçeveler arasında daha rahat geçiş yapabilirler. Şimdiye kadar ncnn'nin Github yıldızlarının sayısı 6000'e yakın. Gittikçe daha fazla AI kurumu, kuruluş ve birey algoritmalarını açtıkça, tüm AI araştırmasının daha hızlı gelişip iniş yapacağına inanılıyor.