Meitu Görüntüleme Laboratuvarı (MTlab) 10.000 puan önemli nokta teknolojisi tam yorumlama

Leifeng.com'un AI Teknoloji İncelemesine göre, Meitu Imaging and Vision Lab (MTlab, Meitu Imaging and Vision Lab) geçtiğimiz günlerde 10000 noktalı yüz özelliklerinin hassas konumlandırmasını sağlamak için derin öğrenme teknolojisini kullanan "10000 nokta 3D yüz anahtar noktası teknolojisi" ni başlattı. Bu teknoloji, VR oyunlarında oyuncunun yüzünün 3B oyun karakterini oluşturabilir ve sürdürebilir ve ayrıca sanal makyaj denemesi ve tıbbi güzellik alanlarına da uygulanabilir. Bu makale, Meitu Image Lab MTlab tarafından Leifeng.com AI Technology Review için bu teknolojiye dayalı olarak sağlanan özel bir yorumdur. Metin aşağıdaki gibidir:

Giriş

Bilgisayarla görme alanında, insan yüzünün kilit noktalarının konumu, yüz izleme, duygu tanıma ve multimedya ile ilgili etkileşimli görüntü ve video düzenleme görevleri dahil olmak üzere görme ve grafikte çok çeşitli uygulamalara sahiptir. Şu anda, 2D yüz anahtar noktası teknolojisi endüstride yaygın olarak kullanılmaktadır.Ancak, 2D yüz noktası konumlandırma teknolojisi derinlik bilgisi elde edemez ve kullanıcının elma kasları, nazolabial desenler ve diğer daha ayrıntılı kullanıcı bilgileri gibi üç boyutlu özelliklerini analiz edemez. Kullanıcının mevcut duruşunu ve ifadesini gösterin. Kullanıcıların özçekimlerine maskeler, gözlükler, 3D şapkalar ve diğer öğeler gibi animasyon efektleri ekleyebilmek ve daha akıllı AI güzelleştirme efektleri sağlamak için her kullanıcının gülümsemesini, göz kırpmalarını vb. Gerçek zamanlı olarak izlemek için özel bir algılama teknolojisi seti gerekir. Yüzey geometrisi özellikleri. Bu nedenle, Meitu Görüntüleme Laboratuvarı'nın MTlab Ar-Ge personeli, yüz görüntülerini üç boyutlu alana yükseltmek, kullanıcının duruşunu, yüz şeklini ve ifadesini ayrıştırmak ve kullanıcının mevcut duruşunu ve ifadesini gerçek zamanlı olarak izlemek için 10.000 temel yüz teknolojisi noktası geliştirdi. , Yüz hatları değiştirildikten sonra yüz şekli, düzeltilen görüntü daha doğal ve güzel olur.

3BMM tabanlı yüz anahtar noktası konum yöntemi

1. Üç boyutlu deformasyon modeli (3DMM)

1999'da, İsviçre'deki Basel Üniversitesi'nden bilim adamları Blanz ve Vetter, çok yenilikçi bir yöntem olan üç boyutlu deformasyon modeli (3DMM) önerdiler. Üç boyutlu deformasyon modeli, üç boyutlu yüz veri tabanına dayanır ve yüz şekli ve yüz dokusu istatistikleri ile sınırlandırılır.Aynı zamanda yüzün duruşu ve aydınlatma faktörlerinin etkisi dikkate alınır ve oluşturulan yüz üç boyutlu modeli yüksek doğruluğa sahiptir.

3DMM

Yukarıdaki şekilde gösterildiği gibi, 3DMM'nin ana fikri şudur: bir yüz modeli, mevcut yüz modellerinden doğrusal olarak birleştirilebilir. Diğer bir deyişle katsayılar değiştirilerek mevcut yüzler bazında farklı yüzler oluşturulabilir. 3B deforme olmuş yüz modelinin m yüz modellerinden oluştuğunu varsayarsak, her yüz modeli karşılık gelen yüz şekli ve dokusunun iki vektörünü içerir, bu nedenle yeni bir 3B yüz modelini temsil ederken aşağıdaki yöntemler kullanılabilir:

onların arasında

Ortalama yüz şekli modelini temsil eder,

Şeklin PCA kısmını temsil eder,

Karşılık gelen yüz katsayısını gösterir.

Blanz ve Vetter tarafından önerilen 3DMM, yüz deformasyon modelinin ifade problemini çözse de, yine de yüz ifadelerinin ifadesinde bariz eksiklikleri vardır. 2014 yılında, FacewareHouse tarafından hazırlanan bu makale, 3DMM'yi daha anlamlı kılan bir yüz ifadesi veritabanı önerdi ve yayınladı.Yüz modelinin doğrusal temsili, aşağıdakilere genişletilebilir:

Orijinal yüz verilerine dayanarak ifadeler eklendi

,

Gerçek zamanlı ifade takibini mümkün kılan karşılık gelen ifade katsayısını temsil eder.

2. Meitu MT3DMM modeli

MTlab'ın Ar-Ge ekibi, farklı yüzlerin 3B şekillerini daha ayrıntılı olarak gösterebilmek ve daha geniş bir yarış yelpazesine uygulanabilmesi için, kişi başına 1.200 farklı karakter ve 18 ifadeden oluşan 3B yüz verilerini toplamak için gelişmiş 3B tarama ekipmanı kullandı. Bunların arasında yaşları 12 ile 60 arasında değişen, çoğunluğu Çinli olan yarı erkek ve kadın var.Toplam model sayısı 20.000'i aşıyor.Bu verilere dayanarak, derin sinir ağı tabanlı bir MT3DMM modeli oluşturuldu. Mevcut ana akım 3DMM modelleriyle karşılaştırıldığında, MT3DMM zengin ifadelere, yüksek model doğruluğuna sahiptir ve Asya yüz dağılımının özelliklerine uygundur. Şu anda sektördeki en doğru 3D yüz modellerinden biridir.

3DMM modeli ortalama bir yüzü temsil eder ve ayrıca ortalama yüzden sapma bilgilerini içerir. Örneğin yüz hatları ince bir yüz modeline göre ayarlanarak yağlı bir yüz modeli elde edilebilir. Bu korelasyonu kullanarak, bilgisayarın, kullanıcıya özel bir 3D model oluşturmak için yalnızca kullanıcının yüzü ile ortalama yüz arasındaki sapma bilgisini kullanması gerekir. Sadece bu değil, bu sapmalar aynı zamanda yaklaşık yaş, cinsiyet ve yüz uzunluğu gibi parametreleri de içerir. Bununla birlikte, bunda da bir sorun var.Dünyadaki yüzler sürekli değişiyor.Tüm yüzlerin ortalama yüzden sapmasını saklamak için, 3DMM modelinin büyük miktarda yüz bilgisini entegre etmesi gerekiyor.Ancak mevcut açık kaynak modeli farklı yaşları ve ırkları taklit ediyor. Yüzün yeteneği çok sınırlıdır.

Aşağıdaki şekilde gösterildiği gibi, BFM'nin yüz verileri temelde yabancı yüzlerdir ve bu, Asya yüzlerinin veri dağılımından farklıdır; Facewarehouse'un verileri esas olarak Asya yüzleridir, ancak Kinect ile taranan modelde düşük doğruluk sorunu vardır; SFM açık kaynak Veriler yalnızca 6 ifade içerir ve modelin doğruluğu düşüktür, bu da ihtiyaçlarımızı karşılayamaz; LSFM verileri daha fazla yüz verisi içerir, ancak ifadeler içermez ve kullanıcı ifadesini izlemek için kullanılamaz.

BFM ve SFM verilerindeki verilerin bir kısmı

Taranan model yüksek hassasiyetli bir model olmasına rağmen, belirli anlamsal bilgiler içermez. Bu nedenle, MTlab'ın 3B Ar-Ge ekibi, bu amaç için özel olarak bir dizi otomatik kayıt algoritması geliştirmiştir; bu, aşağıdaki şekilde gösterildiği gibi, taranan modeli manuel kalibrasyon olmadan hassas bir şekilde kaydedebilir:

kayıt süreci

Model oluşturma sonuçları

Son olarak MTlab, tüm kayıtlı 3B modelleri, 10.000 yüz anahtar noktası konumlandırması için kullanılan bir MT3DMM veritabanında birleştirir. Yüksek hassasiyetli tarama modeli ayrıca diğer işlevleri geliştirmek için daha fazla olanak sağlar.

3. Veri üretimi

Derin öğrenmenin büyük veri avantajlarından yararlanabilmek için, sinir ağına büyük miktarda veri sağlamak gerekir.MTlab geliştiricileri bir dizi yüksek karmaşıklıktaki veri üretim algoritması tasarladı ve büyük miktarda eğitim verisi üretmek için yüksek hassasiyetli MT3DMM modeli ile birleştirdi. Mevcut genel eğitim verisi üretim yöntemleriyle karşılaştırıldığında, MTlab'in eğitim verileri yüz, ifade ve duruş bilgilerini etkili bir şekilde ayırabilir ve doğru yoğun yüz konumlandırma gerçekleştirirken AR özel efektleri ve doğru yüz ifadesi sürüşü gerçekleştirebilir.

Yukarıdaki formülden, yüz rekonstrüksiyonu sorunu şu şekle dönüştürülebilir:

,

Katsayı sorunu, parametreleştirilmiş 3B yüz modelimiz olacaktır.

2D özellik noktaları ile

Haritalamadan sonra, yüzü sığdırmak için aşağıdaki formül kullanılabilir. Özel çözüm süreci aşağıdaki gibidir:

Buraya

3B modelin 2B düzleme yansıtıldığı noktadır, P ortogonal projeksiyon matrisidir, R rotasyon matrisidir,

Yer değiştirme matrisi, böylece üç boyutlu çözüm problemini aşağıdaki enerji denklemini çözmeye dönüştürebiliriz:

Düzenleme bölümü buraya eklenir, burada

PCA katsayısı (şekil katsayısı dahil)

Ve ifade katsayısı

),

Karşılık gelen ana bileşen sapmasını gösterir.

Mevcut 3B yeniden yapılandırma algoritmalarının çoğu, poz, yüz şekli ve ifade parametrelerini birlikte optimize eder ve bu üçünü ayıramaz. Poz, ifade ve yüz şekli arasındaki ilişkiyi ayırmak için MTlab verileri bir kişi içerir Aynı pozdaki farklı ifadeler ve aynı ifadedeki farklı pozların veri kümeleri, her kişinin yüz şeklini, pozunu ve ifade parametrelerini hesaplamak için Ortak Optimizasyon stratejisini kullanır. Ayrıştırılmış parametre verileri, yüzün mevcut poz bilgilerini gerçekten yansıtabilir Yüz bilgisi ve ifade bilgisi, uygulama senaryolarını büyük ölçüde zenginleştiriyor.

4. Sinir Ağı Eğitimi

İster tek görüntü yeniden yapılandırma, ister çoklu görüntü yeniden oluşturma veya video dizisi çerçeve yeniden oluşturma olsun, geleneksel 3B yüz yeniden yapılandırma algoritmalarının tümü, gerekli parametreleri dışbükey optimizasyon algoritmaları aracılığıyla optimize etmelidir.Algoritmanın mobil terminalde gerçek zamanlı olarak çalışmasını sağlamak için MTlab geliştiricileri derinliği kullanır Sinir ağı Uçtan Uca öğrenmeyi gerçekleştirir ve sinir ağının güçlü öğrenme yeteneği, dışbükey optimizasyon sürecindeki çok sayıda hesaplamanın yerini alır. Mevcut hızlı mobil ağların (SqueezeNet, Shufflenet V2, PeleeNet, MobilenetV2, IGCV3) özelliklerinin araştırılması ve analizi yoluyla, MTlab geliştiricileri, MTlab tarafından geliştirilen, mobil ağlar için uygun ve düşük güç tüketimi özelliklerine sahip bir ThunderNet önermişlerdir. Yapay zeka ileri motor ve model niceleme teknolojisi, Meitu T9'da çalışmanın kare hızı 500 fps'ye ulaşıyor. MT3DMM sinir ağı eğitiminin ana noktaları aşağıdaki gibidir:

MT3DMM genel süreç

Veri kazancı: Vahşi görüntülere uyum sağlamak için, algoritmanın düşük çözünürlüğe, gürültüye, tıkanmaya veya harekete ve farklı aydınlatma senaryolarına dayanıklı olması gerekir. MTlab, büyük miktarda veri kullanır ve simüle etmek için algoritma bozukluklarını kullanır Çeşitli gerçek ortamlarda verilerle eğitim.

Ağ yapısı: MTlab'ın kendi geliştirdiği, SqueezeNet, Shufflenet V2, PeleeNet, MobilenetV2, IGCV3 gibi hız ve doğrulukta aynı ölçekteki hızlı ağları geride bırakan ve düşük güç tüketimi sağlayan ThunderNet ağ yapısı kullanılır.

Kayıp işlevi: Kayıp, esas olarak Kayıp, KeyPoints Kaybı, 3D Köşe Kaybı ve Doku Kaybı parametrelerini kullanır ve bunları seri olarak bağlamak için karşılık gelen ağırlıkları kullanır, böylece ağ yakınsaması en iyi etkiyi elde eder. Deney, Loss parametresinin daha doğru parametre anlamsal bilgileri elde edebileceğini, KeyPoints Loss'un son yoğun yüz noktalarının yüzün yüz özelliklerine uymasını sağlayabildiğini, 3D Vertexes Loss'un kullanıcının yüzünün 3D geometrik bilgilerini daha iyi tutabildiğini ve Texture Loss'un Ağın daha iyi yakınsama etkileri elde etmesine yardımcı olun.

Son olarak, ağ çıktı parametrelerini aldıktan sonra MTlab, ilgili yüz 3D modelinin kodunu çözmek için MT3DMM modelini kullanır ve poz ve projeksiyon matrisine göre yoğun yüz noktaları elde edilebilir. Model parametreleştirildikten sonra, her noktanın karşılık gelen anlamsal bilgileri vardır ve görüntü, 3D model değiştirilerek düzenlenebilir. Meitu telefondaki ışık efekti kamerası, kişiselleştirilmiş güzellik dosyaları, 3D rötuş belleği, üç boyutlu güzellik geliştirme, 3D duruş ayarı, Uygulama sevimli hareket efektleri, makyaj kamerası Cadılar Bayramı makyajı, makyaj, Avatar sürücüsü ve diğer işlevlerin tümü bunu kullanır Öğe teknolojisi.

Referanslar

V. Blanz ve T. Vetter 3B yüzlerin sentezi için bir şekil değiştirebilir model Bilgisayar grafikleri ve etkileşimli teknikler üzerine 26. yıllık konferansın Bildiriler Kitabı, sayfa 187194, 1999.

Cao C, Weng Y, Zhou S ve diğerleri Facewarehouse: Görsel hesaplama için 3 boyutlu bir yüz ifadesi veritabanı.Görselleştirme ve Bilgisayar Grafikleri Üzerine IEEE İşlemleri, 2014, 20 (3): 413-425

Huber P, Hu G, Tena R, ve diğerleri.Çok çözümlü bir 3d morphable yüz modeli ve uygulama çerçevesi // 11. Uluslararası Bilgisayarlı Görü, Görüntüleme ve Bilgisayar Grafikleri Teorisi ve Uygulamaları Ortak Konferansı Bildirileri. 2016.

Booth J, Roussos A, Zafeiriou S, vd. 10.000 yüzden öğrenilen 3 boyutlu bir biçimlendirilebilir model // Bilgisayarla Görme ve Örüntü Tanıma IEEE Konferansı Bildirileri. 2016: 5543-5552.

Iandola F N, Han S, Moskewicz M W, ve diğerleri.SqueezeNet: AlexNet düzeyinde doğruluk, 50 kat daha az parametre ve

Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Verimli cnn mimari tasarımı için pratik yönergeler // Avrupa Bilgisayarlı Görü Konferansı (ECCV) Bildirileri. 2018: 116-131.

Wang R J, Li X, Ling C X. Pelee: Mobil cihazlarda gerçek zamanlı bir nesne algılama sistemi // Nöral Bilgi İşleme Sistemlerinde Gelişmeler. 2018: 1963-1972.

Sandler M, Howard A, Zhu M, vd.Mobilenetv2: Tersine çevrilmiş kalıntılar ve doğrusal darboğazlar // IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı Bildirileri.2018: 4510-4520.

Sun K, Li M, Liu D, ve diğerleri. Igcv3: Etkili derin sinir ağları için aralıklı düşük sıralı grup evrişimleri. ArXiv ön baskı arXiv: 1806.00178, 2018.

CVPR2019 | Uzamsal yapı bilgilerini koruyan bir yörünge tahmin yöntemi olan ajan tensör füzyonu
önceki
Eski Pekin'de doğdu, bu halk spor programlarını bilmelisin
Sonraki
Qiao Xin ayakkabılarını değiştirmekte haklıdır, güzel bacaklarını gösterebilir ve eteğinin güzelliğini gösterebilir.
ICLR 2019'daki en son ilerlemeyi bir bakışta öğrenin
Jinke hızla güneye gitti ve iki yıl içinde on oğul doğurdu! Guangzhou'da ilk
Sana nasıl pişirileceğini öğret, bu şefin tarifidir
Sidney, "Doğayı Aydınlat" ışık gösterisi düzenledi
Oğlan nehirde intihar eden kızı kurtardı ve öğrendi ... Netizenler: Diziler böyle davranmaya cesaret edemez
Güçlüler daha güçlüdür! Guangdong'daki en iyi 20 gayrimenkul kredibilite şirketinin son beş yılda ortalama varlık değeri neredeyse dört katına çıktı
Meyve endüstrisinde meyve suyunun kralı, çiftçiler ona nakit inek diyorlar, erkekler, kadınlar ve çocuklar onu seviyor
Perulu gönüllüler Dünya Okyanus Gününü kutlamak için plajları temizliyor
Yağlı ama yağlı olmayan domuz göbeği, sebzelerle sarılmış ve biraz sarımsak, lezzetlidir
Sadece daha çok çalışabiliriz
Bu teknolojiyi uygulayabilecek bir şirket varsa, büyük ihtimalle Amazon
To Top