"Akademik Rapor" Alibaba Zhang Gang: Generative Confrontation Network ve Face Attribute Editor

Ağustos ve Nisan 2018'de, Pekin Teknoloji Enstitüsü Büyük Veri İnovasyon Öğrenme Merkezi ve Çin Bilimler Akademisi Yapay Zeka İttifak Standartları Grubu'nun ortak sponsorluğunu yaptığı "2018 Derin Güçlendirme Öğrenimi: Teori ve Uygulama" akademik semineri, akademik topluluk ve sektörün en iyi uzmanları paylaşmak için bir araya geldi Derin pekiştirmeli öğrenme alanında araştırma sonuçları.

Üretken yüzleşme ağı ve yüz nitelik düzenleme

Zhang Gang Alibaba Dharma Akademisi-AI Laboratuvarı

Temmuz 2018'de mezun olduktan sonra Alibaba'da çalıştım. Asıl yönüm sürücüsüz sürüş.Ardından, çalışmamı dört yönden yüz nitelik düzenlemesine tanıtacağım.

Önce araştırmanın arka planını ve önemini tanıtın. Yüz öznitelik düzenlemesi, yüz resminin özniteliklerini değiştirirken, aynı zamanda yüz kimliği bilgisinin ve öznitelikten bağımsız alanların değişmezliğini sağlamaktır. Örneğin resimde görüldüğü gibi karakterler için gözlükleri çıkarmalıyız ve diğer yerleri korumalıyız.Sonra sadece gözle ilgili alanlara odaklanmalıyız.Arka plan, alın ve ağız dahil diğer alanlar bozulmadan korunmalıdır. Bu araştırmanın uygulaması ilk olarak beyazlatma, yaş azaltma, gülümsemeler gibi eğlence ve sosyal alanlarda, diğeri ise yüz tanıma alanında yüz veri tabanının artırılması, işimin bir kısmı da insanları tedavi etmek için GAN kullanmak. Yüz veritabanı genişletilir ve son olarak yüz tanımanın doğruluğunda bir artış sağlanır.

Birçok kişi bu çalışmanın çok basit olduğunu düşünüyor, yüz niteliklerinin düzenlenmesi, neden FCN ağ eğitimini kullanmıyorsunuz? Gerçekte sorun, çift etiketli resimlerin olmamasıdır, bu nedenle denetimli öğrenme yöntemleri doğrudan kullanılamaz. Üretken yüzleşme ağı 2014 yılında önerildi. Özü, bir ayırıcı ve bir jeneratörden oluşan bir çerçevedir.Ayrıcı, oluşturulan görüntüyü gerçek görüntüden ayırmak ve oluşturucu, ayrımcıyı kandırmak için sahte ve gerçek görüntüler üretmeye çalışmaktır. Son olarak, jeneratör tarafından üretilen resim ayırıcı artık son denge noktasına ulaşan doğru mu yoksa üretilmiş mi olduğunu ayırt edemez.

Daha sonra, ilgili alanlardaki araştırma ilerlemesini tanıtacağım. İlgili çalışmalarımızdan biri AcGAN, çünkü GAN'ın amacı çok gerçek fotoğraflar oluşturmak, ancak ne tür resimler üretildiğini bilmiyorum. AcGAN bunu kontrol etmek için bir Etiket kullanıyor. Ne tür bir resim oluşturuldu. Jeneratörün girişi Etiket C'dir. Ayırıcı D aynı anda iki görevi yerine getirir: biri doğru ve yanlışın sınıflandırılması, diğeri etiket C'nin sınıflandırılmasıdır. Son denge, jeneratörün C tarafından kontrol edilen çok gerçek bir şey üretebilmesidir. görüntü. Yüz öznitelik düzenlemesi için GAN'ı kullanmanın en eski yöntemi, 2016'da önerilen IcGAN'dır. Eğitim, esas olarak iki aşamaya bölünmüştür: Bir aşama, bir cGAN'ı öznitelik C ve gürültü Z yoluyla eğitmektir, ancak bu sefer yalnızca gürültü Z; amacımız Resmi ve kontrol vektörünü girin ve ardından kontrol vektörü tarafından kontrol edilen yüz resmini çıkarın.

Diğer aşama, resmi kodlayıcı aracılığıyla Z'ye kodlamaktır, çünkü ilk aşama Z'yi resme geçirmektir ve ikinci aşama, onu tersine çevirmek ve yüz resmi üzerinden Z'ye geri dönmektir. Görünüşe göre bu iş çok Çalışma ... Aslında bu işin en büyük dezavantajı yüzün kimlik bilgilerini saklayamamasıdır. CycleGAN, iyi bilinen başka bir çalışmadır.Genel bir Eşleştirilmemiş Görüntüden Görüntüye Çeviri çalışması gerçekleştirmiştir. Kilit nokta, görüntü içeriğinin tutarlılığını sağlamak ve görüntü içeriği bilgisinin kaybolmaması için bir yeniden yapılandırma kaybı işlevi sunmaktır.

Öte yandan, gözlüksüz yüz resminin gözlükle yüz resmine dönüştürülmesini sağlayan çekişmeli kayıp işlevi vardır ve ardından başka bir alana çevrilmesini garanti altına almak için ters kayıp işlevi kullanılır. CycleGAN'ın bir dezavantajı, öznitelikten bağımsız bölgelerin değişmezliğini garanti edememesidir. Yeniden yapılandırma kaybı işlevi olsa bile, deneysel sonuçlar gözlükler dışındaki her şeyin değiştirilmemesini sağlamayı zor bulacaktır.

StarGAN, CycleGAN'ın biraz ilerisindedir. CycleGAN, iki etki alanı arasında bir dönüşüm yapar, yani çok öznitelikli düzenleme için her özniteliğin bir GAN ile eğitilmesi gerekir. StarGAN, tüm öznitelik düzenlemesini şu şekilde sıkıştırdığı için daha etkilidir: Bir ağda, girdi CycleGAN'dan farklıdır.Sadece bir yüz resmi değil, aynı zamanda C öznitelik kontrolüdür. Ayırıcı D aynı anda iki görevi yerine getirir: biri doğru ve yanlış sınıflandırmadır, diğeri ise öznitelik C sınıflandırmasıdır. Bu yüzleşme şeklinde, jeneratör nihayet yüz özelliği C tarafından kontrol edilen bir resim oluşturabilir.

Sonra ResGAN var.Orijinal oluşturucu doğrudan yüz görüntülerini oluşturuyor ve bunları orijinal görüntünün üzerine yerleştiriyor.Aslında bu görüntü bizim kendi sonucumuzdur, ancak bu yöntemin etkisi nispeten zayıftır.O zaman daha iyi bir yön önerildi. Yani, görüntü düzenleme veya yüz niteliği düzenleme yaparken, niteliklere atfedilmeyen alanların değiştirilmediğinden emin olmalısınız. Daha sonra önereceğimiz yöntem, nitelikten bağımsız alanların değiştirilmemesini sağlarken, önceki araştırmaya da dayanmaktadır.

Yukarıda bahsedilen problemleri çözmek için, çoğunlukla görüntü sınıflandırma ve bölümlemede kullanılan bir uzamsal dikkat mekanizması sunuyoruz. Dikkat ağını GAN'a ekledik ve SaGAN'ı önerdik Şekilde gösterildiği gibi, Jeneratörümüz temelde iki bölümden oluşan G ağıdır: uzamsal dikkat ağı (SAN) ve öznitelik düzenleme ağı (AMN). AMN, önceki CycleGAN ve StarGAN ağlarına benzer şekilde, yalnızca nitelikleri düzenlemekten sorumludur. Uzamsal dikkat ağı, esas olarak hangi alanların değiştirilmesi ve hangi alanların ihmal edilmesi gerektiğine odaklanır. Formüldeki maske, dikkat ağını oluşturmak içindir.Sadece gözlüklere odaklanabilir ve sonra bu parçayı çıkarabilir ve yukarıdakiyle bir nokta çarpımı yapabilir ve kalan değiştirilmemiş parçalar doğrudan orijinal görüntüden alınır ve birbirine eklenir. Oluşturulan son resimdir.

SaGAN ağımız esas olarak iki görevi yerine getirir: biri doğru ve yanlış sınıflandırmadır, diğeri nitelik sınıflandırmasıdır; etkinliği göz önünde bulundurarak, Dikkat Bölgesi gözlük ve gözlüklerde aynıdır, ayrıca iki karşılıklı özellik oluşturduk, Biri gözlük takan ağ, biri gözlüğe giden ağ, biri gülümseme ağı, diğeri gülümsemeye izin vermeyen, aynı alana yansıyabilen ağ.

Öznitelikle ilgili alan burada bulunur Öznitelik düzenleme ağı yalnızca öznitelikleri düzenlemekten sorumludur ve son olarak oluşturucumuzun formülü elde edilir. Tüm deney aynı zamanda daha iyi bilinen CycleGAN, StarGAN ve ResGAN ile karşılaştırılır.Gözler, ağız, burun ve sakal ağırlıklı olarak seçilir.Bunun yüz tanıma üzerinde nispeten büyük bir etkisi vardır.Çalışmamız ayrıca yüz tanıma içindir. Sonuçların değerlendirilmesi görsel efektlere ve nitelik sınıflandırmasının doğruluğuna dayanmaktadır.Bunlardan ikisi tarafımızca önerilmiştir, biri MAE ve diğeri yüz tanıma oranıdır.Bu iki gösterge daha sonra ayrıntılı olarak tanıtılacaktır.

Yöntemimizin etkinliğini test etmek için, uzamsal dikkat ağının neler öğrenebileceğini ve nihai etkiyi görmek için CelebA ve LFW veri kümeleri üzerinde test ediyoruz. İlk satır, gözlüklerin düzenlenmesi, biri gözlüğü çıkarmak, diğeri gözlük takmaktır.Maske, mekansal dikkat ağının ağırlık haritası çıktısıdır.İlgili alanın tepkisi özellikle yüksektir.Ağız aynı zamanda Dikkat ağzı ile ilgili alandır. Son gülümseme tüm yüze ulaşabilir çünkü gülüşün mekanizması daha karmaşıktır ve tüm yüz hareket edebilir.

Bazı kişiler, ek verilere açıklama ekleyip eklemediğimizden veya maske ağını eğitip eğitmediğimizden şüphe ediyor. Yöntemimiz, açıklamalı veri seti olmadan zayıf denetime benzer bir şekilde etkilidir. Her yüzün yanındaki siyah resim, düzenlenen resim ile giriş resmi arasındaki mutlak farktır Görsel efekt, ilgisiz alanın değiştirilip değiştirilmediğini gösterir. Yöntemimiz sadece iyi görsel efektlere sahip olmakla kalmaz, aynı zamanda sadece gözlükle ilgili parçaları değiştirir.

O zaman ağzı açıp kapatarak güzel bir görsel efekt var. Sakal yapmak aslında cinsiyetle ilgili olduğu için daha zor. Veri setinde sakallı kızların resimleri bulunmadığından, kadınların sakallarını erkeklere dönüştürmek ve sonra erkek sakallarını erkeklere dönüştürmek kolaydır. kadın. İster kadına sakal eklesin ister bir erkeğe sakal çıkartsın, cinsiyet değiştirilmemelidir bu durumda dikkat ağı daha çok iştir yani sadece sakal ile ilgili alana odaklanır, diğer alanları değiştirmez. Gülümsemenin özelliği, yüzün çok fazla yer alması ve sonuçlarımızın diğer yöntemlerden daha iyi görünmesidir. Bunlar sadece görsel efektlerdir, daha sonra gerçek nicel göstergeler olacaktır.

Öznitelikten bağımsız alan nasıl tanımlanır? Bu aynı zamanda gözlük ve kel kafanın özelliklerini tanımlayan kendi tanımımızdır.İlgili olmayan alanı yüzün alt yarısı olarak tanımlıyoruz, çünkü gözlük takmak veya gözlüğü çıkarmak, kel kafa sadece yüzün üst yarısında. Ağzı açma, sakal ve gülüş daha çok yüzün alt yarısına odaklanır, ilgisiz alanımız yüzün üst yarısına gelir ve ardından alakasız alana MAE yapılır ve dört yöntem karşılaştırılır. Bu indeks olabildiğince küçüktür Sonuçlar aşağıdaki tabloda gösterildiği gibidir ve bu, diğer üç yöntemden tamamen daha iyidir.

Öznitelik sınıflandırmasında iki nokta vardır: hedef öznitelik değiştirilmelidir ve kalan öznitelikler değiştirilemez. Beş yöntemi karşılaştırdık: Son yöntem, gerçek resimlerle karşılaştırılması gereken gerçek resimlerdir. Sadece gözler, gülümsemeler ve yaş için hedef nitelikleri seçtik, yani etkimiz sınıflandırma kaybından en iyisidir ve aynı zamanda gerçek resme en yakın olanıdır. Aslında, gerçek resimlerle pek iyi durumda değiliz çünkü bazı nitelik sınıflandırmalarının doğruluğu özellikle yüksek değil, sadece% 90'dan fazla.

Son şey yüz tanıma oranını iyileştirmektir. Diğer birkaç yöntemle karşılaştırırız. Eğitmen 8.000'den fazla kişiden oluşan bir eğitim setidir. Bu aynı zamanda bizim bölümümüzdür. Test seti kalan kişilerdir. Şekildeki kırmızı düz çizgi Önerdiğimiz yöntemi temsil eder. Noktalı çizgi Baseline'dır ve diğer renkler StarGAN ve ResGAN'dır.Yöntemimiz de öncekinden çok daha iyi, bu da yöntemimizin yüz tanıma oranını iyileştirebileceğini kanıtlıyor. Yüz veri tabanını SaGAN aracılığıyla büyütmek için bir yöntem öneren ilk biziz, bu aynı zamanda iyi bir uygulama noktasıdır.

Son olarak, ileriye baktığımızda, çalışmamızın ana katkısı, Dikkat mekanizması aracılığıyla özniteliklerle ilgisi olmayan alanların sağlanmasıdır.Bu yöntem sadece yüz özniteliklerine değil, aynı zamanda genel öznitelik düzenlemesine de uygulanabilir. Şu anda genişletilmiş çalışmamız, görüntü tamamlama için Dikkat kullanmaktır Şimdi bunu yapmak için esas olarak GAN kullanıyoruz. Dikkat ağı kullanırsak, doğrudan tıkalı alana uygulanabilir ve ardından doğrudan tıkalı alanı tamamlayabilir mi? herşey.

Ek olarak, yöntemimiz yüz tanıma oranını etkili bir şekilde iyileştirdi.Bazı on milyonlarca veri setinde, yalnızca gözlüklerin nitelikleri artırıldı ve sonuçlar, bir veya iki nokta kadar iyileştirilebileceğini gösteriyor. Bizim yöntemimizin de bazı eksiklikleri var: Birincisi, yöntemimiz çeşitliliğe dokunamıyor, çeşitlilik, örneğin aynı kişiye farklı gözlükler takmaya yansıyor ve sadece rastgele bir kişiye gözlük takabiliyoruz.

Başka bir çok özellikli yapılamaz Daha önce çok özellikli yüz düzenlemeyi yöntemimize entegre etmeye çalıştım, ancak son deneysel etki nispeten zayıftı çünkü birden çok özniteliğin yerleştirilmesi çok öznitelikli dikkat gerektirir. İnsan düzenleme sürecini takip edebiliriz. İnsanlar resimleri düzenlerken kasıtlı bir mekanizma kullanırlar. Bir kez değiştirip nasıl çalıştığını görün. Efekt iyi değilse, tekrar değiştirin. Sıralı modifikasyonla, iş genişlememiz gelecekte bu yönde ilerleyebilir.

Tam PPT'yi alın, lütfen yanıtlayın: akademik rapor

Katkıda Bulunan: Zhang Ji

Harika akademik raporun arkasında bir grup olağanüstü akademik yetenek var. Akademisyenlerin "olağanüstü" olması, yoksulluğa ve yalnızlığa dayanabilmeleri gerektiği söyleniyor Aslında ... Xinjun şunu söylemek istiyor: Buna gerek yok! Örneğin, 2018 Baidu Bursuna hemen başvurun - evet, Baidu, AI becerisine sahip her "potansiyel hisse senedi" akademik eliti için geniş platform kaynakları ve geliştirme alanı sağlar ve seçkin öğrencilere yardımcı olmak için 200.000 araştırma fonu desteği sağlar. Kalp bilimsel araştırmaya adanmıştır ve kalp bilimsel araştırmaya adanmıştır.

Ne bekliyorsun, sen, geleceğin akademik yıldızı, acele et ve kayıt için başvur!

Yeniden yazdırmanız gerekirse, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun.

Haval F7 ile başladıktan sonra, araba deneyimim hakkında konuşun
önceki
Bugünün temel sesi Sen benim gözümsin, beni kalabalık kalabalığın içinden geçir ~
Sonraki
Yakıt verimliliği / güç iyileştirme Jeep Guide 1.3T modeli piyasaya sürüldü, 155.8-22.98 milyon satışta
BAIC Voleybol Kulübü Yıllık Takdir Konferansı Pekin'de Düzenlendi Xu Heyi: Kulübün Gelişimini Tam Olarak Destekleyin
Luo Yonghao, çekiç yeni ürün lansmanında neyi bozdu?
Daha fazla kullanıcının ihtiyaçlarını karşılamak için Jiangxi Isuzu'nun yeni Lingtuo iç görüntüsü ortaya çıktı
Alibaba Hong Jiapeng: Ağa ve gizli katman öznitelik değişimine karşı yüz özniteliği geçişinin oluşturulması
Devralmak mı yoksa devrim mi? Sony elektronik mürekkep ekranını çekti!
Venucia'nın üç EV modelinin resmi planları olan yeni "Deep V" tasarım dili, Şangay Otomobil Fuarı'nda tanıtıldı.
"BDIC Özel Ödül Ekibi Raporu" Büyük Veri ve Yapay Zeka Yaratıcılık Yarışması Vitrini (Bölüm 1)
İşi düzgün yapmamak! Microsoft bir selfie uygulaması başlattı
Lenovo Z5 gerçek makine görünümü resmi yayınlandı, patlama yok + süper yüksek ekran oranı
"Akademik Rapor" Alibaba Jin Junqi: Görüntülü Reklamcılık için Gerçek Zamanlı Teklif Vermede Takviye Öğrenmenin Uygulanması
Karry Motors, Ruiyoujin T70L / T72L Dora Run'ı başlatacak
To Top