GAN'ların yıldızı StarGAN: GAN'ın babası tarafından övülen birden fazla alanda görüntü dönüştürme gerçekleştirmek için tek bir model kullanın

Lei Feng.com'a göre: 2017, "GAN'lar yılı" olarak tanımlanabilir ve GAN'lara dayalı çeşitli modeller ve değişiklikler durmaksızın ortaya çıkmaktadır. Son zamanlarda, Güney Kore'deki Seul Üniversitesi'nden araştırmacılar, Naver ve diğer araştırmacılar "StarGAN: Çok Alanlı Görüntüden Görüntüye Çeviri için Birleşik Üretken Karşıt Ağlar" adlı bir makale yayınladılar. Lei Feng.com ve herkesten bu makaleye bir göz atalım.

Makalenin özeti: Son araştırmalar, iki alanda görüntü dönüştürme konusunda önemli bir başarı göstermiştir. Ancak, mevcut yöntemlerin, ikiden fazla etki alanıyla uğraşırken ölçeklenebilirlik ve sağlamlık açısından sınırlamaları vardır. Bunun nedeni, her bir görüntü alanı çifti için bağımsız olarak farklı modellerin oluşturulması gerektiğidir. . Bu sınırlamayı çözmek için yeni ve ölçeklenebilir bir yöntem olan StarGAN'ı önerdik, Birden çok alanın görüntüden görüntüye dönüştürmesini gerçekleştirmek için yalnızca bir model kullanabilirsiniz . StarGAN'ın birleşik bir model mimarisi, aynı anda tek bir ağda farklı etki alanlarına sahip birden fazla veri kümesini eğitmemize olanak tanır.Bu, StarGAN'ın mevcut modellerden daha yüksek kalitede görüntü dönüştürme sonuçlarıyla sonuçlanır ve girdi görüntülerini herhangi bir beklentiye dönüştürme esnekliğine sahiptir. Hedef etki alanında yeni yetenekler. Yöntemimizin yüz nitelik transferi ve yüz ifadesi sentezi görevleri üzerindeki etkinliğini deneysel olarak kanıtlıyoruz.

(Şekil 2: StarGAN birden fazla alanda görüntü dönüştürme gerçekleştirir)

Şekil 2, CelebA veri kümesindeki RaFD veri kümesinden öğrenilen bilgileri aktararak çok alanlı görüntüden görüntüye dönüşümün sonucunu göstermektedir. Birinci ve altıncı sütunlar girdi görüntülerini gösterirken, kalan sütunlar StarGAN tarafından oluşturulan görüntülerdir. (Görüntülerin tek bir jeneratör ağı tarafından oluşturulduğunu ve öfke, mutluluk ve korku gibi yüz ifadesi etiketlerinin CelebA'dan değil, RaFD'den geldiğini belirtmek gerekir.)

Görüntüden görüntüye dönüşümün görevi, belirli bir görüntünün belirli bir özelliğini, bir kişinin yüz ifadesini gülümsemeden kaşlarını çatmaya değiştirmek gibi başka bir özelliğe değiştirmektir (bkz.Şekil 2). Generative Adversarial Network'ün (GAN) piyasaya sürülmesinden sonra, bu görev daha da geliştirildi.Üretilen sonuçlar arasında saç renginin değiştirilmesi, kenar haritalamasından fotoğrafları yeniden oluşturma ve manzara görüntülerinin mevsimini değiştirme yer alıyor.

İki farklı alandan eğitim verileri verildiğinde, bu modeller görüntülerin bir alandan diğerine nasıl dönüştürüleceğini öğrenecek. Burada, bu görüntülerin saç rengi, cinsiyet veya yaş gibi doğal anlamını temsil etmek için terim özelliğini kullanıyoruz ve özellik değerini, örneğin saç rengi: siyah / altın / kahverengi veya cinsiyet: erkek gibi özelliğin belirli bir değeri olarak kullanıyoruz. /kadın. Ayrıca alanı, aynı öznitelik değerlerini paylaşan bir dizi resim olarak temsil ederiz. Örneğin, kadın resimleri bir alanı temsil ederken, erkek resimleri başka bir alanı temsil edebilir.

Bazı görüntü veri kümelerinde bazı etiket öznitelikleri bulunur. Örneğin, CelebA veri kümesi saç rengi, cinsiyet ve yaş gibi yüz öznitelikleriyle ilgili 40 etiket içerirken, RaFD veri kümesinde "mutlu" gibi 8 yüz ifadesi etiketi bulunur. , "Öfke", "Üzgün" vb. Bu ayar öznitelikleri, görüntüleri birden çok etki alanından özniteliklere göre dönüştüren çok etki alanlı görüntüden görüntüye dönüştürme dediğimiz daha ilginç görevleri gerçekleştirmemizi sağlar.Şekil 2'deki ilk beş sütun bir CelebA görüntüsünü gösterir. "Sarışın", "cinsiyet", "yaşlılık" ve "soluk ten" olmak üzere dört alana göre nasıl dönüşüm yapılır. CelebA ve RaFD görüntülerinin ortak eğitimi gibi farklı veri setlerinden birden çok alan eğitimini daha da genişletebiliriz.Şekil 2'deki en sağdaki sütun, CelebA görüntülerinin yüz ifadelerini değiştirmek için RaFD eğitim sürecinde öğrenilen özellikleri kullanır.

(Şekil 3: StarGAN ve Alanlar arası modeller arasındaki fark)

Bununla birlikte, mevcut model, bu çok alanlı görüntü dönüştürme görevinde verimsiz ve verimsizdir. Düşük verimlilikleri esas olarak k alanları arasındaki tüm eşleştirmeleri öğrenmektir ve k (k-1) üreteçlerinin eğitilmesi gerekir.Şekil 3'te gösterildiği gibi, sol taraf 4 farklı alanda görüntü dönüşümünün eğitim gerektirdiğini göstermektedir. 12 farklı jeneratör ve çok etkili değiller. Tüm etki alanlarındaki görüntülerden öğrenilebilen yüz şekli gibi küresel özellikler olsa bile, her bir oluşturucu tüm eğitim verilerini tam olarak kullanamaz, ancak yalnızca iki k etki alanından öğrenebilir, bu da daha da sınırlıdır. Oluşturulan görüntünün kalitesi. Ek olarak, her bir veri kümesi zaten kısmen etiketlendiğinden, farklı veri kümelerinden etki alanlarını birlikte eğitemezler.

Buna dayanarak, birden fazla alan arasındaki eşleştirmeyi öğrenebilen üretken bir yüzleşme ağı olan StarGAN'ı öneriyoruz. Yukarıdaki şeklin sağ tarafında gösterildiği gibi, modelimiz birden fazla alandan eğitim verilerini çıkarabilir ve yalnızca bir oluşturucu kullanarak mevcut tüm alanlar arasındaki eşlemeyi öğrenebilir. Fikir basit: Modelimiz, sabit bir dönüşümü (örneğin siyahtan sarıya) öğrenmek yerine girdi olarak görüntü ve alan bilgilerini alır ve giriş görüntüsünü esnek bir şekilde karşılık gelen alana dönüştürmeyi öğrenir. Etki alanı bilgilerini temsil etmek için etiketler (örneğin, ikili veya tek vektörler) kullanıyoruz. Eğitimde, rastgele bir hedef alan etiketi oluşturuyoruz ve modeli, giriş görüntüsünü esnek bir şekilde hedef alana dönüştürmek için eğitiyoruz. Bu şekilde, alan etiketini kontrol edebilir ve görüntüyü test aşamasında istenen herhangi bir alana dönüştürebiliriz.

Ayrıca, alan etiketine bir maske vektörü ekleyerek farklı veri kümelerinin etki alanları arasında ortak eğitim gerçekleştirebilen basit ve etkili bir yöntem öneriyoruz. Bu yöntem, modelin bilinmeyen etiketleri göz ardı etmesini ve belirli bir veri kümesi tarafından sağlanan etiketlere odaklanmasını sağlar. Bu şekilde modelimiz, RaFD'den öğrenilen özellikleri kullanarak CelebA görüntülerinin yüz ifadelerini sentezlemek gibi görevleri gerçekleştirebilir (Şekil 2'nin en sağdaki sütununda gösterildiği gibi). Bildiğimiz kadarıyla araştırmamız, farklı veri kümeleri üzerinde çok alanlı görüntü dönüşümünü başarıyla gerçekleştiren ilk araştırmadır.

Genel olarak katkılarımız aşağıdaki gibidir:

Birden fazla alan arasındaki eşlemeyi öğrenmek için yalnızca bir jeneratör ve bir ayırıcı kullanan ve her alanın görüntülerinden etkili bir şekilde eğitim alan yepyeni bir üretken yüzleşme ağı StarGAN'ı öneriyoruz;

Birden çok veri kümesi arasında çok alanlı görüntü dönüşümünü başarılı bir şekilde öğrenmek için maske vektör yönteminin (maske vektör yöntemi) nasıl kullanılacağını ve StarGAN'ın mevcut tüm etki alanı etiketlerini kontrol etmesini sağladık;

Yüz öznitelik dönüştürme ve yüz ifadesi sentezi görevlerini gerçekleştirmek ve sonuçları nitelik ve nicelik olarak analiz etmek için StarGAN'ı kullanıyoruz ve sonuçlar bunun temel modelden daha iyi olduğunu gösteriyor.

.

Yanıt: Ian GoodFellow tarafından beğenildi, netizenler tarafından hararetle tartışıldı

Beklendiği gibi, bu makale GAN'ın savunucusu Ian Goodfellow tarafından tweetlendi ve beğenildi ve StarGAN'ın Birden çok alan Çin'de dönüştürmek için denetimsiz öğrenme yöntemlerini kullanmanın sonuçları (önceki araştırmalar İki alan Dönüştürmek).

Reddit'in Makine Öğrenimi bölümünde, bu makale de hararetli bir tartışmaya neden oldu ve Reddit endeksi bine yakın. Leifeng.com, bu makaleyle ilgili birkaç yorumu şu şekilde çıkarmıştır:

@ReginaldIII:

Harika araştırma. Şaşırtıcı bir şekilde, ilgili çalışmalarda herhangi bir Google sinirsel dönüştürme belgesine atıfta bulunmadı. Birden fazla jeneratör modelini ortak bir alana kodlama ve tüm set üzerinde eğitim fikri yeni değil. GAN uygulaması çok iyi sonuçlar verse de.

@ajinkyablaze:

Karakterinizin çirkin bir avatarının olduğu video oyunları için iyi bir şey.

@Reiinakano bu yoruma yanıt verdi:

Dürüst olmak gerekirse, bu devam ediyor ve şunu söylemeye cüret ediyorum, Obama şakası üretmenin çok net bir yolu var. Video.

@bigassholeredditor:

Bu harika görünüyor. Önceden eğitilmiş bir modeliniz var mı?

İlk yazar @Yunjey şu cevabı verdi:

Önceden eğitilmiş modeli yakında yükleyeceğiz.

Bu nedenle, "Bir ay içinde bildirim isteği" tarafından aşağıdakiler kaydırıldı.

@abhik_singla:

Bunun Pix2Pix yönteminden farkı nedir?

@ProgrammerChilli cevapladı:

Gazetede bahsedildi. Basitçe söylemek gerekirse, Pix2pix, bir alandan diğerine herhangi bir dönüşümün açık bir şekilde öğrenilmesini gerektirir. StarGAN, bir seferde birkaç alanı öğrenebilir ve herhangi bir alandan diğerine geçebilir. Bence, Bu yüzden "STAR" olarak adlandırılıyor, değil mi?

Xiaomi, ölçülen Mijia araba hava temizleyici kasap için başka bir fiyat sunuyor
önceki
"X-Men: Black Phoenix" nihai savaşı karşılamak için 20 yıllık bir efsaneyi tanıtacağını doğruladı
Sonraki
BenQ'nun da bir moda stili var Mobil akıllı iş projektörü Özledim taşınabilir bir görev olabilir mi?
Büyük darbe! YEEZY ve JORDAN 11 fiyat trendi, daha zor ayakkabı pazarı kim?
Tüm ailenin ihtiyaçlarını karşılayın
Neden Buick S dönüşü sürüş kontrolünün bir aktivite değil, bir araba kültürü olduğu söyleniyor?
12 uzman, tehdit istihbaratının yeni teknolojileri ve gelişme eğilimlerini yorumluyor Ağ Güvenliği Analizi ve İstihbarat Konferansı
Ağ diskinin kaybolmasıyla nasıl başa çıkılır? ORICO ürünleri size yardımcı olur
Noon Star News Wang Xiaoshuainin yeni filmi, başrolünde Chongqingli Wang Yuanın oynadığı Berlin Film Festivaline aday gösterildi; milli futbol takımının bu gece başlaması bekleniyor: 433 Zheng
"Kingdom Hearts 3" X018 Fragmanı: "Winnie the Pooh" Dünyası
Marka değerlerini yıkma niyeti Ke Luoke yeni orta sınıfı tamamen ele geçirebilir mi?
"En İyi Oyuncu" ilk gün güçlü bir itibara sahip, Douban 20.000'den fazla kişi puan alıyor ve 9,2 gökyüzünü koruyor
Ekran her zaman açık ve üç hafta sürer. Bunu görmek için akıllı saat nasıl alınır
Çözüm envanteri Güvenlik önlemleri yerinde, bilgisayar korsanlarıyla ne yapabilirsiniz?
To Top