Etkisi gökyüzüne karşı, Google'ın en son BEGAN'ı bilgisayarda oluşturulan görüntülerin kalite kaydını yeniliyor

Xinzhiyuan Derlemesi

İlk önce bir resme bakın:

Aşağıdaki resmin sol ve sağ ucundaki iki sütun gerçek görüntülerdir ve geri kalanı bilgisayarda oluşturulmuştur.

Geçiş doğal ve etki şaşırtıcı.

Bu, Google tarafından bu hafta arXiv'de yayınlanan "BEGAN: Boundary Equilibrium Generative Confrontation Network" makalesinin sonucudur. Bu çalışma, GAN eğitiminde zorluk, üretilen örneklerin çeşitliliğini kontrol etmede zorluk ve ayırıcı ve jeneratör yakınsamasını dengelemede zorluk gibi problemlerde iyileştirmeler önermektedir.

Yazarın çok basit bir yapı kullanması ve düzenli eğitimden sonra mükemmel görsel efektler elde etmesi özellikle dikkat çekicidir.

Yazarlar makaleye ana katkılarının şunlar olduğunu yazdı:

  • Hızlı ve istikrarlı yakınsama sağlamak için standart eğitim prosedürlerini kullanan basit ve sağlam bir GAN mimarisi

  • Ayırıcı ve oluşturucuyu dengelemek için kullanılan bir eşitleme kavramı (ayrımcı genellikle eğitimin başlarında jeneratörü etkisiz hale getirir)

  • Görüntü çeşitliliği ve görsel kalite arasındaki değiş tokuşu kontrol etmek için yeni bir yöntem

  • Yakınsamayı tahmin etmek için kullanılan bir yöntem. Bildiğimiz kadarıyla, bu türden yalnızca bir başka yöntem yayınlandı ve bu da Wasserstein GAN (WGAN)

GAN'ın yapısal özellikleri ve teorik avantajları

BEGAN'ı tanıtmadan önce, GAN ve EBGAN'ı (Engry Tabanlı GAN, enerji tabanlı GAN) gözden geçirmek gerekir. BEGAN'ın temelidir.

Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Akıllı Bilgi İşlem Anahtar Laboratuvarı'nda yardımcı doçent olan Yang Shuang, "Derin Öğrenme Forumu" nda yayınlanan "GAN'ın Yorumlanması ve 2016 Yıllık İlerlemesi" adlı makalesinde iyi bir giriş yaptı. Yetki aldıktan sonra, GAN ve EBGAN'ı tanıtan ilgili kısımları aktardık.

İlki, temel GAN modelidir.

"Orijinal GAN modelinin temel çerçevesi yukarıdaki şekilde gösterilmektedir. Temel amacı, ayırıcı D ve yardımcı jeneratör G tarafından gerçek veri dağılımı ile tutarlı sözde veriler oluşturmaktır. Modelin girişi rastgele gürültü sinyali z'dir; gürültü sinyali tarafından üretilir Cihaz G, üretilen verileri G (z) elde etmek için yeni bir veri alanına eşlenir; daha sonra, ayırıcı D, gerçek veri x'in girdisine ve üretilen G (z) verisine göre bir olasılık değeri veya bir standart verir. Değer, Gnin üretilen verilerinin performansını değerlendirmek için, Dnin girdinin gerçek veri mi yoksa üretilen veri mi olduğuna dair güvenini temsil eder; nihayet D, gerçek veri x ve üretilen G (z) verileri arasında ayrım yapamadığında, oluşturucu dikkate alınır G optimaldir.

"D'nin ikisini ayırt edebilmesi için amacı, D (x) ve D (G (z)) 'yi mümkün olduğunca zıt yönlerde çalıştırarak, ikisi arasındaki farkı arttırmak, örneğin D (x)' i mümkün olduğu kadar büyük yapmak ve D'yi yapmaktır. (G (z)) olabildiğince küçüktür ve G'nin amacı, D D (G (z)) üzerinde kendisi tarafından üretilen verilerin performansının, gerçek D (x) verilerinin performansıyla mümkün olduğunca tutarlı olmasını sağlamaktır, böylece D, üretilen veriler ve Gerçek veri Bu nedenle, bu iki modülün optimizasyon süreci bir rekabet ve yüzleşme sürecidir.D (G (z)) ve gerçek veri D (x) 'in nihai performansına kadar iki modülün performansı yinelemeli süreçte sürekli iyileştirilir. Tutarlı, şu anda ne G ne de D daha fazla optimize edilemez. "

Yang Shuang, yüzleşme eğitimi için bir çerçeve sağlamanın yanı sıra, GAN'ın bir başka önemli katkısının da yakınsamasının teorik kanıtı olduğunu söyledi.

Yazar, GAN'ın optimizasyon sürecini ayrıştırarak, matematiksel türetmeden titizlikle kanıtladı: G ve D'nin yeterli kapasiteye sahip olduğu varsayımı altında, eğer yinelemeli sürecin her adımında D, verilen mevcut zamana ulaşabilirse. G optimal değerdir ve G bundan sonra güncellenir, sonra sonunda Pg kesinlikle Pdata'ya yakınlaşacaktır.Ayrıca yukarıdaki teoriye dayanmaktadır ki, orijinal makalede D'nin her yinelemede belirli bir akım G'nin altında olmasını sağlamaya öncelik verilmiştir. Optimuma ulaşın ve ardından G'yi optimuma güncelleyin ve bu şekilde tekrarlı olarak eğitimi tamamlayın. Bu kanıt, GAN'ın sonraki gelişimi için sağlam bir temel oluşturmuştur, böylece yalnızca kapsamlı ve derin olmayan diğer birçok derin model gibi uygulanmaz. Geliştirin. "

Ayrımcı: Enerji tabanlı GAN'dan öğrenme

Yang Shuang, "GAN'ın Yorumlanması ve 2016 Yıllık İlerlemesi" nde GAN modelinin teorik çerçeve düzeyindeki iyileştirme çalışmalarının temel olarak iki kategoriye ayrıldığını tanıttı: biri üçüncü bir tarafın bakış açısından (GAN modelinin kendisinden değil). İyileştirme ve genişletme yöntemleri; ikinci kategori, GAN modeli çerçevesinin kararlılığı ve uygulanabilirliği açısından modelin kendisini geliştirmektir.

Bunlar arasında, "EBGAN, Yann LeCun'un araştırma grubu tarafından GAN'ı enerji modeli perspektifinden genişleten ICLR2017'ye sunulan bir çalışmadır. EBGAN, ayırıcıyı gerçek veri alanına yakın bölgedeki enerji olan bir enerji işlevi olarak görür. Değer görece küçük olacak ve diğer bölgeler (yani gerçek olmayan veri alanı bölgeleri) daha yüksek enerji değerlerine sahip olacaktır Bu nedenle EBGAN, GAN'a bir enerji modeli açıklaması verir, yani jeneratör en küçük enerjiye sahip örnekler üretmeyi hedefler. Ayırıcı, üretilen bu örneklere daha yüksek enerji vermeyi amaçlamaktadır.

"Ayırıcıya ve GAN'a enerji modeli perspektifinden bakmanın avantajı, GAN yapısını eğitmek için daha fazla ve daha geniş yapıları ve kayıp işlevlerini kullanabilmemizdir. Örneğin, makalede ayırıcı olarak otomatik kodlayıcı (AE) yapısı kullanılmıştır. Genel GAN çerçevesi aşağıdaki şekilde gösterilmektedir:

Eğitim süreci boyunca EBGAN, GAN'dan daha istikrarlı bir performans gösterdi ve ayrıca aşağıdaki şekilde gösterildiği gibi daha net görüntüler üretti.

Jeneratör: Wasserstein GAN'dan ödünç alma

Google tarafından bu yeni makalede önerilen BEGAN (Sınır Dengesi GAN), mimaride EBGAN'a çok benzeyen ayırıcı olarak AE'yi kullanıyor.

Üreteçler açısından BEGAN, kaybı tanımlamak için Wasserstein GAN fikrinden yararlanıyor. Yazar makalede, "Yöntemimiz, kendi kendini kodlayan kayıp dağılımıyla eşleşmek için Wasserstein mesafesinden elde edilen kaybı kullanır."

WGAN makalesi bu yılın başında yayınlandığında, sektörde hararetli tartışmalara da neden oldu. O sırada Xin Zhiyuan, Zheng Huabin tarafından Zhihu sütununda yayınlanan "Şaşırtıcı Wasserstein GAN, GAN eğitim dengesizliği sorununu tamamen çözdü" başlıklı makaleyi yeniden basmıştı.

WGAN'da, ayırıcının yaklaşık Wasserstein mesafesi, aşağıda gösterildiği gibi, jeneratörün oluşturulan görüntüsünün kalitesiyle oldukça ilişkilidir:

Veri dağıtımıyla doğrudan eşleşen geleneksel GAN ile karşılaştırıldığında EBGAN, kaybı ayırıcının yeniden yapılandırma hatasına dayandırmak için yeni bir yöntem kullanır. Yazar, oluşturucu ve ayırıcıyı birbiriyle dengelemek için ek bir eşitleme koşulu kullanır. Yazar, yöntemlerinin eğitilmesinin daha uygun olduğunu ve mimarinin geleneksel GAN tekniklerinden daha basit olduğunu belirtti.

EBGAN: Basit model, harika sonuçlar

Tanıttığımız BAŞLANGIÇ'a geri dönersek, BEGAN'ın mimarisi çok basittir.Neredeyse hepsi 3x3 evrişim, alt-örnekleme veya bırakma olmadan, toplu normalleştirme veya rastgele varyasyon yaklaşımıdır.

Ayırıcı, L1 kaybına sahip bir otomatik kodlayıcıdır.Jeneratör her resim oluşturduğunda, resim ayırıcı, kayıp küçük olduğunda kendi kendini kodlayabilir ve jeneratör kazanır. Ayrıştırıcının başarısının koşulları conditions gerçek görüntüyü kendi kendine iyi kodlamak ve oluşturulan görüntüyü zayıf bir şekilde tanımaktır.

Bu makalenin bir başka katkısı da, üretilen numunelerin çeşitliliğini ölçen bir hiperparametre önermektir: üretilen numunelerin beklenen kaybının gerçek numunelerin beklenen kaybına oranı. Bu hiperparametre D ve G'yi dengeleyebilir ve böylece eğitim sürecini stabilize edebilir. Jeneratör çok iyi performans gösteriyorsa, ayırıcıya odaklanın.

Sadece bu değil, bu hiperparametre , sonuçta görüntünün kalitesine karşılık gelen yakınsamayı değerlendirmek için ölçülebilir bir indeks sağlar.

Özet

Eğitim (Denge) sırasında jeneratör ve ayırıcının eşitlenmesini desteklemek için yeni bir yöntem ve eşleşen bir kayıp öneriyoruz Bu kayıp, otomatik kodlayıcıya dayanan Wasserstein mesafesinden elde edilir. Generative Adversarial Network (GAN) tarafından kullanılır. Ek olarak, bu yeni yöntem aynı zamanda yeni bir yaklaşık yakınsama yöntemi sağlar, hızlı ve istikrarlı eğitim ve yüksek görsel kalite sağlar. Ayrıca, görüntü çeşitliliği ve görsel kalite arasındaki değiş tokuşu kontrol edebilecek bir yöntem geliştirdik. Makalede, görüntü oluşturma görevlerine odaklandık ve daha yüksek çözünürlüklerde görsel kalitede yeni bir kilometre taşı oluşturduk. Bunların tümü, nispeten basit model mimarisi ve standart eğitim prosedürleri kullanılarak elde edilir.

Test sonucu: Yukarıdakiler, enerji bazlı GAN (EBGAN) ve sınır eşitleme GAN (BEGAN) arasındaki bir karşılaştırmadır, ikincisi önemli ölçüde iyileştirilmiştir; aşağıda farklı hiperparametre değerlerinin bir karşılaştırması gösterilmektedir ve değeri ne kadar büyükse resim kalitesi de görülebilir. Daha yüksek.

Referans

  • Yang Shuang, [Young Scholars Column] GAN'ın yorumlanması ve 2016 yıllık ilerlemesi, derin öğrenme konferans salonu

  • Muhteşem Wasserstein GAN'ı Zheng Huabin sütunu biliyor

  • 27 Mart'ta Xinzhiyuan Açık Kaynak Ekolojik Yapay Zeka Teknolojisi Zirvesi ve Xinzhiyuan 2017 Girişimcilik Yarışması Ödül Töreni görkemli bir şekilde düzenlendi. "BAT" dahil olmak üzere Çin'in ana akım AI şirketleri ve 600'den fazla sektör eliti 2017 Çin'e ortak katkıda bulunmak için bir araya geldi Yapay zekanın gelişimi güçlü bir darbe aldı.

    Orijinal metni okumak ve konferans kaydının metin versiyonunu görmek için tıklayın

    100 günlük iş, 0 ila 10 milyar çevrimdışı trafik, neyi doğru yaptık?
    önceki
    Dünyanın dört bir yanındaki 20 şehirdeki emlak piyasası soğuk gerçekle karşı karşıya ve ABD dolarının yaptığı yüksek fiyatlı saadet zinciri ortaya çıkmış olabilir.
    Sonraki
    Jingdezhenin belgeseli uluslararası bir ödül kazandı! Yurt dışından arkadaşlar hoşuna gidiyor ...
    Otomobilin ana konforu veya sporu nasıl değerlendirilir? Biçim değil, süspansiyon.
    Resmi duyuru Bu toz kar dünyası 11 / 23'te görkemli bir şekilde açılacak
    "Çirkinsin, kuralları çiğniyorsun" ... Polis sakince dedi: Herkes oturun ve oturun, normal işleyiş ...
    Fren lambasının bir kez yanıp sönmesi ile iki kez yanıp sönmesi arasındaki fark nedir? Usta, bilginin harika olduğunu söyledi
    2018 pasaport altın sıralaması: Japonya bu kadar güçlü mü? Çin sıralanıyor
    İran ABD doları ile ara verdi, Fransız petrol fiyatları 8 yılın en yüksek seviyesine çıktı ve aniden ABD'nin borcunu boşaltmaya başladı.
    Bu kaptanın "romantik teklifi" beni ısıttı!
    Hangi durumlarda acil durum şeridini kullanabilirim?
    Çin Seramik Kültürünün Dünya İmajının Yeniden İnşası ve Kuruluşu
    Siz ve Bilgi IP'si yalnızca bir işlem uzaktasınız
    Qi Yuan: Küçük veri öğrenme ve model sıkıştırma depolama zorlukları, senaryolar yapay zeka teknolojisinin geliştirilmesinin anahtarı haline geliyor
    To Top