Valse 2017 | GAN araştırmasının yıllık ilerlemesinin gözden geçirilmesi

Leifeng.com: 21-23 Nisan 2017 tarihlerinde, Xiamen'de VALSE (Vision and Learning Young Scholars Seminar) düzenlendi CV alanında en iyi yerli uzmanlar ve akademisyenler bir araya geldi ve 2.000'den fazla genç akademisyen katıldı. VALSE'nin "Yıllık İlerleme İncelemesi" bölümünde, son yıllarda CV araştırma ve uygulama dalının "12 gişe rekorları kıran" olarak adlandırılabilecek gelişiminin ayrıntılı ve sistematik bir incelemesini yapmak için toplam 12 akademisyen birbiri ardına sahneye çıktı. Son yıllarda CV alanındaki sıcak yönlerden birini hedefleyen: Harbin Teknoloji Enstitüsü Bilgisayar Bilimi ve Teknolojisi Okulu'ndan Profesör Zuo Wangmeng, birçok yönden ayrıntılı bir inceleme raporu verdi.

Zuo Wangmeng, Harbin Teknoloji Enstitüsü Bilgisayar Bilimleri Fakültesi'nde profesör ve doktora süpervizörüdür. Esas olarak görüntü iyileştirme ve restorasyon, uzaktan ölçüm öğrenme, hedef izleme, görüntü ve video sınıflandırması vb. İle uğraşmaktadır. CVPR / ICCV / ECCV gibi önemli konferanslarda ve T-PAMI, IJCV ve IEEE Trans gibi dergilerde 50'den fazla makale yayınladı.

Aşağıda, Lei Feng.com tarafından gözden geçirilmesi, düzeltilmesi ve düzenlenmesi için Profesör Zuo Wangmeng'e teşekkürler, raporun tam metni yer almaktadır.

Karşıt ağlar oluşturmak, geçtiğimiz yıl çok fazla ilgi gören bir yöndür ve içindeki içerik oldukça karmaşıktır. Bu nedenle, GAN'ın son birkaç yıldaki gelişim bağlamını özetlemek için aşağıdaki açıları seçtim. ben

  • Görüntü oluşturma

  • GAN hakkında üç soru: karmaşık dağılımlar arasındaki farkın ölçülmesi, jeneratörlerin nasıl tasarlanacağı ve girdi ile çıktı arasındaki bağlantının kurulması.

Görüntü oluşturma

Burada, "görüntü oluşturma" nın kaba bir tanımını verme girişimi: görüntü oluşturmanın amacı, bir görüntüyü veya değişkeni girdi dağıtımından bir çıktı görüntüsüne dönüştürebilen üretken bir model öğrenmektir. Burada, bir girdi dağılımını tatmin etmek için sadece "girdi" ye ihtiyaç duymuyoruz, aynı zamanda beklenen bir dağıtımı karşılamak için "çıktı" da talep ediyoruz. Farklı girdi dağılımlarını ve beklenen dağılımları tanımlayarak, farklı görüntü oluşturma problemlerine karşılık gelir.

Başlangıçta, en standart GAN, girdinin rastgele bir gürültü dağılımına uyması gerektiğini ve beklenen dağılımın tümünün gerçek görüntüler olduğunu varsayıyordu. Bu sorun başlangıçta çok tanımlanmıştı, bu nedenle GAN 2014'te ortaya çıkmasına rağmen 2014 ile 2016 arasında çok hızlı gelişmedi.

Daha sonra herkes düşündü, girdi dağılımı rastgele bir dağılım olmayabilir, bu yüzden herkes çeşitli pratik problemlerin ihtiyaçlarına göre ihtiyaç duyulan girdi dağılımını ve beklenen dağılımı tanımlamaya başladı. Örneğin, girdi dağılımı tüm zebralardan bir görüntü olabilir ve çıktı dağılımı tüm normal atların görüntüleridir, bu nedenle sistemin öğrenmesi gereken şey aslında iki görüntü arasındaki eşleştirmedir.

Benzer şekilde, girdimiz düşük çözünürlüklü bir görüntüse ve çıktı yüksek çözünürlüklü bir görüntüse, sistemin düşük çözünürlük ile yüksek çözünürlük arasındaki eşleştirmeyi öğreneceğini umuyoruz. Bloklara ayırma için, girdi bir JPEG sıkıştırılmış görüntüdür ve çıktı gerçek bir yüksek çözünürlüklü görüntüdür. Ayrıca ikisi arasındaki eşlemeyi öğrenmeyi umuyoruz. Aynı şey, yaptığımız süper çözünürlük ve cinsiyet dönüşümü gibi yüz alanında da geçerlidir. Giriş bir erkek görüntüdür ve çıktı bir dişi görüntüdür İkisi arasındaki eşleştirmeyi öğrenin.

Bir başka ilginç şey de otomatik olarak resim metni açıklamasının oluşturulmasıdır (Resim yazısı) Giriş bir resimdir ve çıktı bir cümledir. Herkes bunun bire bir eşleştirme olduğunu düşündü, ama öyle değil. Aslında bire çok bir eşlemedir. Bir resmi anlatırken farklı insanlar farklı cümleler üreteceklerdir. Yani bunu yapmak için GAN kullanırsanız, çok ilginç olmalı Bu yıl, bu işi yapan birkaç ICCV makalesi var.

GAN hakkında üç soru

İlk olarak, karmaşık dağılımlar arasındaki farkı ölçün. Çıktı dağılımının istenen dağılıma ulaşmasını istiyoruz, daha sonra iki dağılım arasındaki farkın bir ölçüsünü bulmamız gerekiyor Bu, GAN'da incelenmesi gerektiğini düşündüğüm ilk anahtar konu.

İkincisi, jeneratörün nasıl tasarlanacağı. Haritalamayı öğrenmek istiyorsak, bir jeneratöre ihtiyacımız var ve sonra onun eğitimini ve öğrenilebilirliğini tasarlamalıyız. Bu, GAN'da çalışılabilecek başka bir açıdır.

Üçüncü olarak, girişi ve çıkışı bağlayın. Aşağıdaki şeklin sağ tarafındaki cinsiyet dönüşümü örneğinde, girdi bir erkek görüntüsüdür ve çıktı bir kadın görüntüsüdür. Açıkçası, ihtiyacımız olan şey girdiden herhangi bir kadın yüzü görüntüsüne bir eşleştirme değil, ikincisi, çıktı dişi görüntüsünün girdi erkek görüntüsüne benzer olmasını gerektiriyor ve bu dönüşüm anlamlı. Bu, GAN'da girdi ve çıkışın nasıl bağlanacağıyla ilgili bir başka önemli araştırma yönüdür.

Aşağıda bu üç konunun ayrıntılı bir açıklaması bulunmaktadır.

İki dağılım arasındaki fark nasıl ölçülür? Seks

GAN, çıktı dağıtımı ile beklenen dağıtım arasındaki farkı ölçmek için bir sınıflandırıcı kullanır. Aslında, Torralba ve Efros 2011'de iki dağıtım arasındaki farkı analiz etmek için bir sınıflandırıcı kullanmayı da düşündü. Bu aynı zamanda alan uyarlaması yapan akademisyenlerin alıntı yapmayı sevdiği bir makale. Size üç görüntü vermek için bir deney tasarladılar ve 12 veri kümesinden (ImageNet, COCO ve PASCAL VOC, vb. Dahil) hangisinin geldiğini tahmin etmenize izin verdiler. Rastgele bir tahmin ise, tahmin etme olasılığı açık bir şekilde 1 / 12'dir. Bununla birlikte, insan tahminlerinin doğruluğu genellikle yaklaşık% 30'a ulaşabilir, bu da farklı veri kümeleri tarafından tanımlanan dağılımların tutarsız olduğunu gösterir. Buradaki insanlar aslında, örneğin hangi veri kümesinden geldiğine karar vererek iki dağılım arasındaki farkı analiz eden bir sınıflandırıcı olarak görülebilir.

NIPS 2014 GAN makalesi Torralba'nın çalışmasından alıntı yapmasa da, aslında iki dağıtım arasındaki farkın derecesini ölçmek için bir ayırıcı kullanıyor. Temel süreç, en iyi ayırıcıyı elde etmek için jeneratörü sabitlemek ve ardından en iyi jeneratörü öğrenmek için ayırıcıyı düzeltmektir. Ama en endişe verici sorunlardan biri var, yani çok karmaşık bir dağılım öğrenirsek, bir mod çöküşü (Mod Çöküşü) sorunu olacak, yani küresel karmaşık dağılımı öğrenemiyoruz, sadece Bölüm.

Bu bağlamda, en erken çözüm jeneratörün (G) ve ayırıcının (D) optimizasyon sırasını ayarlamaktır, ancak bu nihai bir çözüm değildir. Geçen yıldan beri herkes nihai bir çözüm bulmaya odaklanmaya başladı.

Ondan önce bu sorunu nasıl çözdünüz? Makine öğreniminde yaygın olarak kullanılan orijinal yöntem kullanılır: Maksimum Ortalama Farklılık (MMD).

İki dağılım aynı ise, o zaman iki dağılımın matematiksel beklentileri açıkça aynı olmalıdır; ancak, iki dağılımın matematiksel beklentileri aynıysa, iki dağılımın aynı olacağının garantisi yoktur. Bu nedenle, "aynı dağıtım" ile "aynı beklenti" arasındaki bağlantıyı daha iyi kurmamız gerekiyor. Neyse ki, aynı doğrusal olmayan dönüşümü iki dağılımdaki değişkenlere uygulayabiliriz. Tüm doğrusal olmayan dönüşümler altındaki iki dağılımın matematiksel beklentileri aynıysa (yani: iki dağılımın beklentileri arasındaki maksimum fark 0 ise), iki dağılımın istatistiksel anlamda aynı olduğu garanti edilebilir. Ne yazık ki, bu yöntem, tüm doğrusal olmayan dönüşümleri aşmamızı gerektiriyor ki bu, pratik açıdan biraz zor gibi görünüyor. Başlangıçta, makine öğrenimi alanında, insanlar doğrusal olmayan dönüşümler için doğrusal çekirdekleri veya Gauss RBF çekirdeklerini kullanma eğilimindeydiler ve daha sonra çoklu çekirdek kullanmaya başladılar. Geçen yıldan bu yana, herkes tüm doğrusal olmayan dönüşümleri ve MMD çerçevesi altında görüntü oluşturmayı yaklaşık olarak tahmin etmek için CNN kullanmaya başladı. Önce jeneratörü sabitleyin ve MMD'yi maksimize edin, ardından MMD'yi ayırıcıda sabitleyin ve ardından üreteci MMD'yi en aza indirerek güncelleyin.

En sık kullanılan yöntemlerden biri CNN öğrenmek için ayırıcı yerine MMD kullanmaktır.Bu ICML 2015'in bir makalesinde denenen yöntemdir. Bu temelde bazı çalışmalar yaptık.

Ama aslında, jeneratörü değiştirmek için doğrudan MMD kullanırsanız, belirli bir etkiye sahip olmasına rağmen, özellikle başarılı değildir. Bu nedenle, NIPS 2016'dan bu yana, Geliştirilmiş GAN ortaya çıktı.Bu çalışma MMD belgelerine atıfta bulunmasa da, MMD'yi en aza indirirken aslında ayırıcıyı güncelledi. Wasserstein GAN zamanına kadar, MMD ile olan bağlantıyı net bir şekilde açıkladı. Kağıt bir "çıkarma" ilişkisi yazsa da, koduna baktığımızda, aynı zamanda bir norm da eklemesi gerekiyor, çünkü İki dağıtımın beklentilerini sadece maksimize etmek veya en aza indirmek, dağıtımdaki en küçük farkı garanti etmez.

Daha sonra, yakın tarihli bir ICLR 2017 raporu, MMD'nin, GAN ağlarının durdurma koşullarını ve öğrenme etkilerini değerlendirmenin bir yolu olarak kullanılması gerektiğini açıkça belirtti.

Bir jeneratör nasıl tasarlanır

Bu kısım nispeten kolaydır. İlk günlerde, GAN'ın en büyük gelişmelerinden biri DCGAN'dı.Görüntü üretimi için kullanıldığında, daha uygun bir seçim, tamamen evrişimli bir ağ artı toplu normalizasyon kullanmaktı.

Karmaşık görüntü üretimi için aşamalı bir yaklaşım kullanılabilir. Örneğin, ilk adım küçük bir görüntü oluşturabilir ve ardından küçük görüntü büyük bir görüntü oluşturabilir. Bu doğrultuda Hong Kong Çin Üniversitesi'nden Profesör Wang Xiaogang ve Cornell Üniversitesi'nden John Hopcroft bazı çalışmalar yaptı.

Süper çözünürlük ve yüz öznitelik aktarımı (Yüz Öznitelik Aktarımı) dahil olmak üzere görüntü iyileştirmeyle ilgili bazı görevler için, şu anda denetimli en iyi performans gösteren ağ ResNet'tir, bu nedenle bu görevlerde genellikle GAN kullanıyoruz. ResNet yapısını benimseyecektir.

Benzer şekilde, görüntü çevirisi için, temel olarak U-Net yapısı kullanılır. Kılavuzlu görüntülere dayalı kılavuzlu yüz tamamlama yaparken de U-Net yapısını benimsedik.

Görüntü metni açıklamasının otomatik olarak oluşturulması için, açıkça CNN + RNN gibi bir ağ yapısı benimsenmelidir. Sonuç olarak, jeneratör ağını görevin özelliklerine ve selefinin deneyimine göre tasarlamak daha iyi bir öneri.

Giriş ve çıkış nasıl bağlanır

Giriş ve çıkışı birbirine bağlayarak GAN'ın öğrenilebilirliğini nasıl geliştirebilirim, NIPS 2016'dan beri daha fazla ilgi gören bir sorun ve bu da çok ilgilendiğim bir yön. Önceki çalışmalardan biri, özelliği girdinin C (gizli değişken) ve Z (gürültü) olmak üzere iki bölümden oluşması olan InfoGAN'dır. InfoGAN bir görüntü oluşturduktan sonra, yalnızca oluşturulan görüntünün gerçek görüntüden ayırt edilemez olmasını gerektirmekle kalmaz, aynı zamanda oluşturulan görüntüden C'yi tahmin etme yeteneğini de gerektirir, böylece girdi ve çıktı arasında bir bağlantı kurulur.

Ek olarak, süper çözünürlük gibi bazı görevler için, giriş ve çıkış arasındaki bağlantıyı kurmak için Algısal kayıp kullanabilirsiniz.

Yüz öznitelik dönüşümü yaparken, mevcut Algısal kaybın genellikle mevcut bir ağ temelinde tanımlandığını gördük. Algısal kayıp ağını ayırıcı ile birleştirip birleştiremeyeceğimizi merak ettik, bu nedenle Uyarlanabilir bir algısal kayıp önerdik . Sonuçlar, Uyarlamalı algısal kaybın daha iyi uyarlanabilirliğe sahip olabileceğini, girdi ve çıktı arasındaki bağlantıyı daha iyi kurabileceğini ve oluşturulan görüntünün görsel efektini önemli ölçüde iyileştirebileceğini göstermektedir.

Giriş ve çıkış bilindiğinde (görüntü süper çözünürlüğü ve görüntü dönüştürme gibi), giriş ve çıkışı bağlamak için hangi yöntem kullanılmalıdır? Geçmişte algısal kayıp bağlanmak için kullanılıyordu, ancak şimdi daha iyi bir yol Koşullu GAN kullanmaktır. Bir Pozitif Çift (giriş ve temel gerçek görüntüsü) ve Negatif Çift (giriş ve oluşturulan görüntü) olduğunu varsayalım, o zaman ayırıcı iki görüntü arasında değil, iki "Çift" arasında ayrım yapar. Bu durumda, girdi doğal olarak ayırıcıya dahil edilir.

Bu temelde, bazı ek Kılavuzlar olduğunda girdi ve çıktı arasındaki bağlantının nasıl daha iyi kurulacağını da düşündük.

Yukarıda belirtildiği gibi Koşullu GAN, denetim altında daha iyi bir seçimdir. Ancak eşleştirme durumunda görüntü dönüştürme yaparsanız, giriş ve çıkış arasında nasıl bağlantı kurulur? Öğretmen Tan Ping, grubu ve Efros grubu bu yıl bu çalışmayı yaptılar, hatta geçen yıl CVPR2017'ye sunulan bir çalışmada da benzer bir çalışma yaptılar. Prensipte eşleşmemiş olduğu için eğitim aşamasının giriş ve çıkışının doğrudan bağlanamayacağını biliyoruz. Şu anda bir Döngü-Tutarlı yaklaşımı benimsediler. X'ten, Y tahmin edilebilir ve üretilebilir ve sonra X ', Y'den yeniden üretilebilir, ardından Y tarafından oluşturulan X', X girişine bağlanabilir. Bu durumda, aslında X'den Y'ye dolaylı olarak bir bağlantı kurmaya eşdeğeriz.

sonuç olarak

GAN'ın teorisi ve modeliyle ilgileniyorsanız, çıktı dağılımı ile beklenen dağılım arasındaki farkın derecesini ölçerek başlayabilirsiniz. GAN'ın uygulanmasını daha çok önemsiyorsanız, ilgilendiğiniz sorunu çözmek için jeneratörü tasarlayarak ve giriş ile çıkış arasında bağlantı kurarak son iki yönden başlayabilirsiniz. Raporum temelde bu, hepinize teşekkür ederim.

Daha fazla Lei Feng net makalesi:

CMU, karmaşık hesaplamalar altında pekiştirmeli öğrenmeden daha verimli olan yeni bir dahili olarak yönetilen öğrenme yöntemi önermektedir.

Omuz omuza bakmaktan, Stephen Chow hayranlarının kendini geliştirmesini başardı.
önceki
ARINC659 Veri Yolu Teknolojisine Genel Bakış
Sonraki
Güneş kışın yeryüzünde parlıyor ve vatandaşlar okyanusu ısıtmak için dışarı çıkıyor
Çeşitli ülkelerin "Bahar Şenliği Galası" kaynıyor, Yılbaşı yemeği için hangisini seçmeli?
Tarihteki en özlü ve anlaşılması kolay öğretici Gradyan inişini anlamak için Excel'i kullanın
Yüksek Hassasiyetli Güneş Takip Sisteminin Araştırılması ve Uygulanması
Chongqing ve Shandong Eyaleti arasında bir dostluk köprüsü kurmak için, Shandong Fotoğrafçılar Derneği, Chongqing Wushan İlçesi Yaratıcı Üssü ödüllendirildi
Ev TV duvar dekorasyonu hakkında endişelenmeyin! Sadece bir "Meimeida" TV al
Bazı iyi oyuncular yemeğin içindeki tuz gibidir
"God of War" geliştirici röportajı: Kratos oğlu için yeni bir umut yaratacak
Çin'in ticari havacılığının bir envanteri: özel roketler iki büyük darboğaz ve üç ana eğilimle karşı karşıya.
Parametre Tanımlamasına Dayalı PMSM'nin Konum Sensörsüz Vektör Kontrolü
Otopilot şirketi Zoox, büyük ölçekli yol testlerine başladı, işte bilmek istediğiniz etabın önü ve arkası
Yurtdışı Film Haberleri "Bond 25" kesinleşti, "Reunion 4" çekime başlayacak
To Top