İçbükey tapınaktan kestane Anne
Qubit Üretildi | Genel Hesap QbitAI
İnanılmaz, gerçekçi ve sahte fotoğraflar oluşturmasıyla ünlü "tarihteki en iyi GAN" olarak bilinir. BigGAN , "Kendi ailesi" tarafından tekmelendi.
Challenger da Google DeepMind'den. Yeni yayınlanan VQ-VAE ikinci nesil modeli olan oluşturulan görüntülerin BigGAN'dan daha yüksek çözünürlüklü ve gerçekçi ve daha çeşitli olduğu iddia ediliyor!
İkna olmadınız mı? Önce bu sahte fotoğraflara bir göz atalım.
Kalın kaşları ve iri gözleri olan kahverengi saçlı kız ve Uncle Crooked Nuts:
He Jie'ye benzeyen Asya yüzleri:
Açıkça görülebilen sakallı kısa saçlı adam:
Ek olarak, çeşitli hayvan türleri vardır:
İlk 1 doğruluk testinde, VQ-VAE ikinci nesil BigGAN'dan 16.09 puan daha fazla puan aldı.
DeepMind, yıldızlararası projeden sorumludur ve çalışmanın yazarlarından Oriol Vinyals, ikinci nesil VQ-VAE'nin tek kelimeyle harika olduğunu söyledi.Böyle basit bir fikir, böylesine iyi bir üretken model üretebilir!
Hatta ... hatta bir zamanlar gerçekçi bir sahte yüz ortaya çıkardı Nvidia çalışanları : Nvidia Araştırma Enstitüsü'nde kıdemli araştırma bilimcisi olan Arash Vahdat da Twitter'da şu yorumu yaptı:
Etkileyici! ! !
Sadece birkaç saat içinde, bu araştırma Twitter'da 500'den fazla beğeni ve yüzlerce paylaşım aldı.
Etkisini ayrıntılı olarak görelim.
Gerçek etki, harika
VQ-VAE tarafından oluşturulan sahte fotoğraflar çeşitli doğruluk özelliklerine sahip olabilir. ImageNet'te 256 × 256 piksele sahip hayvanlar eğitilebilir:
Nvidianın 70.000 yüksek çözünürlüklü yüz veri kümesi FFHQ'yu (Flickr-Faces-HQ) beslerseniz, çıktı görüntüsü 1024 × 1024 piksellik yüksek tanımlı büyük bir görüntü olur ve hatta yüzdeki ince gözenekler bile açıkça görülebilir:
Bu yüksek çözünürlüklü kızların yüzleri düşük görünmüyor:
VQ-VAE tarafından üretilen sahte fotoğraflar, BigGAN'ın çalışmalarından çok daha çeşitlidir.
BigGAN ile karşılaştırıldığında, VQ-VAE yalnızca farklı nesneler ve hayvanlar üretmekle kalmaz, aynı zamanda Farklı perspektifler Hem de Farklı pozlar versiyonu.
Örneğin, aynı şey devekuşu üretmek için de geçerlidir, bu VQ-VAE'nin işi:
VQ-VAE ile, devekuşu kafası tek başına farklı duruşlar oluşturabilir; örneğin ön yüzü olanlar, kameraya bakan tarafı olanlar, 45 derecelik açıyla gökyüzüne bakan kişiler ve yüzlerini göstermek istemeyenler gibi:
Uzuvları olmayan nispeten basit bir Japon balığı bile pek çok formu sentezleyebilir:
Ve BigGAN'ın bakış açısı nispeten basittir:
Araştırmacılar, çıplak gözle görülebilen görsel karşılaştırmalara ek olarak, VQ-VAE II'nin birden çok boyutta BigGAN'dan üstün olduğunu kanıtlamak için birden çok performans göstergesi kullanarak tek oyluk bir deney yaptılar.
Sınıflandırma Doğruluk Puanına (CAS) bakıldığında, VQ-VAE, İlk-1 doğruluğunda 58,74 puandır ve bu da BigGAN 42,65'i 16,09 puan aşmaktadır. VQ-VAE, İlk 5 doğruluğunda başı çekmektedir. 15.06 puan aldı.
Hassas geri çağırma ölçümlerinde (Hassas Geri Çağırma ölçümleri), VQ-VAE'nin doğruluğu BigGAN'dan biraz daha düşüktür, ancak geri çağırma değeri çok daha yüksektir.
Başlangıç Puanlarında (IS), VQ-VAE, BigGAN puanını öncekilerden 100 puandan fazla geçmedi, ancak FID değeri düşüktü.
Genel olarak VQ-VAE'nin performansı çeşitlilik ve görsel duyular açısından BigGAN'ı geride bırakmış ve çeşitli performans göstergelerinde iyi performans göstermiştir.
GAN'ın eksikliklerini telafi edin
VQ-VAE-2 bir iletişim sistemi olarak anlaşılabilir.
Dahil olmak üzere Kodlayıcı , Gözlemlenen bilgiyi bir dizi ayrı gizli değişkenle (Gizli Değişkenler) eşlemek için.
ve ayrıca kod çözücü Bu ayrık değişkenlerdeki bilgileri yeniden yapılandırın.
Sistem, hem kodlayıcı hem de kod çözücüden oluşan iki bölüme ayrılmıştır.
ilk kısım
Bu bir Katmanlı VQ-VAE , Farklı ölçeklerdeki bilgiler ayrı ayrı işlenebilir.
Örneğin, bir 256 × 256 Görüntü, kodlayıcının onu farklı potansiyel alanlara sıkıştırması gerekiyor:
Üst Düzey sıkıştırılmalıdır 64 × 64 Gizli haritası, ** küresel bilgi (şekil vb. Gibi) için gizli kod üretir;
Alt Seviye sıkıştırılmalıdır 32 × 32 Potansiyel haritası Yerel bilgiler (Doku vb. Gibi) Gizli kod oluşturun.
Daha sonra kod çözücü, yerel ve global bilgileri içeren orijinal görüntü ile aynı boyutta yeniden oluşturulmuş bir görüntü oluşturmak için bu iki gizli haritayı (Gizli Haritalar) kullanır.
Ekip, üst katmanın alt katmanı koşullandırmak için kullanılmaması durumunda, üst katmanın pikseldeki her ayrıntıyı kodlaması gerektiğini keşfetti.
Böylece her seviyeye sırasıyla Piksellere Bağlı (Ayrı Olarak Piksellere Bağlı): AI, her haritada Tamamlayıcı Bilgileri kodlamaya teşvik edilebilir, Yeniden yapılandırma hatasını azaltın .
Ve öğrendim Hiyerarşik Gizli Kod (Hiyerarşik Gizli Kodlar] 'dan sonra, bir sonraki bölüme geçme zamanı:
ikinci kısım
Gizli koddan öğrenmek Önsel (Önceden) yeni bir grafik oluşturmak için.
Bu kısım, ikinci nesil ile birinci nesil arasındaki en büyük farktır: Birinci nesilde kullanılan Otoregresif Prior'lar genişletilmiş ve geliştirilmiştir.
Öncekini modellemek için mevcut en iyi PixelRNN modelini kullanın. Bu, önceki dağıtımı (Önceden Dağıtım) ve önceki bölümde öğrenilen marjinal posteri (Marjinal Posterior) birleştirebilen kendi kendine dikkat mekanizmasına sahip otoregresif bir modeldir. Eşleştir.
Bu şekilde, daha yüksek tutarlılık ve daha yüksek doğrulukta görüntüler, öncekinden daha yüksek üretilebilir.
İlk bölüme benzer şekilde: görüntüleri daha fazla sıkıştırabilen kodlayıcılar ve kod çözücüler de vardır.
Bunu yaptıktan sonra, yeni bir görüntü oluşturmak için öncekinden örnekler alın: orijinal görüntünün netliği aynıdır ve korelasyon (Tutarlılık) korunur.
İki parçayı birleştirerek, öğrenme için 256 × 256 görüntüyü 200 kez sıkıştırabilirsiniz; 1024 × 1024 yüksek çözünürlüklü büyük görüntüleri öğrenme için 50 kez sıkıştırabilirsiniz.
Ekip bu şekilde dedi: Görüntü oluşturma hızı bir büyüklük sırasına göre iyileştirildi .
Hızlı kodlama ve hızlı kod çözme gerektiren uygulamalarda bu yöntemin benzersiz bir avantajı vardır.
Aynı zamanda, GAN'ın iki ünlü eksikliğini de ortadan kaldırır:
Biri mod daralması Yani, bazı görüntüler oluşturduktan sonra, GAN oluşturucu ve ayırıcı bir uzlaşmaya varır ve artık öğrenmeye devam etmez; ikincisi Yetersiz çeşitlilik Sorun.
yazar hakkında
Ali Razavi ve Aäron van den Oord'un ortak çalışması ve Oriol Vinyals'ın ikinci çalışması olan DeepMind'dan bu çalışmanın üç yazarı var.
Dr.Ali Razavi, Waterloo Üniversitesi'nden mezun olmuş ve daha önce IBM, Algorithmics ve Google'da çalışmıştır. 2017'de DeepMind'a araştırma mühendisi olarak katılmıştır.
Araştırmacı Aäron van den Oord, ağırlıklı olarak üretken modeller üzerine çalışıyor ve daha önce Google Play'deki müzik önerisi projesine katıldı.
Aäron, 2017 yılında Hassabis proje ekibinin Parallel WaveNet araştırmasına katıldı ve bu makalenin ilk yazarı oldu.
Kardeş Oriol Vinyals, daha önce AlphaStar gibi yıldızlararası projeler gibi birçok yıldız projesinde yer almıştı. Ayrıca, bir sinir ağında bilgiyi damıtma başlıklı makalenin ortak yazarlığı için Turing Ödülü sahibi Geoffrey Hinton ve Google Beyin başkanı Jeff Dean ile birlikte çalıştı.
Bu arada, BigGAN'ı "tarihteki en iyi GAN" olarak ilk öven kişi de o ~
Portal
VQ-VAE-2 ile Farklı Yüksek Doğruluklu Görüntüler Oluşturan kağıdın adresi:
https://arxiv.org/abs/1906.00446
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.
Qubit QbitAI · Toutiao İmzalama Yazarı
' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin