Tarihteki en iyi GAN aşıldı! Her şeyin yüksek tanımlı büyük görüntülerini oluşturmak için doğruyu yanlıştan ayırt etmek zordur, ikinci nesil VQ-VAE burada

İçbükey tapınaktan kestane Anne

Qubit Üretildi | Genel Hesap QbitAI

İnanılmaz, gerçekçi ve sahte fotoğraflar oluşturmasıyla ünlü "tarihteki en iyi GAN" olarak bilinir. BigGAN , "Kendi ailesi" tarafından tekmelendi.

Challenger da Google DeepMind'den. Yeni yayınlanan VQ-VAE ikinci nesil modeli olan oluşturulan görüntülerin BigGAN'dan daha yüksek çözünürlüklü ve gerçekçi ve daha çeşitli olduğu iddia ediliyor!

İkna olmadınız mı? Önce bu sahte fotoğraflara bir göz atalım.

Kalın kaşları ve iri gözleri olan kahverengi saçlı kız ve Uncle Crooked Nuts:

He Jie'ye benzeyen Asya yüzleri:

Açıkça görülebilen sakallı kısa saçlı adam:

Ek olarak, çeşitli hayvan türleri vardır:

İlk 1 doğruluk testinde, VQ-VAE ikinci nesil BigGAN'dan 16.09 puan daha fazla puan aldı.

DeepMind, yıldızlararası projeden sorumludur ve çalışmanın yazarlarından Oriol Vinyals, ikinci nesil VQ-VAE'nin tek kelimeyle harika olduğunu söyledi.Böyle basit bir fikir, böylesine iyi bir üretken model üretebilir!

Hatta ... hatta bir zamanlar gerçekçi bir sahte yüz ortaya çıkardı Nvidia çalışanları : Nvidia Araştırma Enstitüsü'nde kıdemli araştırma bilimcisi olan Arash Vahdat da Twitter'da şu yorumu yaptı:

Etkileyici! ! !

Sadece birkaç saat içinde, bu araştırma Twitter'da 500'den fazla beğeni ve yüzlerce paylaşım aldı.

Etkisini ayrıntılı olarak görelim.

Gerçek etki, harika

VQ-VAE tarafından oluşturulan sahte fotoğraflar çeşitli doğruluk özelliklerine sahip olabilir. ImageNet'te 256 × 256 piksele sahip hayvanlar eğitilebilir:

Nvidianın 70.000 yüksek çözünürlüklü yüz veri kümesi FFHQ'yu (Flickr-Faces-HQ) beslerseniz, çıktı görüntüsü 1024 × 1024 piksellik yüksek tanımlı büyük bir görüntü olur ve hatta yüzdeki ince gözenekler bile açıkça görülebilir:

Bu yüksek çözünürlüklü kızların yüzleri düşük görünmüyor:

VQ-VAE tarafından üretilen sahte fotoğraflar, BigGAN'ın çalışmalarından çok daha çeşitlidir.

BigGAN ile karşılaştırıldığında, VQ-VAE yalnızca farklı nesneler ve hayvanlar üretmekle kalmaz, aynı zamanda Farklı perspektifler Hem de Farklı pozlar versiyonu.

Örneğin, aynı şey devekuşu üretmek için de geçerlidir, bu VQ-VAE'nin işi:

VQ-VAE ile, devekuşu kafası tek başına farklı duruşlar oluşturabilir; örneğin ön yüzü olanlar, kameraya bakan tarafı olanlar, 45 derecelik açıyla gökyüzüne bakan kişiler ve yüzlerini göstermek istemeyenler gibi:

Uzuvları olmayan nispeten basit bir Japon balığı bile pek çok formu sentezleyebilir:

Ve BigGAN'ın bakış açısı nispeten basittir:

Araştırmacılar, çıplak gözle görülebilen görsel karşılaştırmalara ek olarak, VQ-VAE II'nin birden çok boyutta BigGAN'dan üstün olduğunu kanıtlamak için birden çok performans göstergesi kullanarak tek oyluk bir deney yaptılar.

Sınıflandırma Doğruluk Puanına (CAS) bakıldığında, VQ-VAE, İlk-1 doğruluğunda 58,74 puandır ve bu da BigGAN 42,65'i 16,09 puan aşmaktadır. VQ-VAE, İlk 5 doğruluğunda başı çekmektedir. 15.06 puan aldı.

Hassas geri çağırma ölçümlerinde (Hassas Geri Çağırma ölçümleri), VQ-VAE'nin doğruluğu BigGAN'dan biraz daha düşüktür, ancak geri çağırma değeri çok daha yüksektir.

Başlangıç Puanlarında (IS), VQ-VAE, BigGAN puanını öncekilerden 100 puandan fazla geçmedi, ancak FID değeri düşüktü.

Genel olarak VQ-VAE'nin performansı çeşitlilik ve görsel duyular açısından BigGAN'ı geride bırakmış ve çeşitli performans göstergelerinde iyi performans göstermiştir.

GAN'ın eksikliklerini telafi edin

VQ-VAE-2 bir iletişim sistemi olarak anlaşılabilir.

Dahil olmak üzere Kodlayıcı , Gözlemlenen bilgiyi bir dizi ayrı gizli değişkenle (Gizli Değişkenler) eşlemek için.

ve ayrıca kod çözücü Bu ayrık değişkenlerdeki bilgileri yeniden yapılandırın.

Sistem, hem kodlayıcı hem de kod çözücüden oluşan iki bölüme ayrılmıştır.

ilk kısım

Bu bir Katmanlı VQ-VAE , Farklı ölçeklerdeki bilgiler ayrı ayrı işlenebilir.

Örneğin, bir 256 × 256 Görüntü, kodlayıcının onu farklı potansiyel alanlara sıkıştırması gerekiyor:

Üst Düzey sıkıştırılmalıdır 64 × 64 Gizli haritası, ** küresel bilgi (şekil vb. Gibi) için gizli kod üretir;

Alt Seviye sıkıştırılmalıdır 32 × 32 Potansiyel haritası Yerel bilgiler (Doku vb. Gibi) Gizli kod oluşturun.

Daha sonra kod çözücü, yerel ve global bilgileri içeren orijinal görüntü ile aynı boyutta yeniden oluşturulmuş bir görüntü oluşturmak için bu iki gizli haritayı (Gizli Haritalar) kullanır.

Ekip, üst katmanın alt katmanı koşullandırmak için kullanılmaması durumunda, üst katmanın pikseldeki her ayrıntıyı kodlaması gerektiğini keşfetti.

Böylece her seviyeye sırasıyla Piksellere Bağlı (Ayrı Olarak Piksellere Bağlı): AI, her haritada Tamamlayıcı Bilgileri kodlamaya teşvik edilebilir, Yeniden yapılandırma hatasını azaltın .

Ve öğrendim Hiyerarşik Gizli Kod (Hiyerarşik Gizli Kodlar] 'dan sonra, bir sonraki bölüme geçme zamanı:

ikinci kısım

Gizli koddan öğrenmek Önsel (Önceden) yeni bir grafik oluşturmak için.

Bu kısım, ikinci nesil ile birinci nesil arasındaki en büyük farktır: Birinci nesilde kullanılan Otoregresif Prior'lar genişletilmiş ve geliştirilmiştir.

Öncekini modellemek için mevcut en iyi PixelRNN modelini kullanın. Bu, önceki dağıtımı (Önceden Dağıtım) ve önceki bölümde öğrenilen marjinal posteri (Marjinal Posterior) birleştirebilen kendi kendine dikkat mekanizmasına sahip otoregresif bir modeldir. Eşleştir.

Bu şekilde, daha yüksek tutarlılık ve daha yüksek doğrulukta görüntüler, öncekinden daha yüksek üretilebilir.

İlk bölüme benzer şekilde: görüntüleri daha fazla sıkıştırabilen kodlayıcılar ve kod çözücüler de vardır.

Bunu yaptıktan sonra, yeni bir görüntü oluşturmak için öncekinden örnekler alın: orijinal görüntünün netliği aynıdır ve korelasyon (Tutarlılık) korunur.

İki parçayı birleştirerek, öğrenme için 256 × 256 görüntüyü 200 kez sıkıştırabilirsiniz; 1024 × 1024 yüksek çözünürlüklü büyük görüntüleri öğrenme için 50 kez sıkıştırabilirsiniz.

Ekip bu şekilde dedi: Görüntü oluşturma hızı bir büyüklük sırasına göre iyileştirildi .

Hızlı kodlama ve hızlı kod çözme gerektiren uygulamalarda bu yöntemin benzersiz bir avantajı vardır.

Aynı zamanda, GAN'ın iki ünlü eksikliğini de ortadan kaldırır:

Biri mod daralması Yani, bazı görüntüler oluşturduktan sonra, GAN oluşturucu ve ayırıcı bir uzlaşmaya varır ve artık öğrenmeye devam etmez; ikincisi Yetersiz çeşitlilik Sorun.

yazar hakkında

Ali Razavi ve Aäron van den Oord'un ortak çalışması ve Oriol Vinyals'ın ikinci çalışması olan DeepMind'dan bu çalışmanın üç yazarı var.

Dr.Ali Razavi, Waterloo Üniversitesi'nden mezun olmuş ve daha önce IBM, Algorithmics ve Google'da çalışmıştır. 2017'de DeepMind'a araştırma mühendisi olarak katılmıştır.

Araştırmacı Aäron van den Oord, ağırlıklı olarak üretken modeller üzerine çalışıyor ve daha önce Google Play'deki müzik önerisi projesine katıldı.

Aäron, 2017 yılında Hassabis proje ekibinin Parallel WaveNet araştırmasına katıldı ve bu makalenin ilk yazarı oldu.

Kardeş Oriol Vinyals, daha önce AlphaStar gibi yıldızlararası projeler gibi birçok yıldız projesinde yer almıştı. Ayrıca, bir sinir ağında bilgiyi damıtma başlıklı makalenin ortak yazarlığı için Turing Ödülü sahibi Geoffrey Hinton ve Google Beyin başkanı Jeff Dean ile birlikte çalıştı.

Bu arada, BigGAN'ı "tarihteki en iyi GAN" olarak ilk öven kişi de o ~

Portal

VQ-VAE-2 ile Farklı Yüksek Doğruluklu Görüntüler Oluşturan kağıdın adresi:

https://arxiv.org/abs/1906.00446

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Mantar Evi ilk "en az popüler" konuğu başlattı, Peng Yuchang abartılı performansını görünce çıldırdı
önceki
"Hayata Özlem" Gerçekten davet etmeye cesaret ediyorum, misafirlerin bir sonraki sayısı büyük isimler, sadece diziye bakın
Sonraki
Zhong Liti ikinci evliliğini sürdürmeye çalıştı ama başarısız oldu. Kimin nedeni bu?
50 yaşındaki Xu Qing, sahilde güzel bir fotoğrafta iyi figürünü sergiliyor, 25 yaşında görünüyor ve genç bir zihniyete sahip.
Google EfficientNet ölçeklendirme modeli, PyTorch uygulaması yayınlandı, kurulu GitHub sıcak listesi
Film çekerken öpücük sahnesi utanç verici olduğunda ne yapılmalı, Yang Minin çözümü çok esprili, kadın yıldızların öğrenmesi gerekiyor
SenseTime CEO'su Xu Li ile diyalog: Yeteneklere odaklanmayı sürdürmek, sürekli büyüme, yüksek değerlemeden çok daha önemlidir
CCTV lensinin altındaki kadın yıldız, Yang Mi ikinci sırada, birincisi onun mizacının çok önemli olması.
Yapay zeka, ev mobilyasında nasıl devrim yaratıyor? Derin öğrenme platformunda kürek oynamanın yeni bir yolu olan fotoğraflar çekerek ürün arayabilirsiniz.
Yang Chaoyue yeni dizinin çekimlerine başladı ve video ortaya çıktı. Netizenler oyunculuğu gördükten sonra ağladı
Yang Minin yeni dizisi 4.6 puan ve Yang Yingin yeni dizisi de 4.6 puan. Trafiğin çökmesi hala oyunculuk suçu.
Huang Minghao'nun lazer çizgisindeki hareketi dokunaklıydı ve Wei Daxun'un sözleri insanları utandırdı
Günlük limit devam ettirme | 5G konsepti piyasayı bozar ve günlük limit dalgasını yükseltir, Wang Mingpu bile durdurulamaz
Angelababy Song Yuqi'nin oyun ıslak gövdesi, dar uzun bacaklar, kontrast netleştikten sonra göz alıcı
To Top