Homo'dan Xia Yi Qianping
Qubit Üretildi | Genel Hesap QbitAI
Dakikalar içinde sadece şirin satabilen kedi sahibi canavarların kralı mı oluyor?
Gündüz gecenin karanlığını anlayabiliyor musun?
Wang Xingren'in başka bir cins olsaydı nasıl görünürdü?
Tahmin etmeye gerek yok, her şeyi "beyin haline getiren" bir YZ var (insan müdahalesi olmadan). Önce sonuçları gösterin:
Bir yavru kedi görüntüsünü verin (solda) ve AI onu otomatik olarak bir aslan krala dönüştürebilir (sağda).
Gün boyunca bir görüntü verin (solda), AI otomatik olarak gece görünümünü (sağda) oluşturabilir ve ayrıca ışık efektleri ekleyebilir ~
Kışın bir resmini verin (solda), AI yazın nasıl olacağını (sağda) telafi edebilir ve yaprakları ekleyebilir ~
Yukarıdaki sihirli dönüşümler, "görüntüden görüntüye çeviri" sorununa aittir.
Bu sonuçlar, Nvidia araştırma ekibinin bir NIPS 2017 çalışmasından alınmıştır: BM denetimli ben mage-to-image T ranslation ağları.
Ming-Yu Liu ( ) ve diğer araştırmacılar, Coupled GAN ve Variational Autoencoder (VAE) tabanlı denetimsiz bir görüntüden görüntüye çeviri çerçevesi önerdiler. Ayrıca kısaltmayı da verdiler (zorunlu) "Denetlenmeyen resimden resme çeviri" bir ada sahiptir: UNIT.
Makalede belirtildiği gibi, görüntüden görüntüye çeviri problemini olasılıklı modeller perspektifinden analiz ederken, temel zorluğun görüntülerin farklı alanlardaki ortak dağılımını öğrenmek olduğunu göreceksiniz.
Paylaşılan gizli uzay hipotezi
Ming-Yu Liu ve diğerleri, ortak dağılımın sonucunu çıkarmak için "paylaşılan gizli uzay hipotezini" kullandılar ve farklı alanlarda karşılık gelen bir çift görüntünün (x1, x2) paylaşılan gizli uzay (z) ile eşleştirilebileceğini varsayarak UNIT çerçevesi bu varsayıma dayanmaktadır. Dayalı.
Yukarıdaki şekilde, E1 ve E2, görüntüleri gizli kodlarla eşleştirebilen iki kodlama işlevidir, G1 ve G2 ise, gizli kodlardan görüntülere eşleyen iki üretme işlevidir.
ÜNİTE çerçeve yapısı
UNIT çerçevesinde, araştırmacılar, direnç eğitimi hedefinin ağırlık paylaşım kısıtlamasıyla etkileşime girdiği her görüntüyü modellemek için VAE-GAN'ı kullanır ve paylaşılan alan, iki alanda karşılık gelen görüntüleri oluşturmak için uygulanır ve VAE, Görüntüsü, karşılık gelen etki alanındaki girdi görüntüsü ile ilişkilendirilir. E1, E2 ve G1, G2'yi yeniden yapılandırmak için Evrişimli Sinir Ağlarını (CNN) kullandılar ve ağırlık paylaşım kısıtlamaları yoluyla paylaşılan gizli alan hipotezini gerçekleştirdiler.
Bu çerçeveyi tamamladıktan sonra, araştırmacılar bunu çeşitli denetimsiz görüntüden görüntüye çeviri görevlerine uyguladılar, örneğin ...
Sokak sahnelerinin güneşli ve yağmurlu günler, gündüz ve gece, yaz sahneleri ve kar sahneleri arasında dönüşümünü tamamlayabilir ve 640 × 480 resimleri destekler; ayrıca sentetik görüntüler ve gerçek fotoğraflar arasında dönüşüm yapabilir:
Ayrıca çeşitli köpek ırkları arasında geçiş yapabilirsiniz. Köpeğiniz olduğu sürece, Moments'a gönderdiğinizde Husky, German Shepherd, Corgi, Samoyed ve English Shepherd arasında geçiş yapabilirsiniz:
Köpeklere ek olarak, kediler de vardır, ancak bunlar ailenizin uzun tüylü ve kısa tüylü efendileri değil, evcil kediler, kaplanlar, aslanlar, pumalar, jaguarlar ve çitalar:
Elbette en yaygın yüz dönüştürme modeli de yapılabilir ve sarı saç, gülümseme, keçi sakalı, gözlük takma gibi özellikler oluşturabilir:
Modelinizin iyi olduğunu söylemek istiyorsanız elbette onu diğer insanların çalışmaları ile karşılaştırmalısınız.
Çeşitli araştırmacılar, sokak görünümü ev numarası veri kümeleri SVHN, MNIST ve USPS veri kümeleri arasındaki dönüşümle modelin performansını test etti ve bunları SA, DANN, DTN ve CoGAN gibi modellerle karşılaştırdı.
SVHN MNIST görevindeki UNIT çerçevesinin doğruluğu, benzer modellerden çok daha yüksek olan% 0,9053'e ulaştı.
Bu makale ile ilgileniyorsanız, orijinal metni doğrudan okuyabilirsiniz. Kağıt adresi: https://arxiv.org/abs/1703.00848
Ayrıca, Nvidia araştırma ekibi de bu araştırmanın kodunu yayınladı. Bu, grafikten grafiğe denetimsiz çeviri için Birleştirilmiş GAN algoritmasının bir PyTorch uygulamasıdır.
GitHub adresi: https://github.com/mingyuliutw/UNIT
Bu projenin daha fazla görüntü dönüştürme sonucu aşağıdaki adresten görüntülenebilir.
https://photos.app.goo.gl/5x7oIifLh2BVJemb2
Ayrıca birkaç video seçip doğrudan burada yayınladık. Örneğin, kış yaza dönüşür:
Ve kedi ve Canavar Ustası birbirini dönüştürdü:
Ming-Yu Liu ( )
Liu Mingyu, bilgisayarla görme ve makine öğrenimine odaklanan Nvidia Research'te bir araştırmacıdır. Bundan önce Intel ve Mitsubishi için çalıştı. Liu Mingyu, lisans derecesini 2003 yılında Tayvan Jiaotong Üniversitesi'nden ve doktorasını 2012 yılında Maryland Üniversitesi, College Park'tan aldı.
Liu Mingyu'nun kişisel ana sayfasındaki bilgilere göre, bu yıl 9 makale yayınladı. Yukarıda bahsedilen NIPS'e (Spotlight) ek olarak, IJCAI kazanan bir makalesi var ve iki makale CVPR kazandı (biri Oral dahil):
Derin Pekiştirmeli Öğrenme Aracılarına Karşı Tartışmalı Saldırı Taktikleri
Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, Meng-Li Shih, Ming-Yu Liu, Min Güneş
Uluslararası Yapay Zeka Ortak Konferansı (IJCAI), 2017 Melbourne, Avustralya
Kağıt: https://arxiv.org/abs/1703.06748
Proje:
Deep 360 Pilot: 360 Spor Videoları ile Pilotluk Yapmak İçin Derin Bir Aracı Öğrenmek
Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Stanley Chang, Min Sun
Bilgisayarla Görme ve Örüntü Tanıma Konferansı (CVPR) Oral, 2017, Honolulu, Hawaii
Kağıt: https://arxiv.org/abs/1705.01759
CASENet: Kapsamlı Kategori Duyarlı Anlamsal Kenar Algılama
Zhiding Yu, Chen Feng, Ming-Yu Liu, Srikumar Ramalingam
Bilgisayarla Görme ve Örüntü Tanıma Konferansı (CVPR), 2017, Honolulu, Hawaii
Kağıt: https://arxiv.org/abs/1705.09759
Thomas Breuel
Thomas Breuel, Nvidia'nın Seçkin Araştırma Bilimcisi. Geçen yıl Ekim ayında Nvidia'ya katılmadan önce Google'da araştırma bilimcisi olarak çalıştı. Ayrıca uzun bir süre Almanya'daki Kaiserslautern Üniversitesi'nde ders vermiş ve Xerox, IBM ve diğer şirketlerde çalışmıştır.
Thomas Breuel, Harvard Üniversitesi'nden lisans derecesi ile mezun olmuş ve doktora derecesini MIT'den 1992 yılında almıştır. Google Scholar'dan alınan bilgiler, bu makaleye ek olarak Thomas Breuel'in bu yıl onaylanmış bir patent başvurusu olduğunu gösteriyor.
Jan Kautz
Jan Kautz, Nvidia'nın görsel hesaplama ve makine öğrenimi araştırmalarının kıdemli direktörüdür ve tüm görsel hesaplama araştırma ve geliştirme ekibine liderlik etmektedir. Ayrıca University College London'da öğretim üyeliği yapmıştır.
Almanya'daki Erlangen-Nürnberg Üniversitesi'nden mezun olduktan sonra Waterloo Üniversitesi'nden yüksek lisans derecesi aldı.Jan Kautz, doktorasını 2003 yılında Almanya'daki Max Planck Bilgisayar Bilimleri Enstitüsü'nden aldı.
Bu yıl, Jan Kautz aşağıdakiler de dahil olmak üzere bir düzineden fazla makale yayınladı:
Uzamsal Yayılma Ağları Aracılığıyla Yakınlık Öğrenme
S. Liu, S. De Mello, J. Gu, M.-S. Yang, J. Kautz
Sinirsel Bilgi İşleme Sistemleri (NIPS)
Kağıt: https://arxiv.org/abs/1710.01020
Intrinsic3D: Eklem Görünümü ve Uzamsal Değişen Aydınlatma ile Geometri Optimizasyonu ile Yüksek Kaliteli 3D Yeniden Yapılandırma
R. Maier, K. Kim, D. Cremers, J. Kautz, M. Niessner
IEEE Uluslararası Bilgisayar Görü Konferansı (ICCV)
Kağıt: https://arxiv.org/abs/1708.01670
Anında Yansıtma Tahmini için Hafif Bir Yaklaşım
K. Kim, J. Gu, S. Tyree, P. Molchanov, M. Niessner, J. Kautz
IEEE International Conference on Computer Vision (ICCV, Oral)
Kağıt: https://arxiv.org/abs/1705.07162
Çift Çerçeve Hesaplamalı Ekranlar için Karma Birincil Ayrıştırma
F.-C. Huang, D. Pajak, J. Kim, J. Kautz, D. Luebke
Grafiklerde ACM İşlemleri (Proceedings SIGGRAPH 2017)
Kağıt:
Dinamik Yüz Analizi: Bayes Filtrelemeden Tekrarlayan Sinir Ağına
J. Gu, S. De Mello, X. Yang, J. Kautz
Bilgisayarla Görme ve Örüntü Tanıma IEEE Konferansı (CVPR)
Kağıt:
GA3C: Derin Güçlendirmeli Öğrenme için GPU tabanlı A3C
M. Babaeizadeh, I. Frosio, S. Tyree, J. Clemons, J. Kautz
Uluslararası Öğrenme Temsilleri Konferansı (ICLR)
Kağıt: https://arxiv.org/abs/1611.06256
Kod: https://github.com/NVlabs/GA3C
Kaynak Verimli Aktarım Öğrenimi için Konvolüsyonel Sinir Ağlarını Budama
P. Molchanov, S. Tyree, T. Aila, T. Karras, J. Kautz
Uluslararası Öğrenme Temsilcileri Konferansı (ICLR)
Kağıt: https://arxiv.org/abs/1611.06440
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.