CVPR 2018 Özet: Birinci Bölüm

Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:

NeuroNuggets: CVPR 2018 İnceleniyor, Bölüm I

Yazar | Sergey Nikolenko, Aleksey Artamonov

Tercüme | Lao Zhao Redaksiyon | Li Jing

Bitirme | ananas kız

Orijinal bağlantı:

https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202

NeuroNuggets: CVPR 2018 incelemesi, birinci bölüm

Neuromation'da her zaman araştırmamıza yardımcı olacak yeni ve ilginç fikirler arıyoruz. Onları bulmak için en iyi konferanslardan daha iyi bir yer. CVPR (Bilgisayarlı Görü ve Örüntü Tanıma) konferansının DeepGlobe seminerinde nasıl başarılı olduğumuzu zaten tanıtmıştık. Bu sefer CVPR'deki en ilginç makaleye daha yakından bakacağız. Bu süre zarfında, en iyi konferanslar çok önemli şeyler, bu yüzden bir dizi tweet hazırladık. Sunduğumuz makaleler belirli bir sıraya sahip değil, sadece mükemmel makaleler değil, aynı zamanda Neuromation'da yaptığımız araştırmalarla da ilgili. Bu sefer Aleksey Artamonov (daha önce tanıştığınız biri) bu listeyi hazırladı ve ona biraz giriş eklemeye çalıştım. Bu seride çok kısa olacağız, her bir makaleden en fazla bir ilginç noktayı çıkarmaya çalışacağız, bu nedenle bu şekilde tüm çalışmayı gerçekten anlayamayız ve makalenin tamamını okumanız şiddetle tavsiye edilir.

GAN ve bilgisayar görüşü

İlk bölümde, yalnızca kedi ve köpekleri ayırt etmekle kalmayıp aynı zamanda yeni kedi ve köpek görüntüleri üreten makine öğrenimi modelleri olan üretken modellere odaklandık. Bilgisayarla görü için, en başarılı üretici model türü Üretken Karşıt Ağlar'dır (GAN) Ayırıcı ağ, üretilen nesneler ile gerçek nesneler arasında ayrım yapmayı öğrenir ve üretici, ayırıcıyı aldatmayı öğrenir. GAN hakkında birçok kez yazdık (örneğin, burada ve burada), o halde doğrudan konuya gidelim.

Dışarıda küçük yüzler arıyorum

Y. Bai ve diğerleri. Dışarıdaki küçük yüzleri bulmak için üretken yüzleşme ağını kullanın

Suudi ve Çinli araştırmacılar arasındaki bir işbirliğinde yazar, kalabalık fotoğraflarındaki çok küçük yüzleri tespit etmek ve büyütmek için GAN'ı kullandı. Sadece küçük yüzleri tespit etmek bile ilginç bir sorundur ve sıradan yüz dedektörleri (örneğin, önceki yazımızda) genellikle sorunu çözemez. Burada yazar, yüzleri çıkarmak için uçtan uca bir ardışık düzen önerir ve ardından bunu 4 kata çıkarmak için üretken bir model uygular (süper çözünürlük adı verilen bir işlem). Aşağıda, makaledeki boru hattına genel bir bakış sunulmuştur:

PairedCycleGAN makyajı

H. Chang ve diğerleri PairedCycleGAN: Makyaj ve temizleme için asimetrik desen transferi

Koşullu GAN, görüntü işlemede yaygın olarak kullanılmaktadır; süper çözünürlükten daha önce bahsetmiştik ve GAN, stil aktarımına da başarıyla uygulandı. GAN'ı kullanarak, belirli görüntü öğelerine karşılık gelen göze çarpan özellikleri öğrenebilir ve sonra bunları değiştirebilirsiniz. Bu çalışmada Princeton, Berkeley ve Adobe'den araştırmacılar fotoğrafları rötuşlamak için bir çerçeve önerdiler. Bu çalışmanın ilginç bir kısmı, yazarın farklı yüz bileşenleri (gözler, dudaklar, cilt) için ayrı jeneratörleri eğitmesi ve bunları yüz bileşenlerini çıkarmak için farklı ağlar kullanarak ayrı ayrı uygulamasıdır:

GANerated Eller

F. Mueller ve diğerleri, Gerçek Zamanlı 3D El Takibi için Mon-time RGB için GANerated Hands

Poz tahmini hakkında makaleler yazdık. Poz tahmininin çok önemli bir alt kümesi (genellikle ayrı bir model gerektirir) el izlemedir. Elleri sallayarak bilgisayarları manipüle etme bilim kurgu teması henüz tam olarak anlaşılmadı ve Kinect gibi özel donanımlara hala ihtiyaç var. Her zaman olduğu gibi, ana sorulardan biri verilerdir: 3D olarak işaretlenmiş gerçek video akışını nerede bulabilirim? Bu çalışmada yazar, sentezlenmiş 3B modeli bir görüntüye dönüştürebilen ve daha sonra bunu el izleme ağını eğitmek için kullanabilen koşullu bir GAN mimarisi önerdi. Bu çalışma bizim için çok çekici.Sentetik veriler, Neuromation'ın araştırmasının odak noktasıdır, bu nedenle daha sonra daha ayrıntılı olarak ele alabiliriz. Aynı zamanda, burada "gerçekle sentezlenmiş" GAN mimarisi:

Yaya Göçü GAN

L. Wei ve diğerleri, Kişi Yeniden Tanımlama için Alan Boşluğuna Kişi Transferi GAN

Kişilerin yeniden tanımlanması (ReID), farklı koşullarda ve farklı durumlarda çekilmiş farklı fotoğraflarda aynı kişiyi bulma sorunudur. Bu sorun doğal olarak birçok çalışmanın konusu haline geldi ve şimdi nispeten iyi bir şekilde çözüldü, ancak alan farklılıkları sorunu hala var: farklı veri kümeleri ve insanların görüntüleri bir veri kümesinde çok farklı koşullara (aydınlatma, arka plan vb.) Yukarıda eğitilen ağ, başka bir veri kümesine (ve örneğin gerçek dünya uygulamasına) aktarıldığında çok şey kaybeder. Yukarıdaki şekil farklı veri setlerini göstermektedir. Bu sorunu çözmek için bu çalışma, görüntüleri bir "veri seti stilinden" diğerine "veri seti stiline" aktarabilen ve karmaşık dönüşümler yoluyla gerçek verileri geliştirmek için GAN'ı kullanan bir GAN mimarisi önermektedir. Aşağıdaki gibi çalışır:

Üretken modelin göz imgesi sentezi

K. Wang ve diğerleri.Göz görüntü sentezi ve göz bakışı tahmini için hiyerarşik üretken model

Rensselaer Polytechnic Institute'taki bu çalışma çok özel bir sorunu çözüyor: insan gözünün görüntülerini oluşturmak. Bu sadece oluşturulan görüntüdeki güzel gözler için değil, aynı zamanda oluşturulan gözlerle görüş hattı tahmin problemini çözmek için de önemlidir: İnsanlar neye bakıyor? Bu gerçek bir bilim kurgu arayüzünün yolunu açacak ... ama yine de gelecek ve sentetik göz üretimi bile şu anda çok zor bir problem. Yazar karmaşık bir olasılıklı göz şekli sentezi modeli önerdi ve büyük bir başarıyla bu modele dayalı gözler üretmek için bir GAN mimarisi önerdi.

Görüntü onarımı: boşlukları doldurun

J. Yu ve ark., Bağlamsal Dikkatle Üretken Görüntü Boyama

Adobe Research ve Urbana-Champaign'deki Illinois Üniversitesi tarafından yapılan bu çalışma, görüntü boşluğunu doldurma konusundaki son derece zorlu problemi çözmeye çalışıyor (yukarıdaki örneğe bakın). Genellikle, bir görüntünün onarılması alttaki sahneyi anlamayı gerektirir: Yukarıdaki görüntünün sağ üst köşesinde, yüzün neye benzediğini zaten biliyorsunuz ve gördüğümüz saç ve boyuna göre yüzün nasıl görünebileceğini tahmin ediyoruz. Bu çalışmada yazar, nesli iyileştirmek için çevreleyen görüntülerin özelliklerini kullanabilen GAN tabanlı bir yöntem önermektedir. Yapı, önce kaba bir sonuç elde etmek ve ardından onu iyileştirmek için başka bir ağ kullanmak için iki bölümden oluşur. Sonuçlar çok iyi:

Bugün bu kadar. Bu sadece ilk bölüm, CVPR 2018'i bir sonraki sayıda gözden geçirmeye devam edeceğiz, hoşçakal. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı

Sergey NikolenkoChief Araştırma Görevlisi, Nöromasyon

Aleksey ArtamonovKıdemli Araştırmacı, Nöromasyon

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

Bağlantıya uzun basın ve açmak için tıklayın veya [CVPR 2018 Özet: Birinci Bölüm] 'e tıklayın:

AI Araştırma Enstitüsü heyecan verici içeriği günlük olarak günceller, daha heyecan verici içerikler izleyin:

Ürün düzeyinde bir hedef tespit sistemi oluşturmak için SKIL ve YOLO'yu kullanın

Eğitim modelinizin hızını nasıl büyük ölçüde artırabilirsiniz?

Vicdan tavsiyesi: 20 haftalık bir bilgisayar bilimi deneyimi gönderisi (kaynaklarla birlikte)

Veri bilimcilerin anlaması gereken beş temel istatistiksel kavram: istatistiksel özellikler, olasılık dağılımı, boyutluluk azaltma, yüksek hızda örnekleme / yetersiz örnekleme, Bayes istatistikleri

Öğretmen tedavisi, çifte birinci sınıf yetenek tanıtımı ... Bu senenin iki seansı, en sıcak eğitim önerileri, sesler burada
önceki
Panik! Supreme x Nike SB yepyeni ortak Air Force 2 resmi olarak yayınlandı!
Sonraki
En iyi beş açık kaynaklı java performans izleme aracı
BMW 1 Serisi sedan 118i yaşam testi hakkında daha fazla bilgi edinin
Zafer Kralı: Daha sonraki dönemde abartılan kahraman, listede maymun var, ilki en güçlü olarak kabul ediliyor
Haberler! Samsung'un gece geç çıkışı: Resmi olarak listelenen Samsung S9 serisi dizginlenmemiş kırmızı versiyonu
Suning'in otomatik konfigürasyon işlemi ve devasa sunucuların bakımı uygulaması
İçecek çemberinde en popüler olan Coca-Cola, AAPE ile ortaklaşa bir tema serisi başlattı ve artık satışta!
Ulusal Halk Kongresi milletvekili Li Chunkui: Güney Çin'de 1 Numaralı Crisp Lee Markası Olmaya Çalışmak
Editörlerin kan kusmayla ilgili önerileri. Oyunlar için bu telefonları seçmek yanlış değil.
Google I / O Konferansı Tahmini: İşte dört gözle beklediğiniz şeyler
Zamanda geriye gidersek, hangi oyunlar internet kafelere hakimdir? Hangisi favorin?
Peri dizisi! İngiliz all-starlar 1. Dünya Savaşı temalı "1917" filmine katıldı, bu başka bir "Dunkirk" mi olacak?
MaxScale: MySQL okuma-yazma ayrımı ve yük dengeleme için bir ara yazılım aracı
To Top