Ateşli Tartışma | Arkadaşlarınız Avatar'ın Mona Lisa versiyonunu gördü mü?

AI Technology Review Press : Görüntü stili aktarımı her zaman çok ilginç bir araştırma yönü olmuştur .. Renk aktarımı, doku aktarımı ve stil aktarımı gibi pek çok görüntü aktarımı çalışması büyük ilgi gördü. Sosyal medyanın fotoğraf paylaşımının nimetleriyle, bu işler özellikle kitleler için çekici. Prisma ve Facetune gibi bazı popüler uygulamalar bu çekiciliği başarıyla kullandı. Zhejiang Üniversitesi ve Hong Kong Bilim ve Teknoloji Üniversitesi'nden Liao Jing, reddit'te stil aktarımı üzerine bir makale paylaştı ve bu da hararetli bir tartışmaya neden oldu. Asıl gönderi reddit'ten https://arxiv.org/abs/1705.01088 kodlu https: / /github.com/msracver/Deep-Image-Analogy. AI Technology Review, makaleyi ve orijinal gönderiyi aşağıdaki gibi derledi.

Giriş

Dr. Jing Liao'nun ekibi, derin görüntü kontrastı adı verilen yeni bir görüntü stili aktarım teknolojisi önerdi. Bu teknolojinin aktarılmasından sonra, görüntü farklı bir stile sahip başka bir görüntü haline gelebilir, ancak aslında aynı anlamsal yapıya sahipler. Bu stil aktarım teknolojisi sayesinde bir resimden diğerine renk, ton, doku, stil ve diğer görsel bilgileri aktarabilirler. Örneğin aynı sahnenin kaydı çizim, eskiz veya fotoğraf çekilerek yapılabilir.İki stil aktarılabilir. Teknolojileri, iki resmin semantik olarak yoğun karşılığını bulabilir.Bunu yapmanın yolu, "resim karşılaştırmasını" eşleştirme için derin evrişimli sinir ağının çıkardığı özelliklerle birleştirmektir. Bu tekniğe derin resim karşılaştırması diyorlar. En yakın komşu alanını hesaplamak için genelden inceye bir strateji kullanırlar. Ayrıca stil-doku transferi, renk-stil değişimi, eskiz boyama-fotoğraf transferi gibi önerdikleri tekniklerin geniş uygulanabilirliğini kanıtladılar.

Yukarıdaki şekilde gösterildiği gibi, özdeş anlamsal yapı aslında iki görüntünün benzer tanımlanabilir üst düzey görsel öğelere sahip olduğu anlamına gelir.Dr.Jing Liaonun ekibi tarafından önerilen teknoloji, iki resmin görsel öğeleri arasında yoğun bir yazışma oluşturabilir. Stil aktarımı için bir temel sağlar. Bu yoğun yazışmada kullanılan kavram "resim kontrastıdır" (yoğun haritalama resmin farklı alanlarında gerçekleştirilebilir). En yakın komşu alanını hesaplarken, PatchMatch algoritmasını genişletmişler ve özellik alanına uygulanabilmesi için yeniden yapılandırmışlardır. Son etki yukarıdaki şekilde gösterildiği gibidir.A ve B 'benzerdir, ancak stil açısından bariz farklılıklar vardır.Son olarak, B'nin stili A'yı oluşturmak için A'ya aktarılır ve A'nın stili B'yi oluşturmak için B'ye aktarılır.

Özetle, yöntem kabaca üç görevi içerir. Birincisi görsel niteliklerin göçü Bu yönde renk geçişi ve doku geçişi de dahil olmak üzere pek çok çalışma yapılmıştır. Stil aktarımı, resim karşılaştırması. Ancak bu çalışmaların uygulama senaryoları özeldir, Dr. Jing Liao'nun ekibi ise daha geneldir. İkincisi yoğun yazışmadır İki görüntü arasındaki yoğun yazışmanın keşfi, bilgisayar görüntüsü ve grafikte temel bir problemdir. İlk eşleştirme yöntemi, stereo eşleştirme, optik akış ve görüntü hizalama için tasarlanmıştır. Bu yöntemler yoğun karşılık gelen alanları hesaplayabilir, ancak parlaklık ve yerel hareketin tekdüzeliğini varsayarlar ve tıkanma sorunları ile uğraşmak zor olabilir. Üçüncüsü sinirsel stil aktarımıdır.Kullandıkları eşleştirme algoritması, derin evrişimli sinir ağının ürettiği derin özellikleri kullanır.Bu derin özellikler, bazı gelişmiş tanıma görevlerinde resimleri daha iyi temsil edebildiklerini kanıtlamıştır. DeepDream son zamanlarda CNN'i sanatsal çalışmalar üretmek için kullanmaya çalıştı. Bunun sinirsel stil aktarımı üzerinde aydınlatıcı bir etkisi vardır Son zamanlarda, bazı insanlar stil aktarımı ve doku aktarımı için CNN'yi (önceden eğitilmiş VGG-16) başarıyla uyguladılar.

Sonuç ekranı

Dr. Jing Liao'nun ekibinin her bir dönüştürme yöntemine ilişkin deneysel sonuçları aşağıda gösterilmektedir:

Resme fotoğraf

Resim değişimi

Fotoğrafa resim

Fotoğraflar arasında geçiş yapın

Reddit tartışması

Reddit'teki bu gönderi, canlı bir tartışmaya neden oldu, AI teknolojisi incelemesi, soru ve fikir sormak için bazı netizenleri seçti:

  • DOZENS_OF_BUTTS: Bu resim stili aktarımı çok güzel, başka örnek var mı?

  • e_walker: Evet, bağlantıyı ekleyin: https://liaojing.github.io/html/data/analogy_supplemental.pdf

  • Çıkış yapıldı: Bu ve cycleGAN arasındaki fark nedir?

  • tdgros: Bu teknik yalnızca sinir ağlarını içerir çünkü temel olarak yalnızca önceden eğitilmiş VGG19 özelliklerini kullanırlar. Her ölçekte, görüntüleri çok çözünürlüklü bir şekilde yeniden yapılandırmak için NNFS kullanılır. Bu nedenle, bu teknik eğitilmemiştir ve rastgele resimlerde kullanılmamıştır.

    CycleGAN, PixToPix'e benzer bir GAN'dır. Dönüşüm sırasında "iki yönlü" tutarlılığı sürdürmesi gerekir, bu nedenle belirli bir veri kümesi üzerinde eğitilir ve belirli görevleri tamamlamak için kullanılır.

  • jonny_wonny: Aksiyon ve animasyon geçişi ne zaman gerçekleştirilebilir?

  • madebyollin: Ek materyallerde daha önce bahsetmişlerdi, şimdilik animasyonlu versiyonu almanın bir yolu yok, çünkü model içeriğe geometrik olarak doğru bir eşleşme. Bu nedenle, anlamsal olarak ilişkili alanları belirlemek için sistemi çeşitli anlamsal bölümlemelerle geliştirmeniz gerekir ve bu alanlar yakınlaştırılabilir (belki de girdi parçasının döndürme ve yakınlaştırma sorunları vardır).

  • Çıkış yapıldı: Kare kare işlenebiliyorsa video için düşünülebilir. Bazı noktaları optimize etmeniz gerekebilir, ancak yakında daha düşük bir sürüm bulmanız gerekir, ancak alt sürüm tarafından oluşturulan videonun oluşturulması uzun zaman alabilir.

    Ama bu operasyon gerçekten içten, bir düşünün, yakında Seinfeldin ana hikayesinin animasyon versiyonunu göreceğiz ve bu Pixar stili, West Anderson stili, Tim Burton stili, Rick ve Morty stili, Macera zamanı stili, Clay heykeli olabilir. Animasyon stili ve aklınıza gelebilecek tüm stiller, sığınak.

  • Boba-Black-Sheep (yukarıdan cevapla): Bu hala çok zor çünkü çerçeveler arasında sürekliliği sağlamak gerekiyor.

  • Yorumsuz (cevap üst katta): Arka plan ile ön planın anormal füzyonu ve hareketli nesneler tarafından arka planın tıkanması gibi bu çalışmada kayda değer pek çok şey var.Bu sorunları tamamen çözmek için, 3B geometrik yapıyı daha iyi anlamak için yalnızca NN'lere güvenebiliriz.

  • hristo_rv: Mobil cihazları ne zaman kullanabilirim?

  • e_walker: Bunu nasıl daha verimli hale getireceğimizi düşünüyoruz. Şu anda iki darboğaz vardır: NNF araması için derin segment eşlemesi ve ters evrişim. İlki, bazı mevcut NNF arama optimize ediciler kullanılarak çözülebilir (örneğin, niceleme yoluyla karakteristik kanalı azaltma). İkincisi, ayrıntılı ters evrişim optimizasyonunun alternatif yöntemlerini dikkate alabilir. Hala yapılacak çok iş var.

  • Çıkış yapıldı: Önceki ilgili çalışmalardan farkı nedir?

  • e_walker: İki ana fark vardır: Birincisi, önceki yöntemin esas olarak genel istatistiksel eşleştirmeyi dikkate almasıdır (Adam matrisini kullanmak gibi), ancak bu yöntem daha çok yerel anlamsal eşlemeyi (göz göze eşleştirme gibi) dikkate alır. İkincisi, yöntemin daha genelleştirilmiş olması ve dört ana uygulama yönü vardır: fotoğrafları diğer stillere aktarma, diğer stiller arasında aktarma, fotoğrafları diğer stillere aktarma ve fotoğrafları fotoğraflara aktarma.

  • Çıkış yapıldı: Saç gibi ayrıntılarla nasıl başa çıktığınızı sormak istiyorum?

  • e_walker: Bu yüksek frekanslı ayrıntılar, Relu2_1, Relu1_1 gibi VGG'nin ince ölçekli katmanında yüksek karakteristik yanıta sahiptir. Yöntemimiz çok seviyeli eşleştirme ve yeniden yapılandırmaya dayandığından, farklı frekansların bilgileri adım adım geri yüklenecektir.

  • rasen58: Sanırım önceki stil transferi arasındaki fark nedir?

  • e_walker: Semantik yazışmanın yerel tarzda aktarımı her zaman zor bir problem olmuştur. Bu yöntemin, yüz yüze, ağaçtan ağaca gibi farklı resim stilleri arasındaki yerel yazışmaları doğru bir şekilde bulması gerekir. Yöntemimiz yalnızca segmentasyon geçişi gerçekleştiremez, aynı zamanda renk geçişi, segmentasyon değiştirme, görüntü fotoğraf dönüştürme vb. İşlemleri gerçekleştirebilir.

Dr. Jing Liao'nun ekibi tarafından önerilen teknoloji, semantik olarak anlamlı yoğun yazışmalar bulmak için "görüntü analojisi" kavramını derin özellik alanına uygular. Bu yöntem önceki yöntemden daha iyidir ve yöntemin daha geniş bir uygulanabilirliği vardır. Bu yöntemin, bilgisayar grafikleri ve bilgisayar vizyonundaki anlamsal yazışmalara dayanan görevler için çok yararlı olduğunu düşünüyorlar.

Yukarıdakiler, AI teknoloji incelemesi reddit'in orijinal gönderisinin yorumudur.

Bilgisayar görüşü hakkında daha fazla bilgi edinmek ister misiniz?

"Orijinali oku" yu tıklamaya hoş geldiniz

Veya AI Araştırma Topluluğu topluluğuna geçin ~

Plus ve MAX arasındaki fark nedir, bu iki yeni makine size
önceki
Hacca gitmek zorunda mı? ! Apple Park resmen halka açık, tüm gün oynamanıza yetecek kadar!
Sonraki
Cevap şaşkına döndü ve Dafa'ya zorlandı, neredeyse bu kelimeyi tanımıyorum
Buick GL6'ya maruz kalma, yeni bir akıllı güvenlik ara bağlantı yapılandırması ile donatılacak
ZTE Axon 10 Pro 5G resmi olarak piyasaya sürüldü, Snapdragon 855 + 48 milyon ana kamera + ekran parmak izi
Sığır derisi, Legend Pictures tarafından TVB'nin satın alınmasının fikirlere bağlı olduğuna inandığım noktaya kadar esiyor.
Google Pixel 3 resmi çekim kanıtları açıklandı: görüntüleme hala keskin
Lüks kilit ayakkabılar ASSC tarafından "daire içine alınmış hayranlar" mı? ! Bu pembe terlikleri alır mısın?
TVB'nin Legendary Pictures'ı satın almak isteyen kayıp kişi, bu kadar "barbar" mı?
3 yıl sonra arabanız etanol benzin kullanacak, bunun bize nasıl bir etkisi olacak?
Sony Xperia 1 çıktı, 21: 9 balık 4K ekranlı + Snapdragon 855 + arka üçlü kamera
Lin Xi sözlerini Faye Wong, Miriam Yeung, Eason, Leslie Cheung'u 4 farklı şarkıya yazmak için kullandı.
Double 11'de kendinize ne vermelisiniz, hadi bu 3 cep telefonu hakkında bilgi edelim
Planlandığı gibi geldi, Baowo BX520TGDI otomatik test sürüşü
To Top