Görüntü stili aktarımının kısa bir tarihi (Sinir Tarzı)

Okuyucular için: Makine öğrenimi deneyimine sahip olmayan veya sahip olmayan ve Prisma gibi uygulamaların ardındaki ilkelerle ilgilenen okuyucular. Daha deneyimli okuyucular, makalenin sonunda listelenen alıntılanan kağıtları okumak için doğrudan bilim ve teknoloji ağacına başvurabilirler.

Okuma süresi: 10-20 dakika

Not: Birden fazla resim için lütfen akış hızına dikkat edin.

Görüntü stili geçiş teknolojisi ağacı

Önsöz: Görüntü stili aktarımı nedir?

Önce bir dizi resim koyalım. Aşağıdaki resimlerin her biri farklı bir sanatsal tarzdır. Sanat dışı bir profesyonel olarak, sanatsal bir tarzın ne olduğu hakkında konuşmayacağım.Herkesin kendi fikirleri vardır.Bazı şeyler muhtemelen sanat dünyasında açıkça tanımlanmamıştır. Bir görüntünün stilini diğerine nasıl değiştireceğinizi tanımlamak daha da zordur. Programcılar için, özellikle makine öğrenimindeki programcılar için, bu belirsiz tanım sadece bir kabustur. Açıklanamayan bir şeyin çalıştırılabilir bir programa nasıl dönüştürüleceği, görüntü stili aktarımında birçok araştırmacıyı rahatsız eden bir sorundur.

Sinir ağından önce, görüntü stili aktarım programının ortak bir fikri vardır: belirli bir görüntü stilini analiz edin, bu stil için matematiksel veya istatistiksel bir model oluşturun ve ardından daha iyi eşleşecek şekilde aktarılacak görüntüyü değiştirin. Model inşa edildi. Aşağıdaki üç resimde gösterildiği gibi etki iyidir, ancak büyük bir dezavantajı vardır: Bir program temelde yalnızca belirli bir stili veya belirli bir sahneyi yapabilir. Bu nedenle, geleneksel stil aktarım araştırmalarına dayalı pratik uygulamalar çok sınırlıdır.

Manzara fotoğrafı zaman kayması

Bu durumu değiştiren iki Gatys kağıdıdır ve bundan önce programın herhangi bir resmi taklit etmesine ve çizmesine izin vermek düşünülemezdi.

Sinir ağına dayalı ilk görüntü stili aktarım algoritması, oluşturma süresi: 5-20 dakika

Bu yazıda matematiksel formülleri göremeyeceksiniz, matematiği daha detaylı anlamak isterseniz orijinal makaleyi okuyabilirsiniz. Gatys vd., 2015a ve Gatys vd., 2015b'de kullanılan tekniklerin bazılarının geçmişinden başlayarak baştan başlamak ve sinir ağlarına dayalı görüntü stili aktarımını açıklamak için en basit yöntemi kullanmak istiyorum. Fikir nedir ve Gatys neden görüntü stili aktarımını gerçekleştirmek için sinir ağlarını kullanmayı düşünebilir?

Bununla ilgileniyorsanız, Gelecekte Neural Style'ın en son araştırma ilerlemesi hakkında veya ağlara ve benzerlerine karşı görüntü oluşturma üzerine diğer ilgili araştırmalar hakkında yazmaya devam edebilirim. Hatalar varsa ve yerinde değilse lütfen beni düzeltmekten çekinmeyin.

Nöral Tarz İlk yıldan 20 yıl önce - 3 yıl önce

Bir bilgisayar için bir resmin stilinin ne olduğunu anlamak için, ancak 2000 ve öncesinde görüntü dokusu üretimi üzerine yapılan araştırmalara kadar izlenebilir. Açıkçası, görüntü stili geçişi üzerine bir makale, neden görüntü dokusundan bahsetmek istiyorsunuz? Önce burada satacağım.

Bildiğim kadarıyla, 2015 öncesi görüntü dokusuyla ilgili tüm makaleler manuel olarak modellendi (Karmaşık Dalgacık Katsayılarının Birleşik İstatistiklerine Dayalı Parametrik Doku Modeli gibi) ve kullanılan en önemli fikir dokuydu Görüntü yerel özelliklerinin istatistiksel bir modeli ile tanımlanabilir. Bu öncül olmadan tüm modeller tartışılamaz. İstatistiksel özellikler nelerdir? Basitçe bir kestane rengi verin

Bu resme kestane dokusu denilebilir.Bu dokunun bir özelliği vardır, yani tüm kestanelerin bir açıklığı vardır.Açıklık basit bir matematiksel model ile ifade edilirse, belli bir yaydaki iki yay istatistiksel olarak kesişir demektir. Başka bir deyişle, bu doku, istatistiksel bir özellik olarak adlandırılabilecek, bu radyanın iki yayını kesişme olasılığı daha yüksektir. Bu öncül veya fikirle, araştırmacılar bazı dokuları özetlemek ve oluşturmak için karmaşık matematiksel modelleri ve formülleri başarıyla kullandılar, ancak sonuçta manuel modelleme zaman alıcı ve yoğun emek gerektirir. (Uzman olmayanların deyimiyle, kestane sayımının matematiğini el ile hayal edin. Model, hesaplanan model muhtemelen onu antep fıstığına uygulamak dışında işe yaramaz ...) O zamanlar, bilgisayarların hesaplama gücü mevcut cep telefonları kadar güçlü değildi ve bu alandaki araştırma süreci yavaştı, on yıldan fazla zaman geçti.

Erken doku oluşturma sonuçları

Aynı zamanda, yan taraftaki görüntü stili aktarımı doku oluşturmadan çok daha iyi değil, hatta daha kötü. Çünkü doku üretimi, en azından ne tür bir doku üretilirse üretilsin doku üretimi olarak adlandırılır, ancak her stil algoritması farklı olduğu ve aralarında fazla bir şey olmadığı için, görüntü stili aktarım alanı o zaman için uygun bir isim bile yoktu. Ortak. Örneğin, yağlı boya tablonun özelliklerini tanımlamak ve aktarmak için 7 farklı adım kullanan yağlı boya stil transferi. Başka bir örnek olarak, avatar stili geçişte bir avatar fotoğraf stilini diğerine aktarmak için üç adım kullanılır. Yukarıdaki on adımın hiçbiri kopyalanmamış, görüntü stili işleme üzerine yapılan araştırmaların 2015'ten önce temelde birbirleriyle savaştığı ve üzerinde çalışılan algoritmaların pek ilgi görmediği görülüyor. Buna karşılık, Photoshop manuel rötuş gerektirir, ancak kullanımı çoğu algoritmaya göre çok daha kolaydır.

Avatar stili aktarımı

Yağlı boya tarzı geçiş

Aynı dönemde bilgisayar alanındaki en gelişmiş araştırmalardan birinin bilgisayar grafikleri olduğu söylenebilir. (İlgili bilgiler içeren bu paragraf atlanabilir ve sonraki okumayı etkilemeyecektir.) Kısacası, ister 1.Dünya Savaşı'na geri dönen Boyfriend 1 (Battlefield 1) savaş sahnesi olsun, bilgisayar grafikleri şu anda neredeyse tüm oyunların temelini oluşturuyor, Hâlâ FGO gibi bir mobil oyun, nesiller boyu grafik araştırmacılarının vazgeçilmezi. Programdaki kardeş kağıdın bütün gün ve gece ete kemiğe bürünmesini sağlamakla meşgulken, teknoloji ağacına tıklamak önemli bir dalı işaret ediyordu: grafik kartı (GPU). Oyun konsollarına başlangıcından beri grafik kartları eşlik ediyor. Grafik kartının en büyük işlevi elbette görüntüleri işlemek ve görüntülemek. CPU'nun aksine, CPU ilk günlerde tek iş parçacıklıydı, yani bir seferde yalnızca bir görevi işleyebilir.GPU aynı anda birçok görevi işleyebilir, ancak tek bir görevin işlem gücü ve hızı CPU'nunkinden çok daha kötüdür. Örneğin, 128x128 Super Mario oyunu bir CPU tarafından işleniyorsa, her çerçevenin 128x128 = 16384 adım çalıştırması gerekir.GPU tüm pikselleri aynı anda hesaplayabildiğinden, yalnızca 1 adım sürer, bu CPU'dan çok daha hızlıdır. Oyunları gerçeğe daha yakın hale getirmek için, grafik kartları da son 20 yılda daha iyi ve daha iyi hale geldi. Tesadüfen, grafik kartı hesaplama gücünün patlayıcı bir şekilde büyümesi, doğrudan sinir ağlarının yeniden dirilmesine ve on yıldan uzun süredir oyunda olan derin öğrenmenin yükselmesine yol açtı, çünkü sinir ağları ile oyun grafik hesaplamaları arasındaki benzerlik, her ikisinin de büyük miktarda veriyi tekrar etmesi gerektiğidir. Tek hesaplama. Oyun dünyası yoksa derin öğrenme olmayacak ve Sinir Tarzının olmayacağı söylenebilir. Dolayısıyla, makine öğrenimini öğrenmek istiyorsanız, grafik kartı araştırmasını desteklemek için satın almak ve satın almak için buhara gitmeniz gerekir (hata).

ImageNet nesne tanıma yarışmalarında GPU kullanan takımların sayısı yıldan yıla artıyor ve hata oranı yıldan yıla azalıyor

Sinir ağlarından bahsetmişken, sinir ağları (özellikle evrişimli sinir ağları) ile geleneksel yöntemler arasındaki farktan biraz bahsetmek istiyorum, eğer zaten biliyorsanız, bu paragrafı atlayabilirsiniz. Evrişimsel sinir ağları birçok katmana bölünmüştür ve her katman birçok bireysel yapay nörondan oluşur. Her nöron bir tanıyıcı olarak kabul edilebilir.Şu anda kestane durumunda, kestanenin açılması gibi belirli bir özelliği tanımlamak için her biri veya birkaç nöronun kombinasyonu kullanılabilir. Eğitimden önce hepsi rastgele olduğundan hiçbir şey yapılamaz.Eğitim süreci sırasında, bunlar otomatik olarak farklı tanıyıcılara dönüştürülür ve birbirleriyle birleştirilir.Çok sayıda tanıyıcı birleştirildikten sonra nesneler tanınabilir. İlk sinir ağı tasarımı ve parametre ayarlaması dışında tüm süreç otomatiktir. Burada, Sinir Ağlarının ve Evrişimli Sinir Ağlarının nasıl çalıştığını tanıtmayacağız. Sinir Ağlarının nasıl çalıştığını bilmiyorsanız, İnternette ilgili birçok giriş ve öğretici olduğuna inanıyorum. İlgilenenler bunu öğrenebilirler, anlamamak bu makalenin okunmasını etkilemeyecektir.

Evrişimli sinir ağı efsanesi

Neural Style 3 yıl önce-1 yıl önce

2012-2014'te, derin öğrenme yeni yeni yakalanmaya başladı Yangının ana nedenlerinden biri, insanların derin öğrenmenin nesne tanıma modellerini eğitmek için kullanılabileceğini keşfetmeleriydi. Önceki nesne tanıma modellerinden bazıları, geometrik şekillerin ve tanınacak nesnenin farklı bölümlerinin karşılaştırılmasına, bazıları renge, bazıları 3B modellemeye, bazıları da yerel özelliklere dayanmaktadır. Geleneksel nesne tanıma algoritmalarında bahsetmeye değer olan, nesneleri karşılaştırmalı yerel özelliklere dayalı olarak tanımaktır.İlke aşağıdaki gibidir:

Örneğin, amacımız bu kişiyi resimde bulmak:

Hedef nesne

Program için bu kişi sadece bir grup pikseldir.Ondan onu doğrudan bulmasını isterseniz, onu yalnızca piksel piksel karşılaştırabilir ve sonra en yakın olanı (en yakın komşu algoritması) döndürebilir. Ancak gerçekte, nesnelerin şekli ve rengi değişecektir.Eğer elinizde bu fotoğraf varsa, doğrudan bakmanın hızı ve doğruluğu çok düşüktür. Bazı araştırmacılar, bu kişinin fotoğrafını birçok küçük parçaya bölebileceklerini ve onları parça parça karşılaştırabileceklerini düşündüler (yönteme Özellik Torbası denir). Son alanı en benzer bloklarla işaretleyin. Bu yaklaşımın avantajı, küçük bir parçanın tanımlanmasında bir sorun olsa bile, tanımlama için temel olarak kullanılabilecek başka küçük parçaların olması ve hata riskinin öncekinden büyük ölçüde azaltılmasıdır.

Çanta Özellikleri

Bu yaklaşımın en büyük dezavantajı, hala küçük bir bloğu piksel yığını olarak görmesi ve bunları pikselin değerine göre karşılaştırmasıdır.Aydınlatma şeklini değiştirerek nesnenin tanınmamasına neden olan yukarıda bahsedilen problem çözülmemiştir.

Evrişimsel sinir ağı tarafından yapılan nesne tanıyıcı, aslında prensipte özellik çantasından pek farklı değildir. Sadece yararlı özellikler sinir ağına kurulur. . Sinir ağının eğitimden sonra en kullanışlı özellikleri otomatik olarak çıkaracağından bahsetmiştim, bu nedenle özellikler artık orijinal nesneyi küçük parçalara ayırarak oluşturulmuyor, ancak sinir ağı ayıklamanın en iyi yolunu seçiyor .

Evrişimsel sinir ağı tarafından çıkarılan özelliklerin şematik diyagramı Her ızgara, bir nöronun en çok hangi resmi etkinleştirdiğini gösterir.

Evrişimli sinir ağları zamanında en ünlü nesne tanıma ağlarından biri, aşağıdaki yapıya sahip VGG19 olarak adlandırıldı:

VGG19 ağ yapısı

Her sinir ağı katmanı, nesneleri tanımlamak için kullanılabilecek kadar karmaşık olana kadar daha karmaşık özellikleri daha da çıkarmak için önceki katmanın çıktısını kullanacaktır. Bu nedenle, her katman birçok yerel özelliğin çıkarıcısı olarak kabul edilebilir . VGG19'un nesne tanımadaki doğruluğu, önceki algoritmadan çok fazla düştü ve sonraki nesne tanıma sistemleri temelde derin öğrenmeye geçti.

VGG19'un mükemmel performansı nedeniyle, çok fazla ilgi ve tartışma yarattı, ancak VGG19'un içeride ne yaptığını anlamak gerçekten zor, çünkü her bir nöronun iç parametreleri sadece bir grup sayıdan ibaret. Her nöronun yüzlerce girişi ve yüzlerce çıkışı vardır, nöronlar ve nöronlar arasındaki ilişkiyi tek tek çözmek çok zordur. Birisi bir yol buldu: Nöronların nasıl çalıştığını bilmesek de, aktivasyon koşullarını bilirsek, sinir ağlarını anlamak daha faydalı olur mu? Böylece bir program derlediler (kullanılan yönteme geri yayılma denir, bu, resmin baş aşağı oluşturulması dışında, sinir ağını eğitme yöntemiyle aynıdır.) Onu etkinleştirebilen her bir nörona karşılık gelen resmi bulun, bir önceki Özellik çıkarma diyagramı bu şekilde oluşturulur. Birisi bir adım daha ileri gider ve düşünür, bir nöronun aktivasyon durumunu bulabildiğimiz için, "köpek" hakkındaki tüm nöronları bulabilir miyiz, hepsini aktive edebilir miyiz ve sonra sinir ağına bakabilir miyiz? "Köpek" neye benziyor mu? Aslında şuna benziyor:

Sinir ağında hayali köpek

Bu, sinir ağının hayal ettiği en mükemmel köpeğin görünüşü, çok psychedelic ve sanki kendi sanatsal tarzından çıkmış gibi geliyor. Sinir ağının bir köpeğin yanılsamasını üretmesini sağlamak için herhangi bir resmi biraz değiştirebilen programa derin rüya denir.

Derin rüya

Sinirsel Stil ilk yıl

Bu kadar çok ön haber ile tüm unsurlar bir araya getirildi, ön teknoloji ağacı da aydınlatıldı ve sonunda konuya girmek mümkün. Sinir ağına dayalı görüntü stili aktarımı, Gatys ve diğerleri tarafından 2015 yılında iki makalede önerilmiştir: Gatys ve diğerleri, 2015a ve Gatys ve diğerleri, 2015b. Önce ilkinden bahsedelim. Önceki doku oluşturma algoritması ile karşılaştırıldığında, ilk makale yalnızca bir yeniliğe sahiptir: dokuyu modellemek için derin öğrenmeyi kullanmanın bir yolunu sunar. Doku üretimi hakkında konuşurken önemli bir varsayım, dokunun yerel istatistiksel modellerle tanımlanabileceği ve manuel modelleme yöntemlerinin çok külfetli olduğudur. Bu yüzden Gatys, yandaki nesne tanıma kağıdına bir göz attı ve VGG19'un sadece bir grup yerel özellik tanıyıcı olmadığını gördü. Önceden eğitilmiş ağa bir göz attı ve bu tanıyıcıların oldukça faydalı olduğunu gördü. Bu yüzden Gatys, bu farklı yerel özelliklerin korelasyonunu hesaplamak için bir Gramian matrisi kurdu ve bunu istatistiksel bir modele dönüştürdü, böylece manuel modelleme olmadan doku oluşturmak için bir yöntem var.

Sinir ağına dayalı doku oluşturma algoritması

Dokudan resim stiline aslında sadece iki adım uzaklıkta. Gatys, ilk adımın da oldukça büyülü olduğunu keşfetti Doku bir görüntünün stilini tanımlayabilir . Açıkçası, sanat ve bilim resmin stilinin yalnızca bir parçasıdır, ancak doku ve stil arasındaki farkı dikkatlice incelemezseniz, ilk bakışta oldukça benzer görünür. İkinci adım Görüntü stilini dahil etmeden yalnızca görüntü içeriği nasıl çıkarılır . Bu iki nokta, ikinci makalesinin yaptığı şeydi: Gatys tembelliği tekrar çaldı ve nesne tanıma modelini tekrar kullandı.Bu sefer Gramian'ı istatistiksel bir model olarak kullanmadı ve yerel özellikleri doğrudan yaklaşık olarak gördü. Resim içeriği, böylece resim içeriğini ve resim stilini (veya dokusunu) ayıran bir sistem elde edersiniz ve gerisi bir resmin içeriğini başka bir resmin stiliyle birleştirmektir. Kombine yöntem, araştırmacılar tarafından oynanan Derin Rüya olan ve uygun özellik çıkarma nöronunu etkinleştirebilecek resmi bulan sinir ağının köpeği "hayal etmesini" sağlayan yöntemi kullanır.

Sinir ağına dayalı görüntü stili aktarımı

Şimdiye kadar, sinir ağına dayalı Sinir Tarzının kilit noktalarını net bir şekilde açıkladık. Arkasındaki her adım bir önceki araştırmanın sonucudur ve adındaki derinlik ve sinir ağı nedeniyle herhangi bir özel efekt eklemeye gerek yoktur, özellikle ilerlemiştir. Gatys tarafından yapılan iyileştirme, iki farklı alanın araştırma sonuçlarını organik olarak birleştirmek ve harika sonuçlar elde etmektir. Aslında beni en çok şaşırtan şey, dokunun, insanların büyük ölçüde tanıdığı resmin tarzına uymasıydı. (Gerçek sanat tarzından çok farklı, ama oldukça iyi görünüyor ...) O zamandan beri sinir stilindeki gelişmeler sonsuz oldu.Önce buraya bazı resimler koyacağım ve teknik detaylar şimdilik gösterilmeyecek.

İyileştirilmiş resim stili aktarım algoritması, sol: giriş resmi, orta: geliştirmeden önce, sağ: iyileştirmeden sonra. Üretim süresi: 5-20 dakika

Birden fazla önceden ayarlanmış stilin birleşmesi, oluşturma süresi: 1 saniyeden az, eğitim süresi: her stil için 1-10 saat

En son gerçek zamanlı rastgele stil transfer algoritmalarından biri, oluşturma süresi: 10 saniyeden az (bir saniyeden daha az algoritmalar da mevcuttur, ancak şahsen bunun iyi görünmediğini düşünüyorum), eğitim süresi: 10 saat

Resim benzetme, oluşturma süresi: 5-20 dakika

Son olarak, Amway'in bu makaleyle ilgili olmayan bir makalesi var: Araştırma Borcu (orijinal metin İngilizce, ilgili bilgi burada) bu makaleyi yazmak için motivasyonum. Umarım bu makaleyi beğenirsiniz ve ekstra enerjiye sahip olanlar daha popüler bilim makaleleri yazabilirler. Yazı çirkinliği gösterecek kadar iyi değil.

Alıntı

Not: Sıralama temelde kronolojik sıradadır.Yıldızlar ne kadar fazlaysa, o kadar önemlidirler. Burada sadece makalede bahsedilen kağıtlara atıfta bulunulur ve gerekirse daha sonra eklenecektir.

Ön teknoloji:

Karmaşık Dalgacık Katsayılarının Birleşik İstatistiklerine Dayalı Parametrik Doku Modeli

Tek bir dış mekan fotoğrafından günün farklı zamanlarının veriye dayalı halüsinasyonu

Headshot Portreler için Stil Aktarımı

Renk paletleri kullanarak yağlı boya filtreleme ile görüntü stilizasyonu

Sinir ağına dayalı görüntü stili aktarımı:

** Evrişimli sinir ağları kullanarak doku sentezi

*** Sanatsal tarzın sinirsel algoritması

* Markov Rastgele Alanları ve Evrişimli Sinir Ağlarını Görüntü Sentezi için Birleştirme

* Doku ağları: Dokuların ve stilize edilmiş görüntülerin ileri beslemeli sentezi

Sanatsal Tarzın Öğrenilmiş Temsili

Keyfi Tarzın Hızlı Yama Tabanlı Stil Aktarımı

* Uyarlanabilir Örnek Normalleştirme ile Gerçek Zamanlı Olarak Keyfi Stil Aktarımı

Derin Görüntü Analojisi ile Görsel Nitelik Transferi

Lei Feng Net Not: Bu makalenin orijinal yazarı Li Jiaming Orijinal metin yazarın Sütunu bilin .

Temizlenebilir, sterilize edilebilir, susuz bırakılabilir, kurutulabilir, tek tuşla çalıştırılabilir, basit işlem, çorap yıkama sıkıntısından kurtulmak kolaydır Büyük kahve önerilir
önceki
"World Tree Maze X" sistem detayları ve oyun ekran görüntüleri duyuruldu
Sonraki
"Eski ama ölmemiş" Japonya
Yeniden yapmak için bu Japon filmini seçin. Kaçırmadığınızdan emin misiniz?
16 yaşında giriş yapan "İnternet ünlü kızı", 18 yaşında şair oldu, bir sonraki hedef mali haber yorumcusu
COFCO Coca-Cola, "yüksek kaliteli su + çay şarabı" ile işbirliği yapmanın doğru yolunu bulmak için Chengdu Şeker ve Şarap Fuarı'nda Görüldü
Gömülü manyetik döndürmeli depolama çipine dayalı bir katı hal sabit disk denetleyici çip mimarisi
Yalama Ekran Süresi "Ulusal İlk Aşk" Guguk Kuşu
Otonom Araçlar'ın eski Google CTO'su Chris Urmson, mezun olduğu okulda bir konuşma yaptı. 6 kuru malın ne olduğunu söyledi?
"Quanyou 7" Anne Kar Ejderhası nihayet kırıldı, hala gülümsedim ve puanı 0,1 düşürdüm
ARM ve B / S tabanlı gemi uydu haberleşme takip sistemi
"Muhteşem Doğu Eğilimi, Yeni Bir Çağda Gayret" Reform ve Açılışın 40. Yılını Kutlayan Seçilmiş Fotoğraf Yarışması Huang Qingli'nin "Kentsel Kalkınmaya Giden Yola Tanık Olun" Çalışması
Cidden komik komedi, zaten uzun zamandır görmedim
LTE230 yongasına gerçek zamanlı işletim sistemi Nucleus Plus'ın nakli
To Top