Evrişimli Sinir Ağına Dayalı "Akademik Kağıt" Görüntü Renklendirme

Özet

Görüntü renklendirmenin amacı gri tonlamalı bir görüntünün her pikseline bir renk atamaktır, bu görüntü işleme alanında sıcak bir sorundur. U-Net'i ana hat ağı olarak kullanarak, derin öğrenme ve evrişimli sinir ağı ile birlikte, tam otomatik bir renklendirme ağı modeli tasarlanmıştır. Bu modelde, dal, görüntünün global bilgisini çıkarmak için yüksek seviyeli bir özellik çıkarıcı olarak evrişimli sinir ağı SE-Inception-ResNet-v2'yi kullanır.Aynı zamanda, ağda doğrusal düzeltme işlevinin (ReLU) yerini almak için PoLU (Güç Doğrusal Birim) işlevi kullanılır. ). Deneysel sonuçlar, bu renklendirme ağı modelinin gri tonlamalı görüntüleri etkili bir şekilde renklendirebildiğini kanıtladı.

Dar ev dekorasyonu: iç dekorasyona atıfta bulunur; iç mekanı daha güzel hale getirmek için güzelleştirme perspektifinden düşünülür;

Geniş anlamda ev geliştirme: İç mekanların tadilatı ve dekorasyonu dahil; bugün geniş anlamda, iç dekorasyon ve dekorasyonun birleşimi olan ev geliştirme hakkında konuşuyoruz.

Çince alıntı biçimi: Xu Zhonghui, Lu Weishuai. Evrişimli Sinir Ağına Dayalı Görüntü Boyama. Elektronik Teknoloji Uygulaması, 2018, 44 (10): 19-22.

İngilizce alıntı biçimi: Xu Zhonghui, Lv Weishuai. Evrişim sinir ağına dayalı görüntü boyama. Elektronik Tekniğin Uygulanması, 2018, 44 (10): 19-22.

0 Önsöz

Görüntü renklendirme, araştırma ve uygulama değeri yüksek gri tonlamalı görüntülerin sözde renklendirilmesi işlemidir. İlk görüntü renklendirme yöntemleri temel olarak iki kategoriye ayrılır: biri yerel renk genişlemesine, diğeri ise renk aktarımına dayanır. İlki, kullanıcının tüm resmin rengini belirlemesini, kullanıcının global optimizasyon problemini çözmesini ve hedef görüntü üzerinde renklendirmenin temeli olarak belirli sayıda renkli fırçayı işaretlemesini ve ardından tüm görüntünün renklendirmesini tamamlamak için renk genişletme gerçekleştirmesini gerektirir. Bu tür bir yöntem daha iyi renkli görüntüler elde edebilir, ancak karmaşık dokularla ve birçok insan müdahalesi ile uğraşması gerekir.Farklı renk alanları, renk fırçalarının açıkça farklı renkler olarak işaretlenmesini gerektirir. Bu nedenle, tüm renklendirme sürecinde, kullanıcının iş yükü çok büyüktür ve renklendirme etkisi büyük ölçüde sanatsal becerilerine bağlıdır. İkincisi, görüntü renklendirme işleminde insan faktörlerinin müdahalesini ve etkisini ortadan kaldırır.İlkinden farklı olarak, bu tip yöntem, renk bilgisini iletmek için bir referans görüntü olarak renkli bir görüntü gerektirir. Bu yöntem uygulanarak elde edilen görüntünün rengi referans görüntüye benzer olduğu için sonuçta renk türlerinin sayısı azalır ve uygun bir örnek görüntü bulmak uzun zaman alır. Derin öğrenmenin geliştirilmesi ve uygulanmasıyla, derin sinir ağlarının veriye dayalı renklendirme yöntemi bir trend haline geldi. Örneğin, girdi olarak görüntü tanımlayıcıları kullanan CHENG Z gibi derin bir sinir ağı görüntü renklendirme yöntemi, görüntü özelliklerini çıkarmak için sinir ağlarını kullanır. IIZUKA S ve diğerleri, siyah ve beyaz görüntüleri kodlamak ve ardından renklendirmek için küresel hiyerarşik özelliklere ve orta düzey özelliklere dayanan bir teori kullandı, piksellerin renk bilgilerini tahmin etmek için iki özellik parçasını birleştirdi ve ağ görüntüleri de sınıflandırabilir. ZHANG R ve diğerleri çok modlu bir şema kullandı.Her piksel olası rengin olasılık değerini verdi.Bu nedenle renklendirmeden sonra farklı renk stillerine sahip görüntüler ortaya çıkacak.

Yukarıdaki çalışmadan esinlenilen bu makale, tam otomatik bir gölgeleme ağı modeli tasarlamak için derin sinir ağı Inception-ResNet-v2'yi birleştirdi.SENet modülü modele eklendi.SENet, özellik kanalları arasındaki karşılıklı bağımlılığı açık bir şekilde kurabilir. Her özellik kanalının önemini otomatik olarak almayı öğrenerek modelleyin ve ardından yararlı özellikleri önemine göre geliştirin ve mevcut görev için gereksiz özellikleri bastırın. Inception-ResNet-v2, ağ performansını iyileştirmek için doğrusal düzeltme işlevi (Doğrultulmuş Doğrusal Birim, ReLU) işlevi yerine PoLU işlevi kullanılırken, üst düzey bir özellik çıkarıcı olarak SENet ile birleştirilir.

1 Model ve algoritma

1.1 Teorik yöntem

Formülde n, negatif kısımdaki PoLU fonksiyonunun değişim oranını kontrol eden ağırlıktır. PoLU işlevi, yalnızca öğrenmenin kararlılığını ve temsil yeteneğini artırmakla kalmayan, aynı zamanda birim çıktının ortalama değerini sıfıra yaklaştıran ve böylece önyargı kayma etkisini azaltan negatif girdi için sıfır olmayan bir çıktıya sahiptir. Önceki aktivasyon işlevinin aksine, n > 1'de, PoLU işlevinin negatif durumunda y = x ile bir kesişimi vardır ve bu da yanıt alanını artırabilir. Ağı daha iyi eğitmek, modelin optimal parametrelerini bulmak ve model kaybını ölçmek için, tahmini piksel renk değerleri ile renk uzayındaki gerçek değerleri arasındaki ortalama kare hatasını (MSE) kullanın ve ardından kaybı ağ üzerinden geri yayınlayın. En iyisini elde etmek için model parametrelerini güncellemek için kullanılır. Bir resim için P,

Hedefin X'inci bileşeninin ve yeniden yapılandırılmış görüntünün ij'inci piksel değerini temsil eder, formül aşağıdaki gibidir:

1.2 Algoritma

Bu makaledeki model, görüntünün a * ve b * renk bileşenlerini tahmin ederek ve bunları giriş görüntüsünün parlaklık bileşeni ile birleştirerek son renkli görüntüyü elde eder. Modelde SE-Inception-ResNet-v2 ağı kullanılmış ve son katmandan gri ölçekli görüntü gömme elde edilmiştir.Ağ mimarisi Şekil 2'de gösterilmiştir. Esas olarak özellik çıkarma modülü, füzyon modülü ve rekonstrüksiyon modülü olmak üzere 3 parçadan oluşur. Bunlar arasında, ana hat ağı U-Net "yerel özellikleri", SE-Inception-ResNet-v2 "global özellikleri" çıkarır, iki parça birbiriyle etkileşmez ve "global özellikler" görüntünün iç mekan veya dış mekan olması gibi "yerel özellikleri" yönlendirebilir. , Su veya su altı ve "yerel özellikler", yerel doku gibi bazı ayrıntılı bilgiler verebilir; füzyon modülü, özellik çıkarma modülünün iki parçası tarafından çıkarılan özellik tensörlerini birleştirir ve bunları birleştirir; yeniden yapılandırma modülü, giriş görüntüsünü yeniden oluşturacak ve onu Giriş görüntüsünün parlaklık bileşeni, renkli çıktı görüntüsü ile birleştirilir. Üç bileşen aşağıda ayrıntılı olarak açıklanmaktadır.

1.2.1 Özellik çıkarma modülü

Özellik çıkarma modülü Şekil 2'de gösterilmiştir. U-Net'te giriş gri görüntüsü

Boyut H × W'dir ve çıktı, H / 8 × W / 8 × 512'nin bir özellik temsilidir.Son katman, tensörü 512 kanaldan 256 kanala düşürerek evrişimli katmanın tensörünü işler. Evrişim katmanında, tüm evrişim çekirdekleri 3 × 3'tür ve bu katmanın girdi boyutunu korumak için dolgu kullanılır. Ağın hesaplama karmaşıklığını azaltmak için, ağda tensör boyutunu azaltmak için maksimum havuz katmanı yerine 2 × 2 adım boyutuna sahip bir evrişimli katman kullanılır. SE-Inception-ResNet-v2, şube ağında görüntü gömme, kapı, su altı, araba, dış mekan gibi bazı üst düzey özellikleri çıkarmak ve renklendirme işlemi için kullanılabilecek görüntü bilgilerini iletmek için kullanılır. Inception'ın 299 × 299 × 3 görüntü girişi gereksinimini karşılamak için, önce giriş görüntüsünün boyutunu 299 × 299'a dönüştürün ve ardından görüntüyü kendisiyle üst üste bindirerek üç kanallı bir görüntü elde edin ve ardından oluşturulan görüntüyü ağa girin ve Softmax'ta kullanın İşlevden önceki son katmanın çıktısını çıkarın. Inception-ResNet-v2 çerçeve kurallarına göre, çıktı 1001 × 1 × 1 gömülüdür. Ana hat özelliği çıkarma modülünün son çıktısı H / 8 × W / 8 × 256 boyutunda bir tensördür Bu çıkış, füzyon modülündeki SE-Inception-ResNet-v2 ağ çıkışı ile birleştirilecektir. Spesifik parametreler Tablo 1'de gösterilmektedir.

1.2.2 Fusion Modülü

Özellik çıkarma modülü tarafından çıkarılan özellik temsilinin iki parçasını birleştiren füzyon modülü Şekil 2'de gösterilmiştir. Ağ, özellik vektörünü SE-Inception-ResNet-v2'den çıkarır, HW / 64 kez kopyalar ve uzay derinliği ekseni boyunca ana hat U-Net özellik çıkarma modülü çıktısına ekler. H / 8 × W / 8 × 1257 şeklinde bir özellik tensörü elde etmek için bu yöntemi ağda uygulayın. Ayna görüntüsü ve öznitelik tensörünün çoklu dikişi sayesinde, özellik tensörü tarafından iletilen anlam bilgisinin görüntünün tüm uzaysal bölgelerine eşit olarak dağıtılması sağlanır. Aynı zamanda, H / 8 × W / 8 × 256 boyutlarında bir özellik tensörü oluşturmak için ağda 1 × 1 boyutunda 256 evrişim çekirdeği uygulanır.

1.2.3 Modülü Yeniden Oluştur

Özellik tensörü füzyon modülünden geçtikten sonra yeniden yapılandırma modülüne akar. Yeniden yapılandırma modülünde, özellik tensörü, görüntünün kanalını yeniden yapılandırmak için evrişimli katman ve yukarı örnekleme katmanı tarafından işlenir. Ana hat öznitelik çıkarma modülünde, tensör boyutunu azaltmak için uygulama adımı boyutu 2x2 evrişimli katmandır ve yeniden yapılandırma modülündeki yukarı örnekleme katmanı tensörün genişliğini ve yüksekliğini artırır. Sonuncusu, PoLU aktarım işlevine sahip evrişimli bir katmandır, ardından bir yukarı örnekleme katmanı gelir; çıktı görüntü tensörü H × W × 2'dir ve giriş görüntüsünün parlaklık bileşeni, son renkli görüntüyü oluşturmak için birleştirilir. Yeniden yapılandırma modülünün hacim temel katmanı da görüntünün boyutunu korumak için dolgu kullanır Spesifik parametreler Tablo 2'de gösterilmiştir.

2 Deneysel sonuçlar ve analiz

2.1 Deneysel süreç

Doğru veri seti seçimi, deneysel sonuçların iyileştirilmesinde büyük bir etkiye sahiptir.Veri güdümlü tabanlı en yaygın kullanılan görüntü renklendirme yöntemi ImageNet veri setidir. Eğitim etkisini iyileştirmek için, görüntü boyutu yeniden ayarlanacaktır SE-Inception-ResNet-v2'ye görüntü boyutu girişi 299 × 299'a ve ana satır U-Net'e görüntü boyutu girişi 224 × 224'e ayarlanmıştır. Ağ, eğitimi hızlandırmak için NVIDIA CUDA Toolkit ve NVIDIA GeForce GTX'i kullanır.Eğitim sırasında yaklaşık 120.000 ImageNet veri kümesi görüntüsü kullanılır ve eğitim sırasında doğrulama veri kümesi olarak% 5'i kullanılır.

2.2 Sonuç analizi

Farklı yöntemlerin renklendirme etkilerini karşılaştırmak için Şekil 3 (a) 'daki gri tonlamalı görüntüye farklı yöntemler uygulanarak elde edilen sonuçlar Şekil 3'te gösterilmiştir. Şekil 3 (b), Ryan Dahl'ın yöntemi uygulanarak elde edilen renkli bir görüntüdür ve görüntünün ana kar dağı, insanların görünmesini istemediği bir renk-kahverengi ile boyanmıştır. Ryan Dahl yöntemi, renklendirme yönteminde görüntü renklendirmeyi bir gerileme sorunu olarak ele alır ve ağdaki kayıp işlevi olarak Öklid mesafesi işlevini kullanır. Bunu bir regresyon problemi olarak ele almak çok uygun görünse de, renk uzayının sürekli yapısı nedeniyle, sınıflandırma tabanlı yöntemler pratik uygulamalarda daha iyidir. Şekil 3 (c), görsel efektler açısından Ryan Dahl yönteminden daha iyi olan, ancak bazı dağlar da kahverengi görünen Larron yöntemi ile oluşturulan görüntüdür.Larron yöntemi, her pikselin renk histogramı ve uzamsal konumu tahmin edilerek renklendirilir. Bilgiler hassas değildir. Şekil 3 (d) bu yazıda yöntemin uygulanmasının sonucudur.Ryan Dahl yöntemi ve Larron yönteminin sonuçlarıyla karşılaştırıldığında, bu yöntemin sonuçları görüntü uzayında renk sürekliliği, görüntü renk mantığı ve renk dağılımıdır. Her yönden mükemmel performans. Bu makaledeki yöntem, ağdaki görüntü sınıflandırma görevinde en yüksek doğrulukta mevcut ağ modelini uygular ve aynı zamanda ağın sunum yeteneğini geliştirmek için SENet modülünü ekler.

Şekil 4 (a) 'da kuşların gri tonlamalı görüntülerini renklendirmek için farklı yöntemler uygulayın ve sonuçlar Şekil 4'te gösterilmektedir. Şekil 4 (b) Ryan Dahl yönteminin uygulanmasının sonucudur.Çimlerin pek çok kısmının yeşil ile iyi boyanmadığı, renk devamlılığının zayıf olduğu ve kuşların üzerindeki renklerin de koyu olduğu görülmektedir. Şekil 4 (c) Larron yönteminin uygulanmasının sonucudur.Bu görüntü görsel efektler açısından Şekil 4 (b) 'den daha iyidir, ancak çimen yeşil değildir Larron yöntemi deneyde çok modlu bir yöntem kullanır. Birkaç olasılık değeri vardır: Çim yeşil veya solmuş olabilir. Şekil 4 (d), bu yazıda yöntemin uygulanmasının sonucudur.Şekil 4 (b) ve Şekil 4 (c) ile karşılaştırıldığında, bu yöntemin sonucu, renk sürekliliği ve renk alanı dağılımında gerçek görüntüye daha yakındır.

3 Sonuç

Görüntü renklendirmenin büyük bir geliştirme alanı ve uygulama değeri vardır Evrişimli sinir ağına dayanan bu kağıt, herhangi bir kullanıcı müdahalesi olmadan siyah beyaz görüntüleri renklendirebilen, veriye dayalı bir siyah beyaz görüntü renklendirme şeması tasarlar. Bu çözüm, giriş olarak renkli görüntüden dönüştürülen gri tonlamalı görüntüyü kullanır ve gri tonlamalı görüntüye karşılık gelen renkli görüntünün a * ve b * renk bileşenlerinin tahmin edilen değerlerini verir. Ardından gri tonlamalı L * ve a *, b * çıktılarını birleştirerek CIE renk uzayına dayalı bir renkli görüntü elde edin ve son olarak gri tonlamalı görüntüden renkli görüntüye doğrusal olmayan bir eşleme oluşturun. Deneyde ImageNet veri setinin yalnızca bir alt kümesi kullanıldığından, renk temalarının yalnızca küçük bir kısmı ağ tarafından eğitilir.Bu nedenle, bu makalenin şeması bazı ilgisiz özne görüntülerinde çok iyi performans göstermeyebilir, ancak ağ birini seçerse Bu sorun, daha zengin konular içeren daha büyük bir eğitim veri seti üzerinde eğitimle daha iyi çözülebilir.Bu, bir sonraki adımın yönüdür.

Referanslar

CHIA Y S, ZHUO S, GUPTA R K, ve diğerleri.İnternet görüntüleri ile anlamsal renklendirme.Grafikte ACM İşlemleri, 2011, 30 (6): 1-8.

GUPTA R K, CHIA Y S, RAJAN D, ve diğerleri Benzer görüntüler kullanılarak görüntü renklendirme ACM Uluslararası Multimedya Konferansı, 2012: 369-378.

CHENG Z, YANG Q, SHENG B. Derin renklendirme 2015 IEEE Uluslararası Bilgisayarla Görü Konferansı (ICCV) Bildirileri IEEE Bilgisayar Topluluğu, 2015: 415-423.

IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Bırakın renk !: Eşzamanlı sınıflandırma ile otomatik görüntü renklendirme için küresel ve yerel görüntü önceliklerinin ortak uçtan-uca öğrenilmesi. ACM İşlemleri Grafikler (TOG), 2016, 35 ( 4): 110.

ZHANG R, ISOLA P, EFROS A A. Renkli görüntü renklendirme Avrupa Bilgisayarla Görme Konferansı Springer, Cham, 2016: 649-666.

SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, başlangıç-resnet ve artık bağlantıların öğrenme üzerindeki etkisi.AAAI, 2017, 4:12.

HU J, SHEN L, SUN G.Squeeze-and-excitation net-works. ArXiv preprint arXiv: 1709.01507, 2017.

LI Y, DING P L K, LI B.Güç Doğrusal Birimleri (PoLU'lar) kullanarak sinir ağlarını eğitme. ArXiv preprint arXiv: 1802.00212, 2018.

RONNEBERGER O, FISCHER P, BROX T. U-Net: biyomedikal görüntü segmentasyonu için evrişimli ağlar Tıbbi Görüntü Hesaplama ve Bilgisayar Destekli Müdahale Uluslararası Konferansı Springer, Cham, 2015: 234-241.

yazar bilgileri:

Xu Zhonghui, Lu Weishuai

(Bilgi Mühendisliği Okulu, Jiangxi Bilim ve Teknoloji Üniversitesi, Ganzhou, Jiangxi 341000)

Yakıt tasarrufu sağlayan ve endişesiz sürüş, aile arabaları bunlardan daha iyidir
önceki
`` Easter Eggs Inside '' Münih Şangay Elektronik Fuarı 2019 katılımcılarının en eksiksiz listesi açıklandı
Sonraki
Lütfen kahverengi ayılara dikkat edin! BMW'nin yüzüne ve Audi'nin kalbine sahip!
İngiliz ülke ünlüsü "Bed Rabbit" sizi hayatınız boyunca ziyaret etmeniz gereken 50 süper güzel turistik yerden birine götürür
MWC 2019'da görünecek siyah teknolojilerin envanteri
Fiyat tek beden herkese uyuyor Zotye Susam karpuzu öldürecek mi?
Geleneksel otomobil şirketlerinin insansız sürüş düzeni, Rong Hui'nin BAIC'in keşif süreci hakkındaki konuşmasını dinleyin
moda! Wang Kai, Ma Tianyu, Wang Dalu, yakışıklı, dışarısı soğuk, içi sıcak, otoriter başkan tarzı seks yapıyor
Kapsül Ağına Dayalı Parmak Damar Tanıma Araştırması
100,000 yuan'a satın alınan MPV, tatmin edici ve yüksek kaliteli Bu 4 model tamam.
HTC bugün ticareti askıya aldı ve cep telefonu işi kendini Google'a satabilir; yüz ödeme yeni başladı ve damar yoluyla ödeme yeni başladı; Ele.me, "e-nokta kolaylığı" adıyla gözetimsiz perakende satı
Konum bulmak için Bluetooth teknolojisini kullanan "Blog Gönderisi Seçimi" için hangi ekipman gereklidir?
Bu TV'lerle, gişe rekorları kıran filmleri evde izlemek daha ekşi
Yeni Haval H6 ile tekrar test sürüşü için harika bir çağ yaratın
To Top