Alibaba Poster Kağıdı: Çoklu Bozulma Türlerinde Evrişimli Süper Çözünürlük ile Başa Çıkma CVPR 2018

Akademik gelişim ve kurumsal faaliyetler açısından, Alibaba Dharma Akademisi'nin Makine Zekası Teknoloji Laboratuvarı, Leifeng.com akademik kanalı AI Technology Review altında "AI Etki Faktörü" veritabanı projesinde iyi performans gösterdi. Laboratuvar, SQuAD ve KITTI yarışmalarında birinciliği kazandı.Son zamanlarda, AAAI 2018'de Dharma Akademisi'nin Makine Zekası Teknoloji Laboratuvarı'ndan toplam 4 makale kabul edildi. CVPR 2018'de birçok makale de olağanüstü sonuçlarla kabul edildi.

1. Özet

Son yıllarda, derin evrişimli sinir ağı (CNN) yöntemleri, tek görüntü süper çözünürlüğü (SISR) alanında büyük ilerleme kaydetmiştir. Bununla birlikte, mevcut CNN tabanlı SISR yöntemi, düşük çözünürlüklü (LR) görüntülerin yüksek çözünürlüklü (HR) görüntülerden bikübik altörnekleme ile elde edildiğini varsayar.Bu nedenle, gerçek görüntünün bozulma süreci bu varsayımı takip etmediğinde, Çözüm sonucu çok zayıf olacaktır. Ek olarak, mevcut yöntemler birçok farklı görüntü bozulmasını çözmek için tek bir model kullanmak üzere genişletilemez. Bu amaçla, tek bir evrişimli süper çözünürlüklü ağın SISR bozulma sürecinin iki anahtar faktörünü (yani bulanıklık çekirdeği ve gürültü seviyesi) ağ girişi olarak almasını sağlamak için boyutsal bir genişletme stratejisi önerilmiştir. Bu nedenle, eğitimli süper çözünürlüklü ağ modeli, eşit olmayan bozulma alanında bile birden çok bozulma türünü idare edebilir. Deneysel sonuçlar, önerilen evrişimli süper çözünürlük ağının, SISR'nin pratik uygulaması için verimli ve ölçeklenebilir bir çözüm sağlayarak çeşitli görüntü bozulma türleriyle hızlı ve etkili bir şekilde başa çıkabildiğini göstermektedir.

2. Giriş

Tek Görüntü Süper Çözünürlüğünün (SISR) amacı, tek bir düşük çözünürlüklü (LR) görüntü girişine dayalı net bir yüksek çözünürlüklü (HR) görüntü elde etmektir. Genel olarak konuşursak, LR görüntüsü y, aşağıdaki bozulma sürecinden türetilen net bir İK görüntüsüdür x,

onların arasında

HR net görüntüsü x ve bulanıklık çekirdeği k arasındaki evrişimi temsil eder,

Katsayısı s olan bir alt örnekleme operatörünü temsil eder ve n, standart sapma (gürültü seviyesi) olan ek beyaz Gauss gürültüsünü (AWGN) temsil eder.

SISR yöntemleri temel olarak üç kategoriye ayrılır: enterpolasyon tabanlı yöntemler, model tabanlı yöntemler ve ayrımcı öğrenmeye dayalı yöntemler. Enterpolasyona dayalı yöntemler (en yakın komşu enterpolasyonu, bikübik enterpolasyon gibi) hızlıdır, ancak etkileri nispeten zayıftır. Model tabanlı yöntemler, yerel olmayan benzerlik öncelikleri, önceleri bozma, vb. Gibi görüntü önceliklerini ortaya koyar ve ardından daha iyi görsel kalitede İK görüntüleri elde etmek için amaç işlevini çözer, ancak hız daha yavaştır. CNN tabanlı gürültü azaltma önceliklerinin kombinasyonu hızı bir dereceye kadar iyileştirebilse de, ayarlanması zor parametreler de dahil olmak üzere uçtan uca eğitimin gerçekleştirilememesi gibi bazı dezavantajlarla sınırlıdır. Ayrımcı öğrenmeye dayalı yöntemler, özellikle CNN temelli yöntemler, hızlı hızları, uçtan-uca öğrenmeleri ve iyi sonuçları nedeniyle son yıllarda yaygın olarak ilgi görmüş ve SISR'yi çözmek için giderek yaygınlaşan yöntem haline gelmiştir.

SISR'yi CNN ile çözmek için yapılan ilk çalışma, SRCNN ECCV'de (2014) yayınlandığından beri çeşitli iyileştirme yöntemleri önerilmiştir. Örneğin, VDSR, PSNR göstergelerinde çok büyük bir gelişme kaydetmiştir; sırasıyla ESPCN ve FSRCNN hızda iyileştirilmiştir; SRGAN, büyük büyütme koşullarında görsel etkiyi iyileştirmek için etkili yöntemler önermiştir. Bununla birlikte, bu yöntemlerin ortak bir kusuru vardır, yani sadece iki kübik altörnekleme bozunma modellerini dikkate alırlar ve modellerini diğer bozulma türleri ile eşzamanlı (kör olmadan) başa çıkmak için esnek bir şekilde genişletemezler. Gerçek görüntülerin çeşitli bozunma süreçleri nedeniyle, bu tür yöntemlerin etkili pratik uygulama senaryoları çok sınırlıdır. Bazı SISR çalışmaları, görüntü bozulma sürecindeki bulanıklık çekirdeğinin doğruluğunun SISR'de hayati bir rol oynadığına işaret etti, ancak CNN'e dayanan ilgili çalışma bulanıklık çekirdeğini dikkate almadı. Bu nedenle, bu yazıda çözülmesi gereken ana sorun çizilmiştir: Farklı görüntü bozulma türlerini çözmek için kör olmayan bir SISR modeli tasarlanabilir mi?

3. yöntem

Bu makale ilk olarak, CNN ağ yapısının tasarımına rehberlik etmeyi umarak, SISR yöntemini maksimum a posteriori (MAP) çerçevesi altında analiz etmektedir. SISR sorunlarının kötü doğası nedeniyle, genellikle çözüm alanını sınırlandırmak için düzenli terimlerin kullanılması gerekir. Spesifik olarak, LR görüntüsüne y karşılık gelen HR görüntüsü x, aşağıdaki problem çözülerek tahmin edilebilir,

onların arasında

Olasılık (yani veri uygunluğu) öğesi,

Önceki (yani normal) terimdir ve , olasılık terimi ile önceki terim arasındaki değiş tokuş parametresidir. Basitçe söylemek gerekirse, yukarıdaki formül iki nokta içerir:

1) Tahmini İK görüntüsü yalnızca SISR'nin bozulma sürecini değil, aynı zamanda net görüntülerin önceki özelliklerini de karşılamalıdır;

2) Kör olmayan süper çözünürlük problemi için, x'in çözümü LR görüntüsü y, bulanıklık çekirdeği k, gürültü seviyesi ve değiş tokuş parametresi ile ilgilidir.

Kısaca, kör olmayan SISR'nin MAP tahmini şu şekilde ifade edilebilir:

, MAP tahminindeki parametredir. Ayrıca, CNN, MAP tahmin çözümünün başka bir biçimi olarak kabul edilirse, aşağıdaki sonuçlar vardır:

Veri uygunluğu öğesi SISR'nin bozulma sürecine karşılık geldiğinden, bozulma sürecinin doğru modellemesi SISR'nin sonucunda hayati bir rol oynar. Ancak mevcut CNN tabanlı yöntemin amacı aşağıdaki problemi çözmektir,

Bulanıklık çekirdeği ve gürültü gibi faktörler hesaba katılmadığı için pratikliği çok sınırlıdır. Daha etkili bir CNN tabanlı SISR modeli tasarlamak için, daha fazla görüntü bozulması türü dikkate alınmalıdır Basit bir fikir, ağın girdisi olarak bulanıklık çekirdeği k ve gürültü seviyesi kullanmaktır. Takas parametresi gürültü seviyesi 'ya dahil edilebildiğinden, CNN haritalama işlevi aşağıdaki biçimde basitleştirilebilir:

MAP tahminindeki parametrelerin çoğu önceki görüntüye karşılık geldiğinden ve önceki görüntü görüntü bozulma süreciyle ilgili olmadığından, tek bir CNN modeli farklı bozunma türleri ile başa çıkma modelleme yeteneğine sahiptir.

Yukarıdaki analiz yoluyla, kör olmayan SISR'nin, bozulma modelindeki bulanık çekirdek ve gürültü seviyesini ağın girdisi olarak kullanması gerektiği sonucuna varılabilir. Bununla birlikte, LR görüntüsünün boyutları, bulanıklık çekirdeği ve gürültü seviyesi farklıdır, bu nedenle CNN'nin girişi olarak doğrudan kullanılamazlar. Bu nedenle, bu makale boyutsal bir germe stratejisi önermektedir. LR görüntüsünün boyutunun W × H olduğunu varsayarsak, önce vektörize edilmiş bulanıklık çekirdeği PCA'nın boyutunu azaltın ve ardından bunu gürültü seviyesiyle birleştirerek t + 1 boyutlu bir vektör v elde edin ve ardından v'yi W × H × (t + 1) Boyutların tensörü Bu tensör Bozulma Haritaları diyoruz, burada i-inci G × Y grafiğinin tüm unsurları vi.

Şekil 1: Boyutsal germenin şematik diyagramı

Bu noktada, bozulma haritası ve LR görüntüsünü CNN'nin girişi olarak birleştirebiliriz. Bu stratejinin etkinliğini kanıtlamak için hızlı ve etkili bir ESPCN süper çözünürlüklü ağ çerçevesi seçildi. Eğitim sürecinin yakınsama hızını hızlandırmak için ve LR görüntüsünün Gauss gürültüsü içerdiği düşünüldüğünde, Batch Normalization katmanının ağa eklendiğini belirtmek gerekir. Şekil 2, önerilen süper çözünürlüklü ağ (SRMD) yapısı çerçevesini göstermektedir.

Şekil 2: Önerilen süper çözünürlüklü ağ yapısı çerçevesi (evrişimli katmanların sayısı 12'dir ve katman başına kanal sayısı 128'dir).

4. Deney

Eğitim aşamasında SRMD, izotropik ve anizotropik Gauss bulanıklığı çekirdeklerini, aralarında gürültü seviyeleri olan Gauss beyaz gürültüsünü ve bikübik alt örnekleme operatörlerini kullanır. SRMD'nin diğer altörnekleme operatörlerine ve hatta diğer bozunma modellerine kadar genişletilebileceği belirtilmelidir.

Test aşamasında SRMD, aynı bikübik altörnekleme bozunması altında farklı yöntemlerin PSNR ve SSIM sonuçlarını karşılaştırdı (Tablo 1'de gösterildiği gibi). SRMD'nin çeşitli bozunma türleri ile başa çıkmak için kullanılmasına rağmen, yine de bikübik altörnekleme bozunması altında iyi sonuçlar elde ettiği görülebilir. SRMD'nin hız açısından da büyük bir avantaja sahip olduğu belirtilmelidir.Son derece VDSR'nin süper çözünürlüğünü iki katına çıkarmak için geçen sürenin yarısı olan Titan Xp GPU'da 512 × 512 LR görüntülerin işlenmesi yalnızca 0,084 saniye sürmektedir. Tablo 2, PSNR ve SSIM sonuçlarının farklı bozunma türleri altında karşılaştırılmasını göstermektedir SRMD'nin de iyi sonuçlar elde ettiği görülmektedir. Şekil 4, SRMD'nin tek tip olmayan bir bozulma haritası oluşturabildiğini ve daha sonra LR görüntülerini eşit olmayan bozulma alanıyla işleyebileceğini göstermektedir. Son olarak Şekil 5, farklı yöntemlerin gerçek görüntüler üzerindeki görsel etkilerinin karşılaştırılmasını göstermektedir SRMD ile restore edilen İK görüntüsünün görsel efektler açısından diğer yöntemlere göre önemli ölçüde daha iyi olduğu görülmektedir.

Tablo 1: İki kübik altörnekleme bozunması altında farklı yöntemlerin PSNR ve SSIM sonuçlarının karşılaştırılması (SRMDNF, gürültü dikkate alınmadan eğitilen modeli temsil eder).

Şekil 3: İki kübik altörnekleme bozunması altında farklı yöntemlerin süper çözünürlüğünün dört katı görsel etkilerinin karşılaştırılması.

Tablo 2: Farklı bozunma türleri altında farklı yöntemlerin PSNR ve SSIM sonuçlarının karşılaştırılması.

Şekil 4: Bozulma alanının tek tip olmadığı bir durumu SRMD'nin nasıl idare edebileceğine dair bir örnek. (A) Gürültü seviyesinin uzamsal dağılımı ve bulanıklık çekirdeğinin genişliği; (b) LR görüntüsü (en yakın komşu enterpolasyon büyütmesi); (c) geri yüklenen HR görüntüsü (iki kez yakınlaştırılmış).

Şekil 5: SISR klasik test görüntüsü "Çip" üzerindeki süper çözünürlüğün dört katı görsel etkilerinin farklı yöntemlerle karşılaştırılması.

5. sonuç olarak

Sonuç olarak, bu makalenin üç ana katkısı vardır:

  • Basit, etkili ve ölçeklenebilir bir süper çözünürlük modeli önerildi, bu model sadece bikübik altörnekleme bozunma modellerini idare etmekle kalmaz, aynı zamanda düzensiz bozulma alanlarında bile çoklu bozulma türlerini idare ederek SISR'nin pratik uygulaması için bir çözüm sunar. Program.

  • Evrişimli sinir ağlarının farklı boyutlardaki girdileri işlemesini sağlamak için basit ve etkili bir boyut genişletme stratejisi önerilmiştir Bu strateji diğer uygulamalara genişletilebilir.

  • Deneyler, sentetik görüntülerle eğitilmiş süper çözünürlüklü ağ modelinin, gerçek görüntülerin karmaşık bozulma türleriyle etkili bir şekilde başa çıkabileceğini gösteriyor.

Kağıt bağlantısı:

Pembe bulutlar ve kumsallarla, Selena "Bayan Gome" bile cennet gibi olduğunu söyledi!
önceki
İmparator 7 doz şiddetli malzeme fırlattı, beş ila beş kez sersemletti, UU kardeşini şaşkına çevirdi, netizenleri şaşkına çevirdi! Doz çok güçlü!
Sonraki
Trump'a Beyaz Saray'daki ilk gününde Android telefon kullanmaması söylendi
Almanlar, 2030'da ülke genelinde yeni arabalardan sıfır emisyon olacağını söylüyor. Bu mümkün mü?
Wang Baoqiang'ın eski ajanı Song Zhe 6 yıl hapis cezasına çarptırıldı Avukat Wang Baoqiang fotoğrafları çekti: "Mutlu Çiçekler"
"Ağır Lezzet" Yönetmeni Peng Haoxiang'ın "Küçük Taze" kitap listesi önerisi
İmparator çok şiddetli bir şekilde patladı, 50-50: Ma Feifei biraz para kazanmama yardım edebilir! Siz ne dersiniz?
Sonunda Lao Luo'nun neden ağladığını öğrenin: Nut Pro, piyasaya sürüldükten hemen sonra "elenecek"
Çalışıyor ... HTCnin yeni amiral gemisi U Ultra, sınıfının en iyisi sürümü iPhone 7yi geride bırakıyor
Tamamen çelik bir radyal lastik nasıl üretilir?
Jia Zhangke ve Xu Zhengqi, Pingyao Film Festivali'nde "Baharda" iki ödül kazandı.
sadece! Lei Jun, Xiaomi konferansının zirvesine ulaşmak için 7 yeni ürün kullanıyor
Çin'de Snapdragon 835 ile donatılmış yalnızca 3 amiral gemisi telefon olabilir ve ikincisi yakında piyasaya sürülecek
Çinli taklitçi üreticisinin "tam ekran" cep telefonu ortaya çıktı: Xiaomi MIX ile karşılaştırılabilir çarpıcı görünüm
To Top