ISO'yu istediğiniz zaman açın! Sinir ağı öğrenme gürültü azaltma algoritmasının analizi

Gövdeyi test ederken, yüksek ISO'daki gürültü performansı herkesin dikkatinin odak noktası olmalıdır, ancak gürültü yapısı açısından bakıldığında, düşük ışık altında büyük ölçüde gürültü sensörün kendisinin fotoelektrik yapısından kaynaklanır (atış gürültüsünün ana nedeni) Kaynaklardan biri, sensör yüzeyindeki foton olayı tarafından üretilen fotoelektrondur ve aynı zamanda kesinlikle üretim sürecine (termal gürültü, titreme gürültüsü, karanlık akım, ışık tepkisinin tekdüzeliği vb. İle bant aralığı referans kaynağı, referans voltaj modülü) tabidir. , Sütun büyütme, analogdan dijitale dönüştürme ve diğer donanım tasarımı), yani donanım tarafında gürültüyü çözmenin tek yolu zamandır, yarı iletken ilerlemesi için zamanı beklemektir.

Ama sorun şu ki, görüntüleme sensörünün tavanına dokunmaya çok yaklaşmış durumdayız.Bu kısmı daha önce detaylı olarak inceledim ve uzatmayacağım tabii ki sensör alanını artırarak tasarruf edilebilir ama bu tabii ki maliyeti göz ardı ediyor. Pazarlama ve pazarlama problemi, tamamen uçak gemilerini çalıştırmanın bir fantezisidir, bu nedenle görüntü gürültüsünün azaltılması için, gelecekteki gelişme, yazılım algoritmalarının mutlak özü olacaktır.

Fotoğrafçılık için amacımız basit: düşük ışıkta ve yüksek ISO'da çekilen fotoğraflar düşük ISO efektine yakın. Bu, donanım tarafında uzun bir süre duruma bile ulaşmayabilir. Mevcut AI derin öğrenme algoritması ile temelde Gerçekleşti ... NVIDIA kısa süre önce Finlandiya'daki Aalto Üniversitesi ve Massachusetts Teknoloji Enstitüsü ile, özellikle görüntü paraziti azaltma için derin öğrenme algoritması araştırması yapmak üzere Google TensorFlow öğrenme sistemi altında Tesla P100 GPU kümesini ve cuDNN hızlandırma kitaplığını kullanmak için işbirliği yaptı.

Bu araştırma ile önceki gürültü azaltma öğrenimi arasındaki fark, genel sinir ağı derin öğrenmenin bir hedef değer gerektirmesidir.Görüntü gürültü azaltma işlemi için, ISO 100'de yüksek bir SNR hedef değerine ihtiyaç duyar, böylece ISO 12800 Giriş değeri, algoritma ile tahmin edilir. Ancak NVIDIA'nın yeni algoritması, öğrenme kaynağı olarak doğrudan yüksek gürültülü girdiyi kullanır ve nihai sonuç neredeyse geleneksel çözümle aynıdır ve bir hedef değer gerektirmediği için yapı daha basittir, dolayısıyla hız önemli ölçüde daha hızlıdır.

Temel ilke: Bilişim açısından, düşük ışık altında tek bir düşük gürültülü uzun pozlama, çoklu yüksek gürültülü kısa süreli maruz kalmaların ortalamasıdır. Bu nedenle, farklı durumlar için verileri "körü körüne kurtarmak" için farklı kayıp işlevlerini kullanın Ek yükü büyük ölçüde azaltabilir (düşük gürültülü hedef değerleri öğrenmeye gerek yoktur) ve eğitim verimliliğini büyük ölçüde artırabilir.

Bu nedenle, sorunun anahtarı kayıp işlevinde yatmaktadır. İlki, en basit Gauss gürültüsüdür, çünkü merkezi işlem sürecinin normal dağılımı ile çok tutarlıdır. Burada kullanılan kayıp işlevi:

Bu şemada, L2 kayıp fonksiyonudur.Bu fonksiyonun minimum değeri, aritmetik ortalama dağılımına uyan nesnelerde görünecektir ve f (x), sinir ağı algoritmasını temsil eder ve x ve y, giriş kaynağı gruplarıdır. Bu eğitim RED30 ağ yapısını kullanır, eğitim materyali 50000 fotoğraftan oluşan 256X256 piksel alan kırpılmış bir harita ve Gauss gürültü ortalama kare hatası 0-50 arasından rastgele seçilir:

Yukarıdaki şekil a'daki mavi eğri, öğrenme hedefi olarak düşük gürültülü görüntünün olduğu eğridir ve turuncu eğri, kaynak olarak giriş yüksek gürültülü görüntüsünün olduğu eğridir.İki eğrinin örtüşme oranının çok yüksek olduğu, başka bir deyişle Gauss gürültü modeli altında, NVIDIA'nın çözümü çok verimlidir ve geleneksel çözüme kaybetmez.

Şekil b'de, yüksek gürültülü girdi kaynak görüntüsü, farklı piksel genişliklerine sahip düşük geçişli filtrelerle daha da bulanıklaştırılır (orijinal görüntü ile 10 piksel genişliğindeki alçak geçiren filtre arasındaki fark aşağıda karşılaştırılır) ve ardından onu geri yüklemek için sinir ağı öğrenimi kullanılır. Düşük frekanslı gürültünün geri kazanılmasının daha zor olduğu ancak nihai etkinin çok farklı olmadığı görülebilir.

Gauss dağılım gürültüsüne ek olarak, Poisson dağılımı gürültü dağılımı ve binom dağılımı gürültü testi de eklenmiştir.Poisson dağılımı aslında çok anlamlıdır, çünkü atış gürültüsü temelde Poisson dağılımına uygundur, ancak veri merkezleme ile de uyumludur. Akış, ancak yoğunluğu sinyal değeriyle pozitif olarak ilişkilidir (örnek olarak atış gürültüsünü alın, değeri sinyal değerinin kareköküdür), kayıp işlevi hala L2'dir ve gürültü genliği 0-50'dir. Binom dağılım gürültüsünün eğitim yöntemi Poisson dağılım gürültüsüne benzer, ancak değişken değeri 0-0.95'tir. Aşağıda bir karşılaştırma tablosu verilmiştir.

Soldan sağa her sütun orijinal düşük gürültülü görüntüyü, yüksek gürültülü giriş görüntüsünü, bu algoritmanın sonuçlarını ve ilgili geleneksel gürültü azaltma algoritmalarının sonuçlarını temsil eder. İlk satır Gauss dağılımlı gürültüdür ve karşılaştırma şeması BM3D'dir Bu çok tanıdık, bu yüzden daha fazlasını söylemeyeceğim; ikinci satır Poisson dağıtılmış gürültü ve karşılaştırma şeması ANSC: Ters Anscom dönüşümü. Anscom dönüşümü, çok düşük ışıklı görüntülemede (havacılık, X-ışını vb.) Yaygın olarak kullanılmaktadır. Asıl işlevi, Poisson dağılımına uyan bilgiyi Gauss dağılımına yakın bir türe dönüştürmektir ve ters dönüşümü esas olarak Gürültü azaltma için kullanılır; üçüncü satır, binom dağılım gürültüsüdür ve karşılaştırma şeması, öğrenmeyen bir şema olan Derin Görüntü Öncesi (DIP) 'dir, ancak aynı zamanda daha yeni (2017'de piyasaya sürüldü) ve nispeten mükemmel "kör gürültü azaltma" "Algoritmalardan biri.

Bu, dağıtılan üç gürültünün sinyal-gürültü oranlarının karşılaştırmasıdır.Değer ne kadar yüksekse o kadar iyidir. Gürültülü seçeneği, yani doğrudan yüksek gürültülü girdi kaynağında eğitim ve öğrenmenin sonucunu görebilirsiniz ve temiz seçenekten, yani düşük gürültü hedef değer eğitimi ve öğreniminden daha kötü olmayacaktır, hem Gauss / Poisson / binom dağılımı Fark sadece -0.02dB / -0.02db / + 0.17dB'dir. Binom gürültünün test sonuçları daha da iyidir.BM3D, ANSC ve DIP ile karşılaştırıldığında, farklı liderlik derecelerine sahiptirler ve ayrıca RED30'dandırlar. Daha basit bir U-Net yapısına geçildiğinde, eğitim hızı doğrudan 10 kat hızlandırılır ve sonuç çok küçüktür (Gauss dağılımının gürültü azaltımı, RED30 yapısının sinyal-gürültü oranından sadece 0,2dB daha düşüktür), bu nedenle siyah ve beyaz gürültünün bastırılmasında, NVIDIA'nın yeni algoritması gerçekten de oldukça güçlü.

Bununla birlikte, dijital görüntüleme sisteminde sadece siyah ve beyaz gürültü olması gerekmez, rastgele atanmış renkli dürtü gürültüsü görünmesi daha olasıdır.Bu projeyi test etmek için p = (0,1) olan pikseller ^ 3 fonksiyonuyla rastgele renklendirilecektir. Ofset, yani, p-değeri ne kadar yüksekse, daha fazla piksel renk gürültüsü haline gelir, sinyal-gürültü oranı o kadar düşüktür, piksellerin renk tonu tek modlu bir Dirac işlevi sunar ve gürültü dağılımı tek tiptir. Bu eğitimde yeni bir kayıp fonksiyonu L0 kullanılır:

= 10 ila -8 kuvveti olduğunda, (Gama) değeri eğitim sırasında doğrusal olarak 2'den 0'a düşer.Bu kayıp işlevi, dürtü gürültüsü eğitiminde ve gürültü azaltma uygulamasında iyi bir etkiye sahiptir:

P = 0.7 olan orijinal bir resim üzerinde hesaplandığında, L0 fonksiyonu 28.43dB'lik bir çıktı değeri elde edebilir ve düşük gürültü hedef değeri ile eğitim şeması yalnızca 28.86dB elde edebilir ki bu çok küçüktür.

Daha önce Gauss, Poisson ve binom dağılım gürültüsünde çok iyi performans gösteren L2 kayıp fonksiyonunun bu projede atıldığı ve resmin gri seviyesinin çok yüksek olduğu görülmektedir. Ve başka bir L1 kayıp fonksiyonu ifadesi:

Bu kayıp fonksiyonunun, özellikle büyük miktarda veri taşması olan nesneler için (% 50 içinde) hedefin medyan değerini geri yükleyebileceği görülebilir. Darbe gürültü testinde, p değeri 70 olduğunda, L1'in sinyal-gürültü oranı da büyük ölçüde azalır, ancak L2'den biraz daha iyidir. Aşağıdaki şekil, darbe gürültüsünde L0, L1 kayıp fonksiyonu, p değeri ve sinyal-gürültü oranının değişim eğrisini gösterir:

Görülüyor ki p değeri 0,5'e yakın olduğunda ikisi arasındaki fark büyük değil, ancak 0,5'i geçtikten sonra L0 dünya oluyor. Aslında, bu projede L1'in ana uygulaması görüntü metninin ortadan kaldırılmasıdır: görüntüde metnin kapladığı 0-0,5 oranlarında pikseller vardır ve metin, orijinal piksel konumu ile ilgisi olmayan bir renktir.Bu durumda, L2 kaybı işlevi alacaktır. Metin renginin (orta gri) ve doğru tonun ortalama değerinin doğrusal kombinasyon değeri ve renk farkı ne kadar büyük olursa, değer o kadar büyük olur ve son görüntünün grimsi olduğu görülür:

P = 0.25 olduğunda, ekranda çok sayıda renkli metin göründüğünü görebilirsiniz, ancak kaplanan piksel sayısı her zaman etkilenmeyen piksellerin sayısından daha az veya ona eşittir Bu sırada, medyan değerinin L1 kaybı işlevi açıkça daha etkilidir. Yukarıdaki şekildeki karşılaştırmaya bakıldığında, L1'in sinyal-gürültü oranı, L2'den 8.86dB daha yüksek, bu da öğrenme nesnesi olarak ortaya çıkarılmış net fotoğrafları kullanan eğitim yönteminden sadece 0.07dB daha düşük.

Bu araştırmanın üretkenlik üzerindeki etkisi, model oluşturma alanına da genişletilebilir.Örnek olarak, 3B endüstrisinde yaygın olarak kullanılan Monte Carlo ışın izlemeyi ele alalım.Bu teknoloji, karmaşık modeller olduğunda gürültü eşiği üzerinde çok belirgin bir etkiye sahiptir. Görüntü gürültüsü ne kadar küçükse, resim o kadar küçükse, resim o kadar ince olur, ancak ilgili oluşturma hızı önemli ölçüde artacaktır.Ayrıca, piksel başına örnek sayısını büyük ölçüde artırarak sinyal-gürültü oranı iyileştirilebilir ve yapay zeka müdahaleli sinir ağı derin öğrenme de yapabilir Bu alanda uygulanır ve verimi oldukça yüksektir.

Her şeyden önce, her zaman olduğu gibi, yeni bir kayıp fonksiyonu tanıtılmalıdır. Üç boyutlu bir render olduğu için LHDR olarak adlandırılır. Spesifik formül aşağıdaki gibidir:

HDR, adından da anlaşılacağı gibi, yüksek dinamik aralıktır, ancak HDR'nin yine de 8 bitlik ekran çıktısını hesaba katması gerekir, bu nedenle yeniden ton eşleme olması gerekir.Önceki L2 kayıp fonksiyonunda doğrusal olmayan eşleme sorunu vardır.Bu nedenle bu varyantın karmaşık bir kaynağı vardır. Ayrıntılı olarak yorumlandı, ancak bu kayıp fonksiyonunun etkisi çok iyi Monte Carlo testinin referans nesnesi, 8 Tesla P100 GPU ve 40 çekirdekli Xeon işlemci tarafından 40 dakika boyunca işleniyor.Piksel başına örnek sayısı 131072 kata, neredeyse Gürültüsüz 960 X 540 çözünürlüklü görüntü, giriş kaynağı, piksel başına 64 örnek ve 23,93 dB sinyal-gürültü oranı olan bir görüntüdür (aşağıdaki Şekil a).

Sinir ağını giriş kaynağı ve hedef olarak referans nesne ile eğitmek için LHDR kayıp işlevini kullanın. Nihai çıktı sonuçları aşağıdaki şekilde karşılaştırılır:

Yukarıdaki şekil b, yüksek gürültülü görüntü kaynağına dayalı eğitim hesaplama sonucudur.Sinyal-gürültü oranının 131072 örnekleme değerlerine göre eğitilen şekil c'den yalnızca 0,53dB daha düşük olduğu görülebilir.Bu iki yöntem aynı Tesla P100 GPU üzerinde gerçekleştirilir. Yaklaşık 12 saatlik eğitimden sonra, aynı sinyal-gürültü oranı çıkış seviyesini (31.83dB) elde etmek için, yüksek gürültü kaynakları için eğitimin 4000 kez yinelenmesi gerekirken, kaynak olarak düşük gürültü hedefi olan eğitimin yalnızca 2000 kez yinelenmesi gerekir, bu da demektir Yüksek gürültüye dayalı sinir ağı eğitim yöntemi, geleneksel yöntemlerden daha düşük bir yakınsama oranına sahiptir. Ancak, düşük gürültülü hedef değerini elde etmenin uzun zaman aldığını unutmayın (bu durumda yalnızca 40 dakika sürmesine rağmen, aynı zamanda belirli donanım yapılandırmasına da bakın), bu nedenle bu araştırma hala çok gerçekçi.

Bu test ayrıca 1000 kare dinamik görüntü gürültü azaltma testi ekledi.Hedef "dinamik" olduğu için piksel başına örnekleme oranı çok düşüktür.Titan V GPU'da 512 X 512 piksel görüntü piksel başına 8 kez örneklenir. 190 ms sürer. Rastgele konumlarda 256 X 256 piksel ile eğitim, her seferinde 11,25 ms, toplamda 8 kez, ayrıca kamera içi işleme ve ortalama çıktı gerektirir; her kare yaklaşık 500 ms sürer (oluşturma, eğitim ve arayüze çıktı dahil). Düşük gürültü hedef değerleri ile eşleştirme eğitimi için, 1 kareye sahip olmak 7 dakikadan fazla sürer, ancak ikisi arasındaki kare kare sinyal-gürültü oranının karşılaştırılması temelde aynıdır (yukarıdaki şekilde gösterildiği gibi) ve verimlilik farkı bir bakışta belirgindir.

Bu sinir ağı eğitim yöntemi, aynı zamanda, büyük ölçüde sıkıştırılmış algılama örnekleme teorisine dayanan nükleer manyetik rezonans gibi tıp endüstrisinde belirli bir görüş derecesine sahiptir. Sıkıştırılmış algılama, Nyquist örnekleme yasasından çok daha düşük bir örnekleme oranı ve doğrusal olmayan yeniden yapılandırma ile örneklemedir. MRI uygulamasında sinyali geri yükleyen algoritmalar, daha az pozlama, daha hızlı görüntüleme hızı ve hareket artefaktlarından kaçınma gibi sorunlardır.

MRI için, bu algoritma iki kayıp işlevi kullanır, biri L2 ve diğeri:

Bu fonksiyon daha karmaşık görünüyor.Aslında, giriş kaynağının f (x) 'in Fourier dönüşümünden (uzamsal frekans alanı) sonra, Rx, giriş kaynağındaki sıfır olmayan frekansı değiştirmek için ve son olarak frekans alanından tekrar uzaysal alana geri dönmek için kullanılır. , Temel olarak L2 kayıp fonksiyonunun yükseltme varyantı olarak kabul edilebilir. Eğitim yöntemi, U-net yapısı ile eğitmek için 4936256 X 256 çözünürlüklü fotoğraflar kullanmaktır.NVIDIA Tesla P100 GPU üzerinde 13 saat ve 300 yinelemeden sonra, hedef olarak yüksek gürültülü eğitim 20.03dB giriş değerinden başlayabilir. 31.1dB'ye yükselir ve aynı sayıda yineleme altında hedef olarak düşük gürültülü eğitim sonucu 31.14dB'dir, fark çok küçüktür.

Yukarıdaki şekil a, örnekleme oranı Nyquist yasasının% 10'una düşen giriş kaynağıdır.Spektral yanıtın nispeten küçük olduğu ve sinyal-gürültü oranının 18.93dB olduğu görülebilmektedir.Şekil b, şekil a'daki eğitim sonucudur ve sinyal-gürültü oranı iyileştirilmiştir. 29.77dB'ye ve şekil d, tamamen örneklenmiş bir düşük gürültü referans şeklidir, şekil c hedef olarak şekil d'nin eğitim sonucudur, sinyal-gürültü oranı 29.81dB'dir. Bu nedenle, önceki test sonuçlarına benzer: yüksek gürültülü görüntüler girdi kaynakları olarak kullanılır, ancak hedefler sırasıyla düşük gürültülü referans görüntüler (geleneksel eğitim yöntemi) ve yüksek gürültülü görüntülerin kendileri de kör gürültü azaltma (bu sefer önerilen yeni yöntem) olarak belirlenir. Çıkış sinyali-gürültü oranında neredeyse hiç fark yoktur, bu nedenle ikincisinin çok daha verimli olduğu ve çok yüksek bir uygulama olasılığına sahip olduğu açıktır.

Bununla birlikte, yalnızca fotoğrafçılıkta sinyal-gürültü oranını tartışırsanız, bazen mümkün olduğu kadar yüksek olmayabilir, çünkü bu üçüncü tarafların sinir ağı eğitimi dahil olmadığında ve yalnızca kamera içi gürültü azaltma alanında, farklı ürün türleri Farklı düşünme yolları olacaktır Genel olarak konuşursak, yüksek ISO parazit azaltma sadece sinyal-gürültü oranı ve keskinliğin bir "geçiş oyunu" dır: sadece kamerayı elinize alın ve çekimi karşılaştırın. Yüksek hassasiyetli gürültü azaltmayı en yüksek derecede kapatın ve açın. Fotoğraflarda, gürültü azaltma kapalı olmasına rağmen bazı ayrıntıların hala zayıf bir şekilde görülebildiğini bulmak kolaydır.Gürültü azaltma açıldıktan sonra, gürültü ve ayrıntılar aynı anda silinir. En uç örnek, gece Jazz Triple Shot gibi bir cep telefonudur. % 100 yakınlaştırma çoklu kare kumlanma azaltma çekimi şu şekilde görünür:

Hiç gürültü olmasa da, görüntü neredeyse mozaiktir ancak cep telefonu gürültü azaltma algoritması bu şekilde tasarlanmıştır çünkü kimse bir cep telefonundaki saçları nasıl sayacağını bilmiyor ve çoğu insan bu tür ayrıntıları önemsemeyecek. Bilgisayardaki kamera fotoğraflarına bakmak farklıdır. Korkarım ki çoğu insan yakınlaştırıp onları dikkatlice izlemek isteyecekler ve aynı zamanda baskı ihtiyaçlarıyla da ilgilenmek zorunda kalacaklar. Bu nedenle, kamera tarafındaki kamera içi gürültü azaltma RX100 ile özellikle "zorlanmayacak" Örnek olarak M6'yı ele alalım, çoklu çerçeve gürültü azaltma özelliği yalnızca düşük ışıkta elde taşınır cihazların pratikliğini artırır ve bu arada bazı belirgin renk parazitlerini siler.

Üstelik gürültü bir sokak faresi olmak zorunda değildir.Video alanında 10 bit bile şerit tomografi yeni bir sorun değildir.Ayrıca mevcut film ve TV yayın sinyalleri sadece 8 bit ve Blu-ray diskler vb. YUV olmalıdır. RGB'ye dönüştürme şerit boşluklarına neden olacaktır ve bu boşlukları telafi edecek çözümlerden biri de gürültüyü doldurmaktır. Bir film izlerken yeterince ciddiyseniz veya yeterince yakın oturuyorsanız, tomografik bantlara (yüksek parlaklık, renk geçişi, aydınlatma vb.) Eğilimli bazı yerlerde bazı filmlerin görece daha belirgin gürültüye sahip olacağını bulmak zor değildir. Aşağıdaki karşılaştırma tablosu:

Şekil 1'deki daha belirgin hatalar gürültü ile doldurulur ve Şekil 2'nin nispeten daha iyi etkisi elde edilir.Ayrıca, dinleyicinin dinamik video gürültüsünde grenlilik konusunda bir ünü vardır, bu nedenle video alanında gürültü aslında şu şekilde kabul edilir: Hem düşmanların hem de arkadaşların varlığı.

Genel olarak, mevcut AI bilgi işlem ortamı çok iyidir.NVIDIA gibi donanım ve yazılım üreticilerinin birkaç fırçaya sahip olduğu arka planda, hala laboratuvar tarafında olan bu algoritmalar, seri üretim uygulamaları zamanından uzak değildir. Çok uzak değil. Son zamanlarda, AI sinir ağı öğrenme ve görüntü işleme hakkında birçok içerik yazdım.Gelecekte bu konu hakkında daha çok şey olmalı.Ne de olsa, bu çok önemli bir yön ve herkesin dikkatini hak ediyor.

İhtiyar Kurt | pcwwolf

Fotoğrafçılıkla ilgili her şeyi burada bulabilirsiniz

Bieber, Hailey'ye aşkını gösteren yüksek profilli bir deneme ile aşk şiirleri yazdı. Tatlı
önceki
Huaxie'yi bekleyin: Huawei telefonları nihayet WeChat parmak izi ödemesini destekliyor!
Sonraki
Kazayla meydana gelen kafa travmalarından birbirimize nasıl yardım edilir?
LeTV: Kişisel nedenlerden ötürü Liu Hong, şirketin başkan yardımcılığından istifa etti.
Tesla nasıl bir tanrı operasyonu? Tedarikçiden ödemeyi iade etmesini isteyin ...
Bugün çok tatlı! Jenna, Simmons'ın tamamen katılımını izlemek için oyuna çıktı!
Samsung, dünyanın ilk 10nm işlem LPDDR5 belleğini piyasaya sürdü, hız saniyede 100 GB'ı aşıyor
WeChat tarafından resmi olarak duyurulan 8 dolandırıcılık! Sonuncusu sadece nefret dolu!
Ölümden sonra QQ ve WeChat hesabı ile ne yapmalı? Yardım edemem ama tefekkür ederim ...
İlk yarı-Luneng 1-1 Jianye, ilk golü Gerdes attı, Pellet postada
2017 sosyal güvenlik kartı nasıl kullanılır, şimdi toplayın!
Google'ın oynayamadığı siyah teknoloji selfie güzelliği tarafından kurtarıldı mı?
İlk yarı-Sway 0-3 Guoan, Zhang Yuning dünya dalgasında Süper Lig golünü kazandı
Yeni listelenmiş olan WPS Office 2019, ilk tadan (Bölüm 1)
To Top