g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

New York Üniversitesi, JPEG 2000 | ICLR 2017'yi tamamen geride bırakan uçtan uca optimize edilmiş bir görüntü sıkıştırma yöntemi öneriyor

Leifeng AI Technology Review Press: ICLR 2017, Leifeng AI Technology Review editörlerinin de birinci satır raporları getirmek için Fransa'ya seyahat edeceği 24-26 Nisan tarihleri arasında Fransa'nın Toulon kentinde düzenlenecek. Bu derin öğrenme konferansı düzenlenmeden önce, Leifeng.com ayrıca konferans gündemi ve kağıt tanıtımı hakkında bir dizi haber ve özel raporlar yayınlayacak, bu yüzden bizi izlemeye devam edin.

Veri sıkıştırma, temel bir mühendislik problemidir ve sınırlı kapasite ile veri depolama ve kanal iletiminde önemli uygulamalara sahiptir. Bir bilgi taşıyıcısı olarak görüntünün büyük miktarda verisi vardır, bu nedenle araştırmacılar görüntü sıkıştırmayı çalışmayı asla bırakmamışlardır. ICLR 2017 konferansında, New York Üniversitesi'nden Johannes Balle gibi araştırmacılar uçtan uca optimize edilmiş bir görüntü sıkıştırma yöntemi önerdiler ve bir makale yayınladılar: "Uçtan Uca Optimize Edilmiş Görüntü Sıkıştırma". Bu yöntem üç işlemi içerir: doğrusal olmayan analiz dönüşümü, tekdüze niceleyici ve doğrusal olmayan sentez dönüşümü. Bu dönüşümler, evrişimli doğrusal filtrenin ve doğrusal olmayan aktivasyon fonksiyonunun üç ardışık aşamasında oluşturulur. Bir dizi test görüntüsü aracılığıyla, bu yöntemin performansı genellikle standart JPEG ve JPEG 2000 sıkıştırma yöntemlerinden daha iyi oran-bozulma performansına sahiptir. Daha da önemlisi, tüm bit oranlarındaki tüm görüntülerde, bu yöntem, aynı zamanda objektif kalite değerlendirme yöntemi MS-SSIM ile de kanıtlanan önemli bir görsel kalite iyileştirmesi elde etmiştir.

Leifeng.com, bu makalenin 24 Nisan 2017'de ICLR'de ilk Katkıda Bulunulan konuşma olarak tartışılacağını öğrendi.

Aşağıdakiler, makalenin içeriğine göre Leifeng.com AI Technology Review'in kısmi bir derlemesidir.

Öz

Veri sıkıştırma, genellikle minimum entropi ile belirli bir ayrık veri kümesi için kodlar tasarlamak için iyi çalışılmış temel bir mühendislik problemidir. Çözüm, büyük ölçüde verilerin olasılık yapısının bilgisine bağlıdır, bu nedenle sorun, olasılıksal kaynakların modellenmesiyle yakından ilgilidir. Bununla birlikte, tüm gerçek kodların sınırlı entropiye sahip olması gerektiğinden, sürekli değerlere sahip verilerin (örneğin, bir görüntü piksel yoğunluğu vektörü) kesikli değerlere nicelendirilmesi gerekir, bu da hatalara neden olur. Kayıplı sıkıştırma durumunda, iki kayıp tartılmalıdır: ayrıklaştırma entropisi (oran, sıkıştırma oranı) ve nicelemenin neden olduğu hata (distorsiyon). Veri depolama veya sınırlı kapasiteli kanal iletimi gibi farklı sıkıştırma uygulaması senaryoları, farklı sıkıştırma oranları ve bozulma değiş tokuşları gerektirir.

Sıkıştırma oranını ve distorsiyonu aynı anda optimize etmek zordur. Ek kısıtlamalar olmadan, yüksek boyutlu uzaylarda optimal nicemleme zordur. Bu nedenle, mevcut görüntü sıkıştırma yöntemlerinin çoğu, veri vektörünü doğrusal olarak uygun bir sürekli değer gösterimine dönüştürür, her bir öğeyi bağımsız olarak nicelendirir ve sonra ortaya çıkan ayrık gösterimi kodlamak için kayıpsız entropi kodlaması kullanır. Dönüşümün hayati rolü nedeniyle, bu yönteme dönüşüm kodlaması denir.Örneğin, JPEG blok pikseller üzerinde ayrık kosinüs dönüşümü kullanır ve JPEG 2000, çoklu ölçeklerin ortogonal dalgacık ayrıştırmasını kullanır.

Araştırmacılar, doğrusal olmayan dönüşüme dayalı uçtan uca optimize edilmiş bir görüntü sıkıştırma mimarisi geliştirdiler (aşağıdaki şekilde gösterildiği gibi). Bu genel bir doğrusal olmayan dönüşüm kodlama mimarisidir. Bir görüntü vektörü x, bir parametrik analiz dönüşümü y = ga (x; ) aracılığıyla kod uzayına eşlenir. Bu gösterim, daha sonra sıkıştırılan ayrı değerlere sahip bir q vektörü üretmek için nicelendirilir. Bunun tersi, sıkıştırılmış görüntüleri yeniden oluşturmak için geçerlidir. Analiz dönüşümü için araştırmacılar, ortalama kare hatayı (MSE) optimize etmek için kademeli doğrusal evrişim katmanına ve doğrusal olmayan katmana dayalı daha esnek bir dönüşüm kullandılar. Araştırmacıların, biyolojik görsel sistemdeki nöronlardan esinlenen Gauss görüntü yoğunluğu için çok etkili olan doğrusal olmayan bir katmanla birlikte genelleştirilmiş bir bölücü normalleştirme (GND) kullandıklarını belirtmek gerekir.

Bildiri sonuçlarının sunumu:

Makalede, araştırmacılar yöntemlerini iki standart yöntemle, JPEG ve JPEG 2000 ile karşılaştırdılar. Sonuçlar aşağıdaki gibidir:

Aşağıdaki, yukarıdaki görüntünün parlaklık bileşeninin hız-bozulma eğrisidir ve sol taraf, çok ölçekli yapısal benzerlik (MS-SSIM) ile ölçülen algısal kalitedir. Sağda en yüksek sinyal-gürültü oranı var.

Aşağıdaki şekil, üç bit hızında görüntü sıkıştırmayı gösterir. Yukarıdan aşağıya JPEG, kağıttaki yöntem, JPEG 2000, soldan sağa, bit hızı adım adım artar.

Sıkıştırılmamış orijinal görüntü ile karşılaştırıldığında, kağıttaki yöntemin daha az detayı vardır, detay dokusu ve deseninin çoğu ortadan kaldırılır, ancak konturun düzgünlüğü ve kenarın keskinliği korunur, böylece görüntünün doğal bir görünüme sahip olur. Buna karşılık, JPEG ve JPEG 2000, tüm doğrusal dönüşüm kodlama yöntemlerinde de bir problem olan bariz kusurlara sahiptir: çünkü yerel özellikler (kenarlar, konturlar, doku öğeleri, vb.) Yerel doğrusal temel işlevlerinin, dönüştürme katsayılarının bir kombinasyonu ile temsil edilir. Bağımsız skaler nicemleme, bu kombinasyonların dengesizliğine yol açarak potansiyel temel fonksiyonların, yani görüntü örtüşme ve zil sesinin görsel bir yansımasıyla sonuçlanır.

Bu makaledeki yöntemin tüm test görüntülerinde ve tüm bit oranlarında hissedilir bir avantaja sahip olduğunu belirtmek gerekir. Yukarıdaki şekil, yüksek bit hızından düşük bit hızına kadar olan süreci göstermektedir. Bit hızı azaldıkça, JPEG ve JPEG 2000, doğrusal temel fonksiyon katsayılarının doğruluğunu artırarak orijinal görüntünün yaklaşıklığını azaltır, böylece bu temel fonksiyonların görsel görünümünü ortaya çıkarır. Öte yandan, makaledeki yöntem, konturları ve diğer görüntü özelliklerini kademeli olarak basitleştirerek temsilin altında yatan niceliğini etkili bir şekilde gizler.

ICLR incelemesi

ICLR komitesi nihai kararı

Değerlendirme : Bu, kabul ettiğimiz en iyi iki makaleden biridir ve sözlü sunum olarak tavsiye ederim. Hakemler bu konu hakkında oldukça temkinli davrandılar ve tam bir anlayışa sahiplerdi.

Karar ver : Kabul Et (Sözlü)

Çok iyi kağıt

Puanlama 9 puan: Seçilen tüm makalelerin İlk% 15'i, şiddetle tavsiye edilir

yorum Yap : Bu, görüntü sıkıştırma için derin sinir ağlarını kullanarak şimdiye kadar okuduğum en ikna edici makale. Bu makale çok iyi yazılmış ve objektif değerlendirmedeki oran-bozulma teorisi bu yapıya çok iyi uyuyor. Bu makale sonuçları makul bir kıyaslama ile karşılaştırmaktadır (JPEG 2000, önceki makale sadece JPEG ile karşılaştırılmaktadır). Umarım bu makale daha derin bir etkiye sahip olabilir.

Bu yöntemin sonuçlarını Lena / Barbare / Baboon görüntülerine eklemeyi ve bunları en iyi sonuçlarla daha klasik yöntemlerle karşılaştırmayı umuyorum. Sinir ağı yöntemi ile önceki en iyi yöntem arasındaki farkı net bir şekilde gösterebilmek çok önemlidir. Makalenin gönderilen versiyonuna bakılırsa, iki yöntemden hangisinin daha iyi olduğunu hâlâ bilmiyorum.

Mükemmel performans, ancak ayrıntı eksikliği

Puanlama 8 puan: Seçilen tüm makaleler arasında İlk% 50'yi sıralayın, kabul etmek için onaylayın

yorum Yap : Bu makale hız-bozulma optimizasyon yöntemini derin kodlayıcılara ve kod çözücülere genişletir ve basit entropi kodlama yöntemlerinden uyarlamalı entropi kodlamasına genişler. Ayrıca bu makale, yöntem ve varyasyonel otomatik kodlayıcı arasındaki ilişkiyi de tartışmaktadır.

Yeniden bozulma optimizasyon yöntemi yayınlandığından, gönderilen makalenin yeniliği çok yüksek değil. Bazı açılardan, bu makale geri çekildi, çünkü ilk çalışma algısal ölçüyü optimize etmekti ve burada MSE kullanılıyor. Bununla birlikte, sonuç açıkça JPEG 2000'den daha iyi. Başka hangi öğrenen kodlayıcıların bu performans düzeyine ulaşabileceğini bilmiyorum. Bu makale çok iyi yazılmış.

Resmi yorum

Puanlama 8 puan: Seçilen tüm makaleler arasında İlk% 50'yi sıralayın, kabul etmek için onaylayın

yorum Yap : Bu çok iyi bir makale, daha iyi bir sıkıştırma oranı ve kalitesi elde etmek için mevcut görüntü sıkıştırma algoritmasına (JPEG-2000 gibi) kıyasla uçtan uca bir görüntü sıkıştırma ve açma sistemi eğitimi gösteriyor Arasında takas. Yeni uygulamalarda derin öğrenmenin etkinliğini göstermenin yanı sıra, makalenin önemli bir katkısı, "oran" işlevinin farklı bir formudur, yazar, farklı hız-bozulma değiş tokuşlarını etkili bir şekilde eğitmek için kullanılabileceğini gösterdi. Umarım bu yöntem yalnızca görüntü sıkıştırmaya uygulanmaz, aynı zamanda diğer bazı diferansiyel yaklaşım yöntemlerinin tümü bundan yararlanabilir.

İlginç önermeler, bazı yeni yöntemler kullanan ve iyi sonuçlar alan çok iyi bir makale

Puanlama 8 puan: Seçilen tüm makalelerin İlk% 50'si, açıkça kabul edildi

yorum Yap : Bu iyi yazılmış makale, görüntü sıkıştırma için uçtan uca bir öğrenme yöntemi sağlar. Hız-bozulma performansını optimize ederek, bu yöntem, doğal görüntü veri kümeleri üzerinde optimizasyon yoluyla verimli görüntü sıkıştırma sağlayabilir.

Yöntem çok ilginç, sonuçlar çekici ve analiz çok kapsamlı olduğu için bu makaleyi kabul etmenizi öneririm.

Bu makaledeki yöntem hakkında daha fazla bilgi edinmek için lütfen orijinal belgeye bakın: Uçtan Uca Optimize Edilmiş Görüntü Sıkıştırma

Hideo Kojima'nın "P.T." si doğrudan tekrar indirilebilir, gidin ve deneyin

2019 Uydu TV Yatırım Beklentisi: Sözleşme tutarı keskin bir şekilde düşüyor, kaynakların% 90'ı İnternete akıyor ve satıcının pazarı bir alıcının pazarına dönüşüyor