Derin öğrenmeyle tetiklenen bir görüntü sıkıştırma devrimi

Leifeng.com AI Araştırma Enstitüsü'ne göre, 2012 yılında AlexNet,% 15,4'lük düşük hata oranıyla ILSVRC (ImageNet Büyük Ölçekli Görsel Tanıma Yarışması) yılının galibi oldu ve ikinciyi yüzde ondan fazla aştı. AlexNet, derin öğrenmenin altın çağını açtı ve ardından görüntü tanımada derin öğrenmenin güçlü gelişimi geldi:

2013 yılında ZF Net,% 11,2 gibi düşük bir ciro oranıyla ILSVRC şampiyonluğunu kazandı;

2014 yılında, VGG Net'in ILSVRC "Sınıflandırma ve Konumlandırma" yarışmasının münferit etkinliklerinde hata oranı% 7,3 idi. Aynı yıl, GoogLeNet ILSVRC şampiyonasını% 6,7 hata oranıyla kazandı;

2015 yılında Microsoft ResNet, ILSVRC'de% 3.6 hata oranına ulaştı;

...

Derin öğrenme, görüntü tanımada bir dizi atılımın yanı sıra, görüntü sıkıştırmada da devrim niteliğinde değişiklikler getirdi.

Son zamanlarda Tuya Technology, sıkıştırma çekirdek kodu olarak derin öğrenme evrişimli ağ kullanan görüntü sıkıştırma teknolojisi TNG'yi (küçük ağ grafikleri) piyasaya sürdü. İşbirliği hedefleri ağırlıklı olarak eğlence (çevrimiçi pençe makinesi), video sosyalleştirme (çok kişili iletişim), oyunlar vb. Alanlarda yoğunlaşmıştır. Şu anda, algoritma ticari kullanıma sokulmak üzere. Geleneksel algoritmalarla karşılaştırıldığında, sıkıştırma verimliliği açısından TNG, JPEG'den% 120, WEBP'den% 30 daha yüksektir. Aynı sıkıştırma oranında sıkıştırılmış görsel efektleri karşılaştırırken, doku detaylarında TNG JPEG2000'den çok daha iyidir.

Şekil: Aynı sıkıştırma oranı altında karmaşık görüntü sıkıştırmanın görsel etkilerinin karşılaştırması. Yukarıdaki resim Tuya tarafından önerilen algoritmayı göstermektedir ve aşağıdaki resim JPEG2000 algoritmasını göstermektedir. Yukarıdaki resmin detaylarının daha iyi olduğunu görebilirsiniz.

Şekil: Düşük kod sözcükleri durumunda TNG (yukarıda) ve WebP (aşağıda) arasındaki sıkıştırma etkilerinin karşılaştırması. TNG ile karşılaştırıldığında, WebP daha fazla ayrıntıya sahip olmasına rağmen, daha fazla distorsiyona sahiptir. TNG'nin genel görüntü etkisi WebP'den daha iyidir.

JPEG şu anda nispeten yaygın bir görüntü sıkıştırma yöntemidir. Çok yüksek bir sıkıştırma oranı elde ederken çok zengin ve canlı görüntüleri görüntüleyebilir. Bununla birlikte, görüntüdeki tekrarlayan veya önemsiz bilgileri kaybedecek olan kayıplı bir sıkıştırma biçimi kullanır, bu nedenle görüntülere neden olmak kolaydır Veri kaybı. Temelde DCT (Ayrık Kosinüs Dönüşümü) teknolojisini kullanarak yüksek frekanslı ve düşük frekanslı bilgileri ayırmak için frekans alanındaki görüntü sinyalini dönüştürmek ve ardından sıkıştırılmış görüntü verilerini elde etmek için görüntünün yüksek frekanslı bölümünü (yani görüntü ayrıntıları) sıkıştırmak Amacı.

JPEG'nin yükseltilmiş bir sürümü olan JPEG2000, hem kayıplı sıkıştırmayı hem de kayıpsız sıkıştırmayı destekler .. Sıkıştırma oranı, JPEG'inkinden yaklaşık% 30 daha yüksektir. JPEG tarafından kullanılan ayrık kosinüs dönüşümü DCT'ye dayalı blok kodlama yöntemini terk eder ve görüntünün frekans bileşenlerini çıkarmak için dalgacık dönüşümüne dayalı çoklu analiz kodlama yöntemini benimser.

WEBP, Google tarafından başlatılan yeni nesil bir dosya biçimidir. JPEG'nin yerini alması beklenmektedir ve dosya boyutunu JPEG ile aynı görüntü kalitesiyle büyük ölçüde azaltabilir. WEBP, VP8 koduna (Mayıs 2010'da açık kaynaklı) dayalı bir resim sıkıştırıcı kullanır ve veri miktarını azaltmak ve ağ iletimini hızlandırmak için tahmine dayalı kodlama teknolojisini kullanır.

Ve TNG bu geleneksel kodlama tekniklerini değiştirdi ve bunun yerine derin öğrenmenin büyük gemisini üstlendi.

Tuya Technology CEO'su Wu Junmin'e göre, Ağustos 2016'da TNG teknolojisini araştırmaya ve geliştirmeye başladılar ve geleneksel algoritmalar ve derin öğrenme algoritmalarının iki aşamasından geçtiler. Başlangıçta, H.265 (HEVC) temelinde araştırma yaptılar, ancak H.265 o zamanın en iyi kodlama yöntemlerinden biriydi ve bu teknolojiye dayalı geleneksel araştırma ve geliştirme için pek fazla yeni fikir yoktu. Şu anda önlerinde başka bir yol var ve bu derin öğrenmedir.

Yön değişikliği düzgün bir seyir olmadı. "O zamanlar, geleneksel yöntemdeki fikirleri derin öğrenmeyle birleştirmeyi düşündük. Örneğin, geleneksel yöntem çevreleyen piksel tahminine sahiptir. Bu yöntemi araştırma için birleştirdik, ancak tahmin etkisinin iyi olmadığını gördük. Sonra, geleneksel yöntemdeki DCT dönüşümünü de düşündük. Derin öğrenme ile birleştirildikten sonra etkisinin iyi olmadığı görüldü.Ayrıca o dönemde derin öğrenme çok popüler olmasına rağmen o dönemde görüntü sıkıştırma için derin öğrenme kullanılmış ve etkisi H.265 H.264'ün eski versiyonuyla karşılaştırılmıştır. JPEG çok daha kötü. Ancak gelecekte derin öğrenmenin H.265'i geçme şansı olması gerektiğine inanıyorlar.

Geleneksel algoritmalardan derin öğrenme algoritmalarına tamamen geçmeye başladılar.

Bunu bir dizi Ar-Ge ve yenilik takip ediyor. Etkisi dikkat çekicidir.H.265 ile karşılaştırıldığında, mevcut derin öğrenme görüntü sıkıştırma teknolojisi TNG, göstergelerde benzeri görülmemiş atılımlar gerçekleştirmiştir.Ayrıca, TNG ağı tarafından sıkıştırılan görüntülerin de bir filtreleme etkisi vardır.Ağ üzerinde bozulmuş bazı görüntüler için kullanın TNG sıkıştırmasından sonraki görsel efekt, orijinal görüntüden daha iyidir.

Şekil: Yüksek kod sözcükleri durumunda TNG (yukarıda) ve BPG'nin (aşağıda) karşılaştırılması. Gerçek testte BPG, yüksek frekans distorsiyonunun neden olduğu çınlama etkisi olan şekilde gösterildiği gibi bloklu görünecektir. Çınlama efekti, görüntü bozulmasındaki bilgi kaybından, özellikle de yüksek frekanslı bilgi kaybından kaynaklanır, çünkü BPG, resmin farklı bloklarının içerikleri farklı olsa da, kodlama ve sıkıştırma sırasında aynı kodlama parametrelerini kullanır.

Wu Junmin, Leifeng.com AI Araştırma Enstitüsüne verdiği demeçte, "TNG sıkıştırması, birden çok sıkıştırmadan dolayı öznel kalitenin daha da kötüleşmesine neden olmaz ve ayrıca JPEG gibi yöntemlerin neden olduğu bazı bozulmaları giderebilir." Şu örnekleri verdi: bazıları HEVC veya JPEG sıkıştırılmış görüntülerin engelleme etkileri vardır (engelleme etkileri: blok tabanlı dönüştürme kodlaması, görüntü sıkıştırma kodlamasında yaygın olarak kullanılır. Bit hızı azaldıkça niceleme zorlaşır ve süreksizlikler bloğun sınırında belirerek yeniden oluşturulmuş bir görüntü oluşturur. Açık kusurlar). Ancak TNG ağı ile işlendikten sonra blok etkisi ortadan kalkacaktır.

Derin öğrenme teknolojisinin TNG'ye uygulanmasının çok güçlü görsel efektler getirdiği görülebilir. Şu anda, görüntü ve video sıkıştırma alanında en çok kullanılan derin öğrenme teknolojisi evrişimli sinir ağıdır (CNN) Aşağıdaki, sıkıştırma için evrişimli sinir ağını kullanmanın tipik bir yöntemidir.

Şekilde gösterildiği gibi, esas olarak CNN kodlama ağı, nicemleme, ters niceleme, CNN kod çözme, entropi kodlama, vb. Gibi birkaç modülü içerir. Kodlama ve kod çözme ağı, evrişim, havuzlama ve doğrusal olmama gibi modüller ile tasarlanabilir ve inşa edilebilir.

Kodlama ağının işlevi, resimleri sıkıştırılmış özelliklere dönüştürmektir ve kod çözme ağı, orijinal resimleri sıkıştırılmış özelliklerden kurtarmaktır.

Aşağıda sıkıştırma için derin öğrenmeyi kullanan bir dizi popüler bilim yer almaktadır:

Örnek olarak bir resim çekin Kodlama ağına 768 * 512 boyutunda üç kanallı bir resim gönderilir İleri işlemden sonra 96 * 64 * 192 veri birimini işgal eden sıkıştırma özelliği elde edilecektir. Veri birimine bir kayan nokta numarası, bir tam sayı veya bir ikili sayı yerleştirilebilir. Bundan sonra, veri türü seçimi işin içine girer.

Görüntü onarımı ve sinir ağı ilkeleri perspektifinden, sıkıştırılmış özellik verilerinin tümü kayan nokta sayıları ise, geri yüklenen görüntünün kalitesi en yüksek olanıdır. Ancak bir kayan nokta sayısı 32 bit kaplar, resmin hesaplama formülü (96 * 64 * 192 * 32) / (768 * 512) = 96'dır. Sıkıştırmadan sonra, her pikselin kapladığı bit sayısı 24'ten 96'ya değişir ve bunun yerine resim boyutu artar. Açıkçası kayan nokta sayıları iyi bir seçim değildir.

Ve burada, anahtar teknoloji ölçümünü içerir.

Nicemlemenin amacı, bir kayan noktalı sayıyı bir tam sayıya veya ikili sayıya dönüştürmektir.En basit işlem, kayan noktalı sayıdan sonraki ondalık sayıyı çıkarmaktır.Kayan noktalı sayı bir tam sayı haline geldikten sonra, yalnızca 8 bit kaplar, yani her piksel 24 bit kaplar. Benzer şekilde, kod çözme tarafında, dönüştürülmüş özellik verilerini kayan nokta sayılarına geri yüklemek için ters niceleme teknolojisini kullanabilirsiniz, örneğin bir tam sayıya rastgele bir ondalık eklemek, nicemlemenin sinir ağının doğruluğu üzerindeki etkisini belirli bir dereceye kadar azaltabilir ve böylece görüntünün kurtarılmasını iyileştirebilir. kalite.

Sıkıştırma özelliğindeki her veri 1 bit kaplasa bile, sıkıştırmada iyileştirme için hala yer vardır. Aşağıdakiler, BPP'nin hesaplama formülüdür.

Her sıkıştırılmış özellik veri biriminin 1 bit kapladığı varsayılırsa, formül şu şekilde yazılabilir: (96 * 64 * 192 * 1) / (768 * 512) = 3, hesaplama sonucu sıkıştırma amacı açısından 3 bit / pikseldir, BPP ne kadar küçükse o kadar iyidir. Bu formülde, payda görüntü tarafından belirlenir ve burada yalnızca paylar ayarlanır: 96, 64 ve 192. Bu üç sayı ağ yapısıyla ilgilidir. Dolayısıyla daha iyi bir ağ yapısı tasarlanırsa bu üç sayı da küçülecektir.

1 hangi modüller ile ilgilidir? 1, her sıkıştırılmış özellik veri biriminin ortalama 1 bit kapladığı anlamına gelir. Niceleme bu sayıyı etkileyecektir, ancak bu tek etkileyen faktör değildir.Aynı zamanda hız kontrolü ve entropi kodlaması ile de ilgilidir. Bit hızı kontrolünün amacı, sıkıştırılmış özellik veri ünitesindeki veri dağılımını olabildiğince konsantre hale getirmek ve görüntü restorasyonunun kalitesini sağlama öncülüğünde değerlerin olabildiğince küçük görünmesini sağlamaktır, böylece entropi kodlama teknolojisi yoluyla 1 değerini daha da azaltabiliriz. Görüntü sıkıştırma oranı daha da geliştirilecektir.

(Ayrıntılar için lütfen önceki Leifeng.com raporuna bakın: Görüntü ve video sıkıştırma algoritmalarını tasarlamak için derin öğrenmeyi kullanma: daha özlü ve daha güçlü)

TNG ağına özel Wu Junmin, bu teknolojinin çok basit göründüğünü, yani esas olarak dönüştürme, nicemleme, filtreleme, entropi kodlama ve diğer teknolojileri içeren evrişimli sinir ağlarını kullandığını söyledi. Bu teknolojilerin nihai amacı yalnızca bir tanesidir ve bu da en zor olan görüntünün olasılık dağılımını tahmin etmektir.

"Olasılık dağılımının nasıl göründüğünü bilmiyoruz, bu yüzden ağı görüntünün olasılık dağılımına uyacak şekilde tasarlamalı ve öğrenmeliyiz. Öğrendikten sonra, görüntü kalitesinin ve bit hızının ulaşabilmesi için görüntüyü nasıl sıkıştıracağımızı da düşünmeliyiz. Optimal dağıtım. "

Teknolojinin basit görünmesine ve bunları seri olarak birbirine bağlamanın bir zorluğu olmamasına rağmen, eğitim algoritmasının çok karmaşık olduğunu ve üzerine bastıkları birçok çukur olduğunu söyledi.

Her şeyden önce, niceleme modelleme için iyi değildir.İlk nicelleştirdiklerinde, verileri doğrudan kesmek ve sonra modelleme için kullanmak istediler ancak bir problem vardı - gradyan geri iletilemedi. Sürekli deneyler yoluyla, sonunda bu sorunu çözmek için denetimli öğrenmeyi kullandılar.

Aynı zamanda bir verimlilik sorunu da var. Daha derin bir ağ ile başladılar, ancak daha sonra hızı artırmak ve ağ karmaşıklığını azaltmak için yavaş yavaş daha küçük kanallar ve daha sığ ağlar kullanmaya çalıştılar. Ek olarak, mühendislikte montaj optimizasyonu ve diğer araçları kullanmaya çalışırlar.

TNG'nin teknik avantajları ile ilgili olarak Wu Junmin, aşağıdaki iki noktayı özetledi: Birincisi, TNG görüntü sıkıştırmanın PSNR değeri, aynı boyuttaki mevcut genel derin öğrenme sıkıştırmasından 2dB daha yüksek; ikincisi, TNG sıkıştırılmış görüntülerin öznel kalitesi. Blok etkisi, zil sesi vb. Yoktur. "Tam görüntüler için doğrudan sıkıştırma kullanıyoruz, genel görüntü sıkıştırması ise blok sıkıştırmayı kullanıyor."

Hızla ilgili olarak Wu Junmin, AI Araştırma Enstitüsü'ne şu anda JPEG ile karşılaştırıldığında TNG'nin CPU üzerinde daha yavaş sıkıştırdığını, ancak GPU'da 1000 * 1000 görüntünün sadece onlarca milisaniye içinde sıkıştırılabileceğini söyledi.

Aslında, görüntü sıkıştırmaya ek olarak, şu anda video sıkıştırmada ilerleme kaydediyorlar. Wu Junmin, mevcut video sıkıştırmalarının x265 ile aynı orta düzeyde etkiye sahip olduğunu söyledi (Yüksek Verimli Video Kodlama (HEVC / H.265) standardıyla uyumlu videoları kodlamak için kullanılır). Bir sonraki aşamada, görüntülerde ve videolarda atılımlar yapmaya ve gelişmeye devam edecekler.

Wu Junmin, görüntü ve video sıkıştırma alanında derin öğrenme teknolojisinin uygulanması konusunda oldukça iyimser. AI Araştırma Enstitüsüne, iki ila üç yıl içinde GPU'ların büyük ölçüde popüler hale geleceğini ve TNG sıkıştırma algoritmasının özellikle GPU'larda iyi çalışacağını söyledi. Ek olarak, TNG'nin sıkıştırdığı şeyin resmin özellikleri olduğunu da belirtti.Bu özelliklerin güçlü karakterizasyon performansı var.Gelecekte, bu özellikler bazı çok görevli işlemleri yapmak için kullanılabilir.

Wu Junmin, "Derin öğrenme, görüntü ve video sıkıştırma için kesinlikle devrim niteliğindedir. Yeni nesil sıkıştırma H.266 değil, derin öğrenmenin sıkıştırılmasıdır." Dedi.

Şu anda TNG algoritmasını deneyimlemek için Tuya resmi web sitesine gidebilirsiniz, adres aşağıdaki gibidir:

Parmaklarınızın ucunda kolay ofis Ricoh RiMall Akıllı Uygulama Mağazası Analizi
önceki
Sadece 5 yıl önce kurulan şirket, internetin kışında Hong Kong borsasına girdi.
Sonraki
CSHIA, AI tarafından desteklenen akıllı evlerin uygulanmasını keşfetmek için AI + Akıllı Ev Zirvesi Forumu'na ev sahipliği yapıyor
"Five Sisters" yönetmen "Su Sansui" gerçekçilikten uzaklaşmayı sonuna kadar sürdürüyor
Lenovo cep telefonu güçlü bir şekilde geri döndü, Chang Cheng ve Z serisi yaptı
Merkez bankası doğrudan A hissesi satın almalı mı? Kolaylaştırmak istiyorsun
Yang Mi'nin yeni filmi Toronto Film Festivali'nde kısa listeye alındı, "Baby" adlı edebi film 19 Ekim'de ülke çapında gösterime girecek.
Zorlu sanatçılar: "Metro" nun yaratıcıları
Asla Vazgeçme Geniş Vizyon
Portre çekiminin yeni ve yaratıcı bir yolu, fotoğrafçı MZ ve Nikon Z 7
Hisense Akıllı Ev 2018'de Görünüyor SSHT "Siyah Teknoloji" ile Geleceğin Evini Gösteriyor
"Gurme Macera Kahramanı Yahni" süper tahmin edilebilir ve ebeveyn-çocuk ülke çizgi romanları "Hollywood Animasyonu" olarak övülür
İki büyük domuz ve üç küçük domuz üç bebek mi doğuracak? Hayır, bu beş servetin bir araya gelmesi! Yasak Şehir gittikçe daha eğlenceli hale geliyor ve bu sefer China Post'u getireceğim! Çene Güzell
Yedi yapımcı ile röportaj yaptıktan sonra, "Çin Yıldızı Projesi" ne daha çok güveniyorum.
To Top