İçbükey tapınaktan Xiaocha Qubit Raporu | Genel Hesap QbitAI
Fotoğraf çekmek zaten cep telefonlarının en büyük satış noktasıdır.Büyük üreticiler, 100 milyon piksel, süper gece görüşü, optik yakınlaştırma ve daha fazla numara ile DxO'da keyif alıyorlar.
Ancak farklı cep telefonlarının aldığı dokular farklıdır.Bir yandan lens modülü farklı, diğer yandan görüntü işlemcisinin (ISP) yazılım ayarı da farklıdır.
Yakın zamanda, Zürih Federal Teknoloji Enstitüsü (ETHZ) yeni bir algoritma önerdi PyNet , Yalnızca tek bir uçtan-uca derin öğrenme modeli bir cep telefonunun ISP'sinin yerini alabilir.
Ayarladığı kamera algoritması, mobil ISS kullanılmadan bir cep telefonundan diğerine aktarılabilir. İki cep telefonu çipi iki üreticiden gelse bile, tamamen sorun değil.
BlackBerry KeyOne'a aktarılan Huawei P20 ve Canon SLR kamera 5D Mark IV tarafından ayarlanan algoritmayı kullanarak, fotoğraf kalitesi orijinal ISP çıktısına kıyasla büyük ölçüde iyileştirildi.
Huawei P20, Kirin 970 çip + 12 milyon piksel Sony IMX 380 kamera kullanıyor ve BlackBerry KeyOne, Snapdragon 625 + 12 milyon piksel Sony IMX 378 kamera kullanıyor.
Şu anda, PyNET'in kaynak kodu, veri seti ve önceden eğitilmiş modeli GitHub'da yayınlandı.
Deklanşöre bastıktan sonra, telefon bir saniyeden daha kısa bir sürede bir resim çıkardı, ancak arkasındaki süreç oldukça karmaşıktı.
Cep telefonu fotoğraf çektiğinde, ilk çıktı herhangi bir değişiklik yapılmadan orijinal ışığa duyarlı bilgi dosyası RAW'dır.
RAW, cep telefonu SoC'sindeki görüntüleri hesaplamaya adanmış ISP aracılığıyla bir dizi işlemden geçer ve orijinal olarak loş olan orijinal görüntüyü muhteşem bir sonuca dönüştürür.
Süreç şunları içerir: gürültünün giderilmesi, beyaz dengesinin düzeltilmesi, pozun ayarlanması, renk kontrastının düzeltilmesi, süper çözünürlük vb.
Şimdi, giderek daha fazla cep telefonu NPU gibi AI çekirdeklerini kullanmaya başlıyor ve AI bilgi işlem gücü giderek güçleniyor.Gelecekte görüntü hesaplama için ISP yerine NPU kullanılabilir mi? ETHZ araştırmacılarının düşüncesi budur.
Araştırmacılar ilk olarak Huawei P20 ile çekilmiş 20.000 orijinal RAW fotoğrafı ve aynı sahnede Canon SLR 5D Mark IV ile çekilmiş fotoğrafları topladı ve bunları eğitim için veri seti olarak kullandı.
Ancak eğitim sürecinde orijinal boyuttaki görüntü kullanılmadı ancak görüntüden 448 × 448 pencere seçildi ve son olarak 48043 RAW-RGB görüntü çifti oluşturuldu.
PyNET, eğitim sonuçlarını daha küçük ölçekte orijinal boyutlu görüntülere uygulayabilmek için hiyerarşik bir mimari kullanır.
Aşağıdakiler PyNET'in ağ mimarisidir.Model tersine çevrilmiş bir piramit şekline sahiptir ve görüntüleri beş farklı seviyede işleyebilir.
PyNET mimarisi, farklı boyutlardaki evrişim filtreleriyle (3 × 3'ten 9 × 9'a) paralel olarak işlenen birden fazla bloğa sahiptir ve ardından karşılık gelen evrişim katmanının çıktısı kademelendirilir.
Daha düşük bir ölçekte elde edilen çıktı, yeri değiştirilmiş evrişimli katman tarafından yukarı örneklenecek, üst düzey özellik haritaları ile istiflenecek ve ardından sonraki evrişimli katmanda işlenecektir.
PyNET, en alt katmandan başlar ve modeli sırayla eğitir. Önce, çok düşük çözünürlüklü görüntüleri işlemek ve genel görüntü işlemlerini gerçekleştirmek için kullanılan daha düşük ölçekte iyi görüntü yeniden yapılandırma sonuçları elde edin.
Alt katmanın ön eğitiminden sonra, orijinal çözünürlük görüntüsü eğitilene kadar aynı adımlar bir sonraki seviyeye uygulanır.
Her bir üst düzey, modelin alt kısmından üst düzey yüksek kaliteli özellikler elde ettiğinden, temel olarak eksik olan alt düzey ayrıntıları yeniden oluşturmayı ve sonuçları iyileştirmeyi öğrenir.
Eğitimin ardından Huawei P20 tarafından çekilen RAW görüntüler işlenmek üzere PyNET'e teslim edilir ve görüntüler Huawei'nin kendi ISP'sinin işleme etkisini kaybetmez.
Amazon Mechanical Turk platformunda manuel puanlama, PyNet tarafından işlenen resimlerin görünümünün ve hissinin P20'nin düz çıkış efektinden daha iyi olduğunu gösterir.
PyNET, TensorFlow ile uygulanır ve SciPy, NumPy, imageio ve yastığın yüklenmesi gerekir.Nvidia GPU da önemlidir, çünkü eğitim sürecinde CUDA ve cuDNN gereklidir.
Ek olarak, önceden eğitilmiş VGG-19, PyNet modelini ve RAW-RGB görüntü çifti veri setini indirmeniz gerekir.
Yazar, modelin 16 GB video belleğine sahip Tesla V100 GPU üzerinde eğitilmesini tavsiye ediyor.
Güçlü bilgi işlem kaynaklarınız yoksa, RAW formatındaki görüntüleri PNG'ye dönüştürmek için açık kaynak kodundaki dng_to_png.py'yi de kullanabilirsiniz, ancak resmi P20 ve Canon SLR ayar sonuçlarını kullanıyorsunuz.
Kağıt adresi: https://arxiv.org/abs/2002.05509
Kaynak kodu: https://github.com/aiff22/PyNET
- Bitiş -
Qubit QbitAI · Toutiao İmzalama Yazarı
Bize dikkat edin ve en son teknolojiden haberdar olun