g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Film tarihinin ilk filmi "Tren İstasyonunda" saniyeler içinde 4K HD olur, AI tahmini + enterpolasyon, siyah beyaz da "renkli TV" haline gelebilir

Kısa süre önce, yabancı bir YouTuber, 1895'te çekilmiş ve sinir ağları tarafından geliştirilmiş "Tren İstasyona Girin" belgeselini yayınladı. Filmin tamamı sadece 45 saniye uzunluğunda, Louis Lumiere ve Auguste Lumiere tarafından Fransa'da çekildi. Kıyı kentleri.

Bu film 35mm formatlı bir film ile yapıldı.O zamanlar projektör elle çalıştırıldığı için orijinal kare hızı muhtemelen 16 ile 24 kare arasındaydı.

Film teknolojisi o zamanlar olgun olmadığından, resimdeki sahnelerin nispeten bulanık olduğunu ve trenin bariz bir karalamayla geldiğini görebiliyoruz. Ancak sinir ağının resim çözünürlüğünü iyileştirmesi ve çerçeve eklemesinden sonra, bu eski film 4K ~ 60 fps görüntü kalitesine ulaştı.

Filmlerin siyah-beyaz görüntüleri ve film filmlerinin benzersiz görüntü titremesi olmasaydı, görüntülerin pürüzsüzlüğü ve netliği bugünün akıllı telefonlarıyla neredeyse karşılaştırılabilir olabilirdi. Bu filmin restorasyonu, Topaz Labs'tan Gigapixel AI ve DAIN görüntü görüntü düzenleme uygulamasını kullanan Denis Shiryaev adlı bir adam tarafından yapıldı. Restorasyon sürecinde, sadece lensi 4K'ya yükseltmekle kalmadı, aynı zamanda kare hızını saniyede 60 kareye çıkardı.

Gigapixel AI resmi web sitesi ekran görüntüsü

"Tren İstasyonunda Tren" adlı kısa filmin orijinal kalitesi çok belirsiz ve çözünürlüğü çok düşük. Shiryaev işlemek için Gigapixel AI'yı kullandıktan sonra ve filme ses ekledikten sonra, izleme deneyimi mevcut standartları tamamen karşıladı.

Resmi web sitesine göre, Gigapixel AI yazılımı, görüntüyü analiz ederken görüntünün ayrıntılarını ve yapısını tanımlayabilen tescilli bir interpolasyon algoritması ile gömülüdür.Görüntü% 600 büyütülse bile, görüntüyü daha net hale getirebilir. Filmdeki bazı görüntülerin GAN tarafından oluşturulduğunu belirtmekte fayda var.

Öte yandan, DAIN (Derinliğe Duyarlı Video Kare Enterpolasyonu) filmdeki kareleri tahmin edebilir ve bunları mevcut videoya ekleyebilir. Başka bir deyişle, DAIN video klipleri analiz eder ve eşler ve ardından oluşturulan dolgu görüntüsünü mevcut görüntüler arasına ekler. Bu 1896 videoda 4K ile aynı etkiyi elde etmek için, Shiryaev filmi "resim projeksiyonunu" saniyede 60 kareye çıkarmak için yeterli görüntü ile doldurdu.

Bu nedenle, DAIN otomatik olarak saniyede 36 görüntü oluşturacak ve ardından bunları filme ekleyecektir. Ek olarak, aynı AI teknolojisine dayanan bir sinir ağı, bir grup renkli fotoğrafı siyah beyaza dönüştürebilir ve ardından renkli orijinalleri yeniden oluşturmak için eğitebilir, böylece siyah beyaz filmler renge dönüştürülebilir. Aşağıdaki videoda gösterildiği gibi.

Derin öğrenmeye dayalı DAIN video enterpolasyon teknolojisi

Derin öğrenme teknolojisi, asırlık bir filmi 4K gişe rekorları kıran bir film haline getirmek için çok çaba sarf etti.Daha spesifik olarak, video enterpolasyon teknolojisi derin öğrenmede yer alıyor. Elbette, derinliğe duyarlı video karesi enterpolasyonu (Derinliğe Duyarlı Video Kare Enterpolasyonu) yeni bir teknoloji değildir. 2019'un başlarında, bu teknolojiyle ilgili makaleler CVPR 2019'a dahil edildi ve ilgili algoritmalar da Github'da açık kaynaklı hale getirildi.

Kağıt indirme adresi: https://arxiv.org/pdf/1904.00830.pdfGithub

Adres: https://github.com/baowenbo/

DAIN makalesinin ilk yazarı olan Bao Wenbo, Shanghai Jiaotong Üniversitesi Elektronik Bilgi ve Elektrik Mühendisliği Fakültesi'nde doktora öğrencisidir. Spesifik çalışma, 2018'de yayınlanan MEMC-Net makalesi tarafından yapılan iyileştirmeye dayanmaktadır.

Spesifik etki NVIDIA'nın açık kaynak Super SloMo'una benzer, yani sıradan videodan 30 fps'den 240 fps'ye yüksek kare hızına sahip resmi "akıllıca tamamlayabilir", 8 kat yavaşlasa bile takılı kalmaz.

Ve bu yeni kare enterpolasyon algoritması DAIN, NVIDIA'nın algoritmasından daha net bir etkiye ve daha yüksek bir kare hızına sahiptir ve 30 fps'den 480 fps'ye kadar kareler ekleyebilir. Algoritma seviyesine özel olarak, araştırmacılar derinlik bilgilerini keşfederek tıkanıklığı tespit etmek için bir yöntem önerdiler.

Uzaktaki nesneleri örnekleyen ara akışı sentezlemek için derinliği algılayan bir optik akış projeksiyon katmanı kullanılır. Ek olarak, katmanlama işlevi, komşu piksellerden bağlamsal bilgi toplamak için öğrenilir. Daha spesifik olarak, yukarıdaki şekilde gösterildiği gibi, tüm algoritma optik akış, derinlik, bağlam özellikleri, enterpolasyon çekirdeği ve çerçeve sentezine bölünmüştür.

Optik akış kestirim modülünde, PWC-NET optik akış kestirim modeli kullanılmaktadır.Optik akışı denetimsiz öğrenmek çok zor olduğundan, yazar önceden eğitilmiş PWC-Net'ten optik akış tahmin ağını başlatır.

Derinlik bölümünde, ortalama değeri hesaplama yöntemini kullanan geçmiş ağ modelinden farklıdır.Kapalı alan sorununu çözmek için, yazar tt zamanında optik akış füzyon sonucunu hesaplamak için derinlik yardımını kullanma yöntemini önermektedir. Füzyonun ağırlığı derinlik değerinin tersini kullanır Basitçe söylemek gerekirse, derinlik değeri ne kadar büyükse (uzak mesafeli piksel), optik akış sentezindeki ağırlık o kadar küçük olur.

Bağlamsal özellik bölümünde yazar, CtxSynNet makalesinde, bağlamsal bilginin (bağlamsal özellik) eklenmesinin video enterpolasyonuna yardımcı olduğunun kanıtlandığını önermektedir. Dolayısıyla bu makalede yazar, Artık bloğa dayalı bağlamsal özellikleri çıkarmak için bir ağ tasarladı ve sıfırdan eğitti.

Enterpolasyon çekirdeğinin uyarlanabilir çarpıtma katmanı kısmında ana fikir, pikselin yeni konumunu optik akış yoluyla bulmak ve 4x4 aralığını yeni konum etrafında noktanın piksel değeri olarak özel bir çekirdekle çarpmaktır. Bu çekirdek, iki parçanın çarpılmasıyla elde edilir.Bir kısım, görüntü ölçeklemede yaygın olarak kullanılan bilineer interpolasyondur.Her bir konumun ağırlığı sadece koordinat mesafesi ile ilgilidir.Diğer kısım da ağ öğrenimi yoluyla elde edilen bir enterpolasyon çekirdeğidir. .

Çerçeve sentezi. Nihai çıktı çerçevesini oluşturmak için yazar, 3 artık bloktan oluşan bir çerçeve sentez ağı oluşturmuştur. Çarpık girdi çarpık derinlik haritası, çarpık bağlam özelliği, çarpık ve enterpolasyon çekirdeği çerçeve sentez ağının girdisi olarak bağlanır. Ek olarak, iki çarpık çerçeve doğrusal olarak karıştırılır ve ağ, temel doğruluk çerçevesi ile karışık çerçeve arasındaki artığı tahmin etmeye zorlanır.

Kayıp işlevi, gerçek çerçeve ile karma çerçeve arasındaki kalıntıdır.Bu işleve, L1 kaybının bir çeşidi olan, ancak düzenli bir terim eklenmiş olan Charbonnier Kaybı adı verilir. Kullanılan eğitim veri seti, eğitim için 51312 üçlü içeren Vimeo90K'dır ve her üçlü 256 × 448 piksel çözünürlüğe sahip 3 ardışık video karesi içerir.

Özellikle eğitim sürecinde, yazar ağı her üçlünün ara çerçevesini tahmin etmek için kullanır (yani, t = 0.5). Test sırasında, model rastgele ara çerçeveler oluşturabilir. Ek olarak, yatay ve dikey olarak çevrilerek ve üçlülerin zaman sırasını tersine çevirerek eğitim verileri artırılır.

Spesifik eğitim stratejisinde yazar, AdaMax'ı ağı optimize etmek, sırasıyla 1 ve 2'yi 0.9 ve 0.999'a ayarlamak ve çekirdek tahmini, içerik çıkarma ve çerçeve sentez ağının ilk öğrenme oranını 1e 4'e ayarlamak için kullanıyor. Akış tahmini ve derinlik kestirim ağlarının her ikisi de önceden eğitilmiş bir modelden başlatıldığından, sırasıyla daha küçük öğrenme oranları 1e-6 ve 1e-7 kullanırlar.

Ek olarak, tüm model 30 dönem için ortaklaşa eğitildi ve ardından her ağın öğrenme oranı 0,2 kat azaltıldı ve tüm model 10 dönem daha ince ayarlandı. Yazarın modeli NVIDIA Titan X (Pascal) GPU kartı üzerinde eğittiğini ve yakınsama durumuna ulaşmasının yaklaşık 5 gün sürdüğünü belirtmekte fayda var.

Deneysel sonuçlarla ilgili olarak, farklı veri kümeleri ve son makalelerin artıları ve eksileri üzerine iki makale koyacağım, bu yüzden burada çok fazla analiz yapmayacağım. Genel olarak yazar, derinliğe duyarlı bir video enterpolasyon şeması önerir ve tıkanma alanı sorununu açıkça çözmeye çalışır. PWC optik akış fikrini ödünç alarak kaba-ince arası, büyük hareket sorununu çözmeye çalışın. Ara çerçeveleri daha iyi sentezlemek için öğrenilen hiyerarşik özellikleri ve derinliği bağlam bilgisi olarak kullanın. Öyleyse, bu tür bir derin öğrenme teknolojisi belirli film restorasyonunda nasıl bir rol oynayabilir? 2019'da yapay zeka tarafından onarılan birkaç video bize cevabı verebilir.

Lei Feng

Kuruluş töreni ve son an, yapay zeka onarımları

Geçtiğimiz yıl, Çin Halk Cumhuriyeti'nin kuruluşunun 70. yıldönümüydü.İnsanlar üzerinde derin bir etki bırakan görkemli askeri geçit töreninin yanı sıra, Ekim ayı sonunda yayınlanan "Kuruluş Töreni" de gerçekten etkileyiciydi. Bu film, ülkenin kuruluşuna üç savaş gösterdi. Törenin tüm tarihsel süreci.

Lei Feng

Film ilk kez 21 Eylül 1989'da gösterildi. Film 18 cilt ve toplam 164 dakikaya bölündü. O zamanki çekim koşulları nedeniyle, yeniden yayınlanmak üzere görüntü kalitesinin geri yüklenmesi gerekir. Onarım işlemi sırasında üretici, otomatik onarımı manuel onarımla birleştirerek DRS onarım sisteminin işlevlerinin kullanımını en üst düzeye çıkardı.

AI algoritması sayesinde, eski filmin büzülmesi ve kıvrılması çözülebilir, ancak filmin yırtılması ve çizilmelerinin profesyonel bir tamirci tarafından kare kare onarılması gerekir. Bununla birlikte, filmdeki yırtılmaların ve çiziklerin profesyonel bir tamirci tarafından çerçeve kare onarılması gerekir.

Lei Feng

"The Founding Ceremony" in yanı sıra, Eylül ayında yayınlanan "Decisive Moment" da AI teknolojisini kullanıyor.Film yapımcısına göre bu malzeme Rusya'daki renkli bir belgeselden geliyor ancak yaşı nedeniyle görüntü kalitesi bulanıklaşıyor ve renkler bozuluyor. Karmaşık 4K restorasyon çalışmalarından sonra, nihayet böyle mükemmel bir görüntü deneyimi gösterdi.

Ayrıca, "Harika, Ülkem", Çin Film Dijital Prodüksiyon Üssü Dijital Restorasyon Merkezi yöneticisi Xiao Bo ve ekibinin yapay zeka restorasyonunu kullanan bir girişimidir.

Restorasyonu daha sorunsuz gerçekleştirmek için Xiaobo ekibi, dört ay içinde 300.000 görüntü çerçevesini geri yüklemek ve geliştirmek için bilgisayar büyük veri derin öğrenme algoritmalarına dayanan "Zhongying · Shensi" yapay zeka görüntü işleme sistemini geliştirdi. "Zhongying · Shen Si" kullanılarak, bir filmi tamir etme süresi dörtte üç kısaltılabilir ve maliyet yarı yarıya azaltılabilir.

Ve iQiyi tarafından geliştirilen ZoomAI aynı zamanda derin öğrenmeye dayalı bir video restorasyon teknolojisidir.Bu teknoloji birden fazla modülden oluşur.Her modül, süper çözünürlük, gürültü giderme, keskinlik gibi bir veya daha fazla görüntü kalitesi geliştirme yönünden sorumludur. Değişim, renk geliştirme vb.

Her modül bir veya daha fazla derin öğrenme modelinden oluşur. Özetle, klasik eski filmlerin parlaklığını yeniden üretmek için evrişimli sinir ağlarını ve en gelişmiş görüntü tanıma teknolojisini kullanmak artık erişilemez durumda değil. Diğer yöntemlerle karşılaştırıldığında, derin öğrenme tekniklerine dayalı filmleri onarmak zamandan ve emekten tasarruf sağlayabilir. Klasik filmlerin restorasyonu ve dijitalleştirilmesi, insanların daha fazla kültürel ürün elde etmesini de kolaylaştırabilir.

Referanslar

https://towardsdatascience.com/neural-networks-help-upscale-conversion-of-famous-1896-video-to-4k-quality-d2c3617310fehttps://cloud.tencent.com/developer/article/1507729https:// baijiahao.baidu.com/s?id=1657837274349020022wfr=spiderfor=pc

Tek bir enfeksiyon vakası olmamıştır ve bu toplulukta şüpheli bir sığır vakası olmamıştır.

Guangdong Resim Akademisi ressamı doktorun aşkını söylüyor