g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Daha yüksek çözünürlük ve daha fazla tutarlılık! MIT ve Nvidia birlikte video sentezi için yeni bir yöntem yayınladı

Yakın zamanda, Nvidia ve Massachusetts Institute of Technology, videodan video sentezi sorununu inceleyen yeni bir makale yayınladı. Amaç, giriş videosundan çıkış videosuna kadar haritalama işlevini öğrenmektir. Son olarak, çıktı videosu girişi doğru bir şekilde içerir Videodaki içerik.

Şu anda, videodan videoya sentezi sektörde nadiren yer almaktadır. Dinamik zaman modellemesi olmadan, mevcut görüntü sentezi yöntemi doğrudan video sentezine uygulanırsa, genellikle daha zayıf video efekti ile sonuçlanacaktır.

Şekil 1: Şehir Manzaraları Video, Şehir Manzaraları veri setindeki bölümleme maskesinden üretilmiştir. Sol üstteki görüntü: giriş videosu, sağ üstteki görüntü: pix2pixHD'nin etkisi, sol alt görüntü: COVST'nin etkisi, sağ alt görüntü: kağıt yönteminin etkisi

Üretken çekişmeli öğrenme çerçevesinde, bu makale videodan yeni bir video sentezi yöntemi önermektedir. İyi tasarlanmış üretken model ve ayırt edici modelin yanı sıra mekansal-zamansal yüzleşme hedefi aracılığıyla, bu makaledeki yöntem, bölümleme maskeleri, eskizler ve poz haritaları gibi çoklu formatlarda yüksek çözünürlüklü, gerçekçi ve zaman uyumlu girdiler üretir. video. Çoklu kıyaslama testleri üzerinde yapılan deneyler, bu yöntemin bariz avantajları olduğunu göstermektedir. Özellikle, bu model 2K çözünürlüklü sokak görünümü videosunu 30 saniyeye kadar sentezleyebilir ve video sentezinin teknik seviyesini büyük ölçüde geliştirebilir.

Şekil 2: Apolloscape veri kümesi. Sol: pix2pixHD'nin etkisi (sol alt köşedeki küçük resim bölümleme maskesidir), orta: COVST'un etkisi, sağ: kağıt yönteminin etkisi

Bunlar arasında, gerçek dünya sahnelerini dinamik olarak inşa etme yeteneği, temsilciler için çok önemlidir. Sürekli görsel görüntülerin sentezlenmesi, bilgisayarla görme, robotik ve bilgisayar grafiklerinde geniş bir uygulama alanına sahiptir. Örneğin, model tabanlı pekiştirmeli öğrenmede, daha az gerçek eğitim verisi olması durumunda, sentetik model tarafından oluşturulan video aracıyı eğitmek için kullanılabilir. Eğitimli video sentez modeli, geometrik sahneyi, malzemeleri, aydınlatmayı ve çeşitli dönüşümleri açıkça belirtmeden gerçekçi video oluşturabilir.Ancak, standart grafik oluşturma teknolojisi kullanılırken, daha zahmetli olan yukarıdaki koşulların belirtilmesi gerekir.

Şekil 3: Video çok modlu füzyon, sentezlenen videonun yol yüzeyi değişiklikleri

Video tahmini ve koşulsuz video sentezi gibi birçok video sentezi problemi türü vardır. Bu makalede, araştırmacılar yeni bir biçim keşfettiler: videolardan videolar oluşturmak.

Şekil 4: Farklı videolar oluşturmak için segmentasyon maskesini değiştirme Orijinal video Şekil 3'te gösterilmektedir. Sol: Ağaç binaya dönüştürülmüş, Sağ: Ağaca dönüştürülmüş bina

Bu başarının özü, giriş videosunu çıkış videosuna dönüştürmek için bir eşleme işlevi öğrenmektir. Araştırmacılar videodan videoyu sentezleme problemini bir dağıtım eşleştirme problemi olarak görüyorlar.Amaç, bir model eğitmek, giriş videosu için bir koşullu dağılım oluşturmak ve ardından giriş videosuna benzer gerçek bir videoyu tahmin edip sentezlemektir. Bu amaçla, araştırmacılar, bir çift giriş ve çıkış videosu verildiğinde, giriş videosunu çıkış alanına nasıl eşleştireceklerini öğrenmek için üretken bir rakip öğrenme çerçevesi kullanıyor. İyi tasarlanmış bir üretken model ve ayırt edici model ve yeni bir uzay-zamansal öğrenme hedef işlevi sayesinde, bu yöntem yüksek çözünürlüklü, gerçekçi ve zaman uyumlu videoları sentezleyebilir. Ek olarak, araştırmacılar bu yöntemi çok modlu video füzyonuna da genişletti. Aynı giriş videosu için model farklı videolar oluşturabilir.

Şekil 5: Yüz çiziminden oluşturulan video

Şekil 6: Duruş diyagramından video oluşturun

Araştırmacılar, modelin segmentasyon maskelerini gerçek videolara dönüştürmedeki etkisini doğrulamak için birden fazla veri seti üzerinde deneyler yaptı. Hem nicel hem de nitel sonuçlar, bu yöntemle sentezlenen resimlerin güçlü bir temelden elde edilenlerden daha gerçekçi göründüğünü göstermektedir. Makaledeki yöntem aynı zamanda video oluşturma sonuçlarının esnek üst düzey kontrolünü gerçekleştirebilir. Örneğin, bir sokak görünümü videosunda, kullanıcılar tüm binaları ağaçlarla kolayca değiştirebilir. Deney sırasında araştırmacı, modeli zaman ve mekanda aşamalı bir şekilde eğitti. Deney, düşük çözünürlük ve birkaç kare oluşturmakla başlar ve tam çözünürlük ve 30 veya daha fazla kare oluşturmaya devam eder. Jeneratör, kabadan inceye 512 * 256, 1024 * 512 ve 2048 * 1024 çözünürlüğe bölünmüştür. Deneyde LSGAN kaybı kullanılmış ve ADAM iyileştirici 40 dönemlik eğitim için kullanılmıştır, lr = 0.0002, (ß1, ß2) = (0.5,0.999). Deneyde kullanılan ekipman NVIDIA DGX1'dir. Yüksek görüntü çözünürlüğü nedeniyle, her grupta yalnızca kısa bir video olsa bile, DGX 1'deki (8V100 GPU, her GPU'da 16 GB video belleği vardır) tüm GPU'lar kullanılmalıdır. Üretken model 4 GPU'yu kaplar ve ayırt edici model diğer 4 GPU'yu kaplar. 2K çözünürlük için eğitim almak yaklaşık 10 gün sürer.