Academia Yeni Google araştırması, kendi kendini denetleyen video renklendirme, hedef izleme ve poz tahminine yaklaşık olarak eşittir

AI Technology Review Press : Bu makale Google AI Blog'da yayınlandı ve video hedef takibi ve insan pozu tahmini için doğrudan kullanılabilen, kendi kendini denetleyen öğrenme altında Google-a video boyama modelinin yeni bir araştırma sonucunu tanıttı. AI Technology Review orijinal metinden derlenmiştir.

Videolarda hareketli nesnelerin izlenmesi, bilgisayar görüşünde temel bir sorundur ve özellikle etkinlik tanıma, nesne etkileşimi veya video stilizasyon gibi uygulamalar için önemlidir. Bununla birlikte, makineye videodaki konuyu görsel olarak izlemeyi öğretmek eğitim için büyük miktarda etiketlenmiş veri gerektirdiğinden (video verilerinin büyük ölçekli etiketlenmesi mümkün değildir), bu nedenle bu görev de çok zordur.

"İzleme, Videoları Renklendirerek Ortaya Çıkıyor" başlıklı makalede (https://arxiv.org/abs/1806.09594), Google araştırmacıları, renkleri tek bir referans çerçevesinden kopyalayabilen evrişimli bir ağ tasarladılar ve ardından Gri tonlamalı videodaki içerik renklidir. Bu şekilde ağ, gözetim bilgilerinin yardımı olmadan konuyu videoda otomatik olarak görselleştirmeyi ve izlemeyi öğrenir. Önemli olan, modelin "hedef izleme görevi" konusunda hiçbir zaman açıkça eğitilmemiş olmasına rağmen, aynı anda birden fazla nesneyi izleyebilmesi ve tıkanma veya deformasyon (Sağlam) durumunda bile sağlamlığı koruyabilmesidir. Bunların tümü herhangi bir etiket verisi gerektirmez.

Hedef izleme tahmin sonuçları örnek ekranı, bu örnekler kamuya açık akademik veri seti DAVIS 2017'den gelir. Model videoyu renklendirmeyi öğrendikten sonra, hedef izleme mekanizması, herhangi bir denetim bilgisi sağlamadan model tarafından otomatik olarak yönetilecektir. Araştırmacılar, ilk çerçevede (farklı renklerle belirtilir) model için ilgi bölgesini belirleyecek ve ardından model, herhangi bir ek öğrenme veya denetim bilgisi sağlamadan sonraki çerçevelerde hedefi otomatik olarak renklendirecektir. .

Videoyu yeniden renklendirmeyi öğrenin

Google araştırmacıları, renklerin zamansal tutarlılığının, makinelere videolardaki belirli alanları izlemeyi öğretmek için mükemmel büyük ölçekli eğitim verileri sağladığına dair bir hipotez ortaya koydu. Açıktır ki, renklerin zaman alanında tutarsız olduğu istisnalar vardır (örneğin, ışık aniden yandığında), ancak genel olarak videodaki renkler zaman içinde sabit kalabilir. Ek olarak, çoğu video renklidir ve model eğitimi için değişken ölçekli, kendi kendini denetleyen bir öğrenme sinyali sağlar. Renkli videoyu gri tonlamalı videoya dönüştürürler ve ardından bir renklendirme adımı eklerler, çünkü bir videoda aynı renkte birden fazla nesne olabilir, ancak renklendirme işlemleri aracılığıyla makineye belirli bir hedefi veya alanı izlemeyi öğretebilirler.

Google araştırmacıları, sistemi eğitmek için büyük ve herkese açık bir video veri kümesi olan Kinetics veri kümesindeki videoları kullandılar. İçerideki videolar temel olarak günlük aktivitelerle ilgilidir. İlk kare dışındaki tüm video karelerini gri tonlamalı biçime dönüştürdüler ve ardından sinir ağını sonraki karelerde öngörülü bir şekilde görüntü renklerini geri yüklemek için eğittiler. Videodaki renkleri doğru şekilde geri yükleyebilmek için, modelin görüntüdeki belirli bir alanı izlemeyi öğrenebileceğini umuyoruz. Deneysel sonuçları gözlemleyerek ulaştıkları ana sonuç, rengi eski haline getirmek için, modelin görüntüdeki belirli bir alanı izlemeyi öğrenmesine izin vermenin, modelin nesneleri izleme yeteneğini otomatik olarak öğrenmesini de sağlayacağıdır.

Video yeniden renklendirme görevini göstermek için DAVIS 2017 veri kümesindeki videoları kullanın. Model, giriş olarak tek renkli bir video çerçevesi ve gri tonlamalı bir video alır ve ardından videodaki diğer karelerin renklerini tahmin eder ve geri yükler. Model, gerekli rengi verilen referans çerçevesinden kopyalamayı öğrenir ve bu yetenek, modelin hedefleri insan gözetimi olmadan izleme yeteneğini öğrenmesine de olanak tanır.

Modelin, verilen tek kare referans görüntüsünden doğru rengi kopyalamayı öğrenmesi için, bu, modelin görüntü çerçeveleri arasındaki bölge haritalama ilişkisini örtük olarak öğrenmesini gerektirir. Bu, modeli hedef izleme için kullanılabilecek açık mekanizmaları edinmeye zorlar. Okuyucuların video yeniden renklendirme algoritmasının mekanizmasını daha iyi anlamalarına yardımcı olmak için, aşağıda tahmini renklendirmenin bazı sonuçlarını gösteriyoruz. Bu videolar Kinetics veri kümesinden alınmıştır.

Sağlanan referans çerçeve tahmini aracılığıyla kalan karelerin görüntü rengini geri yükleyin ve giriş videosu genel Kinetics veri setinden gelir

Ağ kesinlik verileri olmadan eğitilmiş olsa da, modelimiz videonun ilk karesinde belirtilen herhangi bir görsel alanı izlemeyi öğrendi. Model, konturlardaki nesneleri veya videodaki tek tek pikselleri izleyebilir. Yapılması gereken tek değişiklik, renkler yerine ilgi alanlarını temsil eden etiketlerin artık videonun tamamına yayılmış olmasıdır.

İzleyici analizi

Model çok sayıda etiketlenmemiş video üzerinde eğitildiğinden, Google araştırmacıları modelin ne öğrendiğine dair fikir edinmeyi umuyor. Aşağıdaki video, model tarafından öğrenilen gömmeleri, gömmeleri görselleştirmek için RGB renk uzayına yansıtmak için temel bileşen analizini (PCA) kullanan standart bir tekniği göstermektedir. Sonuçlar, model tarafından öğrenilen gömülü vektör uzayında, deformasyonlar ve bakış açısı değişiklikleri olsa bile, en yakın komşuların aynı konuya eşdeğer olma eğiliminde olduğunu göstermektedir.

İlk satır, DAVIS 2017 veri kümesindeki videoyu gösterir. İkinci çizgi, gölgeleme modelinden dahili gömme vektörünü görselleştirir. Şekildeki benzer gömme vektörleri, görselleştirmeden sonra benzer renkler gösterecektir. Bu, öğrenilen gömme vektörünün görüntüdeki pikselleri nesnenin konusuna göre böldüğünü gösterir.

Tutum takibi

Google araştırmacıları, modelin insan vücudunun temel noktalarının ilk çerçevede verildikten sonra insan vücudunun duruşunu da izleyebildiğini buldu. Genel akademik veri seti JHMDB üzerinde insan vücudunun poz tahmin takibini gösteren bir görselleştirme yaptılar.

Bu örnek, insan iskelet noktalarını izlemek için gölgeleme modellerinin kullanımını göstermektedir. Bu durumda, ilk giriş çerçevesi insan pozudur ve ardından sonraki poz hareketleri otomatik olarak izlenir. Model, bu görev için hiç eğitilmemiş olsa bile insan vücudunun duruşunu takip edebilir.

Gölgelendirme modelinin doğruluğu denetimli öğrenme modelini aşamasa da, video nesnelerini (Video segmentleri) ve insan pozlarını (İnsan pozu) izlemeyi öğrenmiştir ve performansı, en son optik akış tabanlı model yöntemlerinden (https: //arxiv.org/abs/1612.01925). Farklı hareket türleri için izleme performansı testleri, modellerinin, doğal karmaşıklığa sahip (dinamik arka plan, hızlı hareket ve kapanma gibi) birçok sahne için optik akış modelinden daha iyi olduğunu göstermektedir. Daha fazla ayrıntı için lütfen kağıdı okuyun.

Geleceğe bakmak

Google'ın sonuçları, video renklendirmenin, gözetim bilgileri olmadan videodaki nesneleri izlemeyi öğrenmek için kullanılabilecek bir sinyal sağladığını göstermektedir. Ek olarak, model sistemimizin başarısızlığının video renklendirmedeki başarısızlığa bağlı olduğunu da buldular, bu da video renklendirme modelini daha da iyileştirmek için kendi kendini denetleyen izleme araştırmasının ilerlemesiyle başlayabileceğimizi gösteriyor.

AI teknolojisi incelemelerinin derlemesi ai.googleblog.com aracılığıyla. Makalenin sonundaki tıklayın Orijinali okuyun AI etki faktörünü görüntüleyin.

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

En son görsel teknolojiye liderlik eden ZTE Tianji Axon9 Pro, Çin'de piyasaya sürüldü
önceki
Neden Leslie Cheung'un "Kardeşi" olarak adlandırılıyorlar? Çünkü oyundaki kardeşi, aynı zamanda oyun dışındaki kardeşi!
Sonraki
Bu zekâ, Hong Kong'da ne kadar "yeryüzüne" ya da "yeryüzüne düşmedi" satılıyor?
Huang Zhang, Meizu 16s, Snapdragon 855 + 10GB büyük depolama, 4000mAh büyük pil hakkında daha fazla ayrıntı açıklıyor
Dyson ile neden bir Roborock robotu eklemiyorsunuz?
CCTV "Splendid Weiyang" ı intihal şüphesiyle eleştiriyor. Anlaşmazlığın arkasında kaç tane yasal boşluk ve endüstri gizemi var?
Fengxing Jingyi X5'in yeni modeli 8.69-9.09 milyon satarak piyasaya sürüldü
Hennessy New Point A'dan Z'ye Trend Ansiklopedisi, Genç Parti Şarap Partisi Yeni Oyun VOL.1
Seçim çerçevesi benzeri tasarım! Xiaomi insanları Black Shark oyun telefonu 2'nin videosunu ortaya çıkardı
Kuru ürünler | CVPR Spotlight kağıdı: Sıfır örnek öğrenme ağ verileriyle buluştuğunda
Müzayedede çok yüksek fiyatlı ayı hatırlıyor musunuz? Üstünüzdeki Supreme x LV, olduğu kadar değerli değil!
"If, Love": Cecilia Cheung on yıl sonra TV dizisine döndükten sonra güzel bir geri dönüş için mücadele edecek mi?
Dapeng Hu, Bin Vizyon CTO'su: AIoT endüktif olmayan trafik parkının algoritmasını ve iş mantığını yorumlama
Wang Ran Changwen Bugün Çin'in eğlence endüstrisinin karşı karşıya olduğu en büyük fırsat
To Top