AI Technology Review Press : Bu makale Google AI Blog'da yayınlandı ve video hedef takibi ve insan pozu tahmini için doğrudan kullanılabilen, kendi kendini denetleyen öğrenme altında Google-a video boyama modelinin yeni bir araştırma sonucunu tanıttı. AI Technology Review orijinal metinden derlenmiştir.
Videolarda hareketli nesnelerin izlenmesi, bilgisayar görüşünde temel bir sorundur ve özellikle etkinlik tanıma, nesne etkileşimi veya video stilizasyon gibi uygulamalar için önemlidir. Bununla birlikte, makineye videodaki konuyu görsel olarak izlemeyi öğretmek eğitim için büyük miktarda etiketlenmiş veri gerektirdiğinden (video verilerinin büyük ölçekli etiketlenmesi mümkün değildir), bu nedenle bu görev de çok zordur.
"İzleme, Videoları Renklendirerek Ortaya Çıkıyor" başlıklı makalede (https://arxiv.org/abs/1806.09594), Google araştırmacıları, renkleri tek bir referans çerçevesinden kopyalayabilen evrişimli bir ağ tasarladılar ve ardından Gri tonlamalı videodaki içerik renklidir. Bu şekilde ağ, gözetim bilgilerinin yardımı olmadan konuyu videoda otomatik olarak görselleştirmeyi ve izlemeyi öğrenir. Önemli olan, modelin "hedef izleme görevi" konusunda hiçbir zaman açıkça eğitilmemiş olmasına rağmen, aynı anda birden fazla nesneyi izleyebilmesi ve tıkanma veya deformasyon (Sağlam) durumunda bile sağlamlığı koruyabilmesidir. Bunların tümü herhangi bir etiket verisi gerektirmez.
Hedef izleme tahmin sonuçları örnek ekranı, bu örnekler kamuya açık akademik veri seti DAVIS 2017'den gelir. Model videoyu renklendirmeyi öğrendikten sonra, hedef izleme mekanizması, herhangi bir denetim bilgisi sağlamadan model tarafından otomatik olarak yönetilecektir. Araştırmacılar, ilk çerçevede (farklı renklerle belirtilir) model için ilgi bölgesini belirleyecek ve ardından model, herhangi bir ek öğrenme veya denetim bilgisi sağlamadan sonraki çerçevelerde hedefi otomatik olarak renklendirecektir. .
Google araştırmacıları, renklerin zamansal tutarlılığının, makinelere videolardaki belirli alanları izlemeyi öğretmek için mükemmel büyük ölçekli eğitim verileri sağladığına dair bir hipotez ortaya koydu. Açıktır ki, renklerin zaman alanında tutarsız olduğu istisnalar vardır (örneğin, ışık aniden yandığında), ancak genel olarak videodaki renkler zaman içinde sabit kalabilir. Ek olarak, çoğu video renklidir ve model eğitimi için değişken ölçekli, kendi kendini denetleyen bir öğrenme sinyali sağlar. Renkli videoyu gri tonlamalı videoya dönüştürürler ve ardından bir renklendirme adımı eklerler, çünkü bir videoda aynı renkte birden fazla nesne olabilir, ancak renklendirme işlemleri aracılığıyla makineye belirli bir hedefi veya alanı izlemeyi öğretebilirler.
Google araştırmacıları, sistemi eğitmek için büyük ve herkese açık bir video veri kümesi olan Kinetics veri kümesindeki videoları kullandılar. İçerideki videolar temel olarak günlük aktivitelerle ilgilidir. İlk kare dışındaki tüm video karelerini gri tonlamalı biçime dönüştürdüler ve ardından sinir ağını sonraki karelerde öngörülü bir şekilde görüntü renklerini geri yüklemek için eğittiler. Videodaki renkleri doğru şekilde geri yükleyebilmek için, modelin görüntüdeki belirli bir alanı izlemeyi öğrenebileceğini umuyoruz. Deneysel sonuçları gözlemleyerek ulaştıkları ana sonuç, rengi eski haline getirmek için, modelin görüntüdeki belirli bir alanı izlemeyi öğrenmesine izin vermenin, modelin nesneleri izleme yeteneğini otomatik olarak öğrenmesini de sağlayacağıdır.
Video yeniden renklendirme görevini göstermek için DAVIS 2017 veri kümesindeki videoları kullanın. Model, giriş olarak tek renkli bir video çerçevesi ve gri tonlamalı bir video alır ve ardından videodaki diğer karelerin renklerini tahmin eder ve geri yükler. Model, gerekli rengi verilen referans çerçevesinden kopyalamayı öğrenir ve bu yetenek, modelin hedefleri insan gözetimi olmadan izleme yeteneğini öğrenmesine de olanak tanır.
Modelin, verilen tek kare referans görüntüsünden doğru rengi kopyalamayı öğrenmesi için, bu, modelin görüntü çerçeveleri arasındaki bölge haritalama ilişkisini örtük olarak öğrenmesini gerektirir. Bu, modeli hedef izleme için kullanılabilecek açık mekanizmaları edinmeye zorlar. Okuyucuların video yeniden renklendirme algoritmasının mekanizmasını daha iyi anlamalarına yardımcı olmak için, aşağıda tahmini renklendirmenin bazı sonuçlarını gösteriyoruz. Bu videolar Kinetics veri kümesinden alınmıştır.
Sağlanan referans çerçeve tahmini aracılığıyla kalan karelerin görüntü rengini geri yükleyin ve giriş videosu genel Kinetics veri setinden gelir
Ağ kesinlik verileri olmadan eğitilmiş olsa da, modelimiz videonun ilk karesinde belirtilen herhangi bir görsel alanı izlemeyi öğrendi. Model, konturlardaki nesneleri veya videodaki tek tek pikselleri izleyebilir. Yapılması gereken tek değişiklik, renkler yerine ilgi alanlarını temsil eden etiketlerin artık videonun tamamına yayılmış olmasıdır.
Model çok sayıda etiketlenmemiş video üzerinde eğitildiğinden, Google araştırmacıları modelin ne öğrendiğine dair fikir edinmeyi umuyor. Aşağıdaki video, model tarafından öğrenilen gömmeleri, gömmeleri görselleştirmek için RGB renk uzayına yansıtmak için temel bileşen analizini (PCA) kullanan standart bir tekniği göstermektedir. Sonuçlar, model tarafından öğrenilen gömülü vektör uzayında, deformasyonlar ve bakış açısı değişiklikleri olsa bile, en yakın komşuların aynı konuya eşdeğer olma eğiliminde olduğunu göstermektedir.
İlk satır, DAVIS 2017 veri kümesindeki videoyu gösterir. İkinci çizgi, gölgeleme modelinden dahili gömme vektörünü görselleştirir. Şekildeki benzer gömme vektörleri, görselleştirmeden sonra benzer renkler gösterecektir. Bu, öğrenilen gömme vektörünün görüntüdeki pikselleri nesnenin konusuna göre böldüğünü gösterir.
Google araştırmacıları, modelin insan vücudunun temel noktalarının ilk çerçevede verildikten sonra insan vücudunun duruşunu da izleyebildiğini buldu. Genel akademik veri seti JHMDB üzerinde insan vücudunun poz tahmin takibini gösteren bir görselleştirme yaptılar.
Bu örnek, insan iskelet noktalarını izlemek için gölgeleme modellerinin kullanımını göstermektedir. Bu durumda, ilk giriş çerçevesi insan pozudur ve ardından sonraki poz hareketleri otomatik olarak izlenir. Model, bu görev için hiç eğitilmemiş olsa bile insan vücudunun duruşunu takip edebilir.
Gölgelendirme modelinin doğruluğu denetimli öğrenme modelini aşamasa da, video nesnelerini (Video segmentleri) ve insan pozlarını (İnsan pozu) izlemeyi öğrenmiştir ve performansı, en son optik akış tabanlı model yöntemlerinden (https: //arxiv.org/abs/1612.01925). Farklı hareket türleri için izleme performansı testleri, modellerinin, doğal karmaşıklığa sahip (dinamik arka plan, hızlı hareket ve kapanma gibi) birçok sahne için optik akış modelinden daha iyi olduğunu göstermektedir. Daha fazla ayrıntı için lütfen kağıdı okuyun.
Google'ın sonuçları, video renklendirmenin, gözetim bilgileri olmadan videodaki nesneleri izlemeyi öğrenmek için kullanılabilecek bir sinyal sağladığını göstermektedir. Ek olarak, model sistemimizin başarısızlığının video renklendirmedeki başarısızlığa bağlı olduğunu da buldular, bu da video renklendirme modelini daha da iyileştirmek için kendi kendini denetleyen izleme araştırmasının ilerlemesiyle başlayabileceğimizi gösteriyor.
AI teknolojisi incelemelerinin derlemesi ai.googleblog.com aracılığıyla. Makalenin sonundaki tıklayın Orijinali okuyun AI etki faktörünü görüntüleyin.
( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!