Cornell Üniversitesi CVPR makalesi: etiketsiz zaman atlamalı ağ fotoğrafçılığı aracılığıyla içsel görüntü ayrıştırmayı öğrenme

İnternet adresi:

Kağıt adresi:

https://arxiv.org/abs/1804.00582

1. Önsöz ve Giriş

Basit bir ifadeyle, içsel görüntü ayrışımı, bir görüntüyü yansıma ve gölgeleme ürününe ayırmaktır. Geçmiş çalışmaların esas olarak işleme, kitle kaynak kullanımı veya nesne boyama yoluyla ek açıklama veri setlerini topladığını gördük. Ancak bu yöntemlerin kendi çok güçlü sınırlamaları vardır: nesneleri renklendirme yöntemini toplamak çok zordur ve yalnızca nesnelerde kullanılabilir ve sahnelerde kullanılamaz. İşleme yöntemi, eğitimli ağı gerçek sahne resimlerine genelleştiremez. Kitle kaynak kullanımı yöntemi yalnızca çok seyrek ek açıklamalar alabilir ve açıklama kalitesi garanti edilemez.

Şekil 1: Etiketsiz video aracılığıyla ağı tek görüntülü öz görüntüler oluşturmak için eğitmek

Bu nedenle, içsel görüntüleri öğrenmek için toplanması daha kolay olan bir tür veriyi düşündük: İnternette çok sayıda etiketlenmemiş zaman atlamalı video. Basitçe söylemek gerekirse, hızlandırılmış fotoğrafçılık, vizör kamerasını sabitlemek içindir, ancak çekim süresi çok uzundur, bu nedenle farklı zamanlarda ama aynı perspektiften bir dizi resim elde edebiliriz. Video veri setimiz etiketlenmemiş olsa da, bu videolar CNN eğitimi sırasında birçok önemli önceliği eklememize izin veriyor. Şekil 1'de gösterildiği gibi, öz görüntüleri ağ etiketlenmemiş videolar aracılığıyla öğreniyoruz, böylece bu eğitimli modeli tek bir görüntüye uygulamak için kullanabiliriz.

2. Çerçeveye genel bakış

Şekil 2'de gösterildiği gibi, eğitim CNN aşamasında, girdimiz tüm görüntü dizisidir ve çıktı, her kareye karşılık gelen yansıma ve aydınlatma haritasıdır. Ağ mimarimiz U-net'e dayanmaktadır, ayrıntılar için lütfen kağıda bakın. Ayrıca CNN, her resim için ortam ışığının rengini açıklamak için içinde bir 3B vektör oluşturur.

Şekil 2: Sistem şeması ve ağ mimarisi

3. Veri seti

Veri setimiz "BIGTIME (BT)" olarak adlandırılır. İnternetteki çeşitli video sitelerinden, 200'ü aşan çok sayıda açık ve kapalı yüksek kaliteli zaman atlamalı fotoğraf videosu topladık. BT veri setimizde, iç mekan videolarının çok zor olduğunu gördük, çünkü birçok iç mekan videosu yalnızca çok kısa bir süre için kaydediliyor ve birçok video güçlü gölgeler veya pozlar içeriyor. Bununla birlikte, deneysel oturumda çerçevemize ve veri setimize göre eğitilen ağın iyi bir genelleme yeteneğine sahip olabileceğini gösterdik.

4. Öğrenme Çerçevesi

4.1 Enerji / kayıp işlevi:

Eğitim aşamasında amacımız, arka olasılığı p (R, S | I) maksimize etmektir. Bunun enerji fonksiyonunu E (R, S, I) en aza indirmeye eşdeğer olduğunu bilmek kolaydır. Bu nedenle, E (R, S, I) 'i şöyle tanımlıyoruz:

4.2 Görüntü yeniden yapılandırma kaybı işlevi:

Giriş görüntü dizisi göz önüne alındığında, tüm dizideki tüm görüntü çiftleri için yeniden yapılandırma kaybı işlevini yazabiliriz:

Bu kayıp fonksiyonunu doğrudan uygulamak O (m2n) zaman karmaşıklığını alır 4.7'de, bu fonksiyonun zaman karmaşıklığını O (mn) 'ye düşürmek için bir yöntem tanıtıyoruz.

4.3 Yansıma tutarlılık kaybı işlevi:

Ayrıca, çıktı yansıtma görüntüsünün tüm görüntü dizisi boyunca aynı kalması gerektiğini belirtmek için yansıma tutarlılığı işlevini de ekledik.

Yine, bu kayıp fonksiyonu O (m2n) gerektirir, ancak 4.7'de onu O (mn) 'ye nasıl indireceğimizi göstereceğiz.

4.4 Yoğun uzay-zaman yansıma grafiği yumuşatma kaybı işlevi:

Yansıma görüntü yumuşatma kaybımız, görüntü dizisindeki her piksel arasındaki korelasyona dayanır. Biz şöyle tanımlıyoruz:

Burada p ve q, görüntü dizisinin piksellerini temsil eder.

Çift rastgele ağırlık matrisini temsil eder. Tüm dizideki tüm pikseller arasındaki korelasyonu dikkate aldığımızı unutmayın, bu nedenle bu öğeyi doğrudan hesaplamak imkansızdır, bu nedenle daha etkili bir yönteme ihtiyacımız var. Öncelikle, eğer bu bir çift rasgele matris ise, o zaman yukarıdaki formülü şu şekilde basitleştirebileceğimize dikkat edin:

Burada r, tüm görüntü dizisinin log yansıma haritasının vektör temsilidir. W'nin Gaussian olduğunu varsayarsak, iki taraflı uzayda, bir dizi seyrek matris oluşturarak minimizasyon formülünü (7) tahmin edebiliriz. Bu iki taraflı gömme, kaybı ikinci dereceden bir forma dönüştürmemizi sağlar:

Bu nedenle, son formülümüz zaman karmaşıklığını O (m2n2) 'den O ((d + 1) mn)' ye düşürür.

4.5 Çok boyutlu aydınlatma haritasının yumuşatma kaybı işlevi:

Aydınlatma haritası için bir yumuşatma işlevi de ekledik. Bu işlev, görüntünün çok ölçekli piramidi altında tanımlanmıştır. Her ölçek için şunları tanımlayabiliriz:

N (p), p pikselindeki 8 bağlantılı komşuyu temsil eder ve v, her bir tarafın ağırlığını temsil eder. Temel fikrimiz, her görüntünün ağırlığını hesaplamak için görüntü dizisinin istatistiksel bilgilerini kullanmaktır. Bunların arasında, varsayımımız, görüntünün yansıma haritasının gradyanına yaklaşmak için görüntü dizisinin gradyanının medyanını kullanmaya dayanmaktadır. Ayrıntılı açıklama için lütfen makalemize bakın.

4.6 Tüm çiftler ağırlıklı en küçük kareler (APWLS)

Bu bölümde, 4 ve 5 denklemlerini etkili bir şekilde uygulamak için APWLS'nin doğrusal bir kapalı çözüm sürümünü öneriyoruz. Her görüntü Ii'nin Pi ve Qi matrisleriyle ilişkili olduğunu ve Xi ve Yi'yi tahmin ettiğini varsayarsak, APWLS'yi şuna dönüştürebiliriz:

Formül (14) 'ün doğrudan hesaplanması O (m2n) gerektirir, ancak formül (15) olarak değiştirilirse, zaman karmaşıklığı yalnızca O (mn) olur.

5. Deney

5.1 IIW deneyi:

BT veri setinde eğitilmiş CNN'yi kullanıyoruz (IIW eğitim setini kullanmıyoruz) ve doğrudan IIW test setinde test ediyoruz. Değerler Tablo 2'de karşılaştırılmıştır. Modelimizin en iyi optimizasyon algoritmaları ve makine öğrenimi algoritmaları ile yakın hatta daha iyi performansa sahip olabileceğini görebiliyoruz.

Tablo 2: IIW test seti karşılaştırması

Tablo 3: SAW test seti karşılaştırması

5.2 SAW deneyi:

Ayrıca SAW test setinde BT veri setimizde eğitilen ağın performansını da test ettik. Tablo 3'te Ortalama Hassasiyeti (AP) geçmişte SAW test setindeki diğer çalışmalarla karşılaştırıyoruz. Tüm yöntemlerin eğitim için SAW eğitim setindeki verileri kullanmadığını unutmayın. Tablo 3'ten yöntemimizin önceki tüm yöntemlere göre daha üstün olduğunu görebiliriz.

5.3 IIW ve SAW test seti arıza diyagramlarının karşılaştırılması:

Şekil 3: Patlatılmış görünüm karşılaştırması

Şekil 3'te, ağımızın öz görüntü çıktısını, en iyi optimizasyon ve makine öğrenimi algoritmalarıyla ayrıştırılmış görüntü çıktısı ile karşılaştırıyoruz. Şekil 3'ten eğitim için IIW veri setini kullanmasak bile, BT veri setimiz üzerinde eğitilen ağ tarafından oluşturulan öz görüntü ayrıştırma sonuçlarının diğer iki algoritma ile karşılaştırılabilir olduğunu görebiliriz.

5.4 MIT kendine özgü görüntü veri seti üzerinde deneyler:

Son olarak, çerçevemizin MIT kendine özgü görüntü veri kümesindeki etkinliğini doğruluyoruz. Ağımızı eğitme sürecinde doğrudan temel gerçeğe dönmedik, bunun yerine ağımızı MIT tarafından sağlanan görüntü sekansı üzerine eğittik.

Tablo 4: MIT test setinin performans karşılaştırması

Yöntemimizi diğer denetimli öğrenme yöntemleriyle karşılaştırdık. Bu geçmiş çalışmalar, modeli eğitmek için eğitim setinin temel gerçeğini kullandı. Bunun yerine, ağı eğitmek için yalnızca veri kümesi tarafından sağlanan görüntü dizilerini kullandık. Karşılaştırma sonuçları Tablo 4'te gösterilmektedir. Denetimsiz öğrenme yöntemimizin, CNN'e dayalı geçmiş denetimli öğrenme algoritmalarıyla karşılaştırılabilir veya hatta onlardan daha iyi olduğunu görebiliriz.

6. Özet

Şu anki çalışmamızda, internetteki hızlandırılmış fotoğraf videoları aracılığıyla öz-görüntü ayrışımını öğrenmek için yeni bir denetimsiz öğrenme yöntemi öneriyoruz. Eğittiğimiz ağ, çok sayıda etiketlenmemiş ağ videosu aracılığıyla öz görüntülerini öğrenmenin büyük potansiyelini göstererek birden çok veri kümesinde güçlü genelleme yeteneği gösterebilir.

CCF-GAIR 2018 yakında geliyor,

AI Technology Review avantajlar sağladı!

Üniversite öğrencileri için birkaç ücretsiz bilet sağlayacağız. "Orijinali oku" bağlantısını doldurmanız ve formu göndermeniz yeterlidir; 3999 yuan değerinde bir CCF-GAIR 2018 bileti alma fırsatına sahip olacaksınız.

(Not: Lütfen formdaki doğru WeChat kimliğini doldurun. İnceleme geçildikten sonra personel WeChat aracılığıyla sizinle iletişime geçecek ve bilet düzenleyecektir)

Ücretsiz Bilet Bildirimi

Aksi belirtilmedikçe, ücretsiz bilete konaklama ve diğer hizmetleri değil, üç günlük öğle yemeği dahildir;

Etkinliği açıklama hakkı Leifeng.com AI Technology Review'e aittir

Son Başvuru Tarihi: 26 Haziran 24:00

29 Haziran'dan 1 Temmuz'a kadar Shenzhen'de görüşmek üzere!

RoR (ResNet of ResNet) - görüntü sınıflandırması için çok seviyeli bir artık ağ
önceki
Wannian tek kamera + 4G depolama! Google'a tebrikler, yeni iPhone'unuzu başarıyla "astınız"
Sonraki
Haima Familia F7, 27 Eylül'de 1.5T motorla piyasaya sürülecek
O, Zhao Benshan'ın çırağı ama Zhao Benshan'ın çırağının yolunu takip etmiyor. Ünlüler ona yüz veriyor!
Kuru mallar DeepMind GQN'yi öneriyor, sinir ağının da mekansal hayal gücü var
Shenzhen Airlines Uygulaması WeChat'i ele geçirdi; Apple News lansmanının ilk gününde çeşitli çökmeler yaşadı; Huawei P30 "teleskop telefonu" resmi olarak yayınlandı | Lei Feng Morning Post
Sony bir basın toplantısı düzenleyeceğini duyurdu: Xperia XA3 / XA3 Ultra, CES 2019'da görücüye çıkıyor
Müziğe odaklanan Kugou canlı yayını, geleneksel yıldız yapım modelini "Şarkıcı Gelişimi" çapası aracılığıyla yıkabilir mi?
Carlos Yumuşak Dekorasyon Shiyou Parke Yeni Dekorasyon Açılışı ve Bahar Tomurcuğu Planı Resmi Olarak Yelken Açtı
Chow Yun-fat'ın önünde Andy Lau sadece küçük bir erkek kardeş olabilir mi? Bu dört filme bak ve anlayacaksın
Konferans CCF-GAIR 2018 Akıllı Güvenlik Özelinde kimler yer alacak? İç hikaye
Fransa'dan ve dünyadan. Total markasını bilmenizi sağlayın
İNSAN YAPIMI yıl sonunda öne çıkan etkinlik! 2017 sonbahar ve kış serisini getirmek için STUDIO SEVEN ile el ele!
Ekran altı kazma teknolojisini kullanan Motorola P40 görüntülemeleri, arka 4800 W kamera
To Top