İnternet adresi:
Kağıt adresi:
https://arxiv.org/abs/1804.00582
Basit bir ifadeyle, içsel görüntü ayrışımı, bir görüntüyü yansıma ve gölgeleme ürününe ayırmaktır. Geçmiş çalışmaların esas olarak işleme, kitle kaynak kullanımı veya nesne boyama yoluyla ek açıklama veri setlerini topladığını gördük. Ancak bu yöntemlerin kendi çok güçlü sınırlamaları vardır: nesneleri renklendirme yöntemini toplamak çok zordur ve yalnızca nesnelerde kullanılabilir ve sahnelerde kullanılamaz. İşleme yöntemi, eğitimli ağı gerçek sahne resimlerine genelleştiremez. Kitle kaynak kullanımı yöntemi yalnızca çok seyrek ek açıklamalar alabilir ve açıklama kalitesi garanti edilemez.
Şekil 1: Etiketsiz video aracılığıyla ağı tek görüntülü öz görüntüler oluşturmak için eğitmek
Bu nedenle, içsel görüntüleri öğrenmek için toplanması daha kolay olan bir tür veriyi düşündük: İnternette çok sayıda etiketlenmemiş zaman atlamalı video. Basitçe söylemek gerekirse, hızlandırılmış fotoğrafçılık, vizör kamerasını sabitlemek içindir, ancak çekim süresi çok uzundur, bu nedenle farklı zamanlarda ama aynı perspektiften bir dizi resim elde edebiliriz. Video veri setimiz etiketlenmemiş olsa da, bu videolar CNN eğitimi sırasında birçok önemli önceliği eklememize izin veriyor. Şekil 1'de gösterildiği gibi, öz görüntüleri ağ etiketlenmemiş videolar aracılığıyla öğreniyoruz, böylece bu eğitimli modeli tek bir görüntüye uygulamak için kullanabiliriz.
Şekil 2'de gösterildiği gibi, eğitim CNN aşamasında, girdimiz tüm görüntü dizisidir ve çıktı, her kareye karşılık gelen yansıma ve aydınlatma haritasıdır. Ağ mimarimiz U-net'e dayanmaktadır, ayrıntılar için lütfen kağıda bakın. Ayrıca CNN, her resim için ortam ışığının rengini açıklamak için içinde bir 3B vektör oluşturur.
Şekil 2: Sistem şeması ve ağ mimarisi
Veri setimiz "BIGTIME (BT)" olarak adlandırılır. İnternetteki çeşitli video sitelerinden, 200'ü aşan çok sayıda açık ve kapalı yüksek kaliteli zaman atlamalı fotoğraf videosu topladık. BT veri setimizde, iç mekan videolarının çok zor olduğunu gördük, çünkü birçok iç mekan videosu yalnızca çok kısa bir süre için kaydediliyor ve birçok video güçlü gölgeler veya pozlar içeriyor. Bununla birlikte, deneysel oturumda çerçevemize ve veri setimize göre eğitilen ağın iyi bir genelleme yeteneğine sahip olabileceğini gösterdik.
4.1 Enerji / kayıp işlevi:
Eğitim aşamasında amacımız, arka olasılığı p (R, S | I) maksimize etmektir. Bunun enerji fonksiyonunu E (R, S, I) en aza indirmeye eşdeğer olduğunu bilmek kolaydır. Bu nedenle, E (R, S, I) 'i şöyle tanımlıyoruz:
4.2 Görüntü yeniden yapılandırma kaybı işlevi:
Giriş görüntü dizisi göz önüne alındığında, tüm dizideki tüm görüntü çiftleri için yeniden yapılandırma kaybı işlevini yazabiliriz:
Bu kayıp fonksiyonunu doğrudan uygulamak O (m2n) zaman karmaşıklığını alır 4.7'de, bu fonksiyonun zaman karmaşıklığını O (mn) 'ye düşürmek için bir yöntem tanıtıyoruz.
4.3 Yansıma tutarlılık kaybı işlevi:
Ayrıca, çıktı yansıtma görüntüsünün tüm görüntü dizisi boyunca aynı kalması gerektiğini belirtmek için yansıma tutarlılığı işlevini de ekledik.
Yine, bu kayıp fonksiyonu O (m2n) gerektirir, ancak 4.7'de onu O (mn) 'ye nasıl indireceğimizi göstereceğiz.
4.4 Yoğun uzay-zaman yansıma grafiği yumuşatma kaybı işlevi:
Yansıma görüntü yumuşatma kaybımız, görüntü dizisindeki her piksel arasındaki korelasyona dayanır. Biz şöyle tanımlıyoruz:
Burada p ve q, görüntü dizisinin piksellerini temsil eder.
Çift rastgele ağırlık matrisini temsil eder. Tüm dizideki tüm pikseller arasındaki korelasyonu dikkate aldığımızı unutmayın, bu nedenle bu öğeyi doğrudan hesaplamak imkansızdır, bu nedenle daha etkili bir yönteme ihtiyacımız var. Öncelikle, eğer bu bir çift rasgele matris ise, o zaman yukarıdaki formülü şu şekilde basitleştirebileceğimize dikkat edin:Burada r, tüm görüntü dizisinin log yansıma haritasının vektör temsilidir. W'nin Gaussian olduğunu varsayarsak, iki taraflı uzayda, bir dizi seyrek matris oluşturarak minimizasyon formülünü (7) tahmin edebiliriz. Bu iki taraflı gömme, kaybı ikinci dereceden bir forma dönüştürmemizi sağlar:
Bu nedenle, son formülümüz zaman karmaşıklığını O (m2n2) 'den O ((d + 1) mn)' ye düşürür.
4.5 Çok boyutlu aydınlatma haritasının yumuşatma kaybı işlevi:
Aydınlatma haritası için bir yumuşatma işlevi de ekledik. Bu işlev, görüntünün çok ölçekli piramidi altında tanımlanmıştır. Her ölçek için şunları tanımlayabiliriz:
N (p), p pikselindeki 8 bağlantılı komşuyu temsil eder ve v, her bir tarafın ağırlığını temsil eder. Temel fikrimiz, her görüntünün ağırlığını hesaplamak için görüntü dizisinin istatistiksel bilgilerini kullanmaktır. Bunların arasında, varsayımımız, görüntünün yansıma haritasının gradyanına yaklaşmak için görüntü dizisinin gradyanının medyanını kullanmaya dayanmaktadır. Ayrıntılı açıklama için lütfen makalemize bakın.
4.6 Tüm çiftler ağırlıklı en küçük kareler (APWLS)
Bu bölümde, 4 ve 5 denklemlerini etkili bir şekilde uygulamak için APWLS'nin doğrusal bir kapalı çözüm sürümünü öneriyoruz. Her görüntü Ii'nin Pi ve Qi matrisleriyle ilişkili olduğunu ve Xi ve Yi'yi tahmin ettiğini varsayarsak, APWLS'yi şuna dönüştürebiliriz:
Formül (14) 'ün doğrudan hesaplanması O (m2n) gerektirir, ancak formül (15) olarak değiştirilirse, zaman karmaşıklığı yalnızca O (mn) olur.
5.1 IIW deneyi:
BT veri setinde eğitilmiş CNN'yi kullanıyoruz (IIW eğitim setini kullanmıyoruz) ve doğrudan IIW test setinde test ediyoruz. Değerler Tablo 2'de karşılaştırılmıştır. Modelimizin en iyi optimizasyon algoritmaları ve makine öğrenimi algoritmaları ile yakın hatta daha iyi performansa sahip olabileceğini görebiliyoruz.
Tablo 2: IIW test seti karşılaştırması
Tablo 3: SAW test seti karşılaştırması
5.2 SAW deneyi:
Ayrıca SAW test setinde BT veri setimizde eğitilen ağın performansını da test ettik. Tablo 3'te Ortalama Hassasiyeti (AP) geçmişte SAW test setindeki diğer çalışmalarla karşılaştırıyoruz. Tüm yöntemlerin eğitim için SAW eğitim setindeki verileri kullanmadığını unutmayın. Tablo 3'ten yöntemimizin önceki tüm yöntemlere göre daha üstün olduğunu görebiliriz.
5.3 IIW ve SAW test seti arıza diyagramlarının karşılaştırılması:
Şekil 3: Patlatılmış görünüm karşılaştırması
Şekil 3'te, ağımızın öz görüntü çıktısını, en iyi optimizasyon ve makine öğrenimi algoritmalarıyla ayrıştırılmış görüntü çıktısı ile karşılaştırıyoruz. Şekil 3'ten eğitim için IIW veri setini kullanmasak bile, BT veri setimiz üzerinde eğitilen ağ tarafından oluşturulan öz görüntü ayrıştırma sonuçlarının diğer iki algoritma ile karşılaştırılabilir olduğunu görebiliriz.
5.4 MIT kendine özgü görüntü veri seti üzerinde deneyler:
Son olarak, çerçevemizin MIT kendine özgü görüntü veri kümesindeki etkinliğini doğruluyoruz. Ağımızı eğitme sürecinde doğrudan temel gerçeğe dönmedik, bunun yerine ağımızı MIT tarafından sağlanan görüntü sekansı üzerine eğittik.
Tablo 4: MIT test setinin performans karşılaştırması
Yöntemimizi diğer denetimli öğrenme yöntemleriyle karşılaştırdık. Bu geçmiş çalışmalar, modeli eğitmek için eğitim setinin temel gerçeğini kullandı. Bunun yerine, ağı eğitmek için yalnızca veri kümesi tarafından sağlanan görüntü dizilerini kullandık. Karşılaştırma sonuçları Tablo 4'te gösterilmektedir. Denetimsiz öğrenme yöntemimizin, CNN'e dayalı geçmiş denetimli öğrenme algoritmalarıyla karşılaştırılabilir veya hatta onlardan daha iyi olduğunu görebiliriz.
Şu anki çalışmamızda, internetteki hızlandırılmış fotoğraf videoları aracılığıyla öz-görüntü ayrışımını öğrenmek için yeni bir denetimsiz öğrenme yöntemi öneriyoruz. Eğittiğimiz ağ, çok sayıda etiketlenmemiş ağ videosu aracılığıyla öz görüntülerini öğrenmenin büyük potansiyelini göstererek birden çok veri kümesinde güçlü genelleme yeteneği gösterebilir.
CCF-GAIR 2018 yakında geliyor,
AI Technology Review avantajlar sağladı!
Üniversite öğrencileri için birkaç ücretsiz bilet sağlayacağız. "Orijinali oku" bağlantısını doldurmanız ve formu göndermeniz yeterlidir; 3999 yuan değerinde bir CCF-GAIR 2018 bileti alma fırsatına sahip olacaksınız.
(Not: Lütfen formdaki doğru WeChat kimliğini doldurun. İnceleme geçildikten sonra personel WeChat aracılığıyla sizinle iletişime geçecek ve bilet düzenleyecektir)
Ücretsiz Bilet Bildirimi
Aksi belirtilmedikçe, ücretsiz bilete konaklama ve diğer hizmetleri değil, üç günlük öğle yemeği dahildir;
Etkinliği açıklama hakkı Leifeng.com AI Technology Review'e aittir
Son Başvuru Tarihi: 26 Haziran 24:00
29 Haziran'dan 1 Temmuz'a kadar Shenzhen'de görüşmek üzere!