AAAI 2020 | Shang Tang: Yeni Video Anlamsal Segmentasyon ve Optik Akış Ortak Öğrenme Algoritması

Yazar | SenseTime Editör | Jia Wei

Bu makale SenseTime'ın AAAI 2020 hakkındaki "Her Çerçeve Önemlidir: Video Segmentasyonu ve Optik Akışın Ortak Öğrenimi" makalesini tanıtıyor. Bu çalışmada, yeni bir video semantik segmentasyonu ve optik akış ortak öğrenme algoritması önerdiler.

Kağıt adresi: https: // ar xi v.org/pdf/1911.12 73 9. pdf

Video anlamsal bölümlemenin en büyük zorluğu, ek açıklama verilerinin olmamasıdır. Çoğu kıyaslama veri setinde, her video sekansında (20 kare) genellikle etiketlenmiş tek bir çerçeve vardır, bu da çoğu izleme yönteminin kalan verileri kullanmasını engeller. Videodaki zaman-uzay bilgisini kullanmak için, mevcut birçok çalışma, video bölümlemenin performansını iyileştirmek için önceden hesaplanmış optik akışı kullanır, ancak video bölümleme ve anlamsal bölümleme hala iki bağımsız görev olarak kabul edilmektedir.

Bu makalede yazar, optik akış ve anlamsal bölümleme için yeni bir ortak öğrenme planı önermektedir. Anlamsal bölümleme, optik akış ve tıkanma tahmini için daha zengin anlamsal bilgi sağlarken, tıkanmamış optik akış, piksel düzeyinde anlamsal bölümlemenin zamansal tutarlılığını sağlar. Yazarın önerdiği anlamsal bölümleme şeması sadece videodaki tüm görüntü karelerini kullanmakla kalmaz, aynı zamanda test aşamasında ekstra hesaplama miktarını da artırmaz.

1. Arkaplan

Video anlamsal bölümleme, genellikle ön ve arka çerçevelerin anlamsal bilgilerini kullanarak görüntü bölümlemeden daha yüksek bir doğruluk oranına sahiptir, bu nedenle robotik ve otonom sürüş alanında zengin uygulamalara sahiptir. Bununla birlikte, mevcut video semantik segmentasyonu temel olarak iki zorlukla karşı karşıyadır: ek açıklama verilerinin eksikliği ve gerçek zamanlı problemler.

Bir yandan, zaman alıcı ve yoğun emek gerektiren etiketleme çalışması nedeniyle, bir video klip genellikle yalnızca tek bir çerçeveyle etiketlenir, bu da tüm verilerin birçok yöntemde kullanılmasını zorlaştırır veya ön eğitim için ek veri kümelerinin kullanılmasını gerektirir;

Öte yandan, ön ve arka çerçeveler arasındaki bilgi alışverişi genellikle model için ek modüller getirir ve bu da düşük video bölümleme verimliliği ile sonuçlanır.

Video segmentasyonu kabaca iki kategoriye ayrılabilir,

İlk tür, Clockwork ağı (Shelhamer ve diğerleri 2016), DeepFeature Flow (Zhu ve diğerleri 2017) ve (Li, Shi ve Lin 2018) gibi önceki ve sonraki karelerin zamanlama bilgilerini kullanarak video segmentasyonunu hızlandırır. Model, bir sonraki çerçevenin segmentasyon sonucunu elde etmek için önceki çerçevenin özellik haritasını veya segmentasyon sonucunu işler, böylece Çok Video bölümlemede fazlalık ve hızlanmayı azaltın, ancak anlamsal bölümlemenin doğruluğu azalacaktır;

(Fayyaz vd. 2016), Netwarp (Ga gg e, Jampani ve Gehler 2017), PEARL (Jin ve diğerleri 2017), vb., ön ve arka çerçevelerin özelliklerini birleştirmek veya daha güçlü temsil yeteneklerini öğrenmek için kısıtlamalar eklemek için optik akış / RNN ve diğer modülleri kullanın, böylece anlamsal bölümlemenin doğruluğunu artırın oranı.

Bu makaledeki yöntem ikinci kategoriye aittir.

Şekil 1: Genellikle etiketli çerçevenin yakınında yalnızca birkaç kare kullanan özellik toplama kullanan yöntemle karşılaştırıldığında, bu makale, bölümlemenin dolaylı olarak etiketlenebildiği video karesine zamanlama tutarlılığı kısıtlamaları eklemek için öğrenilen optik akışı kullanır Tüm verileri kullanmak için diğer etiketlenmemiş çerçevelere aktarın.

2. Yönteme genel bakış

Bir videodaki önceki ve sonraki kareler arasındaki piksel seviyesi ilişkilendirmesi olarak, optik akış video anlamsal bölümlemede her zaman önemli bir rol oynamıştır. Örneğin (Li, Shi ve Lin 2018; Zhu ve diğerleri 2017; Shelhamer ve diğerleri 2016) video segmentasyonunu hızlandırmak için optik akış yoluyla önceki karenin özellik haritasını yeniden kullanma; (Fayyaz ve diğerleri 2016; Jin ve diğerleri. 2017; Ga gg e, Jampani ve Gehler 2017; Nilsson ve Sminchisescu 2018; Hur ve Roth 2016) Daha iyi segmentasyon doğruluğu elde etmek için optik akış kılavuzlu özellik füzyonunu kullanın.

Bununla birlikte, yukarıdaki yöntemler iki sorunla karşı karşıyadır: Bir yandan, diğer veri kümeleri üzerinde eğitilmiş hazır optik akış modellerini (FlowNet) kullanırlar ve böylelikle bölümleme verimliliğinde bir azalmaya neden olurken, diğer yandan, yukarıdaki yöntemler genellikle standart çerçeveye yakın bir yerde yalnızca birkaçını kullanır. Çerçeve, tüm veri setini tam olarak kullanmaz ve optik akış rolünü oynar.

Yukarıdaki iki problemi çözmek için, yazar, optik akış ve anlambilimsel bölümlemenin ortak öğrenimi için bir çerçeve önermektedir: Anlamsal bölümleme, optik akış ve tıkanma tahmini için daha zengin anlamsal bilgi sağlarken, tıkanmasız optik akış, anlamsal bölümlemenin piksel seviyesini garanti etmektedir. Zamanlama tutarlılığı.

Bu makaledeki model, videodaki optik akışın denetimsiz öğrenimini kullanır ve iki görevin açık özellik füzyonu olmadan birbirini kazanmasını sağlamak için önceki ve sonraki çerçevelerin anlamsal bölümlemesinin özellik haritalarına kısıtlamalar getirmek için optik akışı kullanır. Bu örtük kısıtlama, verilerin kullanılmasına yardımcı olabilir Segmentasyonun doğruluğunu artırmak için tüm verileri toplayın ve daha sağlam segmentasyon özellikleri öğrenin ve test aşamasında ekstra hesaplama miktarını artırmayacaksınız.

Şekil 2: Bu yazıda önerilen ortak öğrenme çerçevesinde, giriş görüntüsü paylaşılan kodlayıcıdan geçtikten sonra iki kola bölünmüştür, ilki optik akış dalı, ikincisi ise segmentasyon dalıdır. blok, modelin özellik haritasını temsil eder, gri kesikli çizgi, zamanlama tutarlılığı kısıtlamasını temsil eder ve gri düz çizgi, tıkanma tahmin modülünü temsil eder.

Zaman tutarlılığı kısıtlaması

Bir çift resim I_i ve I_ {i + t} için ilgili segmentasyon özelliği haritasını S olarak ayarlayın, öğrenilen optik akışı F olarak ve tıkanma maskesini O olarak ayarlayın (S, F, O her biri aşağıdaki gibi üç blok içerir Şekilde gösterildiği gibi), iki çerçeve segmentasyon özelliği haritası, optik akış atlama ile dönüştürülebilir: S_i ^ {warp} = Warp (S_ {i + t}, F_ {i- > i + t}).

Tıkalı kesik bölgelerin optik akış kullanılarak hizalanamayacağı düşünülerek bu bölgeler için herhangi bir kayıp hesaplanmamaktadır. Çözgü hizalaması optik akış tarafından gerçekleştirildikten sonra iki çerçevenin diğer bölgelerine karşılık gelen segmentli özellik haritalarının tutarlılık kaybı, birinci çerçevenin segmentli özellik haritasının tıkanmamış bölgesinin 2-normudur ve atlamadan sonra ikinci çerçevenin segmentli özellik haritasının 2-normudur.

Optik akış ve tıkanma tahmini

Makalede bahsedilen tıkanma, iki karedeki parlaklığın tutarsızlığı anlamına gelir.Genellikle görüntüdeki tıkanma, kesilme (arabanın çekim yapmak için kamerayı terk etmesi) ve hareket eden hedeflerden kaynaklanır. Akış, hizalanamayabilecek piksel konumunu O oluşturur ve model, bu öğrenmeye dayalı olarak O_ {est} öğrenir; iki çerçevenin segmentasyon sonuçları, optik akış atlama tutarsız alanı boyunca O_ {seg} olarak ayarlanır ve O_ {seg}, tıkanma alanını ve optik akışı içermelidir Tahmin hata alanı, dolayısıyla O_ {hata} = O_ {seg} -O_ {est}, optik akış tahmininin anahtar alanı olmalıdır.

Optik akış tahmininin kayıp fonksiyonunu hesaplarken, yazar, kapatma alanının kaybını (O_ {est}) dikkate almaz, ancak anahtar alanın ağırlığını arttırır (O_ {hata}) Tıkanma tahmininin şematik diyagramı Şekil 3'te gösterilir.

Şekil 3: Tıkanma ve tıkanma tahmininin şematik diyagramı

Anlamsal bölümleme öğrenme

Eğitim sırasında yazar, eğitim için her video bölümünden rastgele 10 çift resim seçer, bunlardan beşi etiketli çerçeveler içerir ve diğer beş çift etiketli çerçeveler içermez.

Etiketli çerçeveler için, denetlenen anlambilimsel bölümleme kaybı doğrudan öğrenme için kullanılır; etiketli çerçeveleri içermeyen durumda, model sınırlandırılır ve iki çerçevenin tutarlılık kısıtlamaları yoluyla öğrenilir. Bu kısıt öğrenme yoluyla, etiketli bilgiler bir çerçeveden diğer etiketlenmemiş çerçevelere yayılabilir ve hatta iki etiketlenmemiş çerçeve tutarlılık yoluyla öğrenilebilir.

3. Deneysel sonuçlar

Cityscapes veri kümesinde segmentasyon sonuçları:

CamVid veri setinde segmentasyon sonuçları:

KITTI veri setindeki optik akış tahmini sonuçları:

Görselleştirme sonuçları:

Şekil 4: Şehir manzaraları doğrulama seti segmentasyon sonuçları, yukarıdan aşağıya orijinal görüntüler, bu makalede algoritma segmentasyon sonuçları, PSPNet segmentasyon sonuçları ve GT'dir. Bu makaledeki algoritmanın hareketli hedefler (arabalar, bisikletler) ve daha az meydana gelen hedefler (yanal kamyonlar) üzerinde daha iyi bir segmentasyon etkisine sahip olduğu görülebilir.

Şekil 5: KITTI veri setindeki optik akış tahmin sonuçları, yukarıdan aşağıya orijinal görüntüler, bu makaledeki algoritma tahmin sonuçları, GeoNet tahmin sonuçları ve GT'dir. Bu makaledeki algoritmanın hareketli bir hedefin kenarını tahmin etmede daha doğru olduğu görülebilir.

pişman! TVB'nin 29 yaşındaki en iyi öğrencisi, ilişkisini yarım yıldır sona erdirdiğinden şüpheleniliyor, eski kız arkadaşı ve Xinhuan ellerini sürüklüyor
önceki
Paper Today | Çok kişili poz tahmini; diyalog anlamsal analizi; denetimsiz anlambilim analizi; doğal dil işleme araç seti, vb.
Sonraki
Model web geçiş gecikmesi çok uzun, Cortex makine öğrenimi yapıtını tek bir tıklama ile çözebilir mi?
İş sezonu salgını vurdu, bu yıl AI iş arayanlar nasıl yanıt vermeli?
Makine öğrenimi adalet araştırması doğru yolda mı?
Salgın sırasında evde boş durmayın, ünlü denizaşırı okullardan ücretsiz olarak 8 set AI kursu öğrenin
Today Paper | Çok kişili doğrusal model; vücut yakalama; konuşmalı soru-cevap; doğal dil analizi; sinirsel anlambilim
AAAI 2020 | Huawei: Kısa saatlik sekans, nasıl tahmin edilir? Özellik yeniden yapılandırmasına dayalı Tensör ARIMA
Popüler grafik makine öğrenimi, 2020'de hangi araştırma trendleri olacak?
AAAI 2020 | RiskOracle: Uzamsal-zamansal ince taneli trafik kazası tahmin yöntemi
Today Paper | El ve nesne rekonstrüksiyonu; 3D insan pozu tahmini; görüntüden görüntüye dönüşüm vb.
Makine öğrenimi ve istatistik arasındaki tartışma mantıklı mı?
AAAI 2020 | Ters R? Zayıflayan göze çarpan özellikler, ayrıntılı sınıflandırmada iyileştirmeler getiriyor
Today Paper | Dinamik jest tanıma; sahadan bağımsız denetimsiz öğrenme; BERT'ye dayalı çevrimiçi finansal metin duyarlılık analizi, vb.
To Top