Leifeng.com AI Technology Review Not: Bu makalenin yazarı, AI Technology Review için CVPR tarafından kabul edilen "CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes" belgesine dayanan özel bir yorumlama makalesi yazan Illinois Üniversitesi'nden (UIUC) Zhang Xiaofan'dır. İzin alınarak yeniden basılmıştır.
Kağıt adresi: https://arxiv.org/pdf/1802.10062.pdf
Pekin Posta ve Telekomünikasyon Üniversitesi ve Illinois Üniversitesi'nden (UIUC) araştırmacılar, yoğun kalabalık sayımı için uygun içi boş bir evrişimli sinir ağı modeli olan bir CSRNet önerdi. Bu ağ modeli, geçmişte kalabalık saymada yaygın olarak kullanılan çok kanallı evrişimli ağ şemasından kurtulur.Ağ parametrelerinin miktarını ve ağ eğitiminin zorluğunu büyük ölçüde azaltırken, kalabalık sayımının doğruluğunu ve kalabalık dağıtım yoğunluğu haritalarının azaltılmasını önemli ölçüde artırır. Araştırma CVPR 2018 tarafından kabul edildi.
Kalabalık sayma ve kalabalık yoğunluğu tahmini, önemli güvenlik uygulama senaryolarına sahiptir. Metro istasyonlarında, alışveriş merkezlerinde ve çeşitli festival toplantılarında şehir nüfusu gün geçtikçe artarken, kalabalıkların aşırı toplanması, kolaylıkla ayaklar altına alınmaya, isyanlara ve diğer trajedilere neden olabilecek potansiyel tehlikeleri beraberinde getiriyor. Bu nedenle, nüfus sayımı ve nüfus yoğunluğu dağılımı, güvenlik alanında gündemdeki konular haline geldi. Son yıllarda, kitle sayma algoritmalarının performansı, derin öğrenme ile birlikte büyük ölçüde geliştirildi.
Kalabalık saymanın amacı, belirli bir sahnedeki insan sayısını bulmaktır ve kalabalık yoğunluğu dağılımının tahmini, uzamsal yoğunluk bilgisi ve insan sayısı elde etmek için ihtiyaç duyar (yoğunluk haritalarının toplamı). Kalabalık saymanın zorluğu, çok çeşitli sahne değişikliklerinde, hedeflerin farklı ölçek değişikliklerinde ve insanlar, insanlar ve manzaralar arasında değişen derecelerde tıkanma vb. Şekil 1'de gösterildiği gibi, her üç resim de 95 kişiyi içeriyor, ancak mekansal dağılımları tamamen farklı.
Şekil 1 Kalabalık sayma senaryosu
Yazarın araştırması, kalabalık sayımı için yaygın olarak kullanılan çok kanallı evrişimli ağın (MCNN) yapısal fazlalık, çok sayıda parametre ve eğitimde zorluk sınırlamalarına sahip olduğunu buldu. Bu tür çok kanallı evrişimli ağ, farklı senaryolarda (yüksek, orta ve düşük yoğunluk gibi) kalabalık sayma ihtiyaçlarını karşılamak için farklı kanallarda farklı alıcı alanlara sahip evrişimli ağları benimser. Ancak çalışma, farklı kanallardan öğrenilen özelliklerin yüksek derecede örtüştüğünü (Şekil 2) ve sahnenin yoğunluğundan dolayı önemli bir fark olmadığını ortaya koymuştur. Çok kanallı ağlar artıklık sergiler. Karşılaştırma için yazar, çok kanallı ağlardan daha iyi sonuçlar elde etmek için daha az parametreye, daha derin katmanlara ve daha kolay eğitime sahip tek kanallı bir evrişimli ağ (Daha derin bir CNN) kullanır (Tablo 1).
Şekil 2 Çok kanallı evrişimli ağdaki büyük, orta ve küçük kanallar, ShanghaiTech PartA'da benzer şekilde gerçekleştirildi
Tablo 1 Daha derin bir tek kanallı evrişimli ağ, daha az parametre kullanır ancak ShanghaiTech PartA'da daha küçük hatalara ulaşır
Ek olarak, altörneklemenin aşırı kullanımı nedeniyle yoğunluk haritasının çözünürlük kaybını önlemek için yazar, ağın ikinci yarısında bir delik evrişim katmanı ekler ve alıcı alanı artırmak ve çözünürlüğü korumak için delik evrişimi kullanır (Şekil 3) ve öneride bulunur. CSRNet ağ modeli (Tablo 2). Tablo 3, ShanghaiTech PartA'da dört farklı CSRNet arka uç yapılandırmasının performans testini göstermektedir.
Şekil 3 Aynı çözünürlüklü görüntüyü çıkarmak için evrişim + havuzlama + yukarı örnekleme (üst) ve delik evrişimi (alt) kullanın ve delik evrişimi daha fazla görüntü ayrıntısını koruyabilir
Tablo 2 CSRNet ağ yapısı, evrişim parametrelerinden sonra adlandırılır (evrişim çekirdek boyutu - kanal - genişleme hızı)
Tablo 3 CSRNet'in kitle sayımında dört arka uç konfigürasyonunun doğruluğunun karşılaştırması, bunlardan B şeması en yüksek doğruluğa sahiptir
Çok kanallı ağdan daha basit yapı nedeniyle, CSRNet uçtan uca eğitimi doğrudan kullanabilir ve eğitim sırasında deneysel sonuçları hızlı bir şekilde yeniden üretebilir ve ayrıca eğitim etkisini iyileştirmek için aktarım öğrenmeyi kullanabilir. Basit ve düzenli ağ yapısı sayesinde, CSRNet daha donanım dostudur ve IoT cihazlarında verimli bir şekilde dağıtılabilir.
Deneyler, CSRNet'in dört genel nüfus veri kümesinde (ShanghaiTech veri kümesi, UCF CC 50 veri kümesi, WorldEXPO'10 veri kümesi, UCSD veri kümesi) ve bir araç veri kümesi (TRANCOS veri kümesi) üzerinde en yüksek doğruluk düzeyine ulaştığını göstermektedir ( Son Teknoloji Performans), ayrıntılar için Tablo 4 ila Tablo 8'e bakın.
Tablo 4 ShanghaiTech veri seti test sonuçları
Tablo 5 UCF CC 50 veri seti test sonuçları
Tablo 6 WorldExpo '10 veri seti test sonuçları
Tablo 7 UCSD veri seti test sonuçları
Tablo 8 TRANCOS veri kümesinin test sonuçları