CVPR 2020 Dianyun 3D nesne algılamasına dayalı yeni çerçeve

Bu makale, CVPR2020'nin seçilen "HVNet: LiDAR tabanlı 3D nesne algılama için hibrid voksel ağını" tanıtmaktadır, yazar Yuan Rong Kaixing'den geliyor.

Yazar | Yuan Rong Kaixing

Düzenle |

Tez Adresi: https: //arxiv.org/abs/2003.00186

3D hedef algılama, mevcut otonom sürüş algılama modülü için önemli bir bağlantıdır. 3D nesne algılamasının doğruluğunun ve hızının nasıl dengeleneceği çok önemli bir araştırma konusudur. Bu makale, Dianyun tabanlı üç boyutlu nesne algılamasına dayanan yeni bir Birleşik Ağ önermektedir: karma standart kodlayıcı (VFE) tarafından daha iyi bir vitamin karakteristik kodlama yöntemi elde eden hibrit bir virin ağı (HVNet), bu nedenle. Hızı ve doğruluğu artırın. Birden çok yöntemle karşılaştırıldığında, HVNet algılama hızında önemli ölçüde iyileşmiştir. Kitti veri seti bisiklet algılamasının orta zorluk seviyesinde, HVNet'in doğruluğu, nokta direği yönteminden%8,44 daha yüksektir.

Şekil 1 3D Nesne Tespiti

Kitti veri kümesinde, HVNet ağı, Kitti veri kümesinde gönderilen mevcut tüm yöntemler arasında en iyi haritayı elde etmiştir ve gerçek zaman muhakeme hızı 31Hz'e ulaşabilir.

Şekil 2 Kitti test setindeki hız-doğruluk karşılaştırma tablosu, burada o HVNet

1 Araştırma Arka Planı

Mevcut nokta bulut algılama modülünde, vokselizasyon önemli bir yoldur. Mevcut birçok yol ızgara tabanlı ve daha sonra ayrı evrişim operasyonlarıdır. Bununla birlikte, büyük ölçekli bir senaryoda, bir anahtar parametre ızgara ağı vokselinin boyutudur: daha küçük voxelscale daha ince geometrik özellikler ve daha iyi konumlandırma nesneleri yakalar, ancak daha uzun bir akıl yürütme süresi gerektirir. Daha büyük voksel ölçeği daha küçük bir özellik haritasına ve daha hızlı bir akıl yürütme hızına yol açar, ancak performans özellikle daha küçük nesneler için zayıftır.

Şekil 3 Yaygın Verms Ekstrakt Ağı (VFE) (VFE)

Yukarıdaki sorunların getirdiği zorluklarla başa çıkmak için, daha ince taneli nokta bulut özelliklerini çıkarmak için dikkat mekanizmasını kullanmak için çoklu ölçekli nokta bulut bilgilerini kullanıyoruz ve daha sonra hız ve doğruluğu sağlamak için daha büyük bir granüler granülasyonla eşleştiriyoruz. doğruluk ve doğruluk dengesi. Geleneksel Vejetaryen Özellik Çıkarma Ağı (VFE) yöntemi genellikle üç adım içerir: 1. Belirtiler: Dianyun'u iki boyutlu bir mikrop ağına belirtin. 2. Vejetaryen Özellik Çıkarma: Izgaranın özelliklerini noktaya göre hesaplamak için her noktayı hesaplayın ve nokta stilinin karakteristik kodlayıcısına gönderin. 3. Projeksiyon: Özellikleri element -seviyesi özelliklerine yönlendirdi ve sahte bir görüntü özellik şeması oluşturmak için orijinal ızgarasına geri yansıtıldı. HVNet'te önerilen HVFE yöntemi, karma oran ölçeğinde nokta seviyesinin özelliklerini küresel bağlamda birleştirir ve daha sonra dinamik hedef ölçeğinde özellik diyagramına yansıtılır.

Şekil 4 Bu makalede önerilen HVFE yöntemi

2 algoritma tasarımı

Tüm HVNET şunları içerir: HVFE Özellik Ekstraksiyon Modülü; 2D Konvolüsyon Modülü; ve Nihai Tahmin Sonuçlarını Çıkarmak İçin Algılanan Baş Modülleri. Aşağıdaki şekilde ilk satır HVNet'in tüm yapısıdır. İkinci çizgi, dört kısımdan oluşan karışık erdem karakteristik ekstraktörün yapısıdır: a) x-y düzlemi çok ölçekli tercihli düzlem; c) kod özellik toplama; d) Dikkat mekanizması Veritentis özellikleri kod çıktı katmanı (aveo) katmanı Dinamik özellik projeksiyonu için toplama özellikleri ve hedef ölçek bilgileri ile birlikte.

Şekil 5 Ağ Çerçeve Şeması

1. HVFE katmanı, farklı ölçekli voksel altındaki nokta bulutlarının özelliklerini çıkardık. Nokta bulutlarının özelliklerini farklı ölçekte entegre etmek için, özenli katmanı orijinal geometri bilgilerini kullanmayı önerdik. Farklı standartlar. Final 2.5D'de bir özellik haritası oluşturmak için haritalama ve füzyon. Süreç boyunca, endeks tabanlı etkin bir şekilde çalışmasını önerdik, böylece tüm toplantının (dağılım) ve toplanmasının GPU paralelini tam olarak kullanabilir. Önceki yöntemin çalışmasıyla karşılaştırıldığında, yöntemimiz etkili bir şekilde azaltabilir. Bilgi bilgisi. Kayıp ve GPU video belleği kullanımı.

Şekil 6 AVFE ve AVFEO katmanları. Dizin tensörü dizin işlemleri için kullanılır: Toplama ve Saçma (Saçma)

2.2d Konvolüsyon Bölümü, HVFE katmanı tarafından önerilen çoklu ölçekli özellik haritasını kullanıyoruz ve ayrıca özellik grafiğinde çoklu ölçekli füzyon yapıyoruz. Nokta bulutunun seyrekliği ve sahte -embolunun düşük çözünürlüğü nedeniyle, daha fazla karakteristik füzyon için piramit ağının (FFPN) ölçek füzyonunu önerdik. Çok ölçekli özellikler önce ana ağdaki sığ katmanda kaynaştırılır ve daha sonra önerilen FFPN ağında derinlemesine kaynaşır.

Şekil 7 Ana Ağ

3. Thedetection Kafası Bölümü, vahşi doğanın farklı özelliklerini deneyimlemek ve ilgili Anchorbox'ı farklı Anchorbox katmanlarında tasarlamak için farklı featuremap katmanları kullanıyoruz. Özellikle, farklı katmanların özellik haritası yalnızca algılama kafası bölümündeki karşılık gelen ölçek kategorisini tahmin edecektir. Bu yöntem kategoriler arasındaki karışıklığı etkili bir şekilde azaltabilir.

3 Sonuç

Kitti veri kümesi, otonom sürüş alanındaki en önemli test setlerinden biridir. Kitti üzerinde deneysel doğrulama yaptık. Deneysel sonuçlar yöntemimizin etkinliğini kanıtlıyor. Algoritmamız, Kitti'de o zamanlar bisikletçinin en iyi sonuçlarını elde ediyor ve o zamanlar liderlikte ikinci sırada yer aldı. Essence

Şekil 8 Kitti üzerindeki HVNet'in BEV skoru (Bisiklet, Kasım 2019)

Şekil 9 Kitti üzerindeki HVNet'in BEV puanı (araba, Kasım 2019)

Birçok yöntemin, farklı kategorileri algılamak için birden fazla nesne türünün işlenmesinde birden fazla modeli eğittiğini ve çıktıyı yalnızca tek bir ağ üzerinden tamamladık. Kitti'nin test görevlerinin çoklu kategorisinde, gerçek zaman verimliliği sağlarken, o sırada en iyi haritayı (ortalama doğruluk) elde ettik. Pointpillar, ikinci ve diğer algoritmalarla karşılaştırıldığında, HVNet de verimlilikte büyük atılımlar yaptı.

Şekil 10 Kitti testinde BEV puanı

Pointpillar, ikinci ve diğer algoritmalarla karşılaştırıldığında, voksel ölçeğini ayarladık ve bu yöntemlerin verimliliğini ve doğruluğunu benzer voksel ölçeğinde karşılaştırdık. Sonuçlar, yöntemlerimizin performans ve verimlilik açısından mevcut yöntemleri aştığını göstermektedir.

Şekil 11 Kitti Val Veri Konsantrasyonu BEV Farklı Voksel Ayar Sonuçları Karşılaştırması

4 Düşünme Özeti

Bu çalışmada, yeni bir tür üç boyutlu hedef algılama ağı HVNet önerdik. HVNet, karışık ölçeği birleşik bir nokta özelliğine dönüştürür ve daha sonra dikkat özelliklerinin rehberliğinde farklı standartlarda sahte bir görüntü özelliğine yansıtılır. HVNet'in anahtarı, özellik çıkarma ölçeğini ve sahte -image projeksiyon ölçeğini ayırmaktır. Buna ek olarak, piramit ağının karakteristik füzyonunun gövdesi, sahte görüntü elde eder ve farklı kategorilerin kompakt ifadesini oluşturmak için özellikleri entegre eder. Deneysel çalışmalar, bu yöntemin en gelişmiş sonuçlara ulaştığını ve yüksek gerçek zamanlı doğaya sahip olduğunu göstermiştir.

ICDE 2020 Dördüncü Cennet Yeni İşler: Farklı bilgi haritalarıyla gömülü puan işlevini farklı bilgi haritalarına çizmek
önceki
Yun Zhisheng ACL 2020'nin üç makalesine seçildi. Ne okudular?
Sonraki
CVPR 2020 | VI-ReID için hiyerarşik modlar arası yaya tanıma
ICLR 2020 | Artan gürültü, RL ajanlarının genelleme yeteneğini geliştirebilir
ICLR 2020 | Sinirsel tanjant, sonsuz genişlikte bir sinir ağı modeli oluşturmak için 5 satır kod
"Canlı" CVPR 2020 | Açgözlü düşünceye dayalı bir ağ yapısı arama algoritması ve hem CNN hem de GCN ağ yapısı aramasını destekler
Bengio ve diğer birçok bilim insanı ortaklaşa üretti: AI'nın güvenilir olmasını sağlamak için bir sistem nasıl tasarlanır?
IJCAI'den uyarı! En iyi kulüpleri doldurmak gittikçe zorlaşıyor ve AI top kulüplerinin toplam işe alma oranı yıllardır düşüyor.
ICLR 2020 | GAN kullanarak yüksek kaliteli konuşma sentezi
CVPR 2020 | MetaFuse: İnsan poz tahmini için önceden eğitilmiş bilgi füzyon modeli
ICLR 2020 | Pekin Üniversitesi Turing Sınıfı tam puan raporu: Hesaplama kısıtlamaları altında faydalı bilgilere dayalı bilgi teorisi
Tek bir çip tüm sesli etkileşimleri çözer, Baidu endüstriyi değiştiren teknolojik bir yenilik yaptı
ICLR 2020 | Deformable Kernels, deforme olabilen, yaratıcılıkla dolu bir evrişim çekirdeği
Today Paper | Dağıtık temsil; meta-öğrenmeye dayalı; ilçe düzeyinde veri seti; GPS-NET, vb.
To Top