Sütun | Apple Bar'da Baidu, Lidar Nesne Tanıma Performansının Büyük Karşılaştırması

Leifeng.com'un basını: Bu makale Leifeng.com'un bir sütunudur.Yazar, Zos Araştırma Enstitüsü araştırma direktörü Zhou Yanwu'dur. Leifeng.com yayınlama yetkisine sahiptir.

Apple her zaman mükemmel kültürü ve son derece gizli tarzı ile tanınmıştır. Dış dünya rüzgarı yakalamaya çalışsa da Apple, otonom sürüş araştırma ve geliştirmesinin ilerlemesini veya dinamiklerini nadiren açıklıyor.

Ancak, bu yılın Kasım ayında Apple, VoxelNet: Nokta Bulutu Tabanlı 3D Nesne Algılama için Uçtan Uca Öğrenme adlı bir makale yayınladı.

Bu yazıda, Apple sinir ağını VoxelNet olarak adlandırdı ve Apple, lidar nokta bulutları aracılığıyla hedef tanıma görevlerini gerçekleştirmek için onu eğitti. Rapor şunu gösteriyor: Apple, bilgisayarların üç boyutlu nesneleri daha doğru bir şekilde tanımlamasına yardımcı olmak için "VoxelNet" adlı yeni bir sistem aracılığıyla yeni bir otonom sürüş yöntemi yaratıyor. Verileri okumak için lidar sensörleri kullanır ve otonom araçların diğer arabaların, bisikletlerin ve yayaların coğrafi konumlarını tam olarak anlamasına izin verir. Çalışma sadece Apple'ın sürücüsüz araba araştırmasının gerçekten doğru olduğunu göstermekle kalmıyor, aynı zamanda Apple'ın lidar ile ilgili şirketlerle işbirliği yaptığını da gösteriyor.

Apple, nesne tanımayı incelemek için lidar kullanan tek kişi değil.

Baidu, 2016 yılında Tam Evrişimli Ağ Kullanarak 3D Lidar'dan Araç Algılama adlı bir makale yayınladı. Baidu, 2015 yılının başlarında, Point Cloud'da Araç Algılama için 3D Tam Evrişimli Ağ üzerine bir makale yayınladı. Ek olarak, Tsinghua ve Baidu'nun da bir kağıdı var: Otonom Sürüş için Çoklu Görünüm 3D Nesne Algılama Ağı.

Eylül 2015'te, Cameron Üniversitesi Robotik Okulu'ndan Daniel Maturana ve Sebastian Scherer, Gerçek Zamanlı Nesne Tanıma için VoxNet: A 3D Convolutional Neural Network'ü yayınladı.

Ekim 2017'de, Almanya Freiburg Üniversitesi'nin Makine Görme Bölümü, 3D Nesne Tanıma için Oryantasyonla güçlendirilmiş Voxel Ağlarını yayınladı. Avrupalı makine vizyonu otoritesi SEMANTIC3D.NET'e sahiptir: YENİ BİR BÜYÜK ÖLÇEKLİ NOKTA BULUTU SINIFLANDIRMA KARŞILIĞI.

Yukarıdaki makaleler lidar nesne tanıma üzerine yapılan araştırmalardır.

(16 Ocak 2018'de Leifeng.com, Silikon Vadisi'nde GAIR Silikon Vadisi Akıllı Sürüş Zirvesi düzenleyecek. Ayrıca dünyanın en büyük lidar şirketi Velodyne ve start-up lidar şirketi Innovusion gibi ağır misafirleri açılış raporlarını ve yuvarlak masaları paylaşmaya davet ettik. Tartışma Zirve hakkında daha fazla bilgi için https://gair.leiphone.com/gair/gairsv2018 tıklayın. Lütfen dikkat edin.)

Lidar nesne tanımanın en büyük avantajı ışığın parazitini tamamen ortadan kaldırabilmesidir.Gece veya gündüz fark etmez, ister benekli gölgeli ağaçlıklı bir yol, ister ışıkta keskin değişimlerin olduğu bir tünel çıkışı olsun, hiçbir sorun yoktur. İkinci olarak lidar, kamera sistemleri için çok zor olan derinlik bilgisini kolaylıkla elde edebilir. Üçüncüsü, lidarın etkili mesafesi kameranın çok üzerindedir ve daha uzun etkili mesafe, artan güvenlik yedekliliğine eşdeğerdir. Son olarak Lidar, renkleri ve şerit çizgilerini de belirleyebilir.

Aslında lidar ile kamera arasında önemli bir fark yoktur.Büyük fark, lidarın aktif bir sensör olan aktif bir lazer olmasıdır.Tek fark, fotoelektrik alıcı diyotun farklı olmasıdır.Kamera ne yapabilir, lidar yapabilir ama mevcut lidar Nokta bulutunun yoğunluğu, 3 megapiksel kameranınki ile karşılaştırılamaz.

Katı hal lidarları için çoğu katı hal lidar 3 boyutlu görüntüler sağlar, daha uygun olan bir 3 boyutlu görüntü sensörü kadar bir lidar değildir.

Tsinghua Üniversitesi ve Baidu tarafından hazırlanan Otonom Sürüş için Çok Görünümlü 3D Nesne Algılama Ağı (Kasım 2016) adlı makalede, nesne algılama ve tanıma için kamera ve lidar verilerinin birleşmesi kullanılmıştır.

Ancak Apple, bu yaklaşımın gelişmediğine, ancak çok fazla soruna neden olduğuna inanıyor. Kamera, lidar ile zaman senkronizasyonuna ve ortak alan kalibrasyonuna ihtiyaç duyduğundan, kameranın etkin mesafesi sınırlıdır ve performans, mesafe ile yakından ilgilidir. İkisinin orta ve uzun mesafelerde karıştırılması zordur ve etki yakın mesafelerde biraz daha iyi olacaktır.

Kamera için Pixel kelimesi gibi, lidar da 3D, yani Voxel kelimesi var. Piksel, iki boyutlu bilgisayar görüntülerinin en küçük birimidir, Voxel ise üç boyutlu uzayda üç boyutlu veri bölümlemenin en küçük birimidir.Üç boyutlu görüntüleme, tıbbi görüntüleme (CT gibi) ve diğer alanlarda uzun süredir kullanılmaktadır.

Nesne tanıma, makinelerin insan sosyal çevresini anlama konusundaki temel yeteneğidir.İnsan uygarlığı ağırlıklı olarak kelimeler ve dil ile taşınır.Bu tamamen sosyal bir kavramdır.Bu nedenle insan öğrenme yöntemlerinin yani derin öğrenmenin benimsenmesi gerekir.

Lidar, yankı genişliği veya yansıma yoğunluğu bilgilerini kullanarak şerit çizgileri, çimen, binalar, yollar ve ağaçlar gibi belirli bir nesne türünü kolayca tanımlayabilir ve kameralar gibi matematiksel olasılık algoritmalarına dayalı tanıma yerine fiziksel olarak tanınır. Fiziksel tanımanın doğruluğu, olasılık hesaplamasından çok daha yüksektir.

Bununla birlikte, fiziksel yöntemler gibi özel tanımlama için lidar yalnızca yayaları, özellikle yetişkinleri, yaşlıları, çocukları veya bebekleri tanımlayabilir. Başka bir örnek olarak, yol kenarındaki bir trafik işareti için lidar yalnızca bunun metal mi yoksa plastik bir işaret mi olduğunu bilebilir, ancak işaretin ne olduğunu bilmez. Bu durumda derin öğrenme kullanışlı olabilir.

Derin öğrenme konusundaki popüler anlayış, bir köpeğe elinizi sallamayı (pençe) öğretmek gibi, hayvanları eğitmek gibidir ve köpek doğru şeyi yaparsa biraz yiyecek ödülü veya sevişme ödülü verecektir. Bu, pekiştirmeli öğrenmenin bir mekanizmasıdır. Köpek bunu doğru yapmazsa eleştirilecektir. Bu tıpkı bir sinir ağının eğitim sürecine benzer.Tanıma doğruysa, bu parçanın ağırlık değeri arttırılır (yiyecek ödülü) ve eğer tanıma yanlışsa ağırlık değeri azaltılır (toplu olarak).

Böylesine sürekli güçlenmeyle, sonunda elinizi uzattığınızda, köpek elinizi sıkmak için elinizi (pençe) de uzatır.

* Apple Voxel Net mimarisi

Erken hedef tespit ve tanıma alanı DPM idi. Kasım 2013'te, hedef tespit alanında tanınan bir tanrı olan Ross Girshick, Nisan 2015'te Hızlı R-CNN'ye dönüşen ve Haziran 2015'te Daha Hızlı R-CNN'ye dönüşen R-CNN'yi başlattı. Günümüzde hedef tespiti ve tanıma alanında tanınan en iyi yöntem tamamen uçtan uca da uygulanabilmektedir.

Lidarın hedef tespiti ve tanınması da doğal olarak Daha Hızlı R-CNN kullanır. Daha hızlı R-CNN, 2015'in sonundan bu yana yaklaşık iki yıl geçti, ancak nesne algılama alanındaki ana akım çerçevelerden biri olmaya devam ediyor. Takip eden R-FCN, Mask R-CNN ve diğer geliştirilmiş çerçeveler tanıtılmış olsa da, temel yapı Pek değişmedi. Aynı zamanda SSD ve YOLO gibi garip kemiklere sahip birçok yeni çalışma var, ancak Daha Hızlı R-CNN hala doğruluk açısından en iyisidir.

RCNN'den hızlı RCNN'ye ve daha sonra bu makaledeki daha hızlı RCNN'ye kadar, hedef saptamanın dört temel adımı (aday bölge oluşturma, özellik çıkarma, sınıflandırma ve konum iyileştirme) nihayet derin bir ağ çerçevesinde birleştirildi. Tüm hesaplamalar tekrarlanmaz ve tamamen GPU'da tamamlanır, bu da çalışma hızını büyük ölçüde artırır.

Hızlı RCNN, hızlı RCNN'de Seçmeli Arama yöntemi yerine bölge oluşturma ağı RPN (Bölge Teklif Ağları) kullanan bir "bölge oluşturma ağı + hızlı RCNN" sistemi olarak kabul edilebilir.

Bununla birlikte, RPN yalnızca bir tensör yapısına sahip yoğun verileri hedefleyebilir ve lidarın bulut noktaları seyrektir, bu nedenle nesneleri tanımlamak için lidarın derinlemesine öğrenilmesinin anahtarı nokta bulutu verilerinin tensör yapısıyla yoğun videoya nasıl dönüştürüleceğidir Veya görüntü verileri.

Apple, VFE (Voxel Feature Encoding) adlı bir şema önerdi (yukarıda gösterildiği gibi).

İlk olarak nokta bulutu verisi voksel verisine dönüştürülür Temelde nokta bulutunun üç boyutlu verisi vokselin üç boyutlu verisidir. Noktalar (nokta bulutları) voksellerin konumuna göre gruplandırılır, bu gruplanmış verilerin tümü birbiri ardına istiflenir ve ardından tam bir evrişimli sinir ağı (FCN) aracılığıyla 4 (hız vektörü, X, Y, Z) yaprak oluşturulur. Veri yapısı miktarı.

Sonra, FCN'ye bakın. FCN, geleneksel CNN'deki tam bağlı katmanı bir evrişimli katmana dönüştürür.CNN ağı FCN'ye karşılık, son üç tam bağlı katman, üç katmanlı bir evrişimli katmana dönüştürülür.

Geleneksel CNN yapısında, ilk 5 katman evrişimli katmanlardır, 6. ve 7. katmanlar sırasıyla 4096 uzunluğunda tek boyutlu bir vektördür ve sekizinci katman 1000 farklı uzunluğa karşılık gelen 1000'lik tek boyutlu bir vektördür. Kategorinin olasılığı.

FCN, bu 3 katmanı evrişimli katmanlar olarak temsil eder ve evrişim çekirdeğinin boyutu (kanal sayısı, genişlik, yükseklik) (4096,1,1), (4096,1,1), (1000,1,1) şeklindedir. Görünüşe göre sayılarda bir fark yok, ancak evrişim tam bağlantı ile aynı kavram ve hesaplama süreci değil.CNN'nin daha önce eğittiği ağırlıkları ve önyargıları kullanıyor, ancak fark, ağırlıkların ve önyargıların Kendi aralığı ve kendi evrişim çekirdeği vardır.

Bu nedenle, FCN ağındaki tüm katmanlar evrişimli katmanlardır, bu nedenle bunlara tam evrişimli ağlar denir.

Birden fazla evrişimden sonra, ortaya çıkan görüntü küçülür ve küçülür ve çözünürlük gittikçe azalır. Görüntü H / 32 W / 32'ye ulaştığında, görüntü en küçük katman olduğunda, ortaya çıkan görüntüye ısı haritası denir ve ısı haritası bizim en önemli yüksek boyutlu özellik haritamızdır.

Yüksek boyutlu özellik ısı haritasını elde ettikten sonra, orijinal görüntüyü örneklemek (yukarı örnekleme), büyütmek, büyütmek ve orijinal görüntünün boyutuna büyütmek için en önemli ve son adımdır. Bu, RPN olarak kabul edilebilir.

* Baidu'nun bulut noktası dönüştürme FCN adım diyagramı

* Apple'ın RPN mimari şeması, Baidu ile neredeyse aynı olduğu görülebilir.

Sonunda, Apple'ın KITTI üzerinde test etmesi kaçınılmazdır ve Baidu'ya saldırmayı da unutmaz.

Bunların arasında 22. plan, Baidu'nun erken planı ve etkisi gerçekten vasat. Çözüm No. 5, Baidu ve Tsinghua Üniversitesi arasındaki işbirliğidir. BV kuşbakışı, FV önden görünüm ve RGB kamera anlamına gelir. HC temel planı da Tsinghua ve Baidu tarafından ortaklaşa önerildi. Kuş bakışı algılama açısından Apple ve Baidu hemen hemen aynı. 3B algılama açısından Apple çok lider.

Apple, yukarıdaki algoritmayı çalıştırmak için 1.7GHz CPU ve en üst grafik kartı TitanX'i kullanır.Voxel giriş özelliği hesaplaması yaklaşık 5 milisaniye, özellik öğrenme ağı yaklaşık 20 milisaniye, evrişim orta katmanı 170 milisaniye ve RPN ağı 30 milisaniye sürer. Toplam 225 milisaniye.

Ancak Apple, bunun bir karenin çıkarım süresi mi, yoksa çıkarım süresinin 30 karesi mi olduğunu söylemedi. Tek kare ise pratik olmaktan uzaktır, kare başına 25 milisaniye ise pratike yakındır.

Leifeng.com'da önerilen okuma:

Üç gazeteden bahsetmişken: Apple ve Baidu nasıl derin sinir ağları geliştiriyor?

Apple, gizli planın ardındaki hedefleri ortaya çıkaran ilk sürücüsüz makalesini yayınladı

Çentik şekli, Android amiral gemisi yapılandırması, Huaqiangbei yazlık iPhone X fiyatı uygun, inanmaya cesaretiniz var
önceki
En iyi animasyon filmi "Örümcek Adam: Paralel Evren" için Altın Küre Ödülü, onu izlemezseniz kaybedeceksiniz!
Sonraki
Yeni enerjiyle oynayan Ford'un yüzyılı, Changan Ford Mondeo Energi'nin teknik açıklaması
"Sessiz Bir Yer" denizin ortaya çıkması için bir çılgınlık başlattı ve Star Jumeirah Deadpool gibi yıldızlar ve diğer yıldızlar güçlü bir çağrı yaptı
Gizli oda korkusu gişe rekorları kıran Wen Ziren ateş etmeye cesaret edemedi, netizenler avuçlarının terli olduğunu izledikten sonra söyledi!
Libo'ya yeni bir rota daha açıldı! Chongqing'e direkt uçuş sadece 180 yuan! 1 saat sonra geldi!
Yapay Zekanın AI Derin Öğrenimi: Kökeni, İlkeleri ve Uygulamaları
Sınıf arkadaşlarını döv, küfür, büyük ölçekli fotoğraflar ... Neden Lin Yun'un yasadışı materyallerinden her zaman bahsediliyor?
PlayStation Hong Kong hizmeti flash teklifi% 20'ye varan indirimle açılıyor
"Kaçış Odası" benzeri görülmemiş sürükleyici bir görünüme ve hisse sahip ve Kuzey Amerika prömiyeri iyi karşılandı!
"Hızlı ve Öfkeli" nin Dikkatine! Bu film yayınlandı!
Çin'de Xiaodao Studio'nun çevresindeki alışveriş merkezleri, inancınızı tazelemenizi daha kolay hale getiriyor
Bir mayın tarlasına mı basıyorsunuz? Kullanışlı bir elektrikli süpürge şu özelliklere sahip olmalıdır
"Zincir Testere" nin yükseltilmiş versiyonu burada! Kaçacak yer yok
To Top