Taşıtları ve yayaları belirlemek ve sınıflandırmak için nokta bulutları nasıl kullanılır? Bu MIT öğrencilerinin özetidir

Derlemeyi ve organize etmeyi isteyin

Qubit Üretildi | Genel Hesap QbitAI

Bu makalenin yazarı, MIT'de ikinci sınıf öğrencisi olan Michael Gump'tır ve içerik, sürücüsüz otomobil şirketi Voyage'daki çalışmalarının bir özetidir. Bu makale ayrıca Voyage CEO'su Oliver Cameron tarafından da önerildi.

Bir bilgisayar uzmanı olarak, her zaman makine öğrenimiyle, özellikle de pekiştirmeli öğrenmeyle ilgilenmişimdir ve özellikle OpenAI ile ilgili araştırmalar üzerinde düşünmeyi seviyorum. Geçen kış da bir sürücüsüz araba kursuna katıldım ve bu andan itibaren sürücüsüz arabalar alanı benim için özellikle heyecan verici oldu.

Üç ay önce Voyage'ın derin öğrenme staj programına katıldım. Voyage, kendini sürücüsüz taksiler geliştirmeye adamış, Udacity'den ayrılmış bir başlangıç şirketidir.

Okulda pek çok bilgi öğrenilebilir, ancak gerçek dünyayı anlamanıza izin vermez. Voyage'daki stajyerlik sırasında, sadece eğitim eksikliğini telafi etmeme yardımcı olmadı, aynı zamanda en havalı ürünlerle gerçekten temasa geçme fırsatım oldu. İşte bu dönemdeki hasadımı sizlerle paylaşacağım.

Benim işim

Bu yaz stajımda bilgisayarla görme ile ilgili çeşitli problemler üzerinde çalıştım, birçok makale okudum ve birçok model eğittim. Çoğu zaman, LiDAR verilerini sınıflandırmak ve tanımlamak için her zaman halka açık veri setlerini kullandım. Veri seti adresi aşağıdaki gibidir:

İnsanlar dünyayı gözlemlediklerinde, derinliği otomatik olarak algılayabilir ve bunun bir araba mı yoksa yolda bir yaya mı olduğunu anlayabilirler. İnsansız araçlar nasıl aynı şeyi yapabilir? Geçtiğimiz birkaç aydaki çalışmalarımın çoğu, Voyage'ın sürücüsüz taksilerinin araçları ve yayaları sınıflandırmasını sağlamanın yollarını bulmaktı.

Kullandığım araç 3B görünüm (LiDAR nokta bulutu) + derin öğrenmedir.

Bu sınıflandırıcı modeli, arabaları yeşil ve yayaları kırmızı olarak doğru şekilde işaretler

Nesne sınıflandırması ve tanıma

İnsansız bir araç için, ham sensör bilgilerini (nokta bulutları gibi) toplamalı ve sonra ne gördüğünü bulmalıdır. Bunlardan en önemlileri aşağıdaki iki sorudur.

  • Mesafe: Bu nesneyi vurmak benden ne kadar uzakta

  • Kategori: Gördüğüm nedir

Bu sorunu çözmek için, ilgili bilgileri doğrudan elde etmek veya mevcut sensörlerden gerekli bilgileri çıkarmak için sensörler tasarlamak mümkündür. Mesafe konusunda, Lidar şu anda en iyi sensör. Özellikle "cesur" olmadıkça, insansız araçlar genellikle bu kritik cihazı atlamaz.

Ancak sınıflandırma problemi için (araçların ve yayaların tanınması) sonuçlar sensörler aracılığıyla doğrudan elde edilemez.Bunu başarmak için algoritmalar geliştirmemiz gerekiyor.Bu yaz benim asıl işim bu.

Siyah beyaz görüntüler LiDAR verileridir ve ardından sınıflandırma bilgisi ekler (yeşil yayaları temsil eder, mavi araçları temsil eder)

İnsan bakış açısından, bunlar çok basit sorular. Ancak insanlığın milyonlarca yıllık gelişim ve evrime sahip olduğunu lütfen unutmayın. İnsansız araçlar nasıl kısa sürede aynı yeteneklere sahip olabilir? Bir meslekten değilseniz, bilmelisiniz, bu sorunun cevabı: CNN, Convolutional Neural Network.

CNN, birçok zor problemde şaşırtıcı sonuçlar verdi. Bazı ince ayarlarla, bu sinir ağı LiDAR verilerini iyi işlemek için kullanılabilir.

Bununla birlikte, derin bir evrişimli ağ en iyi seçimimiz olmayabilir. Sistemimizin temel bir gereksinimi, çok yüksek bir kare hızında çalışması gerektiğidir. Diğer bir deyişle, gerçek zamanlı çalışan bir sistem oluşturmamız gerekiyor, bu yüzden hızlı bir şekilde iyi sonuçlar alabilecek bir çözüm seçmeliyiz.

CNN, görüntülerdeki karmaşık desenleri tanıyabilse de, genellikle çok yavaştır. Bu yaz, zamanımın çoğunu bir alternatif arayarak geçirdim. Alternatiflerden biri, modelimiz üzerinde bazı özellik mühendisliği gerçekleştirmek olan nesne kategorisiyle oldukça ilgili olan fiziksel özellik bilgisini manuel olarak seçmektir.

Bu süreçte akıl hocam bana bir şey öğretti: deney, deney, deney.

Benim sonuçlarım

Bu yaz kazandıklarımdan biri, harika bir hızlı görselleştirme aracı kullanmayı öğrenmektir. Vispy'nin yardımıyla çok sayıda nokta bulutunu düzenli bir şekilde görselleştirdim ve ardından modelin hatalarını gerçek dünya ortamında ayıkladım. Stajımın bir diğer kazanımı da problemi doğrudan modelin kayıp eğrisinden görmenin zor olmasıdır.

(Vispy adresi:

Modelimi eğitmek ve doğrulamak için PyTorch'u kullandım. PyTorch'a daha önce aşina değildim ama şimdi en sevdiğim derin öğrenme çerçevesi haline geldi. PyTorch, TensorFlow kadar çok özelliğe sahip olmasa da, kullanımı daha kolaydır.

(Önceki bir kübit raporunu ara: "PyTorch veya TensorFlow?")

Oluşturduğum modellerden biri, birden çok giriş verisi kanalını sınıflandırabilen ve tahmin edebilen bir Kodlayıcı-Kod Çözücü ağı. Bu gürültülü tahminlerden, karşımızdaki nesnenin gerçek kategorisini çıkarabiliriz. Bu model çok güçlüdür ve belirli sensör ve işleme hatalarına karşı bağışık olabilir.

Örneğin, sınıflandırma için nesne boyutuna ve şekline dayanan modeller, algılama hatalarına eğilimlidir. Codec modeli, sahnedeki modu tanıyarak ve onu doğrudan tahmine dönüştürerek bu sorunu önleyebilir.

Kod çözücü-kod çözücü modeli iş başında. Model hala çok kaba.

Yukarıdaki çalışmam aşağıdaki makalelere atıfta bulunuyor:

"Otonom Sürüş için Çoklu Görünüm 3D Nesne Algılama Ağı"

https://arxiv.org/abs/1611.07759

"LIDAR tabanlı 3B Nesne Algılama"

https://pdfs.semanticscholar.org/2c45/03c72ba7f53f3385859bd5e6311c58e73905.pdf

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Önce 2 Mahmuz, önce 2 tarih! Tarihin en güçlü ikinci tur seçimi. Sorunuz var mı?
önceki
CJ2018: Bayan Kardeş yerinde! Terbiyeli kardeş, prova gününde en taze stantları getirdi.
Sonraki
Yifang Feiyi + Little Terrier artık U23 değil, Gaitan sadece Axian'ı mı çağırıyor? HAYIR, gençlik fırtınası oynuyor!
ABD medyası bu yaz Lakers'ın operasyonunu 3 kategoride 9 kişinin katıldığı, İmparator Zhan için yeni bir Laker inşa etmek için patlattı!
PlayerUnknown's Battlegrounds Havalimanı'nın yanındaki en zengin yer! Sadece birçok malzemeyi araştırmakla kalmaz, aynı zamanda havaalanı oyuncularını da durdurabilir
Lian Lu Zhenghe VEYA Shanghai Derby? Luneng U23 Dugu yenilgi istiyor, Dalian Yifang 1 verileri daha şaşırtıcı
Lakers üç büyük avantaja imza attı, rakip su bıraktı ve 70 milyon tasarruf etti, Zhan Huang süper dev yardımcı geri sayım mı?
Xiaotu'nun araba hayatının "küçük şansını" nasıl keşfettiğini görelim
PlayerUnknown's Battlegrounds: OMG şampiyonluğu kazandı! Neden açık olan bu kadar çok oyuncu var?
Tensorflow resmi konuşma tanıma giriş eğitimi Yeni veri seti ile
Çoğu takım önce uçar, ancak bir taraf çok sessizdir! New Deal çıktı, ikinci yıl mücadelesi çok büyük
4'te 1! Eklemek için 24 + 16 All-Star +3 karşılığında 15 + 6 All-Star kullanmayı beklemiyordum!
Yarım tondan fazla insanı olan Changan Auchan A800 sizi eve yemek pişirmeye götürecek
Tencent CJ ne kadar şiddetli? Tek seferde 20 yeni oyun duyuruldu! Tiandao Mobil Oyunlar da var
To Top