Derlemeyi ve organize etmeyi isteyin
Qubit Üretildi | Genel Hesap QbitAI
Bu makalenin yazarı, MIT'de ikinci sınıf öğrencisi olan Michael Gump'tır ve içerik, sürücüsüz otomobil şirketi Voyage'daki çalışmalarının bir özetidir. Bu makale ayrıca Voyage CEO'su Oliver Cameron tarafından da önerildi.
Bir bilgisayar uzmanı olarak, her zaman makine öğrenimiyle, özellikle de pekiştirmeli öğrenmeyle ilgilenmişimdir ve özellikle OpenAI ile ilgili araştırmalar üzerinde düşünmeyi seviyorum. Geçen kış da bir sürücüsüz araba kursuna katıldım ve bu andan itibaren sürücüsüz arabalar alanı benim için özellikle heyecan verici oldu.
Üç ay önce Voyage'ın derin öğrenme staj programına katıldım. Voyage, kendini sürücüsüz taksiler geliştirmeye adamış, Udacity'den ayrılmış bir başlangıç şirketidir.
Okulda pek çok bilgi öğrenilebilir, ancak gerçek dünyayı anlamanıza izin vermez. Voyage'daki stajyerlik sırasında, sadece eğitim eksikliğini telafi etmeme yardımcı olmadı, aynı zamanda en havalı ürünlerle gerçekten temasa geçme fırsatım oldu. İşte bu dönemdeki hasadımı sizlerle paylaşacağım.
Benim işim
Bu yaz stajımda bilgisayarla görme ile ilgili çeşitli problemler üzerinde çalıştım, birçok makale okudum ve birçok model eğittim. Çoğu zaman, LiDAR verilerini sınıflandırmak ve tanımlamak için her zaman halka açık veri setlerini kullandım. Veri seti adresi aşağıdaki gibidir:
İnsanlar dünyayı gözlemlediklerinde, derinliği otomatik olarak algılayabilir ve bunun bir araba mı yoksa yolda bir yaya mı olduğunu anlayabilirler. İnsansız araçlar nasıl aynı şeyi yapabilir? Geçtiğimiz birkaç aydaki çalışmalarımın çoğu, Voyage'ın sürücüsüz taksilerinin araçları ve yayaları sınıflandırmasını sağlamanın yollarını bulmaktı.
Kullandığım araç 3B görünüm (LiDAR nokta bulutu) + derin öğrenmedir.
Bu sınıflandırıcı modeli, arabaları yeşil ve yayaları kırmızı olarak doğru şekilde işaretler
Nesne sınıflandırması ve tanıma
İnsansız bir araç için, ham sensör bilgilerini (nokta bulutları gibi) toplamalı ve sonra ne gördüğünü bulmalıdır. Bunlardan en önemlileri aşağıdaki iki sorudur.
Mesafe: Bu nesneyi vurmak benden ne kadar uzakta
Kategori: Gördüğüm nedir
Bu sorunu çözmek için, ilgili bilgileri doğrudan elde etmek veya mevcut sensörlerden gerekli bilgileri çıkarmak için sensörler tasarlamak mümkündür. Mesafe konusunda, Lidar şu anda en iyi sensör. Özellikle "cesur" olmadıkça, insansız araçlar genellikle bu kritik cihazı atlamaz.
Ancak sınıflandırma problemi için (araçların ve yayaların tanınması) sonuçlar sensörler aracılığıyla doğrudan elde edilemez.Bunu başarmak için algoritmalar geliştirmemiz gerekiyor.Bu yaz benim asıl işim bu.
Siyah beyaz görüntüler LiDAR verileridir ve ardından sınıflandırma bilgisi ekler (yeşil yayaları temsil eder, mavi araçları temsil eder)
İnsan bakış açısından, bunlar çok basit sorular. Ancak insanlığın milyonlarca yıllık gelişim ve evrime sahip olduğunu lütfen unutmayın. İnsansız araçlar nasıl kısa sürede aynı yeteneklere sahip olabilir? Bir meslekten değilseniz, bilmelisiniz, bu sorunun cevabı: CNN, Convolutional Neural Network.
CNN, birçok zor problemde şaşırtıcı sonuçlar verdi. Bazı ince ayarlarla, bu sinir ağı LiDAR verilerini iyi işlemek için kullanılabilir.
Bununla birlikte, derin bir evrişimli ağ en iyi seçimimiz olmayabilir. Sistemimizin temel bir gereksinimi, çok yüksek bir kare hızında çalışması gerektiğidir. Diğer bir deyişle, gerçek zamanlı çalışan bir sistem oluşturmamız gerekiyor, bu yüzden hızlı bir şekilde iyi sonuçlar alabilecek bir çözüm seçmeliyiz.
CNN, görüntülerdeki karmaşık desenleri tanıyabilse de, genellikle çok yavaştır. Bu yaz, zamanımın çoğunu bir alternatif arayarak geçirdim. Alternatiflerden biri, modelimiz üzerinde bazı özellik mühendisliği gerçekleştirmek olan nesne kategorisiyle oldukça ilgili olan fiziksel özellik bilgisini manuel olarak seçmektir.
Bu süreçte akıl hocam bana bir şey öğretti: deney, deney, deney.
Benim sonuçlarım
Bu yaz kazandıklarımdan biri, harika bir hızlı görselleştirme aracı kullanmayı öğrenmektir. Vispy'nin yardımıyla çok sayıda nokta bulutunu düzenli bir şekilde görselleştirdim ve ardından modelin hatalarını gerçek dünya ortamında ayıkladım. Stajımın bir diğer kazanımı da problemi doğrudan modelin kayıp eğrisinden görmenin zor olmasıdır.
(Vispy adresi:
Modelimi eğitmek ve doğrulamak için PyTorch'u kullandım. PyTorch'a daha önce aşina değildim ama şimdi en sevdiğim derin öğrenme çerçevesi haline geldi. PyTorch, TensorFlow kadar çok özelliğe sahip olmasa da, kullanımı daha kolaydır.
(Önceki bir kübit raporunu ara: "PyTorch veya TensorFlow?")
Oluşturduğum modellerden biri, birden çok giriş verisi kanalını sınıflandırabilen ve tahmin edebilen bir Kodlayıcı-Kod Çözücü ağı. Bu gürültülü tahminlerden, karşımızdaki nesnenin gerçek kategorisini çıkarabiliriz. Bu model çok güçlüdür ve belirli sensör ve işleme hatalarına karşı bağışık olabilir.
Örneğin, sınıflandırma için nesne boyutuna ve şekline dayanan modeller, algılama hatalarına eğilimlidir. Codec modeli, sahnedeki modu tanıyarak ve onu doğrudan tahmine dönüştürerek bu sorunu önleyebilir.
Kod çözücü-kod çözücü modeli iş başında. Model hala çok kaba.
Yukarıdaki çalışmam aşağıdaki makalelere atıfta bulunuyor:
"Otonom Sürüş için Çoklu Görünüm 3D Nesne Algılama Ağı"
https://arxiv.org/abs/1611.07759
"LIDAR tabanlı 3B Nesne Algılama"
https://pdfs.semanticscholar.org/2c45/03c72ba7f53f3385859bd5e6311c58e73905.pdf
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.
Qubit QbitAI
' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin