Lei Feng net notu: Bu makalenin yazarı, Şangay Jiaotong Üniversitesi Robotik Enstitüsü'nde doktora öğrencisi, Tsinghua Üniversitesi Makine Mühendisliği Bölümü'nden mezun oldu, ana araştırma yönü makine görüşü ve hareket planlamasıdır ve WeChat kamuya açık hesapta bazı eğlenceli içerikler yazacak: Nao (ID: qRobotics ). Bu makale kendi kendine bilgi yanıtını düzenler: Derin öğrenmeyi robotik alanına entegre etmeye yönelik herhangi bir girişim var mı? Zorluklar nelerdir?
Artık derin öğrenme o kadar popüler ki, herkes kendi araştırma alanlarında kullanılıp kullanılamayacağını görmek isteyecek. Bu nedenle, derin öğrenmeyi robotik alanına entegre etme girişimleri de vardır. Anladığım iki yönü (vizyon ve planlama) kısaca tanıtmama izin verin.
Nesne tanıma
Aslında düşünülmesi en kolay yön budur.DL'yi karşılaştırmak, görüntü tanımanın sonuçlarından kaynaklanıyor ve anlaşılmaya başlandı.
Burada orijinal CNN ağlarını doğrudan aktarabilir ve kullanabilirsiniz. Spesifik işten bahsetmeyeceğim. Amazon Picking Challenge (APC) 2016'nın başka bir yanıtında tanıma ve hareket planlaması için ana akım algoritma nedir? Aşağıda belirtildiği gibi, 2016 "Amazon Tarama Yarışması" nda birçok ekip, nesne tanıma algoritması olarak DL'yi benimsedi.
Nesne konumlandırma
Elbette makine görüşü bilgisayar görüşünden biraz farklıdır. Nesne tanımaya ek olarak, robotik alanındaki vizyon, nesne konumlandırmayı da içerir (nesneleri manipüle etmek için nesnenin pozunu bilmeniz gerekir).
2016 yılında APC, birçok kişi nesne tanıma için DL kullanmasına rağmen, nesne konumlandırma için hala daha basit veya geleneksel algoritmalar kullanıyorlar. Öyle görünüyor ki, DL yaygın bir şekilde benimsenmiyor.
Tabii ki bu kimsenin yapmadığı bir şey değil. Laboratuvarımızdaki Dr. Zhang da bunu deniyor. Dr. Zhang'ın daha önce araştırdığı önyargılı tezin çalışmasını kısaca tanıtmama izin verin.
Doumanoglou, Andreas, et al. "6d nesne pozunu kurtarma ve kalabalıkta bir sonraki en iyi görünümü tahmin etme." IEEE Bilgisayar Görüsü ve Örüntü Tanıma Konferansı Bildirileri. 2016.
Bu çalışma kabaca şu şekildedir: Bir nesne için birçok küçük RGB-D verisi alın; her küçük parçanın bir koordinatı vardır (nesne koordinat sistemine göre); sonra, önce verilerin boyutluluğunu azaltmak için bir otomatik kodlayıcı kullanın; sonra, Hough Forest'ı eğitmek için azaltılmış boyutsallık özelliklerini kullanın.
Bu şekilde, gerçek nesne tespit edildiğinde, nesnenin yüzeyindeki RGB-D verilerini örnekleyerek bir poz tahmin edebilirim.
Hareket oluşturmayı yakala
Bu, daha önce başka bir soruda tanıtıldı (Geleneksel RCNN, resimdeki konumlandırma nesnesinin konumunu kabaca çerçeveleyebilir, ancak bu resimdeki konumu fiziksel dünyanın konumuna nasıl dönüştürebilirim?), İki resim koyun
3DPoint Bulutlarında Tutma Pozlarını Algılamak için Geometri Kullanma
Yoğun dağınıklıkta yüksek hassasiyetli kavrama poz tespiti
Kontrol / planlama
Bu parça şu anda ilgilendiğim yer.
Basitçe söylemek gerekirse, pekiştirmeli öğrenmenin mobil robotların yol planlamasında kullanılabileceğini biliyoruz. Bu nedenle, teorik olarak, kontrol veya planlama için DL'nin İşlev Yaklaşımı ve Politika Gradyanı birleştirilebilir. Elbette, mevcut çalışmanın orijinal geleneksel yöntemleri değiştirmeden önce daha uzun bir yolu var, ancak bunlar aynı zamanda çok ilginç girişimler.
Birkaç iş koyun, ayrıntılar için kağıtlarına bakın.
1. Dağınık doğal ortamlarda monoküler reaktif İHA kontrolünü öğrenmek
CMU drone ormanın içinden geçer
2. Algıdan Karara: Otonom Yer Robotları için Veriye Dayalı Bir Yaklaşım Uçtan Uca Hareket Planlamaya
ETH iç mekan navigasyonu
3. Derin Öğrenme ve Büyük Ölçekli Veri Toplama ile Robotik Kavrayış için El-Göz Koordinasyonunu Öğrenmek
DeepMind nesne kapma
4. Derin görsel motor politikalarının uçtan uca eğitimi
Berkeley şişelerin kapaklarını sıkıyor ve diğer görevler
Zorluklar nelerdir
1. Görüş alanında, nesne tanımaya ek olarak, nesne konumlandırması da gereklidir. Bu bir regresyon problemidir, ancak şu anda, regresyonun doğruluğu doğrudan nesne işlemleri için kullanılamaz (belki de veri miktarı yeterli değildir veya uygun ağ yapısı henüz bulunamamıştır), bu nedenle genellikle ICP vb. Kullanmak gerekir. Algoritma, son eşleşen yinelemeyi gerçekleştirir.
2. Robot planlamasında / kontrolünde daha fazla sorun olabilir. Leifeng.com'da (Hareket Planlama | Video) "Hard Creation Open Class" canlı yayını sırasında karşılaştığım bazı sorunlardan bahsetmiştim, aşağıda kısaca listelenmiştir:
Gözlenebilirlik sorunu
Basitçe söylemek gerekirse, DL teorisini yapmayanlarımız, DL'nin yakınsama ve genelleme yeteneklerinin yeterli olduğunu varsayar. Dikkat etmemiz gereken şey, DL'ye hangi verilerin besleneceğidir. Başka bir deyişle, DL yeteneğinin yeterince güçlü olduğu varsayıldığında, çözmem gereken sorunu hangi veriler önemli hale getirebilir?
Tabii ki, mevcut çalışma bu noktaya değinmedi.Berkeley'in makalesi doğrudan güçlü bir varsayımda bulundu: veri verildiğinde (mevcut görüntü, robot ortak durumu), durum önemli.
Gerçek robot işleminde, sistem durumu çevre ile ilgili olabilir (nesnenin doğası gibi), bu nedenle bu sorun, gelecekte robotlarda DL kullanıldığında atlanamayacak bir sorun olmalıdır.
Veri miktarı
Bir yandan, sorunun yakınsaması için ne kadar veriye ihtiyaç olduğunu bilmiyoruz. Öte yandan, gerçek robotun bir işlemi gerçekleştirmesi zaman alır, hasara neden olabilir ve deneysel koşulları bozabilir (manuel kurtarma gereklidir) Veri toplamak, görüntü tanıma ve ses tanımadan çok daha zordur.
Çözülebilir mi
Canlı yayın sırasında bir örnek verdim Siyah engelin pozisyonu sürekli soldan sağa değiştiğinde, planlama algoritmasının çıkardığı en kısa yol aniden değişecektir. (Videoyu izleyerek daha net olabilir)
Bu, DL'ye karşılık gelir, yani ağ girişi sürekli değişir, ancak çıktı belirli bir anda aniden değişir. Dahası, en kısa yolun birden çok çözüm gibi sorunları olabilir.
DL'nin İşlev Yaklaşımı bu durumla iyi başa çıkabilir mi?
Evet, bu birkaç şeyi düşünmek çok ilginç. Hadi benimle birlikte çukura gidelim ~