Derin öğrenmeyi robotik alanına entegre etmeye yönelik herhangi bir girişim var mı? Zorluklar nelerdir?

Lei Feng net notu: Bu makalenin yazarı, Şangay Jiaotong Üniversitesi Robotik Enstitüsü'nde doktora öğrencisi, Tsinghua Üniversitesi Makine Mühendisliği Bölümü'nden mezun oldu, ana araştırma yönü makine görüşü ve hareket planlamasıdır ve WeChat kamuya açık hesapta bazı eğlenceli içerikler yazacak: Nao (ID: qRobotics ). Bu makale kendi kendine bilgi yanıtını düzenler: Derin öğrenmeyi robotik alanına entegre etmeye yönelik herhangi bir girişim var mı? Zorluklar nelerdir?

Artık derin öğrenme o kadar popüler ki, herkes kendi araştırma alanlarında kullanılıp kullanılamayacağını görmek isteyecek. Bu nedenle, derin öğrenmeyi robotik alanına entegre etme girişimleri de vardır. Anladığım iki yönü (vizyon ve planlama) kısaca tanıtmama izin verin.

Nesne tanıma

Aslında düşünülmesi en kolay yön budur.DL'yi karşılaştırmak, görüntü tanımanın sonuçlarından kaynaklanıyor ve anlaşılmaya başlandı.

Burada orijinal CNN ağlarını doğrudan aktarabilir ve kullanabilirsiniz. Spesifik işten bahsetmeyeceğim. Amazon Picking Challenge (APC) 2016'nın başka bir yanıtında tanıma ve hareket planlaması için ana akım algoritma nedir? Aşağıda belirtildiği gibi, 2016 "Amazon Tarama Yarışması" nda birçok ekip, nesne tanıma algoritması olarak DL'yi benimsedi.

Nesne konumlandırma

Elbette makine görüşü bilgisayar görüşünden biraz farklıdır. Nesne tanımaya ek olarak, robotik alanındaki vizyon, nesne konumlandırmayı da içerir (nesneleri manipüle etmek için nesnenin pozunu bilmeniz gerekir).

2016 yılında APC, birçok kişi nesne tanıma için DL kullanmasına rağmen, nesne konumlandırma için hala daha basit veya geleneksel algoritmalar kullanıyorlar. Öyle görünüyor ki, DL yaygın bir şekilde benimsenmiyor.

Tabii ki bu kimsenin yapmadığı bir şey değil. Laboratuvarımızdaki Dr. Zhang da bunu deniyor. Dr. Zhang'ın daha önce araştırdığı önyargılı tezin çalışmasını kısaca tanıtmama izin verin.

Doumanoglou, Andreas, et al. "6d nesne pozunu kurtarma ve kalabalıkta bir sonraki en iyi görünümü tahmin etme." IEEE Bilgisayar Görüsü ve Örüntü Tanıma Konferansı Bildirileri. 2016.

Bu çalışma kabaca şu şekildedir: Bir nesne için birçok küçük RGB-D verisi alın; her küçük parçanın bir koordinatı vardır (nesne koordinat sistemine göre); sonra, önce verilerin boyutluluğunu azaltmak için bir otomatik kodlayıcı kullanın; sonra, Hough Forest'ı eğitmek için azaltılmış boyutsallık özelliklerini kullanın.

Bu şekilde, gerçek nesne tespit edildiğinde, nesnenin yüzeyindeki RGB-D verilerini örnekleyerek bir poz tahmin edebilirim.

Hareket oluşturmayı yakala

Bu, daha önce başka bir soruda tanıtıldı (Geleneksel RCNN, resimdeki konumlandırma nesnesinin konumunu kabaca çerçeveleyebilir, ancak bu resimdeki konumu fiziksel dünyanın konumuna nasıl dönüştürebilirim?), İki resim koyun

3DPoint Bulutlarında Tutma Pozlarını Algılamak için Geometri Kullanma

Yoğun dağınıklıkta yüksek hassasiyetli kavrama poz tespiti

Kontrol / planlama

Bu parça şu anda ilgilendiğim yer.

Basitçe söylemek gerekirse, pekiştirmeli öğrenmenin mobil robotların yol planlamasında kullanılabileceğini biliyoruz. Bu nedenle, teorik olarak, kontrol veya planlama için DL'nin İşlev Yaklaşımı ve Politika Gradyanı birleştirilebilir. Elbette, mevcut çalışmanın orijinal geleneksel yöntemleri değiştirmeden önce daha uzun bir yolu var, ancak bunlar aynı zamanda çok ilginç girişimler.

Birkaç iş koyun, ayrıntılar için kağıtlarına bakın.

1. Dağınık doğal ortamlarda monoküler reaktif İHA kontrolünü öğrenmek

CMU drone ormanın içinden geçer

2. Algıdan Karara: Otonom Yer Robotları için Veriye Dayalı Bir Yaklaşım Uçtan Uca Hareket Planlamaya

ETH iç mekan navigasyonu

3. Derin Öğrenme ve Büyük Ölçekli Veri Toplama ile Robotik Kavrayış için El-Göz Koordinasyonunu Öğrenmek

DeepMind nesne kapma

4. Derin görsel motor politikalarının uçtan uca eğitimi

Berkeley şişelerin kapaklarını sıkıyor ve diğer görevler

Zorluklar nelerdir

1. Görüş alanında, nesne tanımaya ek olarak, nesne konumlandırması da gereklidir. Bu bir regresyon problemidir, ancak şu anda, regresyonun doğruluğu doğrudan nesne işlemleri için kullanılamaz (belki de veri miktarı yeterli değildir veya uygun ağ yapısı henüz bulunamamıştır), bu nedenle genellikle ICP vb. Kullanmak gerekir. Algoritma, son eşleşen yinelemeyi gerçekleştirir.

2. Robot planlamasında / kontrolünde daha fazla sorun olabilir. Leifeng.com'da (Hareket Planlama | Video) "Hard Creation Open Class" canlı yayını sırasında karşılaştığım bazı sorunlardan bahsetmiştim, aşağıda kısaca listelenmiştir:

Gözlenebilirlik sorunu

Basitçe söylemek gerekirse, DL teorisini yapmayanlarımız, DL'nin yakınsama ve genelleme yeteneklerinin yeterli olduğunu varsayar. Dikkat etmemiz gereken şey, DL'ye hangi verilerin besleneceğidir. Başka bir deyişle, DL yeteneğinin yeterince güçlü olduğu varsayıldığında, çözmem gereken sorunu hangi veriler önemli hale getirebilir?

Tabii ki, mevcut çalışma bu noktaya değinmedi.Berkeley'in makalesi doğrudan güçlü bir varsayımda bulundu: veri verildiğinde (mevcut görüntü, robot ortak durumu), durum önemli.

Gerçek robot işleminde, sistem durumu çevre ile ilgili olabilir (nesnenin doğası gibi), bu nedenle bu sorun, gelecekte robotlarda DL kullanıldığında atlanamayacak bir sorun olmalıdır.

Veri miktarı

Bir yandan, sorunun yakınsaması için ne kadar veriye ihtiyaç olduğunu bilmiyoruz. Öte yandan, gerçek robotun bir işlemi gerçekleştirmesi zaman alır, hasara neden olabilir ve deneysel koşulları bozabilir (manuel kurtarma gereklidir) Veri toplamak, görüntü tanıma ve ses tanımadan çok daha zordur.

Çözülebilir mi

Canlı yayın sırasında bir örnek verdim Siyah engelin pozisyonu sürekli soldan sağa değiştiğinde, planlama algoritmasının çıkardığı en kısa yol aniden değişecektir. (Videoyu izleyerek daha net olabilir)

Bu, DL'ye karşılık gelir, yani ağ girişi sürekli değişir, ancak çıktı belirli bir anda aniden değişir. Dahası, en kısa yolun birden çok çözüm gibi sorunları olabilir.

DL'nin İşlev Yaklaşımı bu durumla iyi başa çıkabilir mi?

Evet, bu birkaç şeyi düşünmek çok ilginç. Hadi benimle birlikte çukura gidelim ~

Kuzeyde pişmiş toprak savaşçılar ve güneyde Zhanghua Terası var.
önceki
"49 sipariş ettim, artık yok!" Endonezya, Boeing 737MAX8 siparişlerini iptal etmek istiyor, toplam fiyat 6 milyar ABD doları!
Sonraki
10 klasik Japon suç gerilim filmini tavsiye edin
Çin'deki en büyük İngiliz manzara resmi sergisi, işte sergiyi görmenin ücretsiz bir yolu!
Tencent, "King of Glory" nin en katı gerçek adı, kamu güvenliği veri platformuna erişimi başlatacağını duyurdu.
"Lilliputian Country" dünyasını keşfetmek hem beyin açıcı hem de iyileştirici!
40 yuan 1 kg! Sanitasyon çalışanı ikramiye karşılığında sigara izmariti alıyor. En fazla bir kişi ayda 6 kilo alıyor
* ST Changsheng listeden çıkarmak zorunda kaldı! 7 ardışık günlük limitin ardından, Bosha Capital şaşkına döndü ............
Monster Hunter World'de yabancı oyuncular hangi yüzü sıkıştırıyor?
Tadı 300 segment artıyor! Tencentin yeni müzik uygulaması gerçekten harika
"Umut olduğu sürece, maksimum kurtarma yeteneğini kullanın!" 40 saat tuzağa düştükten sonra, itfaiye onu enkazdan çıkardı ...
Otoriter tasarım! Vivo LOGO TELEFON Canlı Ön İzleme
Bir saniyede gişe rekorları kıran bir oyuncu olun! Bu uygulama, elle çizilmiş edebi videolar çekmenize olanak tanır
Jin Yong vefat etti: Şarap içildi, güle güle Jianghu!
To Top