Microsoft'un en son araştırması: Bırakın "drone" muhakeme yeteneğinde ustalaşsın, doğru eylemi yapmak için resme bakın

İster kalabalık bir kaldırımda yürürken ister bir topluluk futbol liginde bir gol atıyor olsun, insanlar neredeyse her şeyi yapmak için bilinçaltında algı-eylem döngüsünü kullanacaklar. Algılama-eylem döngüsü, aynı zamanda "otonom sistemin" özü olan sürekli bir gerçek zamanlı döngüde doğru eylemler yapmak için duyusal girdiyi kullanmamıza izin verir.

Bununla birlikte, mevcut nesil robotlar ve diğer "otonom sistemler", doğrudan görsel verilere dayalı olarak doğru kararlar alma konusunda hala insanların çok gerisindedir ve bunlar, büyük miktarlarda gerçek dünya verilerini toplamanın zorluğu nedeniyle hala sınırlıdır. Ek olarak, büyük miktarda simüle edilmiş veriyi kolayca oluşturabilsek de, bu tür veriler genellikle gerçek hayatta çeşitli senaryolarda güvenli davranışa neden olmaz.

Robotların insanlar gibi "otonom" yeteneklere sahip olmasını nasıl sağlayabilirim? Microsoft araştırmacılarından bir çalışma, büyük olasılıkları görmemize izin verin.

Araştırmacılar bize böyle bir makine öğrenimi sistemi tanımladı: robotların doğru eylemleri doğrudan kamera görüntülerinden çıkarmasına yardımcı olabilir. Drone'u örnek olarak alın, drone, simülasyon öğrenimi yoluyla belirli bir rotanın navigasyonunu tamamlayabilir.

(Kaynak: Microsoft)

Simülasyon eğitimi sayesinde robotlar, gerçek dünyadaki ortamı ve koşulları (görünmeyen durumlar dahil) bağımsız olarak gözlemlemeyi öğrenebilir ve ardından doğru kararlar verebilir, bu da robotu arama kurtarma görevleri için çok uygun hale getirir. Araştırmacılar, yakın gelecekte bu makine öğrenimi sisteminin robotların ihtiyacı olan insanları daha hızlı belirlemesine yardımcı olabileceğine inanıyor.

İnsan beyninden esinlenen sistem, görsel bilgileri doğrudan doğru kontrol eylemlerine eşler, yani yüksek boyutlu bir video karesi dizisini gerçek dünyanın durumunu temsil eden düşük boyutlu bir forma dönüştürür. Araştırmacılara göre bu yaklaşım, modelin yorumlanmasını ve hata ayıklamasını kolaylaştırıyor.

Şekil | Sistem çerçevesi, simülasyon öğrenimi yoluyla birden çok veri modelinin düşük boyutlu durum temsillerini kullanır (Kaynak: Microsoft)

Araştırmacılar, Microsoft'un resmi web sitesindeki bir blog gönderisinde şunları yazdı: "Bu sistemi, mevcut teknolojiyi insanların çevresel uyarılara yanıt verme, zor koşullara uyum sağlama ve otonom olarak çalışma becerisine yaklaştırmak için kullanmayı umuyoruz. İnsan düzeyinde otonom bir sistem için yapılması gerekenler. "

Drone deneyi

Makine öğrenimi sistemleri çerçevesinde, araştırmacılar algılama bileşenlerini (yani, gördüklerini anlamak) kontrol stratejilerinden (gördüklerine göre ne yapacaklarına karar verme) ayırırlar. "Algılama-eylem döngüsünü iki modüle bölerek ve çoklu veri modellerini algısal eğitim aşamasına dahil ederek, ağın gelen verilerin alakasız özelliklerine aşırı uymasını önleyebiliriz. Örneğin, simülasyon ve fiziksel deneyler için kullanılmasına rağmen Ortadaki kapılar aynı boyutta, ancak genişlikleri, renkleri ve hatta iç kamera parametreleri bile farklı. "Dedi.

Ekip, makine öğrenimi çerçevesini ön kameralı küçük bir quadcopter'a uyguladı. Ekip, yalnızca kameradaki görüntüleri kullanarak, belirli bir rotayı tamamlamak için drone'a bir AI stratejisi öğretmeye çalıştı. Navigasyon.

Araştırmacılar, yapay zekayı simüle edilmiş bir ortamda eğitmek için AirSim adlı yüksek kaliteli bir simülatör kullanıyor ve ardından bunu gerçek dünyadaki dronlara dağıtıyor. Bunlar arasında, temel zorluk, modelin simülasyon ile gerçek dünya (aydınlatma, doku gibi) arasındaki farklılıklara (belirli bir yapı / boyut parametresi bozulma altında belirli diğer performans özelliklerini korumak için kontrol sistemine atıfta bulunarak) karşı sağlam olması gerektiğidir. Bu amaçla, araştırmacılar, simülasyon ile gerçeklik arasındaki boşluğu yakından köprüleyen temsiller oluşturmak için Çapraz Modal Değişken Otomatik Kodlayıcı (CM-VAE) adlı bir çerçeve kullandılar ve böylelikle ilgisiz verilere aşırı uyum sağlamayı önlediler.

Drone deneyinde, bir veri modu orijinal etiketlenmemiş sensör girişini (FPV görüntüsü) dikkate alırken, diğer veri modu doğrudan mevcut görevle ilgili durum bilgilerini açıklar, ikincisi ise drone koordinatlarına karşılık gelir. Çerçevede tanımlanan bir sonraki kapının göreceli duruşu. Araştırmacılar, altta yatan ortamın düşük boyutlu bir temsilini elde etmek için CM-VAE çerçevesini genişletti. Çerçeve, her veri modalitesi için bir kodlayıcı-kod çözücü çifti kullanır ve tek bir gizli alan arasında tüm girişleri ve çıkışları aynı anda sıkıştırır (Şekil b). Sistem, etiketli ve etiketlenmemiş veri modellerini doğal olarak gizli değişkenlerin eğitim sürecine dahil eder ve ardından gizli değişkenleri drone'nun hız komutuyla eşleştiren derin bir kontrol stratejisi eğitmek için taklit öğrenmeyi kullanır (Şekil a).

Şekil | a. Kontrol sistemi mimarisi. Drone'dan gelen videonun giriş görüntüsü, potansiyel bir çevresel temsile kodlanmıştır. Bir kontrol stratejisi, gerekli robot kontrol komutlarının çıktısını almak için düşük boyutlu yerleştirmeye etki eder. b. Çapraz modal VAE mimarisi. Her veri örneği ayrı bir gizli alana kodlanır, bu gizli alan bir görüntüye dönüştürülebilir veya kapının drone ile ilgili tutumu gibi başka bir veri modalitesine dönüştürülebilir. (Kaynak: Microsoft)

Sistemin algılama modülü, girdi görüntüsünü 27.648 değişkenden onu tanımlayabilecek en temel 10 değişkene kadar yukarıda belirtilen düşük boyutlu gösterime sıkıştırır. Çözülen görüntü, olası tüm kapıların boyutu ve konumu ile diğer farklı arka plan bilgileri dahil olmak üzere dronun ileride görebileceklerinin bir açıklamasını sağlar.

Şekil | Çapraz modal gösterimle oluşturulan bulanık görüntünün görselleştirilmesi, kodu çözülen görüntü doğrudan kapıya karşılık gelen arka plan bilgilerini yakalar (Kaynak: Microsoft)

Araştırmacılar, bu sistemin yeteneklerini 45 metre uzunluğundaki S şeklinde kapılı bir rayda ve farklı kapılara sahip 40 metre uzunluğunda dairesel bir yolda test ettiler. CM-VAE kullanmanın etkisinin, bir sonraki konumu doğrudan kodlayan uçtan uca yapay zeka stratejisinden önemli ölçüde daha iyi olduğunu söylediler.Arkaplanda "güçlü" görsel girişim olsa bile, drone çapraz modal algılama modülünü kullanarak görevi başarıyla tamamlıyor.

Şekil | 45 metre uzunluğunda S şekilli yol ve 40 metre uzunluğunda dairesel yol (Kaynak: Microsoft)

Araştırmacılar, bu sonuçların sistemin gerçek dünya uygulamaları için "büyük potansiyelini" gösterdiğini söylediler. Örneğin, yaş, vücut büyüklüğü, cinsiyet ve ırktaki farklılıklara rağmen, sistem otonom arama ve kurtarma robotlarının insanları daha iyi tanımasına yardımcı olabilir, böylece robotların ihtiyacı olan insanları daha iyi tespit etme ve bulma şansı olabilir.

Kusursuz deney

Drone deneylerinin sonuçları gerçekten heyecan verici olsa da. Ancak araştırmacılar, deneyde beklenmedik bir sonuçla karşılaştıklarını söylediler. Temsil modelini eğitmek için etiketlenmemiş gerçek dünya verilerini etiketli simüle edilmiş verilerle birleştirmek, genel performansı iyileştirmedi.Sadece simüle edilmiş verileri kullanmak daha iyidir.

Bu bağlamda, gelecekteki çalışmaların ilginç bir yönünün, simüle edilmiş ve gerçek görüntülerle kodlanan benzer sahneler arasındaki potansiyel uzaysal mesafeyi azaltmak için rakip teknikler kullanmak olduğuna inanıyorlar, bu da eğitim ve test sırasında veri dağıtımındaki farklılığı azaltacaktır. Ek olarak, araştırmacılar, etiketlenmemiş verilerin strateji öğrenimi için kullanımının genişletilmesini öngördüler. Örneğin, görüntülere ek olarak, ortamı nasıl karakterize edeceğinizi öğrenmek için farklı veri modellerini (lazer ölçümü, hatta ses) birleştirmek mümkün müdür?

Hala bazı sorunlar olsa da, drone deneyinin başarısı, bu yöntemin diğer gerçek robot görevlerine uygulanmak için büyük bir potansiyele sahip olduğunu kanıtlıyor.Diğer robotların da girdileri gerçek zamanlı olarak yorumlamak ve güvenli çalışmayı sağlarken yapmak için benzer yeteneklere ihtiyacı var. Doğru kararı verin.

GitHub Portalı:

https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation

Artık "tek bir fide" değil, yerli derin öğrenme açık kaynak çerçevesi İlkbahar ve Sonbahar Dönemine giriyor
önceki
Anti-salgın gevşemiyor, ilk mağaza özel bir deneyim yaratıyor, Şangay'ın kültür ve turizm ticari kompleksi "popülerlik" alıyor
Sonraki
Salgından sonra hala bahar geliyor! Şangay Anti-salgın Sanat Fotoğrafçılığı Teması Sergisi Bugün Açılıyor
Lei Jun, LV topraklaması Xiaohongshu'nun ilk gösterisini canlı yayınlamak için B istasyonunda bir maske takıyor
Huawei, Xiaomi ve OPPO'nun TWS kulaklıkları için teknik lütuf, bu şirket nasıl kırıldı?
Kaçabilen AI drone basketbolu vuramaz! Yeni algoritma, uçakları daha akıllı hale getiriyor | Röportaj
Trump ve Musk'ın desteğiyle, "sihirli ilaç" klorokin yeni taca ne kadar dayanabilir?
SpaceX yine rekor kırdı! "5-el" Falcon 9 roketi başarıyla fırlatıldı ve 60 uydu daha konuşlandırıldı
100 milyon nöron bilgi işlem sistemi doğdu ve yarı iletken devin yeni nesil bilgi işlem bölgesi görünmeye başladı
Londra veya şehir kapalıdır, Birleşik Krallık salgının ikinci bir salgınını önlemek için hala "sürü bağışıklığı" mantığını korumaktadır.
Çin ekibinin en son araştırması, bilgisayar "kelime düzeyinde dudak okuma" nın doğruluğunu% 84.41'e çıkardı.
Az önce, en son Turing Ödülü açıklandı! İki Pixar "eski çalışanı" ödüllendirildi
Kiraz çiçeği manzarası olmadan Mart mükemmel değil, en eksiksiz sihirli şehir kiraz çiçeği görüntüleme haritası burada
Dongfang.com'un çok uluslu işbirliği kamu refahı şarkısı "Dünyayla Konuşmak İstiyorum" Liao Changyong Jike Junyi sevgiyle şarkı söyledi
To Top