CVPR2019 | Uzamsal yapı bilgilerini koruyan bir yörünge tahmin yöntemi olan ajan tensör füzyonu

Lei Feng.com'un Yapay Zeka Teknolojisi İncelemesine göre, bu makale, bilgisayar görüşü alanında en iyi uluslararası bir konferans olan CVPR 2019'da seçilen "Bağlamsal Yörünge Tahmini için Çoklu Ajan Tensör Füzyonu" makalesinin bir yorumudur. Makale, Wang Yizhou'nun Peking Üniversitesi, UCLA'daki araştırma grubu ve MIT CSAIL tarafından desteklenen otonom bir sürüş şirketi olan ISEE Inc tarafından ortaklaşa tamamlandı. Bu makale temel olarak derin öğrenmeye dayalı bir araç ve yaya yörünge tahmin yöntemi önermekte ve mekansal yapı bilgilerini koruyabilen çok etmenli bir tensör füzyon ağı önermektedir.Modelin performansı araç sürüşü ve yaya yörüngesi veri setlerinde değerlendirilmektedir. doğrulama.

Ana metin aşağıdaki gibidir ve Leifeng.com AI Technology Review, yeniden basma yetkisine sahiptir.

Giriş

İnsan sürücüler, güvenli ve hızlı sürüş rotaları planlamak için diğer araçlar ve yayalarla çarpışmalardan kaçınmak için yakındaki araçların ve yayaların gelecekteki davranışlarını sürekli olarak tahmin eder. Kendi kendine giden arabalar, kazalara pasif bir şekilde tepki vermek yerine gelecekteki sosyal etkileşimlerden önce proaktif olarak plan yapmak için diğer insanların ve arabaların yörüngelerini de tahmin etmelidir. Bunu yapmak, ani frenleme, birleşme ve keskin dönüşler gibi güvenli olmayan davranışlardan kaçınmaya çalışabilir. Temel olarak, yörünge tahmini, otonom araçların, bu riski en aza indiren bir sürüş planı seçmek için, bu durumlara göre belirli bir planın risklerini değerlendirmek için gelecekte karşılaşacakları olası durumları anlamalarına izin verir. Bu, otonom sürüş sistemine, hata ayıklama ve doğrulama için gerekli olan bir yorumlanabilirlik katmanı ekler.

Yörünge tahmin problemi Bu zorlayıcıdır çünkü ajanların eylemleri rastgele ve hedeflerine, diğer ajanlarla sosyal etkileşime ve bulundukları sahnenin fiziksel kısıtlamalarına bağlıdır. Tahmin, farklı senaryolarda sürekli değişen aracıların sayısı ve türlerine de genelleştirilmelidir. Sinir ağı tabanlı tahmin algoritmalarının benzer bilgileri kodlaması genellikle zordur, çünkü standart sinir ağı mimarisi yalnızca sabit girdi, çıktı ve parametre boyutlarını kabul eder ve bu tür tahmin görevi için bu parametre boyutları senaryodan senaryoya değişecektir. Önceki makaleler ya yörünge tahmini için Social LSTM ve Social GAN gibi aracı merkezli yöntemler kullanıyordu ya da bu sorunu çözmek için Chauffeur Net gibi uzamsal merkezli kodlama yöntemlerini kullanıyordu. Ajan odaklı kodlama, birden fazla ajanın özellik vektörleri üzerinde toplama işlevlerini çalıştırırken, uzamsal yapıya yönelik yöntem, kuş bakışı görünümden sahne temsili üzerinde doğrudan işlemler gerçekleştirir.

Ve Çoklu Ajan Tensör Füzyonu (MATF), yenilikçi bir çok ajanlı tensör füzyon kodlayıcı-kod çözücü (Kodlayıcı-Kod Çözücü) ağ mimarisi önerir. Mimari, sosyal etkileşim ve sahnenin fiziksel kısıtlamaları hakkında tüm ilgili bilgileri temsil etmeyi ve çıkarmayı öğrenmek için uçtan uca eğitim yoluyla, aracı odaklı ve mekansal yapıya yönelik yörünge tahmin yöntemlerinin güçlü yönlerini birleştirir. Şekil 1, MATF'nin çekirdek tensörü MAT'nin yapısını göstermektedir.Bu tensör, sahnenin özellik kodlamasını, sahnedeki her bir ajanın geçmiş yörüngesinin özellik kodlama vektörü ile mekansal olarak hizalar, statik sahnelerin ve çoklu ajanların alanını korur. Konumsal ilişki. Daha sonra, Tam Evrişimli Katmanlar aracılığıyla bir füzyon çok aracılı tensör kodu oluşturulur (sonraki bölüme bakın). Bir yandan bu kodlama yöntemi, çok-etmenli tensördeki tüm etmenlerin uzamsal yapısını ve statik sahneleri, uzamsal bilgiyi yakalamak için mekansal yapıya yönelik bir yöntem gibi doğal olarak koruyabilirken, diğer yandan da etmen yönelimli bir yöntem kadar hassas olabilmektedir. Çoklu aracılar arasındaki ince sosyal etkileşimleri yakalayın.

MAT kodlaması, Çoklu Aracı Kodlama Kanalları (üstte) ve Sahne Bağlam Kodlama Kanalları (üstte) dahil olmak üzere, statik sahnelerin ve dinamik çoklu aracıların (Özellik Haritası) kuşbakışı görünümünün bir özellik haritasıdır. altında). Tek Ajan LSTM kodlayıcı tarafından çıkarılan çok ajanlı bireysel özellik vektörleri (kırmızı), çok ajanlı bir kodlama kanalı oluşturmak için bu ajanların koordinatlarına göre uzamsal olarak hizalanır. Çok aracılı kodlama kanalı, aracı ve sahne arasındaki uzamsal yapıyı korumak için statik sahne kodlama kanalıyla (sahne kodlayan tam evrişimli ağın çıktı özelliği haritası) hizalanır.

MAT daha sonra sahnedeki tüm ajanların gelecekteki yörüngesini aynı anda tahmin etmek için sosyal etkileşimi ve sahnenin fiziksel kısıtlamalarını birleştiren MAT kodlama sonucunun kodunu çözer. Gerçek dünyadaki insan davranışı deterministik değildir, temsilciler aynı sahnede farklı davranışlar sergileyebilirler. MATF, öngörülen yörüngedeki bu belirsizliği yakalamak için Koşullu GAN'ı kullanır.

MATF, sürüş veri seti ve yaya kalabalık veri seti üzerinde yeni önerilen modeli doğruladı. Makale raporları aşağıdaki veri kümelerinden elde edilmektedir: Halka açık NGSIM sürüş veri kümesi, Stanford Drone veri kümesi (Stanford Drone veri kümesi), ETH-UCY kalabalık veri kümesi ve yakın zamanda toplanan açıklanmamış Massachusetts sürüş verileri Ayarlamak. Makale, modelin her bir bölümünün katkısını gösteren nicel ve nitel deneysel sonuçları bildirmektedir. Alandaki en gelişmiş makaleler ile nicel bir karşılaştırma, önerilen yöntemin otoyol sürüşü ve yaya yörünge tahmininde en iyi performansa sahip olduğunu göstermektedir.

Ağ mimarisi

Çoklu ajan tensör füzyonunun (MATF) ağ mimarisi diyagramı aşağıda gösterilmiştir:

Ağın girdisi, geçmiş zaman periyodundaki tüm ajanların yörüngesi ve kuş bakışı görünümünden statik sahne görüntüsüdür. Her ajanın geçmiş yörüngesi ve statik sahne görüntüsü, döngü (Tek Ajan LSTM Kodlayıcılar) ve evrişimli kodlama akışları tarafından bağımsız olarak kodlanır. Kodlanmış çok-etmenli vektör ve statik sahne özellik haritası, çok-etmenli bir tensör oluşturmak için uzamsal olarak hizalanır. Örneğin, şekildeki 3-D kara kutu (aşağıda) turuncu madde etrafındaki çok etmenli tensör dilimini göstermektedir.

Daha sonra, U-Net benzeri tam evrişimli ağ (Evrişimli Operatör: Çok Ajanlı Tensör Füzyonu), mekansal yapıyı her zaman korurken, sosyal etkileşim ve mekansal fiziksel kısıtlamalara ulaşmak için yapılandırılmış çok-etmenli tensör üzerinde hareket eder. Ve uzamsal yerellik özellikleri, tam evrişimli ağ nihayet kaynaşmış çok-etmenli tensörü (yukarıda) verir. Her bir kaynaştırılmış ajan vektörü, tensör diliminden türetilir ve çıkarım işlemeden sonra karşılık gelen ajanın sosyal etkileşim bilgilerini, kendi tarihsel yörünge bilgisini ve çevreleyen sahnenin fiziksel kısıtlama bilgisini içerir. MATF mimarisi paylaşılan bir evrişim işlemi yürüttüğü için, tüm ajanların karşılık gelen füzyon vektörlerinin aynı ileri yayılmada hesaplanabileceğini belirtmek gerekir. Örneğin, düz mavi kutu (yukarıda) ile temsil edilen ajan füzyon vektörü, evrişimli katmanın alıcı alanındaki ajanın yakınındaki tüm ajanlardan ve sahne özelliklerinden kapsamlı çıkarım bilgilerini içerir.

Bundan sonra, MATF, ajanın son kodlama vektörünü elde etmek için ilgili ajanın orijinal kodlama vektörüne kalıntılar olarak bu kaynaşmış özellik vektörlerini ekler. Bu vektörler nihayetinde bağımsız olarak döngüsel sinir ağı kod çözücüleri (Tek Ajan LSTM Kod Çözücüleri) tarafından bu ajanların gelecekteki yörüngelerine ilişkin ağın tahmin sonuçlarına kod çözülecektir. Tüm MATF mimarisi tamamen farklılaştırılabilir ve uçtan uca eğitimi destekler.

Örnek sürüş veri seti deney sonuçları

Massachusetts sürüş veri setinin niteliksel deneysel sonuçlarının bir örneği yukarıda gösterilmiştir. Her aracın geçmiş yörüngesi farklı bir renkte görüntülenir ve ardından ağın bu araçların gelecekteki yörüngesine ilişkin tahminine bağlanır. Doğru sonucun yörüngesi (Yer Gerçeği) siyah olarak görüntülenir ve şeridin merkezi gri olarak görüntülenir.

(A) Beş aracı içeren karmaşık bir senaryo; MATF, tüm araçların yörüngesini ve hız dağılımını doğru bir şekilde tahmin etti;

(B) MATF, kırmızı aracın şerit değişimini tamamlayacağını doğru bir şekilde tahmin etti;

(C) MATF, kırmızı aracın otoyol çıkışına girip girmeyeceğinin belirsizliğini yakalar.

(D) Mor araç otoyol çıkışını geçtiğinde, MATF çıkmayacağını tahmin ediyor.

(E) Burada, MATF gelecekteki gerçek yörüngeyi tam olarak tahmin edemez; ancak, az sayıda örneklenmiş yörünge, kırmızı aracın şerit değiştirmeye devam edeceğini başarıyla tahmin etmektedir.

Deneysel sonuçların yaya veri kümesi örneği

Stanford İHA veri setinin niteliksel deneysel sonuçlarının bir örneği yukarıda gösterilmiştir. Soldan sağa MATF çoklu-aracı-sahne çıkarım modeli, MATF çoklu-aracı-senaryosuz çıkarım modeli ve LSTM kıyaslama modeli tahmin sonuçlarıdır. Tahmin için kullanılan tüm modeller deterministik modellerdir. Mavi çizgi geçmiş yörüngeyi gösterir, kırmızı gerçek gelecekteki yörüngedir ve yeşil, üç model tarafından öngörülen gelecek yörüngedir. MATF, şekilde gösterilen tüm ajanların gelecekteki yörüngelerini ileriye doğru yayılma yoluyla aynı anda tahmin edebilir. Yeşil öngörülen yörünge, kırmızı gerçek gelecek yörüngesine ne kadar yakınsa, tahmin o kadar doğru olacaktır. MATF çok etmenli sahne çıkarım modeli başarıyla tahmin etti:

(1) İki kişi veya bisiklet, döner kavşağa üstten girer ve sola doğru gider;

(2) Döner kavşağın sol üst yolundaki bir yaya sola dönüyor ve görüntünün üstüne doğru hareket ediyor;

(3) Döner kavşağın sağ üst köşesindeki binanın girişinde bir kişi yavaşlar;

(4) İlginç bir başarısızlık durumunda, döner kavşağın sağ üst köşesindeki kişi sağa döndü ve görüntünün üstüne taşındı; model dönüşü başarıyla tahmin etti, ancak dönüşün aciliyet derecesini tahmin edemediği için başarısız oldu.

MATF çok etmenli sahne çıkarım modeli, bunların ve diğer çeşitli senaryoların yörüngesini doğru bir şekilde tahmin etti; bunlardan bazıları yaklaşık olarak MATF çok aracılı senaryo içermeyen çıkarım modeli tarafından da tahmin edildi, ancak senaryoların çoğu kıyaslanmadı. LSTM modeli bunu öngörür.

Daha fazla ayrıntı ve deneysel sonuçlar için lütfen orijinal makaleye bakın:

https://arxiv.org/abs/1904.04776

Referanslar:

A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei ve S. Savarese.Sosyal lstm: Kalabalık alanlarda insan yörüngesi tahmini.IEEE Uluslararası Bilgisayar Görüsü ve Örüntü Tanıma Konferansı Bildirilerinde, 2016.

A. Gupta, J. Johnson, L. Fei Fei, S. Savarese ve A. Alahi.Sosyal gan: Üretken hasım ağları ile sosyal olarak kabul edilebilir yörüngeler. IEEE Uluslararası Bilgisayar Görüsü ve Örüntü Tanıma Konferansı Bildirileri, 2018.

M. Bansal, A. Krizhevsky ve A. S. Ogale. Chauffeurnet: En iyiyi taklit ederek ve en kötüyü sentezleyerek araba kullanmayı öğrenmek. CoRR, abs / 1812.03079, 2018.

Yarın Dragon Boat Festivali kolej giriş sınavıyla buluşacak.
önceki
Meitu Görüntüleme Laboratuvarı (MTlab) 10.000 puan önemli nokta teknolojisi tam yorumlama
Sonraki
Eski Pekin'de doğdu, bu halk spor programlarını bilmelisin
Qiao Xin ayakkabılarını değiştirmekte haklıdır, güzel bacaklarını gösterebilir ve eteğinin güzelliğini gösterebilir.
ICLR 2019'daki en son ilerlemeyi bir bakışta öğrenin
Jinke hızla güneye gitti ve iki yıl içinde on oğul doğurdu! Guangzhou'da ilk
Sana nasıl pişirileceğini öğret, bu şefin tarifidir
Sidney, "Doğayı Aydınlat" ışık gösterisi düzenledi
Oğlan nehirde intihar eden kızı kurtardı ve öğrendi ... Netizenler: Diziler böyle davranmaya cesaret edemez
Güçlüler daha güçlüdür! Guangdong'daki en iyi 20 gayrimenkul kredibilite şirketinin son beş yılda ortalama varlık değeri neredeyse dört katına çıktı
Meyve endüstrisinde meyve suyunun kralı, çiftçiler ona nakit inek diyorlar, erkekler, kadınlar ve çocuklar onu seviyor
Perulu gönüllüler Dünya Okyanus Gününü kutlamak için plajları temizliyor
Yağlı ama yağlı olmayan domuz göbeği, sebzelerle sarılmış ve biraz sarımsak, lezzetlidir
Sadece daha çok çalışabiliriz
To Top