ICLR2019 | Sen Takip Ederim: Aktif Görsel İzleme İçin Bir Yüzleşme Oyunu Mekanizması

AI Technology Review Press , Bu makale, "AD-VAT: Görsel Aktif İzlemeyi öğrenmek için Asimetrik Düello mekanizması" ICLR2019 belgesinin derinlemesine bir yorumudur. Makale, Öğretmen Wang Yizhou ve Tencent AI Lab araştırmacıları Sun Peng ve Luo Wenhan'ın rehberliğinde Pekin Üniversitesi Dijital Video Kodlama ve Kod Çözme Teknolojisi Ulusal Mühendislik Laboratuvarı doktora öğrencisi Zhong Fangwei ve Yan Tingyun tarafından tamamlandı. Araştırma ayrıca 2018 Tencent AI Lab Rhino Bird Özel Araştırma Programı için seçildi. Leifeng.com AI Technology Review yeniden basma yetkisine sahiptir.

Aktif görsel izleme nedir?

Görsel Aktif İzleme Ajanın, hedef nesnenin izlenmesini gerçekleştirmek için (hedeften belirli bir mesafe tutarak) görsel gözlem bilgisine göre kameranın hareketini aktif olarak kontrol ettiği anlamına gelir. Video çekmek için hedefleri takip etmek için dronları kullanmak ve valizleri akıllıca takip etmek gibi birçok gerçek robot görevinde aktif görsel izleme gereklidir. Aktif görsel izleme elde etmek için, temsilcinin hedef tanıma, yerelleştirme, hareket tahmini ve kamera kontrolü gibi bir dizi alt görevi gerçekleştirmesi gerekir.

Bununla birlikte, geleneksel görsel izleme yöntemlerinin araştırması, kamera hareketinin aktif olarak nasıl kontrol edileceğini düşünmeden, yalnızca hedefle ilgili 2B sınırlayıcı kutuyu ardışık karelerden çıkarmaya odaklanır. Bu nedenle, bu "pasif" izleme ile karşılaştırıldığında, aktif görsel izleme daha pratik uygulama değerine sahiptir, ancak aynı zamanda birçok zorluğu da beraberinde getirir.

Sol: Bir robot, hareket etmek için hedefi aktif olarak takip eder (İnternet'ten bir resim)

Sağda: Güçlendirici öğrenmeye ve geleneksel izleme yöntemlerine dayalı uçtan uca aktif izlemenin karşılaştırması

Derin takviye öğrenme yöntemleri umut vericidir, ancak yine de sınırlamaları vardır

Önceki çalışmada yazar, aktif görsel izlemeyi tamamlamak için uçtan uca bir ağı eğitmek için derin pekiştirmeli öğrenmeyi kullanma yöntemini önerdi; bu, yalnızca denetleyiciyi manuel olarak ayarlama ekstra çabasından tasarruf etmekle kalmaz, aynı zamanda iyi sonuçlar ve hatta doğrudan geçiş sağlar. Basit gerçek bir sahnede çalışın.

Bununla birlikte, derin pekiştirmeli öğrenme eğitimine dayalı bu izleyicinin performansı, eğitim yöntemi ile hala bir dereceye kadar sınırlıdır. Çünkü derin pekiştirmeli öğrenme, öğrenmek için çok fazla deneme yanılma gerektirir ve robotun gerçek dünyada denemesine ve yanılmasına doğrudan izin vermenin maliyeti yüksektir. Yaygın olarak kullanılan bir çözüm, eğitim için sanal bir ortam kullanmaktır, ancak bu yöntemle ilgili en büyük sorun, Sanal ve gerçeklik arasındaki farkın üstesinden nasıl gelinir? , Böylece model gerçek uygulamalara dağıtılabilir. Bu sorunu çözmek için, görsel navigasyon eğitimi için büyük ölçekli, yüksek kaliteli bir sanal ortam oluşturmak, ortamın çeşitliliğini artırmak için çeşitli faktörleri (yüzey dokusu / aydınlatma koşulları, vb.) Rastgele hale getirmek gibi bazı girişimler olmuştur.

Aktif görsel izleme eğitim problemi için, sadece ön ve arka plan nesnelerinin çeşitliliği değil, aynı zamanda hedefin yörüngesinin karmaşıklığı da izleyicinin genelleme yeteneğini doğrudan etkileyecektir. Ekstrem bir durum düşünülebilir: Hedef sadece eğitim sırasında ileri giderse, izci doğal olarak keskin dönüşler gibi diğer yörüngelere uyum sağlamayı öğrenmeyecektir. Bununla birlikte, hedefin hareketinin, yörüngesinin ve diğer faktörlerin ince modellemesi maliyetli olacaktır ve tüm gerçek durumları tam olarak simüle edemeyecektir.

Bırakın hedef ve izleyici "savaşsın"

bu nedenle Yazar, AD-VAT (Görsel Aktif İzlemeyi öğrenmek için Asimetrik Düello mekanizması) olarak adlandırılan, aktif görsel izleme eğitimi için rakip oyunlara dayalı bir takviye öğrenme çerçevesi önermektedir.

Bu eğitim mekanizmasında, izleyici ve hedef nesne bir "düelloda" bir çift rakip olarak kabul edilir (aşağıdaki resme bakın), yani izleyici hedefi takip etmeye çalışmalı ve hedef, takipten çıkmanın bir yolunu bulmalıdır. Bu tür bir rekabet mekanizması, karşılıklı gelişmeyi teşvik ederken birbirlerine meydan okumalarına izin verir.

Bir hedef bir kaçış stratejisini araştırırken, çok çeşitli hareket yörüngeleri üretecektir ve bu yörüngeler genellikle mevcut izleyicilerde hala iyi değildir.

Bu tür bir düşman hedef tarafından yönlendirilen izleyicinin zayıf yönleri daha hızlı açığa çıkacak ve ardından pekiştirmeli öğrenme gelecek ve sonuçta sağlamlığını önemli ölçüde artıracak.

Eğitim süreci sırasında, izleyici ve hedefin yetenekleri sıfırdan büyüdüğü için, her eğitim aşamasında birbirleriyle rekabet edebilme becerisine sahip bir rakiple karşılaşabilirler, bu da doğal olarak kolaydan kolaya geçişi oluşturur. Zor kurslar, öğrenme sürecini daha verimli hale getirir.

Bununla birlikte, yüzleşme eğitimi için doğrudan sıfır toplamlı bir oyun inşa etmek çok istikrarsızdır ve yakınsaması zordur.

AD-KDV'ye genel bakış

Yüzleşmeyi nasıl daha verimli ve istikrarlı hale getirebilirim?

Eğitim problemini çözmek için yazar iki iyileştirme yöntemi önermektedir: Tamamlanmamış sıfır toplamlı ödül işlevi (Kısmi sıfır toplamlı ödül) ve Hedef takibi için bilinebilir model (İzleyiciye duyarlı model).

Tamamlanmamış sıfır toplamlı ödül Sadece izleyiciyi ve hedefi belirli bir nispi aralıkta sıfır toplamlı bir oyun oynamaya teşvik eden karma bir ödül yapısıdır.Hedef belirli bir mesafeye ulaştığında ek ceza verilecektir.Şu anda artık sıfır toplamlı bir oyun olmayacak, bu yüzden denir Tamamlanmamış sıfır toplamlı ödüller için.

Ödül işlevi, bir fenomenden kaçınmak için bu şekilde tasarlanmıştır, hedef izleyiciden hızlı bir şekilde uzaktaysa, izleyici hedefi gözlemleyemez, böylece eğitim süreci verimsiz ve hatta dengesiz hale gelir.

Yukarıdaki formül, izleyicinin tasarım fikrini takip eden ödül işlevidir ve ceza maddesi, istenen konum ile hedef arasındaki mesafeye göre belirlenir.

Yukarıdaki formül, hedefin ödül fonksiyonudur.Gözlem aralığı içinde, hedef ve izleyici sıfır toplamlı bir oyun oynar, yani ödül işlevi, izleyicinin doğrudan negatif ödülüdür. Gözlem menzilinin dışında, orijinal esasa göre ek bir ceza süresi elde edilecektir Ceza süresinin değeri hedef ile izleyicinin gözlem sınırı arasındaki mesafeye bağlıdır.

Bilgilendirilebilir izleme modeli, hedefin izleme stratejisi için daha iyi bir yüzleşme stratejisi öğrenmesine izin vermektir, sözde "kendini ve düşmanı tanımak, yüz savaş asla bitmeyecek". Spesifik olarak, kendi görsel gözlemine ek olarak, izleyicinin gözlem ve eylem çıktısını da modele girdi olarak elde eder.

İzleyicinin özellik temsili hakkında daha iyi bilgi edinmek için yazar ayrıca bir yardımcı görev de sunar: izleyicinin anlık ödül değerini tahmin etme.

Yukarıdaki iyileştirmelere dayanarak, "Düello" nun iki tarafı gözlem bilgisi, ödül işlevi ve hedef görevde asimetrik olacaktır Bu nedenle, bu yüzleşme mekanizmasına "Asimetrik Düello" adı verilir.

laboratuvar ortamı

Yazar, yöntemin etkinliğini daha da doğrulamak için çeşitli farklı 2B ve 3B ortamlarda deneyler yaptı. 2D ortamı, engelleri, hedefleri, izleyicileri ve diğer unsurları temsil etmek için farklı değerler kullanan basit bir matris haritasıdır.

Yazar, haritadaki engellerin dağılımını oluşturmak için iki kural tasarladı (Blok, Labirent). Yazar, kıyaslama olarak iki kural tabanlı hedef hareket modeli tasarladı: Rambler ve Navigator.

Yürüteç, eylemi ve süreyi rastgele seçer ve oluşturulan yörünge genellikle yerel bir alan içinde hareket eder (Blok-Ram'deki sarı yörüngeye bakın).

Navigatör, haritadan hedef noktayı rastgele örnekler ve ardından hedefe ulaşmak için en kısa yolu izler, böylece navigatör daha geniş bir menzili keşfedecektir (Block-Nav'daki sarı yola bakın).

Bu farklı türdeki haritaların ve hedeflerin birleştirilmesi, sırasıyla farklı eğitim ve test ortamları oluşturur. Yazar, eğitim için haritalardan yalnızca birini (Blok) kullanır ve ardından modelin genelleme yeteneğini kanıtlamak için olası tüm ortam kombinasyonlarını test eder.

3D ortam, UE4 ve UnrealCV'ye dayalı sanal bir ortamdır. Yazar, eğitim için yalnızca rastgele etki alanı teknolojisini (ortamdaki nesnelerin yüzey dokusu ve aydınlatma koşulları rastgele ayarlanabilir) benimseyen bir oda (DR Odası, Etki Alanı Randomize Oda) kullanıyor ve ardından modeli gerçek sahnelere yakın üç farklı sahnede test ediyor. verim.

Deneysel sonuçlar

Bir 2D ortamında, yazar ilk önce AD-VAT'ın kıyaslama yöntemine kıyasla etkili bir gelişme sağlayabileceğini doğruladı ve iki geliştirilmiş yöntemin etkinliğini kanıtlamak için ablasyon deneyleri gerçekleştirdi.

Soldaki resim AD-VAT (mavi çizgi) eğitim eğrisini ve 2D ortamdaki karşılaştırma yöntemini gösterir.AD-VAT'ın izleyicinin daha hızlı ve daha iyi öğrenmesini sağlayabileceği görülebilir. Sağdaki resim ablasyon deneyinin sonucudur.Farklı modülleri sildikten sonra öğrenme eğrisinin karşılaştırılması, yazar tarafından önerilen iki geliştirilmiş yöntem, takviye öğrenmeye karşı eğitimi daha verimli hale getirebilir.

Yazarın 3D ortamdaki deneyleri, bu yöntemin etkinliğini ve uygulanabilirliğini daha da kanıtlamaktadır.

Eğitim sürecinde yazar ilginç bir fenomeni gözlemledi, hedef izleyicinin kafasını karıştıracak bir tür "görünmezlik" efekti elde etmek için arka plana ve kendi dokusuna yakın alana koşmaya daha meyilli olacak. İzleyici, sürekli olarak "şaşırtıldıktan" sonra, sonunda bu durumlara uyum sağlamayı öğrendi.

Yazar, AD-VAT ile eğitilen izleyicinin ortalama kümülatif ödülünü (soldaki resim) ve ortalama izleme uzunluğunu (sağdaki resim) ve farklı senaryolarda iki kıyaslama yöntemini karşılaştırdı.

Bunların arasında, Snow Village ve Parking Lot çok zorlu iki ortamdır.Her modelin performansı değişen derecelerde azalmıştır, ancak bu makalede önerilen model daha iyi sonuçlar elde etmiştir Bu, AD-VAT izleyicisinin karmaşık sahnelere daha uyarlanabilir olduğunu gösteriyor.

Xuexiang'ın ana sorunu, zeminin engebeli ve engebeli olması ve kameranın düşen kar taneleri, arka ışık halesi ve diğer faktörler tarafından engellenerek hedefin engellenmesine neden olmasıdır:

Soldaki resim, izleyicinin birinci şahıs görünümüdür ve sağdaki resim üçüncü şahıs görünümüdür.

Otoparktaki ışık dağılımı eşit değil (parlaklık önemli ölçüde değişiyor) ve hedef sütun tarafından engelleniyor olabilir:

Soldaki resim, izleyicinin birinci şahıs görünümüdür ve sağdaki resim üçüncü şahıs görünümüdür.

Referanslar:

Wenhan Luo *, Peng Sun *, Fangwei Zhong, Wei Liu, Tong Zhang ve Yizhou Wang. Güçlendirme öğrenimi aracılığıyla uçtan uca aktif nesne izleme, ICML 2018'de.

Wenhan Luo *, Peng Sun *, Fangwei Zhong *, Wei Liu, Tong Zhang ve Yizhou Wang. Uçtan uca aktif nesne takibi ve takviye öğrenimi yoluyla gerçek dünyadaki Dağıtımı, TPAMI 2019'da (baskıda).

Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang ve Alan Yuille. Unrealcv: Bilgisayar görüşü için sanal dünyalar. ACM-MM 2017'de.

Tıklamak Orijinal metni okuyun, Görünüm Google AI son blog yayını: Video modellerinde simülasyon stratejisi öğrenimi

Sürpriz mi yoksa korku mu? Makine öğrenimi algoritmalarının `` yüksek enerjili '' anlarını sayın
önceki
Bingcheng'deki Haping West Road'daki 1.400 kayısı ağacının hepsi çiçek açıyor!
Sonraki
ASC sekizinci yıl
"1 Mayıs" döneminde, Harbin polis hizmeti penceresi "kapatılmadı"
Harbin Çocuk Parkı 1 Haziran'da yenilenerek şehir merkezindeki bir parka dönüşüyor
Çin'in en etkili iş kadınlarının listesi açıklandı: VIPKID kurucusu Mi Wenjuan, üst üste iki yıldır listede yer alıyor
İlk yarı: Biella çift şut Zhang Xizhe şut, Guoan 3-0
İlk yarı: Dai Lin Qi Tianyu Pellet'e çift ring, Luneng 2-0 Zall ile asist yaptı
Filipinler'deki 6.4 deprem 5 kişiyi öldürdü, kişi tahliye edildi
Tayvan'daki tüm köy yöneticileri korkutuldu: bir anlaşma imzalamak için anakarayı ziyaret etmek 500.000 para cezasına çarptırılacak
Realme X, leapfrog deneyimi sunan ilk yerli yeni makineyi duyurdu
İlk yarı: Taliska boş kaleyi vurdu, Chongqing 0-1 Evergrande
Mi 9 RUOK mor koruyucu kılıf raflarda
Beyaz Saray, 2019 Paskalya Yumurtası Yuvarlama Etkinliğini düzenledi [Fotoğraflar]
To Top