ICLR2019 | Sen Takip Ederim: Aktif Görsel İzleme İçin Bir Yüzleşme Oyunu Mekanizması

Lei Feng.com AI Technology Review Press Bu makale, ICLR2019 tarafından seçilen "AD-VAT: Görsel Aktif İzlemeyi Öğrenmek İçin Asimetrik Düello Mekanizması" adlı makalenin derinlemesine bir yorumudur. Tez, Pekin Üniversitesi Dijital Video Kodlama ve Kod Çözme Teknolojisi Ulusal Mühendislik Laboratuvarı doktora öğrencisi Zhong Fangwei ve Yan Tingyun tarafından öğretmen Wang Yizhou ve Tencent AI Lab araştırmacıları Sun Peng ve Luo Wenhan'ın rehberliğinde tamamlandı. Araştırma ayrıca 2018 Tencent AI Lab Rhino Bird Özel Araştırma Programı için seçildi. Bu makale ilk olarak Pekin Üniversitesi Frontier Computing Research Center'da yayınlandı ve Lei Feng Net AI Technology Review yeniden basılması için yetkilendirildi.

Aktif görsel izleme nedir?

Görsel Aktif İzleme Ajanın, hedef nesnenin izlenmesini gerçekleştirmek için (hedeften belirli bir mesafe tutarak) görsel gözlem bilgisine göre kameranın hareketini aktif olarak kontrol ettiği anlamına gelir. Video çekmek için hedefleri takip etmek için dronları kullanmak ve valizleri akıllıca takip etmek gibi birçok gerçek robot görevinde aktif görsel izleme gereklidir. Aktif görsel izleme elde etmek için, temsilcinin hedef tanıma, yerelleştirme, hareket tahmini ve kamera kontrolü gibi bir dizi alt görevi gerçekleştirmesi gerekir.

Bununla birlikte, geleneksel görsel izleme yöntemlerinin araştırması, kamera hareketinin aktif olarak nasıl kontrol edileceğini düşünmeden, yalnızca hedefle ilgili 2B sınırlayıcı kutuyu ardışık karelerden çıkarmaya odaklanır. Bu nedenle, bu "pasif" izleme ile karşılaştırıldığında, aktif görsel izleme daha pratik uygulama değerine sahiptir, ancak aynı zamanda birçok zorluğu da beraberinde getirir.

Sol: Bir robot, hareket etmek için hedefi aktif olarak takip eder (İnternet'ten bir resim)

Sağda: Güçlendirici öğrenmeye ve geleneksel izleme yöntemlerine dayalı uçtan uca aktif izlemenin karşılaştırması

Derin takviye öğrenme yöntemleri umut vericidir, ancak yine de sınırlamaları vardır

Önceki çalışmada yazar, aktif görsel izlemeyi tamamlamak için uçtan uca bir ağı eğitmek için derin pekiştirmeli öğrenmeyi kullanma yöntemini önerdi; bu, yalnızca denetleyiciyi manuel olarak ayarlama ekstra çabasından tasarruf etmekle kalmaz, aynı zamanda iyi sonuçlar ve hatta doğrudan geçiş sağlar. Basit gerçek bir sahnede çalışın.

Bununla birlikte, derin pekiştirmeli öğrenme eğitimine dayalı bu izleyicinin performansı, eğitim yöntemi ile hala bir dereceye kadar sınırlıdır. Çünkü derin pekiştirmeli öğrenme, öğrenmek için çok fazla deneme yanılma gerektirir ve robotun gerçek dünyada denemesine ve yanılmasına doğrudan izin vermenin maliyeti yüksektir. Yaygın olarak kullanılan bir çözüm, eğitim için sanal bir ortam kullanmaktır, ancak bu yöntemle ilgili en büyük sorun, modelin gerçek uygulamalarda konuşlandırılabilmesi için sanal ve gerçeklik arasındaki farkın nasıl üstesinden gelineceğidir. Bu sorunu çözmek için, görsel navigasyon eğitimi için büyük ölçekli, yüksek kaliteli bir sanal ortam oluşturmak, ortamın çeşitliliğini artırmak için çeşitli faktörleri (yüzey dokusu / aydınlatma koşulları, vb.) Rastgele hale getirmek gibi bazı girişimler olmuştur.

Aktif görsel izleme eğitim problemi için, sadece ön ve arka plan nesnelerinin çeşitliliği değil, aynı zamanda hedefin yörüngesinin karmaşıklığı da izleyicinin genelleme yeteneğini doğrudan etkileyecektir. Ekstrem bir durum düşünülebilir: Hedef sadece eğitim sırasında ileri giderse, izci doğal olarak keskin dönüşler gibi diğer yörüngelere uyum sağlamayı öğrenmeyecektir. Bununla birlikte, hedefin hareketinin, yörüngesinin ve diğer faktörlerin ince modellemesi maliyetli olacaktır ve tüm gerçek durumları tam olarak simüle edemeyecektir.

Bırakın hedef ve izleyici "savaşsın"

Bu nedenle yazar, AD-VAT (Görsel Aktif İzlemeyi öğrenmek için Asimetrik Düello mekanizması) adı verilen, aktif görsel izleme eğitimi için rakip oyunlara dayalı bir takviye öğrenme çerçevesi önermiştir.

Bu eğitim mekanizmasında, izleyici ve hedef nesne bir "düelloda" bir çift rakip olarak kabul edilir (aşağıdaki şekle bakın), yani izleyici hedefi takip etmeye çalışmalı ve hedef, takipten çıkmanın bir yolunu bulmalıdır. Bu tür bir rekabet mekanizması, karşılıklı gelişmeyi teşvik ederken birbirlerine meydan okumalarına izin verir.

Bir hedef bir kaçış stratejisini araştırırken, çok çeşitli hareket yörüngeleri üretecektir ve bu yörüngeler genellikle mevcut izleyicilerde hala iyi değildir.

Bu tür bir düşman hedef tarafından yönlendirilen izleyicinin zayıf yönleri daha hızlı açığa çıkacak ve ardından takviye öğrenimi takip edecek ve bu da sonuçta sağlamlığını önemli ölçüde artıracaktır.

Eğitim süreci sırasında, izleyici ve hedefin yetenekleri sıfırdan büyüdüğü için, her eğitim aşamasında birbirleriyle rekabet edebilecek benzer beceriye sahip bir rakiple karşılaşabilecekler, bu da doğal olarak kolaydan kolaya geçişi oluşturur. Zor kurslar, öğrenme sürecini daha verimli hale getirir.

Bununla birlikte, yüzleşme eğitimi için doğrudan sıfır toplamlı bir oyun inşa etmek çok istikrarsızdır ve yakınsaması zordur.

Yüzleşmeyi nasıl daha verimli ve istikrarlı hale getirebilirim?

Eğitim problemini çözmek için yazar, iki gelişmiş yöntem önerir: kısmi sıfır toplamlı ödül (kısmi sıfır toplamlı ödül) ve hedef izleme için izleyiciye duyarlı model.

Tamamlanmamış sıfır toplamlı ödül, karma bir ödül yapısıdır.Sadece izleyiciyi ve hedefi belirli bir nispi aralıkta sıfır toplamlı bir oyun oynamaya teşvik eder.Hedef belirli bir mesafeye ulaştığında, ek ceza verilecektir. Bu durumda artık sıfır toplam olmayacak. Bu nedenle oyuna eksik sıfır toplamlı ödül denir.

Ödül işlevi, bir fenomenden kaçınmak için bu şekilde tasarlanmıştır, hedef izleyiciden hızlı bir şekilde uzaktaysa, izleyici hedefi gözlemleyemez, böylece eğitim süreci verimsiz ve hatta dengesiz hale gelir.

Yukarıdaki formül, izleyicinin tasarım fikrini takip eden ödül işlevidir ve ceza maddesi, istenen konum ile hedef arasındaki mesafeye göre belirlenir.

Yukarıdaki formül, hedefin ödül fonksiyonudur.Gözlem aralığı içinde, hedef ve izleyici sıfır toplamlı bir oyun oynar, yani ödül işlevi, izleyicinin doğrudan negatif ödülüdür. Gözlem menzilinin dışında, orijinal esasa göre ek bir ceza süresi elde edilecektir Ceza süresinin değeri hedef ile izleyicinin gözlem sınırı arasındaki mesafeye bağlıdır.

İzlenebilirlik modeli, hedefin izleme stratejisi için daha iyi bir yüzleşme stratejisi öğrenmesine izin vermektir, sözde "kendini ve düşmanı tanımak, yüz savaş asla bitmeyecek." Spesifik olarak, kendi görsel gözlemine ek olarak, izleyicinin gözlem ve eylem çıktısını da modele girdi olarak elde eder.

İzleyicinin özellik temsili hakkında daha iyi bilgi edinmek için yazar ayrıca bir yardımcı görev de sunar: izleyicinin anlık ödül değerini tahmin etme.

Yukarıdaki iyileştirmelere dayanarak, "Düello" nun iki tarafı gözlem bilgisi, ödül işlevi ve hedef görevde asimetrik olacaktır Bu nedenle, bu yüzleşme mekanizmasına "Asimetrik Düello" adı verilir.

laboratuvar ortamı

Yazar, yöntemin etkinliğini daha da doğrulamak için çeşitli farklı 2B ve 3B ortamlarda deneyler yaptı. 2D ortamı, engelleri, hedefleri, izleyicileri ve diğer unsurları temsil etmek için farklı değerler kullanan basit bir matris haritasıdır.

Yazar, haritadaki engellerin dağılımını oluşturmak için iki kural tasarladı (Blok, Labirent). Yazar, kıyaslama olarak iki kural tabanlı hedef hareket modeli tasarladı: Rambler ve Navigator.

Yürüteç, eylemi ve süreyi rastgele seçer ve oluşturulan yörünge genellikle yerel bir alan içinde hareket eder (Blok-Ram'deki sarı yörüngeye bakın).

Navigatör, haritadan hedef noktayı rastgele örnekler ve ardından hedefe ulaşmak için en kısa yolu izler, böylece navigatör daha geniş bir menzili keşfedecektir (Block-Nav'daki sarı yola bakın).

Bu farklı türdeki haritaların ve hedeflerin birleştirilmesi, sırasıyla farklı eğitim ve test ortamları oluşturur. Yazar, eğitim için haritalardan yalnızca birini (Blok) kullanır ve ardından modelin genelleme yeteneğini kanıtlamak için olası tüm ortam kombinasyonlarını test eder.

3D ortam, UE4 ve UnrealCV'ye dayalı sanal bir ortamdır. Yazar, eğitim için yalnızca rastgele etki alanı teknolojisini (ortamdaki nesnelerin yüzey dokusu ve aydınlatma koşulları rastgele ayarlanabilir) benimseyen bir oda (DR Odası, Etki Alanı Randomize Oda) kullanıyor ve ardından modeli gerçek sahnelere yakın üç farklı sahnede test ediyor. verim.

Deneysel sonuçlar

Bir 2D ortamında, yazar ilk önce AD-VAT'ın kıyaslama yöntemine kıyasla etkili bir gelişme sağlayabileceğini doğruladı ve iki geliştirilmiş yöntemin etkinliğini kanıtlamak için ablasyon deneyleri gerçekleştirdi.

Soldaki resim AD-VAT (mavi çizgi) eğitim eğrisini ve 2D ortamdaki karşılaştırma yöntemini gösterir.AD-VAT'ın izleyicinin daha hızlı ve daha iyi öğrenmesini sağlayabileceği görülebilir. Sağdaki resim ablasyon deneyinin sonucudur.Farklı modülleri sildikten sonra öğrenme eğrisinin karşılaştırılması, yazar tarafından önerilen iki geliştirilmiş yöntem, takviye öğrenmeye karşı eğitimi daha verimli hale getirebilir.

Yazarın 3D ortamdaki deneyleri, bu yöntemin etkinliğini ve uygulanabilirliğini daha da kanıtlamaktadır.

Eğitim sürecinde yazar ilginç bir fenomeni gözlemledi, hedef izleyicinin kafasını karıştıracak bir tür "görünmezlik" efekti elde etmek için arka plana ve kendi dokusuna yakın alana koşmaya daha meyilli olacak. İzleyici sürekli olarak "şaşırtıldıktan" sonra, sonunda bu durumlara uyum sağlamayı öğrendi.

Yazar, AD-VAT ile eğitilen izleyicinin ortalama kümülatif ödülünü (soldaki resim) ve ortalama izleme uzunluğunu (sağdaki resim) ve farklı senaryolarda iki kıyaslama yöntemini karşılaştırdı.

Bunların arasında, Snow Village ve Parking Lot çok zorlu iki ortamdır.Her modelin performansı değişen derecelerde azalmıştır, ancak bu makalede önerilen model daha iyi sonuçlar elde etmiştir. Bu, AD-VAT izleyicisinin karmaşık sahnelere daha uyarlanabilir olduğunu gösteriyor.

Xuexiang'ın ana sorunu, zeminin engebeli ve engebeli olması ve kameranın düşen kar taneleri, arka ışık halesi ve diğer faktörler tarafından engellenerek hedefin engellenmesine neden olmasıdır:

Otoparktaki ışık dağılımı eşit değil (parlaklık büyük ölçüde değişiyor) ve hedef sütun tarafından engellenebilir:

Referanslar:

Wenhan Luo *, Peng Sun *, Fangwei Zhong, Wei Liu, Tong Zhang ve Yizhou Wang. Güçlendirme öğrenimi aracılığıyla uçtan uca aktif nesne izleme, ICML 2018'de.

Wenhan Luo *, Peng Sun *, Fangwei Zhong *, Wei Liu, Tong Zhang ve Yizhou Wang. Uçtan uca aktif nesne takibi ve takviye öğrenimi yoluyla gerçek dünyadaki Dağıtımı, TPAMI 2019'da (baskıda).

Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang ve Alan Yuille. Unrealcv: Bilgisayar görüşü için sanal dünyalar. ACM-MM 2017'de.

Dr. AI, on yıl boyunca güvenlik yapay zekasına odaklanan "Liberation" değerlendiricisinden başladı
önceki
Sürücü ehliyetini taklit eden 100 yuan harcayan adam tutuklandı ve işlenmemiş 246 ihlal vardı!
Sonraki
Guangdong'da domuz yemi satışları ilk çeyrekte% 40 düştü! Çok sayıda satıcı kariyer değişikliğiyle karşı karşıya kalabilir
53 yaşındaki Aaron Kwok, iki çocuğunu aldıktan sonra ilk kez ortaya çıktı ve karısını şımartmak için çok fazla Fang Yuan'a meyve almak için tek başına sokağa çıktı!
Daxing New Town şehir merkezinde, 6 cadde 8.700 metrelik ağaçlarla kaplı parkurlar ekler
Yüksek bir pozisyondan dönersek, bu geleneksel otomobil şirketi yöneticisi ne yaptı?
Neusoft Reach, Çin'in otomotiv pil yeniliğine ve geliştirilmesine yardımcı oluyor
Bir kart yeterli değil mi? Bu futbol varyete şovu aynı zamanda profesyonellik içindir
Amazon, resmi web sitesinin felç olduğunu söyledi; Luo Yonghao, Ono e-sigaraların listelendiğini duyurdu; Menkul Kıymetler Düzenleme Komisyonu Jia Yueting | Lei Feng Morning Post hakkında bir soruştu
Zhang Ziyi'nin "Eşi 2" si dar bir elbiseyle süper güzel ve Wang Feng hamilelik söylentileriyle dans ediyor.
Meydan dansı, Baduan Brokar, Tai Chi hayranı, ip raketle atlama ... Sekizgen Sokak Oyunları gerçekten hareketli!
Yoğun saatlerde 40 milyon bilgisayarı kontrol eden siyah üretim ordusu gerçek yüzünü ortaya çıkardı!
"Gençlik Seyahat Notları" Wang Kai ve Wu Jinyan, Su Shi'nin bıraktığı hikayeleri keşfetmek için Hangzhou seyahat notlarını sık sık "çöker"
"Senin ve benim gibi" bir günlük randevu için kendi benzersiz numaralarına sahip
To Top