Intel, stratejik pekiştirmeli öğrenmeyi sağlamak için tahmine dayalı değişkenler kullanır ve Doom oyun yarışmasını kazanır | ICLR 2017

Leifeng AI Technology Review Press: ICLR 2017, Leifeng AI Technology Review editörlerinin de birinci satır raporları getirmek için Fransa'ya seyahat edeceği 24-26 Nisan tarihleri arasında Fransa'nın Toulon kentinde düzenlenecek. Bu derin öğrenme konferansı düzenlenmeden önce, Leifeng.com ayrıca konferans gündemi ve kağıt tanıtımı hakkında bir dizi haber ve özel raporlar yayınlayacak, bu yüzden bizi izlemeye devam edin.

Pekiştirme öğrenimi önemli ilerleme kaydetmiş olsa da, hala iki temel zorluk vardır.

  • Birincisi, öğrenmeyi doğrudan deneyimden gerçekleştirmek için karmaşık ve dinamik üç boyutlu bir ortamda doğal duyusal girdiden sensörimotor kontrolü (Sensorimotor kontrol) gerçekleştirmek;

  • Diğeri, çok sayıda dinamik hedef görevine ulaşmak için esnek bir şekilde uygulanabilen genel beceriler kazanmaktır.

Bu nedenle, bu makalenin yazarı, pekiştirmeli öğrenmenin iki ana zorluğunun üstesinden gelmek için ilerlemeye yardımcı olmayı amaçlayan bir duyu-motor kontrol yöntemi önermektedir.

Aşağıdakiler, makalenin içeriğine göre Leifeng.com AI Technology Review'in kısmi bir derlemesidir.

Öz

Leifeng.com'a göre, Intel Labs'den iki araştırmacı, Alexey Dosovitskiy ve Vladlen Koltum, sürükleyici bir ortamda sensörimotor kontrolü sağlamak için bir yöntem önerdi. Bu yöntemin, yüksek boyutlu bir duyusal akışı ve daha düşük boyutlu bir ölçüm akışını etkili bir şekilde birleştirdiği bildirilmektedir.

  • Şekil 1: Ağ yapısı. s görüntü verilerini temsil eder, m ölçümü temsil eder ve g hedefi temsil eder. s, m ve g üç giriş modülü aracılığıyla ayrı ayrı işlenir. Daha sonra bu giriş modüllerinin çıktı sonuçları ortak bir temsil j'ye bağlanacaktır. Bundan sonra, ortak gösterim j, ölçüm beklentisi E (j) ve normalleştirilmiş eylem koşullarındaki farkı tahmin etmek için kullanılan ayrı işlemler için iki paralel hesaplama akışına gönderilir. Son iki hesaplama akışının çıktıları, her eylem için nihai tahmini elde etmek üzere birleştirilecektir.

Bu akışların zaman yapısı, çevre ile etkileşime girerek hareket kontrol modellerini eğitmeyi mümkün kılan çok sayıda izleme sinyali sağlar. Model, denetimli öğrenme teknolojisi ile eğitilir, ancak hiçbir dış denetim kullanılmaz. Eylemleri, karmaşık üç boyutlu bir ortamdan ilkel duyusal girdiden öğrenir. Bu çözüm, modelin eğitim sürecinde sabit öğrenme hedefleri belirlemesini gerektirmez ve test sırasında dinamik olarak değişen hedefleri keşfedebilir.

Klasik bir ilk bakış oyunu olan Doom'un sağladığı üç boyutlu simülasyon ortamında araştırmacıların çok sayıda deney gerçekleştirdiği bildirildi. Deneysel sonuçlar, Intel Labs araştırmacıları tarafından önerilen yöntemin, daha önce önerilen diğer karmaşık yöntemlerden daha üstün olduğunu ve zorlu görevlerde daha açık olduğunu göstermektedir. Deneysel sonuçlar ayrıca eğitilen modelin çevre ve hedef arasında iyi bir genelleme yeteneğine sahip olduğunu göstermektedir. Ayrıca bu yöntemle eğitilen model, modele tamamen yabancı bir ortamda düzenlenen Visual Doom AI Yarışması'nın Full Deathmatch parkurunu da kazandı.

Bildiri sonuçlarının sunumu

  • Şekil 2: Dört senaryodan örnekler gösterir. D1, kare bir odada tıbbi kitlerin ("Temel") koleksiyonunu gösterir. D2, labirentte tıbbi kitler toplamayı ve zehirlerden kaçınmayı ("Navigasyon") gösterir. D3, labirentte ve aynı anda düşmana saldıran ("Savaş") tıbbi kitlerin ve mühimmatın toplanmasını gösterir. D4, daha karmaşık bir labirentte tıbbi malzeme ve mühimmat toplamayı ve aynı zamanda düşmana saldırmayı gösterir ("Savaş 2").

  • Şekil 3: Eğitimde farklı yöntemlerin performansı. DQN, A3C ve DFP'nin tümü temel sahnelerde benzer performans sonuçları elde etti. Ancak DFP'nin diğer üç senaryodaki performans sonuçları, diğer üç yöntemi geride bıraktı. Ve en karmaşık iki senaryoda (D3 ve D4), DFP'nin performans sonuçları diğer üç yöntemden çok daha iyidir.

ICLR incelemesi

ICLR komitesi nihai kararı

Değerlendirme : Bu makale yazarın VizDoom yarışmasını kazanma yöntemini detaylandırmaktadır. Bu, yardımcı değişkenleri tahmin eden ve içsel motivasyonu kullanan stratejik bir pekiştirmeli öğrenme yöntemidir. Bu yöntem aynı zamanda genel değer fonksiyonunun özel bir durumudur. Bu yöntem aslında başka farklı stratejilerin bir toplamıdır, ancak etkileyici deneysel sonuçlar üretir ve makale açıkça yazılmıştır.

Karar ver : Kabul Et (Sözlü)

İkna edici deneyim sonuç getirir

Puanlama : 7 puan: iyi kağıt, kabul edildi

Değerlendirme : Derin pekiştirmeli öğrenme (pekiştirmeli öğrenme algoritmalarında işlev yaklaşımı için derin sinir ağlarını kullanma), büyük ölçekli durum uzaylarında pekiştirmeli öğrenme problemlerini çözmede çok başarılı olmuştur. Ve bu tür deneyim odaklı çalışma, bu yöntemlere dayanmaktadır. Bu makale, işlenmemiş duyusal verilerin yeni 3B ortamında daha iyi performans gösteren ve hedef ile çevre arasında daha iyi genelleme yetenekleri elde edebilen yeni bir algoritmayı tanıtmaktadır. Bu algoritmanın Visual Doom AI yarışmasının galibi olduğunu belirtmekte fayda var.

(Başlık yok)

Puanlama 8 puan: kabul edilen tüm makalelerin ilk% 50'sini sıralayın, kabulü onaylayın

Değerlendirme : Bu makale, ek yardımcı dahili değişkenler içeren bir strateji derin takviyeli öğrenme yöntemi önermektedir.

  • Bu yöntem, evrensel değer işlevi yöntemine dayanan özel bir durumdur ve yazar ayrıca alıntıda doğru referansı işaretledi. Bu makalenin belki de en büyük teknik katkısı, 3B gezinme sorunlarını çözmek için mevcut birçok yöntemi iyileştirmektir. Özet kısmında makalenin katkısının daha detaylı tartışılması gerektiğini düşünüyorum.

  • Bu yöntemin hata modunu görmek isterdim. Model hangi koşullar altında hedefleri değiştirme problemi yaşayacak? Ve bu stratejik bir yaklaşım olduğu için başka kavramsal sorunlar da var. Örneğin, algoritmadaki aracı geçmiş hedefe tekrar tekrar eğitim vermezse, felaket bir unutma meydana gelecektir.

  • Bu makalenin ana katkısı birkaç anahtar fikri entegre etmek ve deneyimin avantajlarını göstermek olduğundan, Atari gibi diğer alanlarda da test sonuçlarını görmeyi umuyorum (belki dahili değişken olarak ROM'u kullanarak).

Sonuç olarak, bence bu makale önerilen potansiyel formülleri kullanmanın aşikâr ampirik avantajlarını gösteriyor ve bu makaledeki deneysel kavrayışlar gelecekteki kurum araştırmaları için değerli olabilir.

yorum Yap : Bu makale, gelecekteki dahili ölçümleri tahmin etmek için stratejik bir yöntem önermektedir. Tüm deneyler Doom (daha doğrusu vizDoom) adlı bu oyun üzerinde gerçekleştiriliyor. Oyun galibiyetlerini ve kayıplarını veya genel olarak oyun puanlarını tahmin etmenin aksine, bu makalenin yazarı, bir dizi üçlü (sağlık, cephane, skor) tahmin etmek için bir model eğitti ve girdi olarak sağlanan bir dizi "hedef" üçlü ile ağırlıklandırıldı . Hedef üçlünün ağırlığını değiştirmek, keşif yapmanın / yönlendirmenin bir yoludur. Test sırasında, temsilcinin eylemlerine ancak uzun vadeli hedefi maksimize ederek ulaşılabilir.

Bu sonuç etkileyici çünkü model 2016 vizDoom yarışmasını kazandı. Ve bu makalenin deneysel kısmı makul görünüyor:

  • Deney, DFP ile A3C ve DQN yöntemleri arasında bir karşılaştırma içeriyordu ve ayrıca DSR yöntemini denedi (bu makaleye benzer bir yöntem, Kulkarni ve diğerleri tarafından 2016'da önerilen). DFP yöntemi, her deneyde diğer yöntemleri geride bıraktı (veya en azından düzdü).

  • Modele "karmaşıklık katmak" için makaledeki tüm yöntemlerin etkili olduğunu kanıtlayabilecek bir ablasyon çalışması (Ablasyon çalışması) vardır.

İçsel motivasyonu tahmin etme (Singh ve ark. 2004), yardımcı değişkenler ve ileriye dönük modelleme, iyi araştırma sonuçları olan pekiştirmeli öğrenmenin tüm alanlarıdır. Okuduğum versiyon (4 Aralık'ta revize edildi), henüz çok kapsamlı olmamasına rağmen önceki çalışmalara tam atıfta bulundu.

Bu makalenin kabul edilmesi gerektiğini düşünüyorum. Bazı insanlar bu makalenin deneyinin farklı ortamlarda yapılabileceğini veya yeniliğin sınırlı olduğunu düşünebilir, ancak bu "doğru" ve "kilometre taşı" makalesinin yayınlanması gerektiğini düşünüyorum.

Leifeng.com tarafından derlenen, Geleceği Tahmin ederek Harekete Geçmeyi Öğrenerek

Yeni zirveleri deneyimleyin Huawei Mate 20 serisi 16 Ekim'de piyasaya sürülecek
önceki
Senin için nasıl "uyuyabilirim", Happy Twist'in ikinci filmi yine güzel
Sonraki
12306'yı artık suçlama
LUMIX Doğu Avrupa'yı dolaşıyor, Panasonic G9 sizi Almanya'nın manzarasını takdir etmeye götürüyor
Sıradan insanların gerçek hayatını kaydeden "Long Live Life" daki dansçı Chongqing'li bir kız.
ICLR kağıt seçimi nankör mü? Arxiv-sanity ile ilgili yeni keşifler ICLR 2017
Ofis işleri için oyun kullanmak fena değil, bu yüzden ayarlayabilirim!
Tek bir köpeğin son onuru: asla yedek lastik olmamayı sevmek
Rüzgar enerjisi üretimi Cuk devresine dayalı maksimum güç izleme kontrol yöntemi
"Kung Fu" ve "Aşçılık Tanrısı" nı takdir edin ve "Peerless Master" daki "Star Master" ı sayın
100'den fazla soru sorduktan sonra, gardırop müdürü villanın hostesini 80'den fazla tasarımcı kıyafetini atmaya ikna etti Timedia Video "Online"
Ekranda kulaklar var ve muhabirin Meituan'ın "kulak misafiri olup olmadığını" test etmesi 3 ay sürdü.
Zehri kendi vücudunuzla test edin 2016 sonbahar İngiliz dramalarının zorunlu envanteri
GNSS-R'ye Dayalı Kutup Deniz Buzu Ölçüm Yöntemi Araştırması
To Top