g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ICLR 2020 | Artan gürültü, RL ajanlarının genelleme yeteneğini geliştirebilir

Bu makale, ICLR 2020 tarafından alınan "Ağ Rastgeleleştirme: Derin Güçlendirmeli Öğrenmede Basit Bir Genelleme Tekniği" başlıklı makaleyi tanıtmaktadır. Makalenin yazarları, Michigan Üniversitesi, Kore Bilim ve Teknoloji Akademisi ve Google'dan alınmıştır.

Yazar | wangwang Düzenle | Kongun Sonu

Kağıt adresi: arxiv.org/abs/1910.05396

Derin pekiştirmeli öğrenmedeki ajanlar genellikle görünmez bir ortamda eğitilemez, bu özellikle yüksek boyutlu durum uzaylarında (görüntüler gibi) eğitim alırken öne çıkar. Bu makale, girdi gözlem örneklerinde rastgele rahatsızlıkları tanıtır, sinir ağlarını rastgele hale getirir (evrişim), ajanın genelleme yeteneğini geliştirir ve randomizasyon varyansını azaltmak için Monte Carlo yaklaşıma dayalı muhakeme yöntemini kullanır. Eğitimli temsilci, farklı rastgele ortamlarda değişmeden kalan sağlam özellikleri öğrendikten sonra yeni bir alana uyum sağlayabilir. Deneyler, 2D CoinRun platformu, 3D DeepMind Lab keşif platformu ve 3D robot kontrol görevi üzerinde gerçekleştirilmiştir.Aynı optimizasyon hedefi için, bu yazıda önerilen yöntem diğer çeşitli düzenleme ve veri geliştirme yöntemlerinden önemli ölçüde daha iyidir.

1 Geri araştırma Sahne ve araştırma hedefleri

Derin pekiştirmeli öğrenme (RL) çeşitli alanlarda yaygın olarak kullanılmaktadır, ancak, aracılar genellikle eğitim ortamına çok fazla uyarlanmıştır, ancak genelleme yeteneklerinin olmaması nedeniyle tıbbi, finansal ve diğer alanlardaki uygulamaları güvenilir değildir.

Ajan genellemesi görsel değişiklikler, farklı yapılar ve dinamik süreçlerle karakterize edilebilir. Bu makale görev genellemesine odaklanmaktadır.Eğitimli temsilci, Şekil 1'deki farklı arka plan, zemin ve diğer hedefler gibi test sırasında çeşitli görünmez görsel kalıpları benimser. Yazar, aracının toplam başarısızlığının küçük görsel değişikliklerden kaynaklandığını ve yüksek boyutlu girdi gözlem örneklerinden (görüntüler gibi) genelleştirilmiş özellikleri öğrenmenin zor olduğunu buldu.

Şekil 1: (a) rastgele katmanın parametrelerinin yeniden başlatılmasıyla üretilen rastgele girdi örneğidir, (b) (c) (d) deneysel bir ortam örneğidir.

Bu makalenin ana katkısı, çeşitli görünmez görsel mod görevlerinin genelleme yeteneğini geliştirmek için basit bir randomizasyon tekniği geliştirmektir. Ana fikir, rastgele girdi oluşturmak için rastgele (evrişimli) bir ağ kullanmak (Şekil 1 (a) 'da gösterildiği gibi) ve aracıyı (veya stratejisini) eğitim için ağa göndermektir. Spesifik olarak, rastgele ağın parametreleri her yinelemede yeniden başlatılır ve aracı, bir dizi rahatsız edici düşük seviyeli özellik (çeşitli dokular, renkler veya şekiller) altında eğitilmesi için teşvik edilir.

Genel Ağ Randomizasyon Teknolojisi Bu makale, bir ajanın çevre ile belirli zamanlarda etkileşime girdiği araştırma çalışmalarını yürütmek için standart bir pekiştirmeli öğrenme çerçevesi kullanır. Her t adımında, aracı ortamdan durumu alır

Ve stratejisine göre eylemleri seçin

. Çevre dönüş ödülü

Bundan sonra, temsilci bir sonraki duruma geçer

. Getiri, indirim faktörünün within (0, 1) olduğu zaman adımı t içindeki toplam kümülatif indirimli getiridir. Takviye öğrenmenin amacı, her eyalet için beklenen getiriyi en üst düzeye çıkarmaktır. 1. Temsilciyi eğitmek için rastgele girdi gözlemlerini kullanın Rastgele bir ağ tanıtın

, parametresi, rasgele giriş kullanılarak orijinal girişlerden farklı olan önceki bir dağıtıma (Xavier normal dağılımı gibi) başlatılır.

Örneğin, strateji tabanlı yöntem için eğitim aracısı, aşağıdaki strateji gradyanı hedef işlevini en aza indirerek strateji ağının parametresini optimize eder.

(1) Aralarında

Kümülatif getirileri olan bir dizi tarihsel dönüşümdür. Aracı, her yinelemede rastgele ağın parametrelerini yeniden başlatarak çeşitli rastgele girdi gözlemleri kullanılarak eğitilir (bkz. Şekil 1 (a)). Yani, ortam farklı görsel modlar tarafından üretilir, ağ rastgele hale getirilerek aynı semantiğe sahip olur ve ajan değişmez özellikleri öğrenerek yeni ortama adapte olur.

Daha değişmez özellikleri öğrenmek için, gizli özellikler ve rastgele gözlemler arasındaki özellik eşleştirme (FM) kaybı da dikkate alınmalıdır:

(2) Aralarında

Sondan bir önceki strateji katmanının çıktısını temsil eder . Gizli özellikleri rastgele girdiyle birleştirin ve girdi gözlemlerindeki değişikliklere dayalı olarak daha fazla değişmez özellik öğrenin. Toplam kayıp, (3) olarak hesaplanır, burada > 0 bir hiperparametredir.

(3) Rastgele ağ ayrıntılı giriş

Rastgele bir ağ olarak tek katmanlı bir evrişimli sinir ağı (CNN) kullanın ve çıktısı, girdi ile aynı boyutluluğa sahiptir. Rastgele ağın parametrelerini yeniden başlatmak için aşağıdaki karma dağıtım kullanılır:

Kimlik çekirdeği olduğum yerde

Normal bir sayıdır, N normal bir dağılımı temsil eder,

Sırasıyla giriş ve çıkış kanallarının sayısını gösterir. Sadece rastgele girdiyle eğitim, eğitimi karmaşıklaştıracağından, olasılık kullanıyoruz

Gizli özellik girişini seçin. Xavier normal dağılımı, girdileri ve rastgele girdi yapar

Varyansı sabit olma eğilimindedir, bu nedenle randomizasyon için Xavier normal dağılımı kullanılır. Görsel sapmayı ortadan kaldırın

Bu yöntemin etkinliğini doğrulamak için, Kaggle'nin kedi ve köpek veri tabanında bir görüntü sınıflandırma deneyi gerçekleştirildi. Oluşturulan veri seti aşağıdaki istenmeyen yanlılığa sahiptir: eğitim seti parlak köpeklerden ve kara kedilerden oluşur ve test seti karanlık köpekler ve parlak kedilerden oluşur. CNN şekilden ziyade doku veya rengi tercih ettiğinden, sınıflandırıcının kötü sapmalara (parlaklık ve renk gibi) dayalı kararlar vermesi beklenir. Tablo 1, ResNet-18'in eğitim verilerindeki aşırı önyargısı nedeniyle etkili bir şekilde genelleştirilemeyeceğini göstermektedir. Bu sorunu çözmek için gri tonlama, kırpma, ters çevirme ve renk titremesi gibi görüntü işleme yöntemleri uygulanabilir. Bununla birlikte, bu makaledeki yöntemle karşılaştırıldığında, genelleme yeteneğini geliştirmede etkili değildir. Bu, bu makaledeki yöntemin, istenmeyen sapmaları ortadan kaldırmak için ek bilgilere ihtiyaç duymadan, anlamsal bilgileri etkili bir şekilde korurken görüntüdeki özniteliklerin ve varlıkların görsel görünümünü değiştirerek DNN'nin şekil gibi daha değerli bilgileri yakalamasını sağlayabileceğini kanıtlamaktadır.

Tablo 1 Kedi-köpek savaş veri setine dayalı sınıflandırma doğruluğu

2. Küçük varyansın çıkarım yöntemi Rastgele ağın parametreleri öncekinden dağıtıldığı için

Alıntıdır, rastgele bir sinir ağı modelleme stratejisi kullanın.

Eğitim süreci (parametre randomizasyonu gibi), Monte Carlo (MC) yaklaşımı (yineleme başına bir örnek) kullanılarak rastgele bir modelin eğitimini içerir. Bu nedenle, çıkarım yaparken veya test ederken, beklenen değeri aşağıdaki gibi yaklaşık olarak belirleyerek a eylemini seçin:

onların arasında

Ve M, MC örneklerinin sayısıdır. Yani, her gözlem için rastgele M girdileri üretilir ve daha sonra bunların kararları toplanır.Sonuç, tahmin edicinin, arka dağılıma daha doğru bir şekilde yaklaşarak eğitim aracısının performansını iyileştirdiğini gösterir.

3 deney 1. Temel ve deneysel ayrıntılar

CoinRun ve DeepMind Lab deneyleri için strateji ağı olarak IMPALA'da kullanılan CNN mimarisi, aracı eğitmek için de near-end strateji optimizasyonu (PPO) algoritması kullanılır. Her zaman adımında, aracının girdisi olarak 64 * 64 gözlem çerçevesi kullanılır ve eğitim için yörüngeleri toplamak için 256 adımlı genişletme kullanılır. Gerçeküstü robot deneyi için strateji ağı olarak LSTM yapısı ile birlikte CNN kullanılır ve aracı eğitmek için dağıtılmış PPO algoritması uygulanır. Görünmez bir ortamda her 10M zaman adımında performansı ölçün ve 3 çalışmanın ortalama ve standart sapmasını kaydedin. Bu makale, rastgele ağ ve özellik eşleştirme (FM) kaybını kullanarak, FM kaybının ağırlığı olarak = 0,002 kullanarak, rastgele ağı atlama olasılığı olarak = 0,1 kullanarak, MC yaklaşımı olarak M = 10 kullanarak, Çekirdek boyutu 3 olan tek katmanlı bir CNN, rastgele ağ olarak kullanılır.

2. CoinRun deneyi Küçük Ölçekli Ortamda Ablasyon Araştırması

Düzenli hale getirme teknolojisi ve veri geliştirme teknolojisi ile karşılaştırıldığında, bu yazıda önerilen yöntem en etkili olanıdır. Rastgele girdi eğitimi, eğitim etkisini azaltacaktır, ancak DNN'nin yüksek ifade yeteneği bunu telafi eder. FM kaybını optimize ederek, görünmez bir ortamdaki performans daha da iyileştirilebilir. Testte MC yaklaşımının geçerliliğini doğrulamak için, görünmez bir ortamdaki performans, MC numunelerinin sayısı değiştirilerek ölçülür. Şekil 2 (d) 50 değerlendirmenin ortalamasını ve standart sapmasını göstermektedir. Performans ve varyansı, MC örneklerinin sayısı artırılarak iyileştirilebilir, ancak bu gelişme yaklaşık 10 örnekle doyurulur, bu nedenle aşağıdaki deneyler için 10 örnek kullanılır.

Şekil 2: (a) Farklı ortamlardan birden fazla parça toplayın, (c) PPO ve t-SNE tarafından oluşturulmuş PPO +'larımızı ajanı eğitmek için optimize edin ve noktanın renginin karşılık gelen gözlem ortamını temsil ettiği temsili görsel olarak gizleyin . (D) Farklı sayıda MC örneğinin ortalama başarı oranı.

Gömülü analiz

Eğitimli temsilcinin gizli temsilinin görünmez bir ortamda anlamlı bir soyut kavram gösterip göstermediğini analiz edin. Eğitimli aracının sondan bir önceki katmanındaki özellikleri iki boyutta görselleştirmek ve basitleştirmek için t-rastgele bitişik gömme (t-SNE) algoritmasını kullanın. Şekil 2 (a), insan göstericinin görünür ve görünmez ortamlarda aldığı yörünge projeksiyonlarını göstermektedir. Taban çizgisi dağınık ve bağlantısız yörüngeler üretirken, görünür ve görünmez ortamlardan gelen yörüngeler, ajanın gizli alanında hizalanır. Bu, bu makaledeki yöntemin temsilcinin kararlı ve sağlam özellikleri öğrenmesini sağladığı anlamına gelir.

Gizli gösterimin performansını nicel olarak değerlendirmek için, döngü tutarlılığı da ölçüldü. İki yörünge V ve U verildiğinde,

İlk önce başka bir yolda

En yakın komşusunu bulun. V'de bulunan, aracının sondan bir önceki katmanının çıktısını temsil eder.

En yakın komşusu.

Döngüsel tutarlılık olarak tanımlanır, eğer

, Başlangıca dönebilirsiniz ve döngüsel tutarlılık, iki yörüngenin gizli boşlukta tam olarak hizalandığı anlamına gelir. Üç yönlü döngü tutarlılığı, döngü tutarlılığının, J'nin üçüncü yörünge olduğu V U J V ve V J U V olmak üzere iki yolda korunup korunmadığı ölçülerek de değerlendirilir. Şekil 2 (C) 'de gösterilen sonuca benzer şekilde, genel PPO eğitimli aracı ile karşılaştırıldığında, bu makaledeki yöntem döngü tutarlılığını önemli ölçüde iyileştirir. Büyük ölçekli deney sonuçları

Sabit bir 500 seviyeli CoinRun setinde genelleme yeteneğini değerlendirin. Görünür ve görünmez ortamları net bir şekilde ayırt edebilmek için mevcut temaların yarısı (yani arka plan, zemin, temsilci ve hareketli engel stilleri) eğitim için kullanılmış ve görünmez temalardan oluşan 1000 farklı seviyenin performansı ölçülmüştür. Şekil 3 (a) 'da gösterildiği gibi, bu makaledeki yöntem, tüm temel yöntemlerden büyük ölçüde üstündür, özellikle başarı oranı% 39.8'den% 58.7'ye yükselmiştir.

3. DeepMind Lab ve gerçeküstü robot kontrolünün deneysel sonuçları

Standart bir keşif görevine göre tasarlanan hedef nesne, üç boyutlu bir labirentteki bir odaya yerleştirilir. Bu görevde, aracının amacı ödülü en üst düzeye çıkarmak için 90 saniye içinde olabildiğince çok hedef nesne toplamaktır. Temsilci hedef nesneyi topladığında, 10 puan alacak ve rastgele bir konuma taşınacaktır. Temel aracılar, görünür ortamda bu basit stratejiyi öğrenerek yüksek puanlar alsalar da, Şekil 3 (b) bilinmeyen ortama uyum sağlayamadıklarını göstermektedir. Ağ randomizasyon yöntemiyle eğitilen aracılar, hem görünür hem de görünmez ortamlarda yüksek puanlar alabilir. Bu sonuçlar, randomizasyon yönteminin genelleştirilmiş özellikleri yüksek boyutlu ve karmaşık girdi gözlem örneklerinden öğrenebileceğini göstermektedir.

Şekil 3 Farklı ortamlarda eğitimli temsilcilerin performans eğrileri

Sawyer robotu, masaya rastgele yerleştirilmiş bir bloğu kaldırmayı başarırsa bir ödül alacak. Aracıyı tek bir ortamda eğitin ve beş görünmez ortamda farklı tablo ve blok stilleri ile test edin. Şekil 3 (c), görünmez ortamdaki tüm taban çizgileri ile karşılaştırıldığında, ağ randomizasyon yönteminin, gözlenen ortamda performansını korurken önemli performans kazanımları elde ettiğini gösterir ve bu, ağ randomizasyon yönteminin temel kalabileceğini gösterir. Öznitelikler değişmez.

4 özet

Bu makale, RL'deki genelleme problemini tartışmaktadır.Genelleme yeteneğini geliştirmek için, CNN'nin ilk katmanı, çeşitli dokular, renkler veya şekiller gibi düşük seviyeli özellikler tarafından rasgele bozulur. Bu yöntem, ajanı çeşitli görsel girdi gözlemleri üreterek değişmezlik ve sağlamlık özelliklerini öğrenmeye teşvik eder. Bu değişmezlik özelliği, RL'de çekişmeli savunma, simülasyondan uygulamaya geçiş, göç öğrenimi ve çevrimiçi adaptasyon gibi diğer ilgili konular için referans önem taşır.