Google ve DeepMind, Dreamer'ı serbest bırakmak için güçlerini birleştiriyor: performans "öncekiler" PlaNet'i çok aşıyor

Metin | Google AI

Çeviri | Kongun Sonu

Geçtiğimiz yıl, Google ve DeepMind, çeşitli görüntü tabanlı kontrol görevlerini çözebilen model tabanlı pekiştirmeli öğrenme aracı PlaNet'i ortaklaşa başlattı. Performansı, o zamanki en gelişmiş model içermeyen aracı ile karşılaştırılabilir ve veri verimliliği 50 kat artırıldı. Takviye öğrenme içindir. Yeni bir atılım getiriyor.

Bununla birlikte, aracı hala etkisiz veya hesaplama açısından pahalı planlama mekanizmalarıyla sınırlıdır.

Şimdi, Google ve DeepMind bir kez daha model tabanlı bir takviye öğrenme aracı olan Dreamer'ı ortaklaşa başlattı. "Önceki" PlaNet'e dayanarak, performans, veri verimliliği ve hesaplama süresi yeni bir seviyeye yükseltildi. PlaNet'in karşılaştığı sınırlamaların üstesinden gelin. Pekiştirmeli öğrenme bir kez daha büyük bir atılım başlattı.

Aracı açık kaynak, açık kaynak kodudur: https://github.com/google-research/dreamer

1. Arka plan önerin

Yapay zeka ajanlarının hedeflere ulaşmak için davranışları nasıl seçtiğine dair araştırma, uygulamalı pekiştirmeli öğrenmede (RL) yapılan ilerlemeden büyük ölçüde fayda sağlamıştır.

DeepMind'ın DQN algoritmasının Atari oyunlarını oynamasına ve AlphaStar'ın "StarCraft II" de insan dünya şampiyonunu yenmesine izin veren deneme yanılma yoluyla başarılı eylemleri tahmin etmenin modelsiz pekiştirmeli öğrenme yöntemini öğrenin, ancak bu yöntem Gerçek sahneler için pratikliklerini sınırlayan çok sayıda çevre etkileşimi gerekir.

Aksine, model tabanlı pekiştirmeli öğrenme yöntemleri, ortamın basitleştirilmiş modellerini de öğrenebilir. "Dünya modeli", temsilcinin potansiyel bir eylemler dizisinin sonucunu tahmin etmesine izin vererek, yeni durumlarda varsayımsal senaryolar yoluyla akıllıca kararlar almasına izin verir, böylece hedefe ulaşmak için gereken deneme ve yanılmayı azaltır.

Geçmişte, doğru dünya modellerini öğrenmek ve bunları başarılı davranışları öğrenmek için kullanmak daha zordu. Yakın zamanda yapılan araştırmalar, Google'ın geçen yıl önerdiği Derin Planlama Ağı (PlaNet) gibi görüntülerden doğru dünya modellerini öğrenerek bazı atılımlar gerçekleştirmiş olsa da, model tabanlı yöntemler hala etkisiz veya hesaplama açısından pahalı planlama mekanizmaları nedeniyle engellenmektedir. Daha zor görevleri çözme yetenekleri.

Yanıt olarak Google ve DeepMind, görüntülerden bir dünya modeli öğrenebilen ve uzun vadeli davranışı öğrenmek için dünya modelini kullanabilen bir takviye öğrenme aracı olan Dreamer'ı ortaklaşa başlattı. Model tahminlerinin geri yayılması yoluyla davranışı verimli bir şekilde öğrenmek için dünya modelini kullanabilir.

Ajan, hesaplama açısından yoğun model durumunu orijinal görüntüden öğrenerek, yalnızca bir GPU ile verimli ve paralel olarak binlerce tahmin dizisini öğrenebilir.

Orijinal görüntü girişi verilen 20 sürekli kontrol görevinin karşılaştırmalı değerlendirmesinde Dreamer, performans, veri verimliliği ve hesaplama süresi açısından en iyi seviyeye ulaştı.

Aracı açık kaynak, açık kaynak kodudur: https://github.com/google-research/dreamer

2. Dreamer nasıl çalışır?

Dreamer, model tabanlı bir yaklaşımın üç klasik adımından oluşur: dünya modelini öğrenmek; dünya modeli tarafından yapılan tahminlerden öğrenme davranışı; yeni deneyimler biriktirmek için çevrede öğrenilen davranışı gerçekleştirmek.

Dreamer, öğrenme davranışı adımında, planlama kapsamının ötesindeki ödülleri hesaba katmak için bir değer ağı kullanır ve davranışı verimli bir şekilde hesaplamak için bir aktör ağı kullanır.

Bu üç adım paralel olarak yürütülebilir ve temsilci amacına ulaşana kadar tekrar edilebilir.

Dreamer'ın çalışmasının üç adımı. Temsilci, dünya modelini geçmiş deneyimlerinden öğrenir; daha sonra modelin tahminine göre geleceği tahmin etmek için değer ağını öğrenir.

3. Dünya modelini öğrenmek

Dreamer, bir görüntüden sonraki görüntüyü doğrudan tahmin etmek yerine, sonuçları girdi görüntülerinden hesaplanan bir dizi yoğun model durumuna göre tahmin eden PlaNet dünya modelini kullanır.

Temsilci, hedef türü, hedef konum ve çevredeki ortamla hedef etkileşim gibi gelecekteki sonuçları tahmin etmeye yardımcı olan kavramları karakterize eden model durumları oluşturmayı otomatik olarak öğrenir. Temsilcinin geçmiş deneyimlerinden oluşan bir veri kümesindeki bir dizi görüntü, davranış ve ödüle dayalı olarak, Dreamer aşağıda gösterildiği gibi bir dünya modeli öğrenebilir:

Dreamer, dünya modelini deneyimden öğrenir. Bir dizi yoğun model durumunu (yeşil) hesaplamak için geçmiş görüntüleri (o1-o3) ve davranışları (a1-a2) kullanır.

PlaNet dünya modelini kullanmanın en büyük avantajı, erken tahmin için görüntüler yerine yoğun model durumlarının kullanılmasının hesaplama verimliliğini büyük ölçüde artıracağıdır. Bu, modelin tek bir GPU üzerinde paralel olarak binlerce diziyi tahmin etmesine olanak tanır. Ek olarak, bu yöntem aynı zamanda genelleme yapmaya ve doğru uzun vadeli video tahmini elde etmeye yardımcı olur.

Modelin çalışma prensibi hakkında fikir edinmek için, aşağıda gösterildiği gibi yoğun model durumunu tekrar bir görüntüye dönüştürerek tahmin sırasını görselleştirebiliriz (aşağıdaki şekilde iki görev gerçekleştirilir, bir görev DeepMind'ın takviye öğrenme ortamı Control Suite'tir. Yürütüldü, diğeri AI eğitim platformu DeepMind Lab ortamında yürütülür):

Erken tahmin için yoğun model durumlarını kullanmak, karmaşık ortamlarda uzun vadeli tahmin sağlayabilir. Temsilcinin daha önce hiç karşılaşmadığı iki şey burada gösterilmektedir.

4. Etkili davranışsal öğrenme

Önceden geliştirilen model tabanlı aracılar genellikle davranışları çoklu model tahminleri yoluyla planlama yaparak veya mevcut modelden bağımsız yöntemleri yeniden kullanmak için simülatörler yerine dünya modellerini kullanarak seçerler.

Bu tasarımların her ikisinin de hesaplama gereksinimleri vardır ve aracı tarafından öğrenilen dünya modelini tam olarak kullanamaz. Buna ek olarak, güçlü bir dünya modelinin bile doğru tahmin etme yeteneği sınırlı, bu da daha önce geliştirilmiş birçok model tabanlı aracı "kısa görüşlü" kılıyor.

Dreamer, değer ağını ve aktör ağını öğrenmek için dünya modeli tahminlerinin geriye doğru yayılmasını kullanarak bu sınırlamaların üstesinden gelebilir.

Dreamer, tahmin edilen durum dizisi boyunca ödül gradyanını geriye doğru yayar ve başarılı davranışları tahmin etmek için aktörler ağını verimli bir şekilde öğrenir, bu modelden bağımsız yöntemler için imkansızdır. Bu, Dreamer'ın davranışındaki küçük değişikliklerin gelecekte tahmin edilen ödülleri nasıl etkilediğini bilmesini sağlar ve artan ödüllerin yörüngesindeki aktörler ağını (en yüksek olana kadar) mükemmelleştirmesine olanak tanır.

Ödülleri tahmin edilen aralığın ötesinde değerlendirmek için değer ağı, her model durumu için gelecekteki ödüllerin toplamını değerlendirir. Ardından, model, iyileştirilmiş davranışları seçmek için aktörler ağını optimize etmek için ödülleri ve değerleri geri yayar:

Dreamer, tahmin edilen model durumları dizisinden uzun vadeli davranışı öğrenir. Önce her bir durumun (v2 v3) uzun vadeli değerini öğrenir ve sonra geçiş durumunu tahmin eder

Dreamer birçok yönden PlaNet'ten farklıdır. Ortamdaki belirli bir durum için PlaNet, farklı davranış dizilerinin birçok tahmini arasında en iyi eylemi arayacaktır. Aksine, Dreamer bu pahalı aramayı planlama ve davranışı ayırarak başarır. Aktör ağı tahmin dizisi konusunda eğitildikten sonra, ek arama yapmadan çevre ile etkileşim için eylemleri hesaplayabilir. Dreamer ayrıca, ödülleri planlama kapsamı dışında değerlendirmek için bir değer işlevi kullanır ve verimli planlama için geri yayılımı kullanır.

5. Kontrol görevlerini gerçekleştirin

Google araştırmacıları, Dreamer'ı sürekli hareket ve görüntü girişi dahil olmak üzere 20 farklı görevle standart karşılaştırmalarda değerlendirdi. Görevler arasında nesnelerin dengelenmesi ve yakalanmasının yanı sıra çeşitli simülasyon robot hareketleri bulunur.

Bu görevler, tahmin edilmesi zor olan çarpışmalar, seyrek ödüller, kaotik dinamikler, küçük ama ilgili hedefler, yüksek serbestlik dereceleri ve 3B perspektifler dahil olmak üzere pekiştirici öğrenme aracılarına çeşitli zorluklar ortaya çıkarmak için tasarlanmıştır:

Dreamer, 20 zorlu sürekli kontrol görevini ve görüntü girişini çözmeyi öğrenir. Yukarıdaki şekilde 5 tanesi gösterilmektedir. Görsel olarak görüntülenen görüntüler ve zeka

Dreamer'ın performansını önceki en iyi performans gösteren model tabanlı ajan PlaNet, yaygın olarak kullanılan model içermeyen ajan A3C ve modelsiz pekiştirmeli öğrenmede bazı ilerlemeler ve bu kıyaslamada en iyi performansla mevcut modelsiz ajan ile birleştirdiler. D4PG bir karşılaştırma yaptı.

Bunların arasında, model tabanlı aracı 5 milyon çerçeve altında verimli öğrenmeyi gerçekleştirebilir ve karşılık gelen simülasyon süresi 28 saattir. Model içermeyen aracıların öğrenme hızı daha yavaştır, 100 milyon kare gerektirir ve karşılık gelen simülasyon süresi 23 gündür.

20 görev karşılaştırmasında, Dreamer'ın ortalama puanı 823 puandır, bu en iyi model içermeyen aracının (D4PG) 786 puanından daha yüksektir ve 20 kat daha küçük çevresel etkileşimlerden öğrenebilir. Dahası, neredeyse tüm görevlerdeki performansı önceki en iyi model tabanlı aracı (PlaNet) aşıyor. Hesaplama süresi açısından Dreamer'ı eğitmek, diğer yöntemlerin gerektirdiği 24 saate kıyasla yalnızca 16 saat sürer.

Dört temsilcinin nihai performansı aşağıdaki şekilde gösterilmektedir:

20 görev içeren bir karşılaştırmada Dreamer, nihai performans, veri verimliliği ve hesaplama süresi açısından en iyi modelsiz aracı (D4P) geride bıraktı.

Sürekli kontrol görevleriyle ilgili ana deneye ek olarak, Google araştırmacıları, çok yönlülüğünü kanıtlamak için Dreamer'ı ayrı eylemler içeren görevlere de uyguladılar.

Bu amaçla, Atari oyunlarını ve DeepMind Lab düzeyindeki görevleri seçtiler, ikincisi hem reaktif davranış hem de uzun vadeli davranış, mekansal farkındalık ve görsel olarak daha çeşitli sahnelerin anlaşılmasını gerektiriyor.

Ortaya çıkan davranış aşağıda gösterilmiştir ve Dreamer'ın bu daha zorlu görevleri verimli bir şekilde çözmeyi de öğrenebileceğini göstermektedir:

Dreamer, Atari oyunlarında ve DeepMind Lab düzeyindeki görevlerde başarılı davranışları öğrenir.DeepMind Lab düzeyindeki görevler, ayrı eylemlere ve vizyona sahiptir

6. Sonuç

Bu çalışma, yalnızca dünya modeli tarafından tahmin edilen dizilerden öğrenme davranışlarının, görüntü girişinden gelen zorlu görsel kontrol görevlerini çözebileceğini ve performansta önceki modelsiz yöntemleri geride bırakabileceğini göstermektedir.

Buna ek olarak, Dreamer, geri yayılım yoluyla tahmin edilen yoğun model durum dizisi aracılığıyla değer gradyanının öğrenme davranışının başarılı ve sağlam olduğunu, böylece bir dizi çeşitli sürekli ve ayrık kontrol görevini çözdüğünü kanıtladı.

Google, Dreamer'ın daha iyi temsili öğrenme, yönlendirilmiş keşif ve belirsizlik tahmini, zaman soyutlama ve çok görevli öğrenme dahil olmak üzere pekiştirmeli öğrenmenin sınırlamalarını aşmak için sağlam bir temel sağlayacağına inandıklarını söyledi.

https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html aracılığıyla

ELECTRA Çin ön eğitim modeli, yalnızca 1/10 parametreli açık kaynak kodludur ve performans hala BERT ile karşılaştırılabilir.
önceki
SF batıyor
Sonraki
Sinochem Group ve China National Chemical Corporation'ın tarımsal işleri, 200 milyarı aşan bir gelirle yeniden düzenlendi
New Oxygen'in 2019'un dördüncü çeyreğine ilişkin mali raporu: 358 milyon yuan işletme geliri, 86.4 milyon yuan net kar
Bu sefer Fed çalışmayabilir
"Nanjing Anti-salgın Sahnesi" ni filme alan Japon yönetmen yanıyordu. Titanium Media onunla arkasındaki hikaye hakkında sohbet etti.
Tencent, oyun canlı yayın endüstrisinde bir "Tencent Müzik Grubu" kurmak istiyor
Kanal markalarının etkisi yavaş yavaş ürün markalarını kapsıyor
Sinema salonları, çalışmaya devam ettiklerinde "herkes tarafından dövülmemelidir"
Çin'in ilk pterosaur fosili iskeleti - Wei'nin Junggar pterosaur kafatası damak araştırma süreci
Glial hücrelerin nöronlara farklılaşması yoluyla nörolojik hastalıkların tedavisine ilişkin temel araştırmalarda ilerleme
Toprak ateşi "sabah ve akşam" olarak ikiye ayrılır? Bileşik ateş daha zordur
China Life Hefei Şubesi poliçe sahiplerini yasa dışı yollarla dolandırdı, başkan yardımcısı dahil 4 kişi uyarıldı
Hookup+Xi Jinping'in Yeni Yıl mesajını okuyun ve yeni çağda Çin stilini görün
To Top