Akıllı vücut dünyaya çarpıyor: Google, DeepMind PlaNet'i başlattı, veri verimliliği 50 kat arttı

[Kılavuz] Google AI ve DeepMind, dünya modellerini görüntü girdisinden öğrenebilen, çoklu planlama görevlerini tamamlayabilen, veri verimliliğini ortalama 50 kat artırabilen ve pekiştirmeli öğrenmede başka bir atılım gerçekleştirebilen tamamen model tabanlı bir aracı olan Deep Planning Network'ü (PlaNet) birlikte başlattı. .

Takviye öğrenimi (RL) sayesinde, yapay zeka ajanlarının karar verme yeteneklerini zaman içinde nasıl geliştirebileceklerine dair araştırmalar hızla ilerliyor.

Takviye öğrenme için, aracı, eylemleri seçerken bir dizi eylemi gözlemler (örneğin, hareket komutları) Sensör girişi (Ör. Kamera görüntüsü) ve bazen belirli hedeflere ulaşmak için elde edilir ödül .

RL'nin modelden bağımsız yaklaşımı ( Model içermez ) Duyusal gözlem yoluyla iyi davranışları doğrudan tahmin etmeyi hedefler Bu yöntem, DeepMind'ın DQN'sinin Atari oyunları oynamasını ve diğer ajanların robotu kontrol etmesini sağlar.

Ancak bu bir siyah kutu Yöntem genellikle deneme yanılma yoluyla öğrenmek için haftalarca simüle edilmiş etkileşim gerektirir ve bu da uygulamadaki etkinliğini sınırlar.

Aksine, model tabanlı RL yöntemleri ( Model tabanlı RL) Temsilcinin tüm dünyanın davranışını anlamasını sağlamaya çalışın. Bu yöntem, gözlemleri doğrudan eylemlerle eşleştirmez, ancak temsilcinin açıkça Uzun vadeli sonuçları "hayal ederek" önceden planlayın ve eylemleri daha dikkatli seçin .

Model tabanlı yöntemler, bilinen oyun kurallarına sahip sanal bir satranç tahtası üzerinde bir dizi hareket öngören AlphaGo da dahil olmak üzere büyük başarı elde etti. Ancak Planlamayı bilinmeyen bir ortamda kullanın (Örneğin, bir robotu kontrol etmek için girdi olarak yalnızca pikselleri kullanarak), aracı, deneyimlerinden kuralları veya dinamikleri öğrenmelidir.

Prensip olarak bu dinamik model daha yüksek verimlilik ve doğal çoklu görev öğrenmeye izin verdiğinden, başarılı bir şekilde planlamak için yeterince doğru bir model oluşturmak, RL'nin uzun vadeli hedefidir.

Bu araştırma zorluğunun ilerlemesini ilerletmek için Google AI ve DeepMind, Derin Planlama Ağı (PlaNet) , Temsilci, dünya modelini yalnızca görüntü girişinden öğrenir ve planlama için başarıyla kullanır .

PlaNet, çeşitli görüntü tabanlı kontrol görevlerini çözer ve son performansta gelişmiş model içermeyen aracılarla rekabet edebilir. Ortalama veri verimliliği% 5000 arttı . Araştırma ekibi, araştırma topluluğunun kullanması için kaynak kodunu yayınlayacaktır.

kağıt:

https://danijar.com/publications/2019-planet.pdf

Kaynak kodu:

https://github.com/google-research/planet

2000 denemede, PlaNet ajanı çeşitli sürekli kontrol görevlerini çözmeyi öğrendi. Öğrenme ortamı modellerine sahip olmayan önceki aracılar, benzer performansı elde etmek için genellikle 50 kat daha fazla girişim gerektirir.

PlaNet nasıl çalışır?

Kısacası, PlaNet belirli bir görüntünün girişini öğrendi Dinamik modeli Ve yeni deneyimler toplamayı planlamak için modeli etkili bir şekilde kullanın.

Önceki görüntü planlama yöntemlerinden farklı olarak, Gizli veya gizli durumların kompakt bir dizisi . Bu denir gizli dinamik modeli : Bir görüntüden diğerine doğrudan tahmin yapmayız, ancak geleceğin potansiyel durumunu tahmin ederiz. Ardından, ilgili gizli durumdan her adım için görüntüler ve ödüller oluşturun.

Aracı, görüntüyü bu şekilde sıkıştırarak, nesnenin konumu ve hızı gibi daha soyut gösterimleri otomatik olarak öğrenebilir, böylece yol boyunca görüntü üretmeye gerek kalmadan ileriyi daha kolay tahmin edebilir.

Öğrenilmiş Gizli Dinamik Modeli: Gizli dinamik modelinde, Kodlayıcı ağı (Gri yamuk) Giriş görüntüsünün bilgilerini Gizli durum (Yeşil) Orta. Daha sonra gizli durumu tahmin etmek için ileriye yansıtın Geleceğin görüntüleri (Mavi yamuk) ve ödül (Mavi dikdörtgen).

Doğru bir gizli dinamik modeli öğrenmek için şunları öneriyoruz:

  • Tekrarlayan Durum Uzay Modeli : Birden çok zaman adımının bilgisini hatırlarken, sağlam planlamanın ihtiyaçlarına göre çeşitli olası gelecekleri tahmin etmeyi sağlayan deterministik ve rastgele bileşenlere sahip bir gizli dinamik modeli. Deneylerimiz, bu iki bileşenin planlama performansını iyileştirmek için gerekli olduğunu göstermektedir.
  • Gizli Aşma Hedefi : Gizli dinamik modelinin standart eğitim hedefini, gizli uzayda tek adımlı ve çok adımlı tahminler arasında tutarlılığı zorlayarak çok adımlı tahminleri eğitmek için genişletiyoruz. Bu, uzun vadeli tahminleri geliştirebilen ve temeldeki herhangi bir dizi modeliyle uyumlu olan hızlı ve etkili bir hedef üretir.

Gelecekteki görüntüleri tahmin etmek modeli öğretmemize izin verse de, görüntüleri kodlamak ve çözmek (yukarıdaki şekilde yamuk) çok sayıda hesaplama gerektirir ve bu da aracının planlama sürecini yavaşlatır. Bununla birlikte, kompakt bir gizli durum uzayında planlama hızlıdır, çünkü görüntüleri tahmin etmek yerine yalnızca bir eylem dizisini değerlendirmek için gelecekteki ödülleri tahmin etmemiz gerekir.

Örneğin, temsilci, sahneyi görselleştirmeye gerek kalmadan, topun pozisyonunun ve hedefe olan mesafesinin belirli bir eylemde nasıl değişeceğini hayal edebilir. Bu, temsilcinin bir eylemi her seçtiğinde hayal edilen 10.000 eylem dizisini büyük bir parti boyutuyla karşılaştırmamızı sağlar. Ardından bulunan en iyi dizinin ilk eylemini gerçekleştirin ve sonraki adımda yeniden planlayın.

Potansiyel alanda plan yapın : Planlama için, geçmiş görüntüyü (gri yamuk) mevcut gizli duruma (yeşil) kodluyoruz. Bu şekilde, birden fazla eylem dizisinin gelecekteki ödüllerini etkili bir şekilde tahmin edebiliriz. Yukarıdaki resimdeki pahalı görüntü kod çözücünün (mavi yamuk) ortadan kalktığını unutmayın. Ardından, bulunan en iyi sıranın (kırmızı kutu) ilk işlemini gerçekleştirin.

Daha önce bizimle Dünya modeli PlaNet'in çalışması (https://worldmodels.github.io/) Buna karşılık, PlaNet stratejik bir ağ olmadan çalışır - eylemleri yalnızca planlama yoluyla seçer, böylece modeldeki mevcut iyileştirmelerden faydalanabilir. Teknik detaylar için lütfen araştırma makalemize bakın.

PlaNet ve Modelsiz yaklaşım

PlaNet'i sürekli kontrol görevlerinde değerlendirdik. Temsilci yalnızca giriş görüntüsü tarafından gözlemlenir ve ödüllendirilir. Çeşitli zorlukları olan görevleri düşündük:

  • Cartwheel görevi : Sabit bir kamera ile, arabanın gözden uzaklaşması için. Bu nedenle, aracı birden çok bilgi çerçevesini özümsemeli ve hatırlamalıdır.
  • Parmak döndürme görevi: İki ayrı nesneyi ve aralarındaki etkileşimi tahmin etmeniz gerekiyor.
  • Çita çalışan görevler: Modellerin birden fazla olası geleceği tahmin etmesini gerektiren, doğru bir şekilde tahmin edilmesi zor olan yer teması dahil.
  • Kupa yakalama görevi: Sadece top yakalandığında seyrek bir ödül sinyali verir. Bu, uzak geleceği doğru bir şekilde tahmin etmeyi ve kesin bir dizi eylem planlamayı gerektirir.
  • Yürüme görevi: Simüle edilmiş robot önce yerde yatıyor ve sonra yürümeyi öğrenmeden önce ayakta durmayı öğrenmesi gerekiyor.

PlaNet ajanı, çeşitli görüntü tabanlı kontrol görevleri konusunda eğitilmiştir. Ajan görevi çözdüğünde animasyon, giriş görüntüsünü gösterir. Bu görevler farklı zorluklar sunar: kısmi gözlemlenebilirlik, yerle temas, topu yakalamak için seyrek ödüller ve zorlu bir iki ayaklı robotu kontrol etmek.

Bu çalışma, imaj temelli görevlerde modelden bağımsız yöntemleri planlamak ve geride bırakmak için bir öğrenme modeli kullanan ilk çalışmadır.

Aşağıdaki tablo Gezegen Ünlü ile A3C ajanı ve D4PG ajanı Karşılaştırma için ikincisi, modelsiz RL'deki en son gelişmeleri birleştirir. Bu temel veriler, DeepMind kontrol paketinden gelir. PlaNet, tüm görevlerde A3C'den önemli ölçüde daha iyidir ve nihai performans D4PG'ye yakındır, çevre ile etkileşim ortalama olarak% 5000 azalır.

Tüm görevler yalnızca bir aracı gerektirir

Üstelik biz sadece eğittik Altı görevi de çözmek için tek bir PlaNet ajanı .

Ajan, görevi bilmeden rastgele farklı ortamlara yerleştirilir, bu nedenle görevi anlamak için görüntüyü gözlemlemesi gerekir.

Hiper parametreleri değiştirmeden, çok görevli aracı, tek bir aracı ile aynı ortalama performansı elde eder. Çember hareketi görevinde öğrenme hızı daha yavaş olmasına rağmen, çok daha hızlı öğrenir ve keşfedilmesi gereken zorlu yürüme görevinde daha iyi performans gösterir.

PlaNet ajanı birden fazla görev konusunda eğitildi. Aracı, görevleri ve durumları anlamak için bağlam olarak ilk 5 çerçeveyi gözlemler ve bir dizi eylem verildiğinde 50 adım önceden doğru bir şekilde tahmin eder.

sonuç olarak

Sonuçlarımız, otonom RL ajanlarının dinamik bir öğrenme modeli oluşturma olasılığını göstermektedir. 3D ortamlar ve gerçek robotik görevler gibi daha zor görevler için doğru dinamik modelleri öğrenmeye odaklanarak daha fazla araştırmayı teşvik ediyoruz. Ölçek büyütmek için olası bir faktör, TPU'nun işlem gücüdür. Çok görevli öğrenme, hiyerarşik planlama ve belirsizlik tahminlerini kullanarak aktif keşif dahil olmak üzere model tabanlı pekiştirmeli öğrenmenin olanakları konusunda heyecanlıyız.

Kaynak: Google AI

(Bu makale bir ağ alıntı veya yeniden basımdır, telif hakkı orijinal yazara veya yayın medyasına aittir. Çalışmanın telif hakkıyla ilgiliyseniz, lütfen bizimle iletişime geçin.)

Herkes aldatıldı! Yueqing, Zhejiang'daki çocuğun "kayıp" annesi polis tarafından kontrol ediliyor ve polisin yanlış alarmları rapor etmesi halinde ciddi şekilde cezalandırılması gerekiyor!
önceki
İlk Global İnovasyon Forumu IGF'de kim ilk kez sahneye çıktı?
Sonraki
41 ° kuzey enlemi dünyanın en güzel manzarasıyla kakma, sevdiklerinizi kesinlikle hayatınızda bir kez Changbai Dağı'na götüreceksiniz.
Hangi arabanın size ait olduğunu görmek için on popüler araç sahibinin gerçek yakıt tüketimini kontrol edin!
Yu Min ve hidrojen bombası (1) Hidrojen bombasının bilimsel prensibi
Seramik Sanatı Chen Shaoyue Doğu ve Batı'nın birleşimi, güzelliği harika
Küresel borç yeni bir zirveye ulaştı, dolar bir gerilim anına girebilir ve borç balonu altınla delinebilir
2018'deki ilk çarpışma grubu yayınlandı, bağımsız modellerin performansı iyimser ve Lynk & Co 01 süper Mercedes-Benz E listenin başında
Bu mütevazı Jiangnan kasabasında 300 erişte restoranı ve bin yıllık sabah çay sokağı bulunuyor ve kendi yemek imparatorluğunu oluşturuyor.
Ölü çocuk yapay zeka tarafından "diriltildi"! Ama annesi korkmuştu
Yaz seyahatinin tek bir prensibi vardır: havalı olduğu yerde az insanın olduğu yere gidin!
Thanos'un Sonsuz Eldivenlerini önemsiyorsun ve ben sadece süper kahramanların hangi arabaları kullandığını önemsiyorum
Tabandan gelen polise bakın! Kamu Güvenliği Bakanlığı tarafından yeni revize edilen bu yönetmelikler, uzun süredir devam eden sorunlarınızı çözdü.
Kurumlar slogan attı: Uluslararası sermaye U dönüşü yapıyor olabilir, gelişmekte olan pazarlarda dipleri satın alma eğiliminden yararlanmanın zamanı geldi
To Top