DeepMind, akıllı vücut eğitimi için yeni bir çağ açan dağıtılmış eğitim çerçevesi IMPALA'yı başlattı

Leifeng AI Araştırma Enstitüsüne göre, DeepMind kısa süre önce yüksek oranda ölçeklenebilir, öğrenme ve yürütme süreçlerini ayıran ve V-trace adı verilen bir ayırma stratejisi kullanan yeni bir dağıtılmış aracı eğitim çerçevesi IMPALA başlattı. (Politika dışı) Değiştirilen algoritma önemli hızlandırma performansına ve son derece yüksek verimliliğe sahiptir. Özellikle, Leifeng.com AI Araştırma Enstitüsü orijinal metni aşağıdaki gibi derledi:

Derin Güçlendirmeli Öğrenme (DeepRL), robotların sürekli kontrolü, Go ve Atari gibi oyunlar oynama gibi bir dizi görevde dikkate değer sonuçlar elde etti. Şimdiye kadar, gördüğümüz sonuçlar tek bir görevle sınırlı ve her görevin temsilciyi ayrı ayrı ayarlaması ve eğitmesi gerekiyor.

Son çalışmamızda, tek bir temsilcinin birden fazla görevde eğitimini inceledik.

Bugün, birçok zorluğu kapsayan bir dizi yeni görev olan DMLab-30'u yayınlıyoruz Görsel olarak birleşik bir ortamda, sıradan bir eylem alanı var. Birçok görevde iyi performansa sahip bir aracı eğitmek, çok fazla iş hacmi ve her veri noktasının etkili bir şekilde kullanılmasını gerektirir.

Bu amaçla, V- adı verilen bir çerçeve kullanan yeni, yüksek düzeyde ölçeklenebilir dağıtılmış bir aracı eğitim çerçevesi IMPALA (Önem Ağırlıklı Aktör-Öğrenci Mimarileri) geliştirdik. İzlemenin politika dışı düzeltme algoritması.

DMLab-30

DMLab-30, açık kaynak güçlendirme öğrenme ortamı DeepMind Lab aracılığıyla tasarlanmış bir dizi yeni görevdir. DMLab-30 ile, herhangi bir derin takviyeli öğrenme araştırmacısı sistemi çok çeşitli ilginç görevlerde test edebilir, bireysel testleri ve çok görevli ortam testlerini destekler.

Bu görevler, olabildiğince çeşitli olacak şekilde tasarlanmıştır. Farklı hedefleri var, bazıları öğreniyor, bazıları hafıza ve bazıları navigasyon. Görsel efektleri de farklıdır, örneğin, bazıları renkli, modern tarzda dokulardır ve bazıları çölde şafakta, öğlen veya gece ince kahverengiler ve yeşilliklerdir. Açık dağlık alandan dik açılı labirente, açık yuvarlak odaya kadar ortamın ortamı da farklıdır, hepsi burada mevcuttur.

Ayrıca bazı ortamlarda amaca yönelik davranışlar gerçekleştiren "robotlar" da bulunmaktadır. Farklı görevlerin farklı hedefleri ve ödülleri olması da önemlidir.Örneğin, dil talimatlarını takip etmek, kapıyı açmak için anahtar kullanmak, mantar toplamak, geri döndürülemeyecek karmaşık bir yol çizmek ve izlemek, nihai hedefler ve ödüller farklı olacaktır. .

Ancak, eylem alanı ve gözlem alanı söz konusu olduğunda, görev ortamı aynıdır. Temsilci her ortamda eğitilebilir. Eğitim ortamı hakkında daha fazla ayrıntı DMLab'ın GitHub sayfasında bulunabilir.

IMPALA :: Anahtar Ağırlıklı Eylem Öğrenen Çerçevesi

DMLab-30'daki bu zorlu görevleri eğitmek için, veri verimini en üst düzeye çıkarmak için TensorFlow'daki verimli dağıtılmış çerçeveyi kullanan IMPALA adlı dağıtılmış bir aracı çerçevesi geliştirdik.

IMPALA, temsilcinin parametrelerini öğrenmek için birden fazla dağıtılmış aktör kullanan popüler A3C çerçevesinden esinlenmiştir.

Böyle bir modelde, her aktör ortamda hareket etmek için bir politika parametresi klonu kullanır. Aktörler, gradyanları paylaşmak için araştırmayı periyodik olarak duraklatır. Bu gradyanlar, merkezi bir parametre sunucusu tarafından hesaplanır ve gerçek zamanlı olarak güncellenir (aşağıdaki şekle bakın).

Öte yandan, IMPALA'da gradyanları hesaplamak için hiçbir aktör kullanılmaz. Sadece, eğimi hesaplayan merkezi öğrenciye aktarılacak olan deneyim toplamak için kullanılırlar, bu da bağımsız aktörler ve öğrenicilerden oluşan bir modelle sonuçlanır.

Modern bilgi işlem sistemlerinin birçok avantajı vardır: IMPALA, avantajlarını aynı anda güncellemeler için tek bir öğrenciyi veya birden çok öğrenciyi kullanmak için kullanabilir. Öğrenmeyi ve eylemi bu şekilde ayırmak, tüm sistemin iş hacmini iyileştirmeye yardımcı olur, çünkü aktörlerin artık Toplu A2C çerçevesindeki bekleyen öğrenme adımlarını gerçekleştirmesine gerek yoktur.

Bu, IMPALA'yı çerçeve oluşturma süresindeki veya görev yeniden başlatma süresindeki değişikliklerden etkilenmeden ortamda eğitmemizi sağlar.

IMPALA'da öğrenme süreklidir, diğer çerçevelerden farklı olarak, öğrenmenin her adımı askıya alınmalıdır.

Bununla birlikte, eylemi öğrenmeden ayırmak, oyuncunun stratejisinin öğrencinin gerisinde kalmasına neden olabilir. Bu farkı telafi etmek için, oyuncunun geriye doğru gidişatını telafi edebilen, metodik bir strateji dışı aktör eleştirmeni algoritması olan V-trace'i sunuyoruz. Bu algoritmanın belirli ayrıntılarını IMPALA: Önem Ağırlıklı Aktör-Öğrenci Mimarileri ile Ölçeklenebilir Dağıtılmış Derin-RL makalemizde görebilirsiniz.

Benzer aracılarla karşılaştırıldığında, IMPALA'daki optimizasyon modeli, zorlu bir ortamda öğrenmeyi mümkün kılan, 1 ila 2 kat daha fazla deneyimin üstesinden gelebilir.

IMPALA'yı birkaç popüler aktör-eleştirmen yöntemiyle karşılaştırdık ve önemli bir hızlandırma etkisine sahip olduğunu gördük. Buna ek olarak, IMPALA ile, aktörlerin ve öğrenicilerin büyümesi ile verimlilik neredeyse doğrusal olarak artar. Bu, dağıtılmış aracı modelinin ve V-trace algoritmasının son derece büyük ölçekli deneyleri destekleyebileceğini ve destek ölçeğinin binlerce makineye bile ulaşabileceğini göstermektedir.

DMLab-30 üzerinde test edildiğinde, A3C ile karşılaştırıldığında, IMPALA'nın veri verimliliği 10 kat arttı ve nihai puan ikincisinin iki katına ulaştı. Ek olarak, tek görevli eğitimle karşılaştırıldığında, çok görevli bir ortamda IMPALA eğitimi olumlu bir geçiş eğilimi gösterir.

IMPALA kağıt adresi: https://arxiv.org/abs/1802.01561

DMLab-30 GitHub adresi: https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

aracılığıyla: DeepMind Blog

Leifeng.com AI Araştırma Enstitüsü tarafından derlenmiş ve derlenmiştir

Yeni bir ofis biçimi açın Dell Inspiron 5280 tushang
önceki
Chen Qizong: Ticari medeniyete olan güvenim insan doğasına değil, hukukun üstünlüğüne dayanmaktadır Qin Shuo Röportajı
Sonraki
Bir kız 150.000 yuan'e inen otomatik bir arabayı nasıl seçmelidir?
"A Good Show" yönetmeni Huang Bo, kadın grubu üyelerinin ilk çıkışına tanık olmak için "Creation 101" finallerine yeniden katılıyor
TE Connectivity yeni MAG-MATE terminallerini piyasaya sürüyor
Switch "Diablo 3" için Çince altyazılar güncellendi ve Çince ses paketleri indirilebilir
Dünyanın en ünlü teyzesi
"Nehirden Geçiş Yapan Erkekler" yine sürpriz yumurtaları ortaya çıkarıyor
Karşılaşma ve sürpriz, gözlerinde X100 serisi
Satın al ya da alma? "Ace Combat 7"
Nehir dokuz yıl önce nereden akıyordu | Anıt
İlk lansman | Vektör üretimine uygun olarak Heduo Technology ilk yerli L3.5 otonom sürüş çözümünü piyasaya sürdü
Bir araba satın aldıktan sonra hangi konfigürasyon pişman olmadı?
"Ödül için oy verin" Desteklediğiniz öğretim üyelerine gelin ve çılgın deyin!
To Top