UC Berkeley ICLR Makalesi: Golden Gate Köprüsü'ne bisiklet sürmek için pekiştirmeli öğrenme modeli nasıl öğretilir?

Leifeng.com AI Technology Review Not: Bu makalenin yazarı, California Üniversitesi, Berkeley Yapay Zeka Laboratuvarı'ndan (BAIR) bir doktora öğrencisi olan Vitchyr Pong'dur. Ana araştırma yönü derin pekiştirmeli öğrenmedir. Bu blogda yazar, bir tür pekiştirmeli öğrenme ve modelsiz iyi bir sentez olan devam eden ICLR 2018-Temporal Difference Models'da yayınlanan son çalışmalarından birini tanıtıyor. İki stratejinin, yöntem ve model tabanlı yöntemin avantajlarına dayanarak, Leifeng.com AI Technology Review orijinal metni derledi.

Berkeley'deki California Üniversitesi'nin yanındaki evden Golden Gate Köprüsü'ne gitmek istediğinizi varsayalım. Bu, 20 millik manzaralı bir sürüş olsa da, ciddi bir sorun var: hiç bisiklete binmediniz! Sorunları daha da kötüleştirmek için, Körfez Bölgesi'ne yeni taşındınız, bu yüzden ona hiç aşina değilsiniz ve güvenebileceğiniz tek araç, iyi hazırlanmış, güncel bir harita. Peki bu yolculuğa nasıl başlıyorsunuz?

Öncelikle bisiklete nasıl sürüldüğünü bulmalıyız. Bir strateji, çok fazla öğrenme ve planlama yapmak, bisiklete nasıl binileceğine dair kitaplar okumak ve fizik ve vücut yapısını öğrenmek, her rahatsızlığa yanıt olarak yaptığınız tüm farklı kas hareketlerini planlamaktır. Bu yöntem ilk bakışta çok sistematik ve gelişmiş görünse de, bisiklet sürmeyi öğrenmiş herkes için bu stratejinin başarısız olmaya mahkum olduğunu bilirler. Aslında, bisiklete binmeyi öğrenmenin tek bir yolu vardır: dene ve hata yap. Bisiklete binmek gibi bir görev çok karmaşık olduğu için planlayabileceğinizin çok ötesinde.

Bisiklete binmeyi öğrendikten sonra Golden Gate Köprüsü'ne nasıl ulaşacaksınız? Tekrar kullanabilirsin Deneme yanılma stratejisi . Golden Gate Köprüsü'nü bulup bulmadığınızı görmek için birkaç kez amaçsızca dolaşmaya başlıyorsunuz. Ne yazık ki, bu stratejiyi benimsemek çok zamanınızı tüketecek. Bu tür sorunlar için, Planlama Daha hızlı gelen ve yalnızca nispeten az miktarda gerçek dünya deneyimi ve deneme yanılma gerektiren bir stratejidir. Takviye öğrenme terminolojisinde bu, daha iyi örnekleme verimliliğine sahip olmak anlamına gelir (Örnek verimli).

Sol: Bazı beceriler, sürekli deneme yanılma yoluyla öğrenmenizi ve ustalaşmanızı gerektirir; Doğru: Bazen ileriyi planlamak daha iyidir.

Şu anda bu düşünme deneyi çok basit olsa da, insan zekasının bazı önemli yönlerini vurguluyor. Bazı görevler için deneme yanılma yöntemlerini kullanırken, diğer görevler için planlama stratejileri kullanıyoruz. Pekiştirmeli öğrenmede (RL) de benzer bir fenomen var gibi görünüyor. Pekiştirmeli öğrenmeye göre, deneysel sonuçlar şunu kanıtlıyor: Bazı görevler modelden bağımsız (deneme yanılma) yöntemler için daha uygundur, diğer görevler ise model tabanlı yöntemler (planlama) için daha uygundur. .

Bununla birlikte, döngüsel analoji ayrıca iki sistemin tamamen bağımsız olmadığını vurgulamaktadır. Özellikle, bisiklete binmeyi öğrenme sürecinin sadece deneme yanılma olduğunu söylemek çok basitleştirilmiştir. Aslında, deneme yanılma yoluyla bisiklete binmeyi öğrenirken, bazı planlama yöntemlerini de benimseyeceksiniz. Belki ilk planınız "düşme" dir ve sonra ilerledikçe, "bisiklet düşmeden iki metre ileri gider" gibi daha iddialı planlar yaparsınız ve sonunda bisiklet sürersiniz Beceriler yetkin hale gelmeye başlar, böylece kendiniz için bazı çok soyut planlar yapmaya başlarsınız ("yolun sonuna kadar sürün") Bu aşamada, yapmanız gereken tek şey bisiklet sürmek için endişelenmek yerine plan yapmaktır. Ayrıntılar. Bu süreç boyunca, kademeli olarak modelsiz (deneme yanılma) stratejilerden model tabanlı (planlama) stratejilere geçiş yaptığımızı görebiliriz. Dolayısıyla, bu davranışı simüle edebilecek yapay zeka algoritmaları (özellikle pekiştirmeli öğrenme algoritmaları) geliştirebilirsek, Algoritmanın hem yüksek performansa (algoritmanın erken öğrenilmesinde deneme yanılma yöntemi) hem de yüksek örnekleme verimliliğine (daha soyut hedeflere ulaşmak için planlama yöntemine geçtikten sonra) sahip olması muhtemeldir. .

Bu makale, bir tür pekiştirmeli öğrenme türü olan Temporal Difference Model'i (TDM) tanıtıyor. Modelden bağımsız ve model tabanlı pekiştirmeli öğrenim arasında sorunsuz bir geçiş sağlayın . Zaman farkı modelini tanıtmadan önce, ilk olarak tipik bir model tabanlı pekiştirmeli öğrenmenin nasıl çalıştığını tanıtacağız?

Model tabanlı pekiştirmeli öğrenme

Takviye öğrenme algoritmasında, bazı durum uzayımız S ve eylem uzayımız A var. Eğer t zamanında eyaletteysek

Ve harekete geç

Dinamik modelini takip edeceğiz (Dynamics modeli)

Yeni duruma geç

. Daha sonra hedefimiz, daha önce ulaşılan tüm eyaletler için ödüllerin toplamını maksimize etmektir:

. Model tabanlı pekiştirmeli öğrenme algoritmaları, dinamik bir model verdiğimizi (veya öğrendiğimizi) varsayar f. Bu dinamik model ışığında, gerçekte zaten birçok model tabanlı algoritma vardır. Bu makale için, ödülleri en üst düzeye çıkarmak için bir dizi eylem ve durum seçmek üzere aşağıdaki optimizasyon yöntemlerini gerçekleştirmeyi düşünüyoruz:

Bu optimizasyon işlevi, algoritmanın ödülü en üst düzeye çıkarmak için bir dizi durum ve eylem seçmesine rehberlik ederken, aynı zamanda yörüngenin uygulanabilir olmasını da sağlar. Buradaki uygulanabilir yörünge, mevcut durumdan bir sonraki duruma her geçişin geçerli olduğu anlamına gelir. Örneğin aşağıdaki resimde st durumdan başlayıp eyleme geçerseniz, yalnızca en üst sıranın st + 1 durumu uygulanabilir bir geçiştir.

Fizik kurallarını küçümseyebiliyorsanız, Golden Gate Köprüsü'ne seyahat planlamanız çok daha kolay olabilir. Bununla birlikte, model tabanlı optimizasyon problemindeki kısıtlamalar, yalnızca en üst sıradaki yörüngelerin çıkarılabilmesini sağlar. Kalan iki yörünge daha yüksek ödüller getirse de, bunlar mümkün değildir.

Bisiklet sorunumuzda, optimizasyon sonucu aşağıdaki şekilde gösterildiği gibi bir rota planı oluşturabilir. Bisiklet Berkeley'den (sağ üst köşe) başlar ve sonunda Golden Gate Köprüsü'ne (sol orta) ulaşır:

Bir planlama örneği (durum ve eylem) optimizasyon problemini ortaya çıkarır

Bu kavramsal olarak iyi olsa da, plan gerçekte gerçekçi değil. Model tabanlı yöntemler, bir sonraki durumu tahmin etmek için her adımda f (s, a) modelini kullanır. Robotikte, bir zaman adımı genellikle saniyenin onda birine veya saniyenin yüzde birine eşittir. Bu nedenle, nihai planın daha gerçekçi bir açıklaması şöyle görünebilir:

Daha gerçekçi bir plan

Günlük hayatımızda nasıl planladığımızı biraz düşünürsek planladığımız zamanın daha soyut olduğunu fark ederiz. Önümüzdeki onda bir saniyede bisikletin nerede olacağını planlamadık, "Yolun sonuna geleceğim" gibi daha uzun vadeli bir plan yaptık. Ayrıca, bu geçici soyut planları ancak başlangıçta bisiklete binmeyi öğrendiğimizde formüle edebiliriz. Daha önce bahsedildiği gibi, (1) öğrenmenin başında deneme yanılma yöntemini kullanmak; sonra (2) planlamamızın soyutlamasını kademeli olarak artırmak için bir mekanizma sağlamak için bazı yöntemlere ihtiyacımız var. Bu amaçla, bir zaman farkı modeli getirdik.

Zamansal Fark Modelleri

Zaman farkı modeli Q (s, a, sg, ) olarak yazılabilir.Bu fonksiyonun anlamı, bir s durumu, bir eylem a ve bir hedef durum sg verildiğinde, ajanın bir zaman adımında ne kadar yaklaşabileceğini tahmin etmektir. Amaçları. Sezgisel olarak, zaman farkı modeli "San Francisco'ya bisikletle 30 dakikada gitmek istersem, San Francisco'ya ne kadar ileri gidebilirim?" Sorusuna cevap verir. Robotik için, yakınlığı ölçmenin doğal bir yolu Öklid mesafesidir.

Zaman farkı modeli, belirli bir süre sonra hedeften (Golden Gate Köprüsü) ne kadar uzakta olduğunuzu tahmin eder. 30 dakika bisiklet sürdükten sonra, yalnızca yukarıdaki görüntüdeki gri bisikletçi simgesinin konumuna erişebilirsiniz. Bu durumda gri çizgi, zaman farkı modelinin tahmin etmesi gereken mesafeyi temsil eder.

Takviye öğrenmeye aşina olanlar için, zaman farkı modelinin Finite-horizon Markov Karar Sürecinde nesnel koşul Q işlevi olarak kabul edilebileceği ortaya çıktı. Zaman farkı modeli sadece başka bir Q fonksiyonu olduğundan, onu modelden bağımsız (deneme yanılma) bir algoritma kullanarak eğitebiliriz. Zaman farkı modelini eğitmek için Derin deterministik politika gradyanını (DDPG) kullanıyoruz ve öğrenme algoritmasının örnekleme verimliliğini artırmak için hedef ve zaman aralığını geriye dönük olarak yeniden etiketliyoruz. Teorik olarak, herhangi bir Q öğrenme algoritması bir zaman farkı modeli eğitmek için kullanılabilir, ancak bunu yapmanın daha etkili olduğunu bulduk. Okuyucular nasıl daha fazla ayrıntı öğrenmek isterler lütfen makalemizi okuyun.

Zaman farkı modeliyle planlama

Saat farkı modelinin eğitimini tamamlarsak planlama için nasıl kullanacağız? Aşağıdaki optimizasyonlarla plan yapabileceğimiz ortaya çıktı:

Sezgisel olarak, bu formül, ödülü en üst düzeye çıkaran ve uygulanabilir bir yörüngeye sahip olan bir dizi eylem ve durumu seçmeye yönelik model tabanlı formüle çok benzer. Ve önemli bir fark, her zaman adımı yerine yalnızca her K zaman adımını planlıyoruz. Q (st, at, st + K, K) = 0 kısıtlaması yörüngenin uygulanabilirliğini sınırlar. Görsel olarak, her zaman adımı için planlama durumu aşağıdaki şekildedir:

Bunun yerine, aşağıda gösterildiği gibi bu K zaman adımlarını doğrudan planlayabiliriz:

K değeri arttıkça zaman açısından daha soyut planlar alacağız. K zaman adımları arasında, aksiyon almak için modelsiz yöntemler kullanırız ve modelsiz stratejilerin hedefe ulaşma sürecinde uygulama ayrıntılarını "soyutlamasına" izin veririz. Döngü problemi için, yeterince büyük bir K değeri kullanarak, nihai optimize edilmiş sonuç aşağıdaki şekilde gösterildiği gibi bir plan oluşturabilir:

Model tabanlı planlayıcılar zaman soyut hedeflerini seçmek için kullanılabilirken, modelden bağımsız algoritmalar bu hedefe ulaşmak için kullanılabilir.

Unutulmaması gereken bir nokta, bu formülün ödülü yalnızca her K adımında optimize edebilmesidir. Ancak, birçok görev yalnızca son durum ("Golden Gate Köprüsü'ne ulaşmak" gibi) gibi bazı durumlarla ilgilenir, bu nedenle bu yöntem yine de çeşitli ilginç görevleri yakalayabilir.

Alakalı iş

Aslında model bazlı ve modelsiz takviye arasındaki bağlantıyı ilk gören biz değiliz. Parr'08 ve Boyan'99, esas olarak tablo biçimleri ve doğrusal fonksiyon yaklaşımlayıcıları ile ilgilenmelerine rağmen, özellikle ilişkilidir. Sutton'11 ve Schaul'15'te, robot navigasyonu ve Atari oyunları bağlamında, hedef koşul Q işlevini eğitme fikri de araştırılmıştır. Son olarak, kullandığımız Yeniden Etiketleme şeması Andrychowicz'17 çalışmasından esinlenmiştir.

Deney

Zaman farkı modelini, sürekli kontrolü ve gerçek dünya robot görevini simüle eden beş görev üzerinde test ettik. Simülasyon görevlerinden biri, robot kolunu silindiri hedef konuma itecek şekilde eğitmektir. Aşağıda, silindiri sürmek için zaman farkı modeli stratejisinin ve ilgili öğrenme eğrisinin nihai olarak gerçekleştirilmesi gösterilmektedir:

Hedef görevi başarıyla gerçekleştirmek için zaman farkı modeli stratejisi

Öğrenme eğrisi, zaman farkı modelinin eğrisi mavidir (stabil olduğunda, eğri ne kadar düşükse, performans o kadar iyi)

Öğrenme eğrisinde, hedefe olan son mesafe ile Çevre Örneklerinin miktarı arasındaki ilişkiyi çizdik (eğri ne kadar düşükse o kadar iyidir). Simülasyon ortamımız robotu 20 Hz frekansta kontrol eder, bu da simülasyon ortamındaki 1000 zaman adımının gerçek dünyada 50 saniyeye eşdeğer olduğu anlamına gelir. Bu ortamın dinamik modelinin öğrenilmesi nispeten kolaydır, bu da model tabanlı yöntemlerin mükemmel performans elde edeceği anlamına gelir. Beklendiği gibi, modele dayalı yöntem (mor eğri) çok hızlı (yaklaşık 30.000 zaman adımı veya yaklaşık 25 dakika) uyuyor ve etki çok iyi. Zaman farkı modeli yöntemi (mavi eğri) de hızlı bir şekilde takılabilir (yaklaşık 20.000 adım veya yaklaşık 17 dakika). Modelden bağımsız derinlik belirleyici politika eğimi (DDPG, zaman farkı modelini kullanmayan) kıyaslaması nihayet bu görevi çözer, ancak daha fazla eğitim örneği gerektirir. Zaman farkı modeli yönteminin bu kadar hızlı bir şekilde uydurabilmesinin nedenlerinden biri, etkinliğinin kılık değiştirmiş model tabanlı bir yöntem olmasıdır.

Spor görevlerine döndüğümüzde, model içermeyen yöntemlerin sonuçları çok daha iyi görünüyor ve spor görevleri daha dinamik. Spor görevlerinden biri, dört ayaklı bir robotu belirli bir yere hareket ettirmek için eğitmeyi içerir. Ortaya çıkan zaman farkı modeli stratejisi (TDM), aşağıdaki şeklin sol tarafında gösterilir ve ardından sağdaki eğri, karşılık gelen öğrenme eğrisidir.

Spor görevlerine uygulanan TDM stratejileri

Öğrenme eğrisi, TDM mavidir (eğri ne kadar düşükse o kadar iyidir)

Bisiklete binmeyi öğrenmek için stratejiler planlamak yerine deneme yanılma stratejileri kullandığımız gibi, modelden bağımsız yöntemlerin bu sportif görevlerde model tabanlı yöntemlerden daha iyi performans göstermesini bekliyoruz. Öğrenme eğrisinde gördüğümüz tam olarak buydu: model tabanlı yaklaşım performansta sabit kaldı. Modelden bağımsız DDPG yönteminin öğrenme hızı daha yavaş olmasına rağmen, nihai performans model tabanlı yönteme göre daha iyidir. Zaman farkı modeli hızlı bir şekilde öğrenebilir (sığdırabilir) ve en iyi performansı elde edebilir. Bu makalede, hedef pozisyonu bulmak için gerçek dünyada 7 derecelik özgürlüğe sahip bir kereste fabrikası robotunun eğitilmesi de dahil olmak üzere daha deneysel araştırmalar yapılmıştır. Okuyucuları makaleleri kendi başlarına okumaya teşvik ediyoruz!

Gelecek yönü

Zaman farkı modeli, modelden modele göre kontrol enterpolasyonu için resmi ve pratik bir algoritma sağlar. Ancak gelecekte yapılacak daha çok iş var. İlk olarak, türetme ararken çevrenin ve stratejinin belirleyici olduğunu varsayıyoruz. Aslında bunlar çoğu ortamda rastgeledir. Belirleyici olsalar bile, pratikte rastgele stratejileri kullanmak için ikna edici nedenler vardır (bir örnek için bu bloga bakın). Daha sonra TDM bu ayara genişletilirse, TDM'nin daha gerçek bir ortama uygulanmasına yardımcı olacaktır. Diğer bir fikir, TDM'yi bu yazıda kullandığımız isteğe bağlı model tabanlı planlama optimizasyon algoritmaları ile birleştirmektir. Son olarak, spor, manipülasyon ve tabii ki Golden Gate Köprüsü'ne bisiklet sürmek gibi daha zor zorlukları başarmak için TDM'yi gerçek dünyadaki robotlara uygulamayı umuyoruz.

Bu çalışma ICLR 2018'de sunulacak. TDM hakkında daha fazla bilgi edinmek için lütfen aşağıdaki bağlantıyı kontrol edin.Ayrıca Vancouver'daki ICLR'nin poster bölümünde yazarlarla iletişime geçebilirsiniz:

  • ArXiv ön baskısı: "Temporal Difference Models: Model-Based Control için Modelsiz Derin RL"

  • açık kaynak kodu

Ek: Bu yönteme Temporal Difference Model adını vermemizin nedeni, Q'yu eğitmek için Zamansal fark öğrenmeyi kullanmamız ve ardından Q'yu bir model olarak kullanmamızdır.

TDM ile: Lei Feng Network AI Technology Review tarafından derlenen Modelden Modele Dayalı Derin Takviye Öğrenmeye.

"Fatty Action Team" Nihai Poster Sergileme Makalesi Bao Beier, "Olağanüstü" Beceriler Gösteriyor
önceki
"Yazlık" tarafından mağlup edilen 38 yaşındaki MUJI "markasını" nasıl kaybetti?
Sonraki
Rei Kawakubo'nun 2017 MET GALA'sı at yakalamak için yeterli değil mi? Yang Mi ve Liu Wen'nin ne giydiğine bakın!
Seyirciyi ağlatın! Tiyatro, bu yıl Ulusal Gün dosyalarında en çok istismar edilen Çin filmi olan "Jishhuitan" oldu.
Bin yuan makineden üst düzey amiral gemisine! Kasım ayında yeni yayınlanan popüler cep telefonu önerileri
1500 önemsiz oyun yaptıktan sonra para kazanmanın sırrını keşfettiler
"Predator" özel gösterim etkinliği, derin V kar göğsünün kahramanı vücudunu gösteriyor
Baidu'nun en iyi hacker konferansında 2 milyon nakit para biriktireceğini duydum DEF CON I :? ? ? (Özel spoyler)
Kemerinizi bir gün bulamayacağınızı varsayarsak, onu çevreleyen bu nesnelerle değiştirebilirsiniz!
Bir milyar insan sağlam bir marka için QQ "Didi Didi" uygulamasına aşinadır ve 4 yıldır başvurmaktadır!
Bahar Şenliği sırasında, "Buz ve Kar Dünyası" çok popülerdi ve Chongqing vatandaşları Yeni Yıl'ın tadını çıkardı
Apple Çin'in garanti politikası çifte standart mı uyguluyor? iPhone onarılabilir ancak değiştirilemez
Heisei döneminin son aşamasında, bu "en kötü" animasyon doğdu
Bir yazarı tanımak istiyorsan, önce asistanın evine gitmelisin
To Top