Dinamik | Güçlendirmeli öğrenim robotları ayrıca güçlü çevresel uyumluluğa sahiptir, Berkeley AI Lab meta-eğitim + çevrimiçi uyarlamayı güçlendirir

Şekil 1 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Lei Feng'in web sitesine göre: Gerçek hayatta insanlar çevredeki değişikliklere kolayca adapte olabilirler, ancak robotlar vasat bir adaptasyona sahiptir.Robotlar gerçek dünyaya insanlar kadar çabuk nasıl adapte olabilir? Kaliforniya Üniversitesi, Berkeley'deki Yapay Zeka Laboratuvarı BAIR, çevreye uyarlanabilirliği yüksek robotlar üzerine yaptığı araştırmanın son sonuçlarını geçtiğimiz günlerde tanıttı.Leifeng.com'un tam metni aşağıdaki gibi derlendi.

İnsanlar ortamdaki değişikliklere sorunsuz bir şekilde adapte olabilirler: Yetişkinler birkaç saniye içinde koltuk değnekleriyle yürümeyi öğrenebilirler; insanlar beklenmedik ağır nesneleri neredeyse anında kaldırabilirler; çocuklar ayrıca yürümeyi yeniden öğrenmeden ayak hareketlerini hızlı yapabilirler. Düzten yokuş yukarı geçişe uyum sağlayın. Bu uyarlanabilirlik gerçek dünyada önemli bir rol oynar.

Öte yandan, robotlar genellikle sabit davranışlarla (kodlama veya öğrenmeden bağımsız olarak) konuşlandırılırlar, bu da belirli bir ortamda iyi performans göstermelerine izin verir, ancak aynı zamanda diğer alanlarda da başarılı olmalarına neden olur: sistem arızaları, bilinmeyen alanlarda karşılaşmalar Veya ortamdaki değişikliklerle (rüzgar gibi) karşılaşın, yükleri idare etme ihtiyacı veya diğer beklenmedik değişiklikler. BAIR'in en son araştırmasının fikri, bu aşamada tahminler ve gözlemler arasındaki uyumsuzluğun robota modelini güncellemesini ve mevcut durumu daha doğru bir şekilde tanımlamasını söylemesi gerektiğidir. Örneğin, arabamızın yolda kaydığını fark ettiğimizde (Şekil 2), bu bize davranışımızın beklenmedik ve farklı etkileri olduğunu söyleyecektir, bu da takip eylemlerimizi buna göre planlamamıza olanak tanır. . Robotların gerçek dünyaya daha iyi adapte olabilmeleri için geçmiş deneyimlerini kullanabilmeleri ve hızlı ve esnek bir şekilde adapte olabilmeleri önemlidir. Bu amaçla BAIR, model tabanlı hızlı uyarlanabilir bir meta-pekiştirmeli öğrenme algoritması geliştirdi.

Şekil 2 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Hızla uyum sağlayın

Önceki çalışmalarda deneme yanılma uyarlama yöntemleri (Cully ve diğerleri, 2015) ve ücretsiz model meta-pekiştirme öğrenme yöntemleri (Wang ve diğerleri, 2016; Finn ve diğerleri, 2017) kullanılmıştır. adapte olmak. Bununla birlikte, BAIR araştırmacılarının işi, uyarlanabilirliği en üst düzeye çıkarmaktır. İnsan adaptasyonunun yeni ortamlarda birkaç kez tecrübe edilmesine gerek yoktur Bu adaptasyon birkaç zaman adımında (yani milisaniye) çevrim içi olarak gerçekleşir ve fark edilemeyecek kadar hızlıdır.

BAIR araştırmacıları, model tabanlı bir öğrenme ortamında (aşağıda tartışılmıştır) meta öğrenmeyi uyarlayarak, bu hızlı uyarlamayı başardı. Modeli güncellemek için kullanılan veriler, hesaplama sürecinde elde edilen ödüllere göre ayarlanmak yerine modele göre ayarlanmalıdır.Son deneyimlere göre, bu veriler her zaman adımında model tahmin hataları şeklinde rol oynamaktadır. Bu model tabanlı yaklaşım, robotun modeli bilinçli olarak güncellemek için yalnızca küçük bir miktar yeni veriyi kullanmasına izin verir.

Yönteme genel bakış

Şekil 3 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

BAIR araştırmacılarının yöntemi, Şekil 3'teki evrensel formülü takip eder ve genel uyarlanabilir kontrol çerçevesine benzer şekilde modeli uyarlamak için son verilerin gözlemlerini kullanır (Sastry ve Isidori, 1989; Åström ve Wittenmark, 2013). Bununla birlikte, asıl zorluk, model karmaşık, doğrusal olmayan, yüksek kapasiteli bir fonksiyon yaklaştırıcısı (sinir ağı gibi) olduğunda modelin nasıl başarılı bir şekilde uyarlanacağıdır. Anlamlı öğrenmeyi gerçekleştirmek için sinir ağlarının çok fazla veriye ihtiyacı vardır, bu nedenle SGD'yi model ağırlıklarına uygulamak geçersizdir.

Bu nedenle, (meta) eğitim süresi boyunca bu adaptasyon hedefine göre açık bir şekilde eğitim alarak, sonraki bölümde açıklandığı gibi test sırasında hızlı bir şekilde adapte olabilir. Meta-eğitim, çeşitli farklı ayarlarla veriler üzerinde gerçekleştirilir.Uyarlamada iyi olan önsel bir model elde edildiğinde (ağırlık ile temsil edilir), robot her zaman adımında buna dayandırılabilir (Şekil 3). Uyum sağlamak, önceki modeli mevcut deneyimle birleştirmek ve modelini mevcut duruma uyacak şekilde ayarlamak, böylece hızlı çevrimiçi adaptasyon gerçekleştirmek.

Meta eğitimi:

Herhangi bir t adımı verildiğinde, st aşamadayız ve zamanında önlem alıyoruz. Temel dinamik fonksiyonuna göre st + 1 = f (st, at), sonunda st + 1'in sonucunu alacağız. Bizim için gerçek dinamikler bilinmiyor, bu yüzden bunun yerine gözlem formu (st, at, st + 1) aracılığıyla bazı öğrenilmiş dinamik modellerine uymak istiyoruz s ^ t + 1 = f (st, at) ) Mümkün olan en iyi tahminleri yapmak için veri noktaları. Davranışsal seçimleri uygulamak için planlamacılar bu değerlendirilmiş dinamik modeli kullanabilir.

İlk sunum sırasında herhangi bir ayrıntı ve ayarın herhangi bir zaman adımında değiştirilebileceğini varsayarsak. Geçici olarak yaklaşan zaman adımını, bize mevcut durumu söyleyebilen "görevin" ayrıntıları olarak kabul edeceğiz: herhangi bir uzay durumunda çalışmak, devam etmek Rahatsızlıklar, yeni hedefler / ödüller denemek, sistem arızalarını yaşamak vb. Bu nedenle, modelin planlamada en kullanışlı model haline gelmesi için BAIR araştırmacıları, yakın zamanda gözlemlenen verileri ilk güncelleme için kullanmak istiyor.

Eğitim süresinde (Şekil 4), toplam (M + K) veri noktalarının sürekli bir dizisini seçmek, model ağırlığını 'dan 'ye güncellemek için ilk M'yi kullanmak ve ardından yeni 'yi optimize etmek, Bir sonraki K zaman adımı için durum geçişlerini tahmin etmede iyidir. Geçmiş K noktalarının bilgilerini kullanarak ağırlığı ayarladıktan sonra, bu yeni ifade edilen kayıp fonksiyonu gelecekteki K noktalarının tahmin hatasını temsil eder.

Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR

Diğer bir deyişle, 'nin iyi dinamik tahminlere yol açması gerekmez. Aksine, kendisini yeni ağırlığa hızlı bir şekilde adapte etmek için belirli görevin veri noktalarını kullanabilmesi ve iyi dinamik tahmin sonuçları elde etmek için bu yeni ağırlığa güvenmesi gerekir. Bu formül hakkında daha sezgisel bilgi için lütfen MAML blog gönderisine bakın.

Şekil 4 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Simülasyon deneyi

BAIR araştırmacıları, yöntemlerinin ortamdaki anlık değişikliklere uyum sağlama yeteneğini ve bu yöntemin eğitim ortamı dışında genelleştirilip genellenemeyeceğini test etmek için simüle edilmiş bir robot sistemi üzerinde deneyler yaptılar. BAIR araştırmacılarının tüm ajanlar için görev / ortam dağılımının meta-eğitimini yürüttüğünü belirtmek gerekir (ayrıntılar için bu makaleye bakın), ancak araştırmacılar test sırasında bilinmeyen ve değişen ortamlara uyum sağlama yeteneklerini değerlendirdiler. Şekil 5'teki Cheetah robotu, farklı rastgele kaldırma kuvvetine sahip yüzer tahtalar üzerinde eğitildi ve ardından suda farklı kaldırma kuvvetine sahip yüzen bir tahta üzerinde test edildi. Bu ortam, sadece uyum sağlama ihtiyacını değil, aynı zamanda hızlı / çevrimiçi uyum ihtiyacını da göstermektedir. Şekil 6, farklı bacak engelli bir karınca robotu ile yapılan bir deneydir, bu aynı zamanda çevrimiçi adaptasyonun gerekliliğini gösterir, ancak ilk gösterildiğinde görünmez bir bacak yarı yolda başarısız olmuştur. Aşağıdaki nitel sonuçlarda, BAIR araştırmacıları gradyan tabanlı uyarlanabilir öğrenicileri ('GrBAL') standart model tabanlı öğrenicilerle ('MB') karşılaştırır. Bu model tabanlı öğrenci aynı eğitim görevindedir Değişim ama eğitim için net bir adaptasyon mekanizması yok.

Şekil 5 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Şekil 6 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Bu model tabanlı meta-güçlendirme öğrenme yönteminin hızlı uyarlanabilirliği, bu simüle edilmiş robot sisteminin önceki en iyi yönteme kıyasla performans ve / veya örnek verimliliğinde önemli bir iyileşme elde etmesini sağlar ve aynı yöntemin kontrol deneyinde, Çevrimiçi uyarlama olmadan çevrimiçi uyarlama, meta eğitim ile meta eğitimin karşılaştırılması, dinamik modelin dinamik modelle karşılaştırılmasıyla karşılaştırıldığında, sistem performansının ve / veya örnek verimliliğinin gelişimini görebilirsiniz. Bu niceliksel karşılaştırmaların ayrıntıları makalede bulunabilir.

Donanım deneyi

Şekil 7 Görüntü kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR

Şekil 7 Görüntü kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR

Sadece meta-pekiştirmeli öğrenme yönteminin örnek verimliliğinin vurgulanması değil, aynı zamanda gerçek dünyada hızlı çevrimiçi adaptasyonun önemi de vurgulanmalıdır.BAIR araştırmacıları bu yöntemi gerçek dinamik ayaklı bir mikro robotta gösterdiler (bkz. Şekil 7). Bu küçük 6 ayaklı robot, oldukça rastgele ve dinamik hareket biçiminde bir modelleme ve kontrol zorluğu sergiliyor. Bu robot, birçok nedenden ötürü mükemmel bir çevrimiçi adaptasyon adayıdır: Bu robotun yapımı hızlı üretim teknikleri ve birçok özel tasarım adımını kullanır, bu da aynı dinamikleri, bağlantı mekanizmasını ve diğerlerini kopyalamayı imkansız kılar. Vücut kısmı zamanla dejenere olacak ve çok hızlı hareket edecek ve arazi değiştikçe dinamik olarak değişecektir.

BAIR araştırmacıları, yürüyen robotu çeşitli farklı arazilerde meta-eğitime tabi tuttu ve daha sonra, ajanın, tek ayak olmadan düz bir çizgide yürüme görevi de dahil olmak üzere, çevrimiçi (koşarken) yeni görevlere uyum sağlama yeteneğini test ettiler. Hiçbir zaman kaygan arazi ve eğimler, düzeltme hataları veya poz tahmininde hatalar görmemiş ve yükü ilk kez çekmesine izin vermiştir. Donanım deneyinde, BAIR araştırmacıları yöntemlerini iki yöntemle karşılaştırdı: 1. Ne uyarlanabilir ne de meta öğrenmeye sahip standart model tabanlı öğrenme ('MB') yöntemi; 2. Uyarlanabilir yeteneğe sahip dinamik bir değerlendirme modeli ('MB' + "DE"), ancak uyarlanabilir yeteneği, meta olmayan öğrenme ile elde edilen öncekinden gelir. Sonuçlar (Şekil 8-10), sadece uyarlanabilirliğin gerekli olduğunu değil, aynı zamanda uyum sağlamak için açık meta-öğrenmeden elde edilen bir priori gerektiğini de göstermektedir.

Şekil 8 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Şekil 9 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Şekil 10 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Etkili çevrimiçi adaptasyon sayesinde, düz bir çizgide bir bacağın eksik olduğu deneylerde, BAIR'in yöntemi kaymayı önledi, eğimden aşağı kaymayı önledi, pozun yanlış hizalamasını açıkladı ve çekiş yüküne göre ayarlandı. Bu görevlerin / ortamların, meta-eğitim aşamasında öğrenilen motor davranışlarla yeterince ortaklığa sahip olduğunu belirtmek gerekir.Önceki bilgilerden bilgi çıkarmak (sıfırdan öğrenmek değil) yararlıdır, ancak bunlar çok farklıdır ve etkili olmaları gerekir. Çevrimiçi adaptasyon başarılı olabilir.

Şekil 11 [Resim kaynağı: BERKELEY BAIR Sahibi: BERKELEY BAIR]

Gelecek yönü

Meta öğrenmeyi kullanarak, bu çalışma, yüksek kapasiteli sinir ağı dinamik modellerinin çevrimiçi uyarlamasını sağlar. Önceki meta-öğrenmeden başlayarak, modelin yerel ince ayarına izin vererek, BAIR araştırmacıları doğru bir küresel model ihtiyacını ortadan kaldırdı ve beklenmedik çevresel değişiklikler gibi yeni senaryolara hızla adapte olabiliyor. BAIR araştırmacıları, simülasyon ve donanımın farklı görevlerdeki adaptasyon sonuçlarını göstermiş olsalar da, yine de birçok ilgili iyileştirme vardır.

Her şeyden önce, bu ayar çok güçlü olmasına rağmen, her zaman bir önceki eğitimden itibaren ince ayar yapılır, ancak bu yöntemin bir sınırlaması vardır, yani bu yeni ayarı birkaç kez okusanız bile, ilk kez gördüklerinizi alacaksınız. Aynı performans. Takip çalışmasında BAIR araştırmacıları zamanla ciddileşen bu sorunu doğru bir şekilde çözmek için önlemler alacak ve aynı zamanda yeni beceriler denedikleri için eski becerileri de unutmayacaktır.

Diğer bir iyileştirme alanı, koşulların veya analitik performansın formülasyonunun yanı sıra adaptasyonun sınırlamalarını içerir: Yukarıda içerilen bilgiler göz önüne alındığında, ne uyarlanabilir? Ne adapte edilemez? Örneğin, iki kişi bisiklete binmeyi öğreniyorsa, kim aniden yolda kayar? Bu ikisinin de daha önce bisiklete binmediğini varsayın, bu yüzden bisikletten düşmeleri imkansızdır. Bu deneyde, ilk kişi A düşebilir, bileğini yaralayabilir ve ardından birkaç ay fizik tedaviye ihtiyaç duyabilir. Aksine, başka bir B kişisi, önceki dövüş sanatları bilgisinden öğrenebilir ve böylece iyi bir "düşme" prosedürü uygulayabilir (yani, bilek ile düşme kuvvetini zayıflatmaya çalışmak yerine düşerken yastığa geri dönün. ). Bu bir örnektir, bu iki kişi yeni bir görevi yerine getirmeye çalışırken, önceki bilgilerindeki diğer deneyimler, adaptasyon girişimlerinin sonuçlarını önemli ölçüde etkileyecektir. Bu nedenle, mevcut bilgiler çerçevesinde adaptasyonun sınırlamalarını anlamak için bir mekanizmaya sahip olmak ilginç olmalıdır.

Orijinal kağıt adresi:

https://arxiv.org/abs/1803.11347 (ICLR 2019 tarafından alındı)

Proje ana sayfası:

https://sites.google.com/berkeley.edu/metaadaptivecontrol

Kod açık kaynak adresi:

https://github.com/iclavera/learning_to_adapt

Lei Feng Net Not: Bu makale BERKELEY BAIR'den derlenmiştir.

2019 Küresel Yapay Zeka ve Robotik Zirvesi

Çin Bilgisayar Derneği'nin ev sahipliği yaptığı ve Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019) düzenlenecek 12-14 Temmuz 2019 Shenzhen'de düzenlendi.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun , Görünüm Makine öğrenmesine giriş klasik kursu, Ulusal Tayvan Üniversitesi Profesörü Li Hongyi'nin makine öğrenimi kursu 2019 sürümü geliyor

Taihu Balıkçı-Çin Edebiyat ve Sanat Yayın Şirketi Federasyonu 1985
önceki
Oz Büyücüsü [04] Kurtarma Liancheng Wall-Heilongjiang Güzel Sanatlar Yayın Evi 2011, Li Ming [Bölüm 2]
Sonraki
Oz Büyücüsü [04] Li Ming [1] tarafından boyanmış Liancheng Wall-Heilongjiang Güzel Sanatlar Yayınevi 2011 Kurtarma
Kuru mallar | Yarı denetimli öğrenme devrimi hiç yoktan daha iyi konuşmaktan işe yaramaya kadar sessizce geliyor
Düşman Bayrağını Çekmek - Şangay Halk Yayınevi 1973 Ofisin sanat muhabiri tarafından düzenlendi ve çizildi
6299 inanç bedeli! Sony X1 National Bank versiyonu yayınlandı: dünyanın ilk 4K balık ekranı!
Li Xiang tarafından boyanmış Yang Jian-Oriental Güzel Sanatlar Yayınevi 2013 ile Mücadele
Bu yazlık paspas, yaz aylarında daha az klima kullanmanıza olanak sağlar! Kolayca uykuya dalın, akarları önleyin ve serinleyin!
Çin'deki 144.364.100 kişi aslında yardım fonunu ödedi ve insanların% 44'ü ipoteği geri ödemek için geri çekildi
Naotian Sarayı-Doğu Güzel Sanatlar Yayınevi 2013 Li Xiang Tarafından Boyanmış
Endüstri | Facebook: "Hata yapmayan" bir robot "akıllı" bir robot değildir
Lenovo, Huawei'nin tedarikini ilk kesen şirket ve Lenovo bu sefer gerçekten hareket ediyor: koşmaya bile zahmet etme!
Hem hücum hem de savunma, boğa ve ayının uzun vadeli değer tabanını sabitliyor
Kadınların çevrimiçi buluşmaları "seçkin erkeklerle" buluşuyor! On gün! 16 milyondan fazlası aldatıldı
To Top