g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ICRA 2018 Su altı stabilitesini simüle etmek için takviye öğrenme, dalış gövdesi kuralları 15 dakika içinde öğrenir

Lei Feng Net Not: Lei Feng'in altyazı grubu tarafından derlenen ve size robotik ve otomasyon alanındaki en son araştırma sonuçlarını gösterecek olan ICRA 2018 serisi.

Orijinal başlık: Mikro Dalış Ajanı ile Derinlik Stabilizasyonunun Güçlendirilmiş Öğrenimi

Çeviri | Zhang Gehua Düzenlendi | Fan Jiang

Pekiştirmeli öğrenme, robotların çevre ile etkileşim içinde kontrol problemlerini çözmeleri için bir yöntemdir. Bu yazıda, bazı robotlar ve optik gömülü sistemler için uygun olan model değer işlevlerine dayalı bir takviye öğrenme yöntemi öğreneceğiz.

Başlangıçta, su altı stabilitesini simüle etmek için takviye öğrenme kullanan bir dalış gövdesi tasarladık. Küçük bir dalış bedeninin göreve yönelik öğrenme yeteneğini göstermek için deneyler de yaptık.Bu dalış bedenini, derinliği ve hızı ile belirlenen durumuna getirdik.

Dalış gövdesi sabit kapasiteli bir depolama tankı ve değişken kapasiteli bir depolama tankı içerir, ikincisi gövdeyi sürmek için kullanılır.

Derinliğinin stabilitesi için amacımız, istenen derinliği korumak için değişken su depolama kapasitesini kontrol etmektir. Bu kontrol problemini çözmek için, sistem hakkında önceden bilgi sahibi olmadan veya sürücü gücü bilgisi olmadan pekiştirmeli öğrenme yöntemleri kullanılır. Bu yaklaşımın zorluğu, bilinmeyen sıvı etkileri ve yavaş, doğrusal olmayan bir şekilde değişen tahrik dinamiklerinde yatmaktadır. Hacim ayarının zaman sabiti sistemin gücü ile eşleşir Değişken kapasiteli depolama tankı da sabit kapasiteli depolama tankına kıyasla çok küçük olduğundan sistemin maksimum kontrol kuvveti ve maksimum bağlama kuvveti de çok küçüktür.

Durum uzayı dalış yapan cismin derinliğini ve hızını içerir. Bu çizelge durum uzayını gösterir.Hedef derinliğe yakın alan algoritmanın öğrendiği alanı belirler.Bu dağılım 101 durum içerir. Bu alanın dışındaki her nokta bir uç durum olarak kabul edilir.

Hareket alanı iki kısımdan oluşur: bir kısım değişken depolama tankının su hacmini azaltarak kaldırma kuvvetini sağlamak, diğer kısım değişken depolama tankının su hacmini arttırarak dalış gövdesi algoritmasının kayıp almasını sağlamaktır.Bu kayıp dalış bedenini cezalandıracak ve istenilen hale getirecektir. Derinlemesine hareket edin. Ek olarak, dalış gövdesi son duruma ulaşırsa, takviye öğrenme algoritmasını deneylerle doğrulamak için küçük bir dalış gövdesi tasarlanır ve üretilir. Çalışma süresi yaklaşık 90 dakikadır ve uçucu olmayan bellek 512 KB'dir.

Bir deneyde dalış yapan cismin kendi kararlılığı ile ilgili kuralları sıfırdan öğrenebileceğini kanıtladık. Sol alt köşedeki grafik, dalış vücudunun öğrenme alanındaki başarılı yörüngesini gösterir.