DeepMind'in yeni araştırması "Eğitim ve eğlence", robotların karmaşık ve ince hareketleri sıfırdan öğrenmesine olanak tanır

Xia Yi, DeepMind blogundan derlendi

Qubit Üretildi | Genel Hesap QbitAI

Nesneleri garip bir şekilde kavrayan ve hareket ettiren bu robotu küçümsemeyin, DeepMind'in en son araştırma sonucudur.

Bu kadar özel olan ne? Bu manipülatör, simülatörde bir aracı eğitmek ve ardından onu taşımak yerine doğrudan gerçek dünyada eğitildi.

Bu araştırma, DeepMind tarafından bugün resmi blogunda tanıtılan "eğlence ve eğlencedir" ve hem simülasyon ortamında hem de gerçek dünyadaki robotların bir dizi küçük yardımcı görev aracılığıyla daha karmaşık bir görevi öğrenmesine olanak tanır.

Qubit, DeepMind blog içeriğini aşağıdaki gibi çevirecektir:

Bir yapay zeka aracısının (ajanın) masaları toplamak ve bir şeyleri yığmak gibi kontrol görevlerini tamamlaması için, simüle edilmiş robotik kolunu ve parmaklarının dokuz eklemini ne zaman, nerede ve nasıl koordine edeceğini bilmesi gerekir. Hedefe ulaşmak için doğru hareket edin.

Bir keşif problemini çözmek için, temsilcinin genellikle uzun bir doğru eylemler listesi gerçekleştirmesi gerekir ve zamanın her noktasında, her bir eklemin eylemlerinin kombinasyonu için birçok olasılık vardır. Sonuç olarak, bu, pekiştirmeli öğrenme araştırmaları için büyük bir ilgi alanı haline geldi.

Ödüllerin şekillendirilmesi, çırak öğrenimi ve gösteri öğrenimi gibi becerilerin problemleri keşfetmede bazı faydaları vardır, ancak bu yöntemler görev hakkında çok fazla bilgiye dayanır. Bu nedenle, yalnızca minimum ön bilgi ile, karmaşık kontrol problemlerini sıfırdan öğrenmek hala açık bir zorluktur.

DeepMind'in yeni makalesi, Scratch'ten Seyrek Ödül Görevlerini Oynayarak-Çözerek Öğrenme, keşif sorunlarının üstesinden gelmek için "Zamanlanmış Yardımcı Kontrol (SAC-X)" adı verilen yeni bir öğrenme paradigması önermektedir. Bu yöntem, temsilcinin karmaşık görevleri sıfırdan öğrenmesi durumunda önce bir dizi temel beceriyi öğrenmesi, keşfetmesi ve ustalaşması gerektiği fikrine dayanmaktadır. Bir bebeğin emekleyip yürümeden önce koordinasyon ve denge yetenekleri geliştirmesi gerektiği gibi, temsilciye basit becerilere karşılık gelen dahili yardımcı hedefler sağlamak, daha karmaşık görevleri anlama ve yerine getirme şansını da artırabilir.

SAC-X yöntemini, nesneleri istiflemeden oyun alanını temizlemeye (eşyaları kutulara koymak) kadar değişen görevlerle, yoğun şekilde simüle edilmiş ve gerçek robotlar üzerinde gösterdiler. Bu görevler için yardımcı görevlerin tanımlanması genel bir ilkeyi takip eder: Temsilciyi, parmak üzerindeki dokunsal sensörü etkinleştirmek, bilek üzerindeki kuvveti algılamak, duyusal sensördeki eklem açısını en üst düzeye çıkarmak veya görüşünü itmek gibi algılama alanını keşfetmeye teşvik edin. Kamera sensöründeki bir nesnenin hareketi vb. Her görev, hedef tamamlandığında basit bir ödül 1 alabilir, aksi takdirde 0'dır.

Aracı öğrenmenin ilk yardımcı görevi: parmaktaki dokunma sensörünü etkinleştirin ve iki nesneyi hareket ettirin

Simülasyon aracısı nihayet karmaşık nesneleri "istifleme" görevinde ustalaştı

Yardımcı görevi aldıktan sonra, akıllı beden, başka bir yardımcı görev veya dışarıdan tanımlanmış bir hedef görev olabilecek bir sonraki adımda takip edilecek olan mevcut "niyetini" belirler.

En önemlisi, tekrar tabanlı politika dışı öğrenmenin yaygın kullanımı yoluyla, akıllı beden şu anda gerçekleştirmediği diğer görevlerden ödül sinyallerini algılayabilir ve bunlardan öğrenebilir. Örneğin, aracı bir nesneyi alırken veya taşırken nesneleri bu arada istifleyebilir.Bu görev aynı zamanda istifleme için bir ödül setini gözlemlemesine de izin verir.

Bir dizi basit görev, aracının nadir ekstra ödülleri gözlemlemesine neden olabileceğinden, önceden belirlenmiş niyetleri belirleme yeteneği çok önemlidir. Toplanan ilgili bilgilere dayanarak kişiselleştirilmiş bir "kurs" oluşturabilir Gerçekler, özellikle çok sayıda dış ödül sinyali bulunmadığında, büyük bir alandaki bilgi noktalarını keşfetmek için etkili bir yöntem olduğunu kanıtlamıştır.

Temsilci, önceden belirlenmiş bir modül aracılığıyla hangi niyete yönelik çalışacağına karar verir ve önceden belirlenmiş program, ana görevin ilerlemesini en üst düzeye çıkarmak için eğitim sürecinde meta-öğrenme yoluyla gelişir ve bu da veri verimliliğini önemli ölçüde artırır.

Aracı, birçok dahili yardımcı görevi keşfederek nesneleri nasıl istifleyeceğini ve organize edeceğini öğrendi

Makaledeki değerlendirme sonuçları, SAC-X'in araştırmacılar tarafından belirlenen tüm görevleri sıfırdan çözmeyi öğrenmek için aynı yardımcı görevleri kullanabileceğini göstermektedir.

Yarış için daha fazlası, gerçek dünyadaki robotik kolların 0'dan SAC-X'e kadar nesneleri seçip yerleştirmeyi de öğrenebilmesidir. Bu tür bir araştırma çok zordur, çünkü gerçek dünya robotlarının öğrenmesi ve mükemmel veri verimliliği gerektirmesi gerekir, bu nedenle genellikle bir aracı gerçek bir robotik kola taşımadan önce simüle edilmiş bir ortamda eğitirler.

Şu robotik kola bir göz atalım:

Gerçek robotik kol daha önce hiç görmediği bir görevi yerine getiriyor: bu yeşil kareyi alıp hareket ettirmek

DeepMind, SAC-X'in kontrol görevlerini sıfırdan öğrenmede önemli bir adım olduğuna inandıklarını söyledi. Bu şekilde, yalnızca genel hedefi belirlemeniz gerekir ve yardımcı görevler keyfi olarak tanımlanabilir ve bu makaledeki çeşitli sensörlerin aktivasyonu veya araştırmacının önemli gördüğü herhangi bir görev gibi genel görüşlere dayalı olarak ayarlanabilir.

Bu bakımdan SAC-X, genel bir pekiştirmeli öğrenme yöntemidir, kontrol ve robotikte kullanılmasının yanı sıra genel seyrek pekiştirmeli öğrenme ortamlarında da yaygın olarak kullanılmaktadır.

Orijinal: https://deepmind.com/blog/learning-playing/

kağıt:

Seyrek Ödül Görevlerini Sıfırdan Oynayarak-Çözerek Öğrenme

Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess, Jost Tobias Springenberg

https://arxiv.org/abs/1802.10567

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin. Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Geçmişte, 170.000 yuan'lık bir fiyat artışı, dört Çinli astıktan sonra, 100.000 yuan'ın fiyatı perişan bir şekilde satıldı!
önceki
PlayerUnknown's Battlegrounds'un optimizasyonu ne kadar kötü? Blue Hole: Lütfen sürücüyü güncellemeyin, oyunun büyük problemleri olacak
Sonraki
7 maçta 8 gol! Zheng Dashi, J-League deplasman maçında 1 numaralı katil oldu
Saf bir yerli otomobil, ancak Porsche kadar ünlü olduğu söyleniyor ve Çin'de karıştırılıyor!
Shenzhen Baoanming Jinhai 14 soruyu yanıtladı, Zhu Shihe en çok Matt'ten korktuğunu söyledi!
Çin tarihinin en çok beklenen oyunu! Ma Huateng bundan para kazandı ve sonunda bir mobil oyun çıkardı
Bir araba satın aldığınızda, uygun maliyetli bir tane satın aldığınız söylenir, anahtar, uygun maliyetli olanı nasıl seçeceğinizdir?
"İnternet + Spor" modeli birlikte çalışır ve Chen Jing kulübü "LeTV Sports!"
Bir bakışta şok oldum: Gök gürültüsü ve ölümün utanç verici resimlerinden oluşan bir koleksiyon (395)
Milanlı ünlüler İtalyan genç takımını Dünya Gençlik Şampiyonası'ndaki ilk zaferine götürüyor
6 günde 10.000 adet sattıktan sonra, bu yerli üretim SUV tüm ortak girişim arabalarına sahip!
Yeşil ekran tamamen fırlatılıyor | Google AI arka planı gerçek zamanlı olarak `` çekiyor ''
Erkekler Masa Tenisi Süper Ligi'nin dördüncü turunda, Shandong Weiqiao ve Bayi Da Shang Hao üst üste dört zafer kazandı! -Ping Pong Dünyası
Canlı yayın endüstrisindeki bir kardeş tamamen soğuktu, dedi Douyu: Siyah ekran hediye vermek için işe yaramaz! Canlı odayı kalıcı olarak kapatın!
To Top