Google Brain Time-Contrastive Networks (TCN) kağıt yorumlama videosu
Çeviri | Laura redaksiyonu | Wu Xuan harmanlaması | Fan Jiang
Lei Feng.com: Google araştırmacıları, "Zaman Kontrastlı Ağlar: Çoklu-Görüntü Gözleminden Kendi Kendini Denetleyen Öğrenme" başlıklı makalede, dünyayı gözlemden öğrenmenin yeni bir yolunu önerdiler. Leifeng.comun çeviri videosunun bu sayısı, robotların yalnızca videoyu izleyerek gözetimsiz olarak video eylemlerinin tüm sürecini nasıl simüle edebileceğine dair çeşitli açılardan gösteriyor.
Video gösterimi dışında, Google Brain robotik sistem için denetimli öğrenim sağlamaz. Bu yöntemi gerçek ve sanal robotları eğitmek için çeşitli görevlere uygularlar. Örneğin, su dökme görevi, tabağı koyma görevi ve duruş taklit etme görevi.
ilk adım
Videonun ayrıştırma çekimlerini öğrenin ve videonun farklı özelliklerini keşfetmek için zamanı bir denetim sinyali olarak kullanın. Bu yerleştirme vektörleri seti, görevle ilgili etkili eylemler ve gerçek dünyadaki çeşitli olası durumları yansıtmak için bazı rastgele davranışlar içeren bir dizi yapılandırılmamış ve etiketlenmemiş video aracılığıyla eğitilir.
Model, aynı karenin gömme alanında birbiriyle ilişkili olan çoklu görünüm gözlem verilerine dayalı olarak aynı anda birden çok görüntüleme açısı altında görünen kareleri eğitmek için üçlü kayıp hata işlevini kullanır. Elbette, yalnızca tek bir bakış açısına göre eğitilmiş bir zaman karşılaştırma modeli de düşünebilirsiniz. Bu sefer, etkili çerçeve sabitleme noktasının belirli bir aralığı içinde rastgele seçilir ve marjinal aralık, etkili aralığa göre hesaplanır. Geçersiz aralık, marjinal aralığın dışında rastgele seçilir. Model eskisi gibi eğitildi.
İkinci adım
Takviye öğrenme yoluyla kuralları öğrenin. TCN yerleştirmeye dayalı olarak, ödül işlevi üçüncü taraf gerçek kişi gösterisine göre oluşturulur. İlk başta, robotik kol bazı rastgele eylemleri dener ve ardından bu eylemleri tekrar tekrar yapmayı öğrenir, en yüksek ödül kontrol adımlarını üretebilir ve sonunda video görevini yeniden oluşturma etkisini elde edebilir.
Model, yalnızca 9 yinelemeden sonra başarılı bir şekilde yakınsamıştır; bu, yaklaşık olarak 15 dakikalık gerçek dünya eğitimine eşdeğerdir. Benzer şekilde, bulaşık hareket ettirme görevinde robot başlangıçta rastgele hareket etmeye çalışır ve ardından bir yemeği başarıyla alıp taşımayı öğrenir.
Leifeng.com, makalenin orijinal adresini sağlar: https://sermanet.github.io/tcn/
Leifeng.com tarafından önerilen ilgili okumalar: İnsan eylemlerini taklit edebilen ve anlambilimini anlayabilen Google robotları, yeni bir denetimsiz öğrenme düzeyine ulaştı