Bana yorum yapıyorsun - OpenAI ve DeepMind'in yeni pekiştirmeli öğrenme yöntemi, insan geri bildirimlerine dayalı verimli öğrenme

Leifeng.com AI teknolojisi inceleme haberleri Son zamanlarda, OpenAI ve DeepMind'in her biri web sitelerinde bir makale yayınlayarak, işbirliği yaptıkları ve yazdıkları "İnsan tercihlerinden derin pekiştirmeli öğrenme" (insan tercihlerine dayalı derin pekiştirmeli öğrenme) başlıklı bir makale yayınladı. Bu makalede, insan geribildirimine dayalı yeni bir takviye öğrenme yöntemi gösterdiler.Sadece öğrenme süreci nispeten verimli olmakla kalmıyor, aynı zamanda OpenAI ve DeepMind araştırmacıları, bu yöntemin uzun vadede akıllı sistemlerin güvenliğini artırabileceğini kabul ediyorlar. .

Aşağıdaki Leifeng.com Yapay Zeka Teknolojisi İncelemesi, sizi OpenAI'nin bu yöntemin tanıtımı ve tanıtımına bir göz atmaya götürecektir.

Güvenli bir AI sistemi oluşturmak için en önemli adımlardan biri, insanların AI sistemi için objektif işlevler yazmasına izin vermeyi bırakmaktır. Bunun nedeni, karmaşık bir hedefe ulaşmak için basit bir strateji kullanılması veya karmaşık hedefin anlaşılmasında bir sapmanın kullanılması, AI sisteminin insanların görmek istemediği davranışları gerçekleştirmesine ve hatta bazen tehlikeye neden olabilmesidir. OpenAI ve DeepMind'in güvenlik ekibi, insanların, önerilen iki eylemden hangisinin daha iyi olduğunu aşamalı olarak söylemesini gerektiren bir algoritma geliştirmek için işbirliği yaptı ve daha sonra, insan öğrenme ihtiyaçları hakkında spekülasyon yapabilir.

Yöntem tanıtımı

Bu makale, modern pekiştirmeli öğrenme problemlerini nispeten az miktarda insan geribildirimiyle çözebilecek bir algoritma sunar. Akademisyenler daha önce makine öğrenimi sistemleri oluşturmak için insan geri bildiriminin nasıl kullanılacağını araştırmışlardı, ancak bu sefer iki ekip, çok daha karmaşık görevleri tamamlamak için de kullanılabilmesi için üst düzey bir çözüm oluşturmak için işbirliği yaptı. Algoritmaları, geri dönüşleri öğrenmek için insan değerlendiricilerden 900 alternatif geri bildirim kullandı; bu, basit ve değerlendirilmesi kolay görünen ancak doğru bir şekilde tanımlanması zor bir görev.

Genel eğitim süreci, insan ve temsilcinin hedefi anlaması ile gelişmiş öğrenme ve eğitim arasında üç aşamalı bir geri bildirim döngüsüdür.

OpenAI ve DeepMind tarafından ortaklaşa geliştirilen algoritmaya göre, ajan önce ortamda rastgele hareket eder. Ardından, aksiyon videolarından ikisini insanlara periyodik olarak gösterin. İnsanlar, iki videodaki iki eylemden hangisinin amacına daha yakın olduğunu ayırt etmelidir - bu örnekte bu bir ters takla - ve sonra Geri bildirimle, yapay zeka, görev hedefi için kademeli olarak bir model oluşturmak için geri bildirime dayalı olarak insan yargısını en iyi tanımlayan ödül işlevini bulacaktır. Ardından, pekiştirmeli öğrenme yoluyla belirlediği hedeflere ulaşmayı öğrenecektir. Temsilcinin eylemleri geliştikçe, en belirsiz hissettiği yörünge çiftini çıkarmaya devam edecek ve insanların hangisinin daha iyi olduğuna geri bildirimde bulunmasına izin verecek ve ardından görev amacını daha iyi anlayacaktır.

Programları tatmin edici bir öğrenme verimliliği gösterdi. Daha önce de belirtildiği gibi, geri dönüşü öğrenmek için ikisinden birini seçmek yalnızca 1000'den az insan geri bildirimi alıyor. İnsan değerlendiriciler bir saatten daha az zaman harcadılar ve arka planda bu strateji 70 saatlik toplam deneyim biriktirdi (arka plan simülasyon hızı gerçek hızdan çok daha hızlıdır). Daha sonra, insanların sağlaması gereken geri bildirim miktarını nasıl azaltacaklarını incelemeye devam edecekler. Aşağıdaki animasyon, eğitim sürecini göstermektedir (hızlandırılmış versiyon).

Oyun ortamında eğitim sonuçları

Ayrıca yöntemlerini simülasyon robotları ve Atari oyunundaki çeşitli görevlerle test ettiler (ve programın ortamın geri bildirim işlevini kullanmasına izin vermediler, özellikle oyun puanı Atari'de dikkate alınmadı). Birden fazla test ortamında akıllı vücut, bazen insan performansından bile daha iyi, insan geri bildirimi yoluyla mükemmel performansı öğrenebilir. Aşağıdaki resimler, kendi yöntemleriyle eğitilmiş temsilcilerin oynadığı çeşitli Atari oyunlarının ekranlarıdır. Her ekranın en sağındaki küçük dikey hareket, temsilcinin mevcut eylemlerinin insan değerlendirici tarafından tanınmasını ne kadar tahmin ettiğini gösteren bir göstergedir. Bu animasyonlu resimler, bu ajanların insan geribildirimlerine dayanarak öğrendiklerini yansıtıyor: Seaquest'te yüzeye nasıl oksijen getirileceğini (soldaki resim) ve tuğla ve tiltde nasıl yüksek puanlar alınacağını (ortadaki iki resim) biliyorlar. Veya Enduro'daki bir kazadan sonra nasıl kurtarılacağı (sağdaki resim).

Seaquest Enduro

İnsanlar tarafından sağlanan geri bildirimin, çevrenin normal ödül işleviyle tutarlı olmayabileceğini belirtmekte fayda var. Örneğin, Enduro'da diğer araçlarla tam olarak aynı hizada olan bir acenteyi eğitmişlerdir ve "normal" gibi en yüksek puanları almak için diğer araçları geçmeye devam etmeyecektir. Ayrıca, bazen insan geribildiriminden öğrenen ajanların, normal çevresel geribildirimden pekiştirmeli öğrenme gerçekleştiren ajanlardan daha iyi performans gösterdiğini, çünkü insanların ödülleri çevrenin orijinal ödüllerinden daha iyi ifade ettiklerini buldular.

Çözülmesi gereken sorunlar

İnsan değerlendiriciler, hangi eylemleri sezgisel olarak yargılamalıdır? Gibi görünüyor Doğru, o zaman algoritmanın performansı bununla sınırlıdır.İnsanlar görev hakkında derin bir anlayışa sahip değillerse, sağladıkları geri bildirimin sınırlı yardımı olacaktır. Bununla ilgili bir durum, bazı alanlarda sistemin sonunda değerlendiricileri aldatmayı öğrenmiş bir temsilciyi eğitmesidir. Örneğin, bir robotun nesneyi alması gerekir, ancak manipülatörü hedef nesne ve gözlemci arasına koyar. Böyle bir manipülatör sadece Sanki kaşınıyormuşsun gibi görünüyor Aynı, aşağıdaki resim bunun gibidir.

Bu problem için, bazı görsel işaretler (şekildeki düz beyaz çizgi) eklemek için bir iyileştirme önlemi düşündüler, böylece insan değerlendiricilerin derinliği yargılamasını kolaylaştırdılar. Bununla birlikte, daha genel yöntemler daha fazla araştırma gerektirir.

İki kuruluş OpenAI ve DeepMind, AI güvenliği üzerinde uzun vadeli etkisi olan alanlarda işbirliğine devam etmeyi planlıyor. Onların görüşüne göre, böyle bir yöntem, insan merkezli öğrenme güvenli AI'nın geliştirilmesinde bir başka ilerlemedir ve pekiştirmeli öğrenme ve taklit öğrenme gibi mevcut yöntemleri tamamlayabilir ve genişletebilir.

OpenAI Blog, Lei Feng.com Yapay Zeka Teknolojisi İnceleme Derlemesi aracılığıyla

Nie Yuanchao, havaalanında dolaşırken kızını evcilleştirir.
önceki
Wu Yusen'in yeni filmi "The Hunt": Bu iki adamı dövüştürmek kesinlikle iyi bir dizi!
Sonraki
"Boncukları Geri Getirmek" Qing'er Lafayette cariyesine rahat kıyafetlerle fotoğraf çekmesini emretti.
"Çok Büyük Gelen Aramalar" 1208 olarak ayarlandı
Zhao Liying için üretimi azaltmak mı? Feng Shaofeng: Yeni aşamayla tanışmak için daha kaliteli işler
"Pokemon" yeni sürüm konferans grafiği canlı yayın özeti
Huawei'nin ilk kazma ekranlı telefonu bir kez daha arkadaşlarıyla çarpıştı! Bu sefer Samsung
2017 Bilim Kurgu Filmlerinin Tam El Kitabı
Çinli senaryo yazarının en yüksek ödülü olan "Xia Yan Cup" ın ödüllü senaryosundan uyarlanan yerel orijinal film "White Cloud · Cang Dog", baba ve oğlun duygusal uzlaşmasını anlatan gösterime girdi.
On yılın zirvesi olan Samsung Galaxy S10 serisi "savaş alanına geri dönüyor"
Çin romantizminin "Justice League" kahramanları ortaya çıktı: Superman, Batman çılgınlığını başlatmak için Nolan nesillerini etkiliyor
Hengyang County: Mükemmel geleneksel kültürü teşvik edin ve ilçenin ekonomik kalkınmasına yardımcı olun
SAIC MAXUS, MAXUS markasını resmi olarak yayınladı G50, MPV pazarında yeni bir rekabet turu yaratacak mı?
Wang Leehom'un "Full Fire" prömiyeri anakarada yapıldı, hayranlar şarkı söylüyor ve muhabirler gözyaşlarına boğuldu.
To Top