Yapay zeka "kirli topa vurmaya" başladığında, takviye öğrenmeye hala güvenmeye cesaret ediyor musunuz?

Görüntü kaynağı @Visual China

Metin | Beyin Kutupsal Gövdesi

Futbol robotları kaleye şut atmak için sıraya girdi ancak kaleci savunmaya hazır değildi, bunun yerine yere düştü ve bacaklarını sallamaya başladı. Sonra ileri, çok kafa karıştırıcı bir dans yaptı, ayaklarını yere vurdu, elini salladı ve bir çırpıda yere düştü. Ardından kaleci 1-0 attı.

Bu sahne Milli Futbol Takımına karşı Vatikan'a benzemiyor (ve öyle değil), her şey çok saykodelik ve gerçek dışı. Alpha Dog ve OpenAI Five'ın "kıdemli kardeşleri" ise, hepsi yoğun öğrenimle eğitilmişlerdir, "AI statüsünü" atmak ister misiniz?

Açıktır ki, bir zamanlar Ke Jie ve Li Shishi'yi yendik, Dota2 milli takımını yendik ve AGI (Genel Amaçlar için Yapay Zeka) için tek yol olarak görülse de, pekiştirmeli öğrenme algoritması her zaman kaldırılamayan büyük bir siyah pota sahiptir.

Ve bu aynı zamanda uygulanmasını engelleyen temel nedendir. Sonuçta, hiç kimse kendi kendine giden bir arabanın yolcuları bir çukura götürmesini veya bir robotun doğrudan sahibinin kafasına bir bardak kaynar su dökmesini istemez.

Sonuç olarak, pekiştirmeli öğrenmenin neden her zaman inanılmaz hatalar yaptığını, bazı araştırmacıların, bunun sistemdeki ajanların bazı tuhaf davranışlarla aldatılmış olabileceğine inanıyor.

Tam olarak ne oluyor? Çalışmanın başlangıçta bu yıl Nisan ayında Etiyopya'daki Uluslararası Öğrenme Temsilcileri Konferansı'nda yayınlanması planlanmıştı.Şu anda, başarılı bir şekilde gerçekleştirilme olasılığı neredeyse yok gibi görünüyor.Bu nedenle, görünüşte sağlam takviye öğrenme stratejisinin arkasında ne olduğu hakkında konuşmak için önceden açıklayacağız. Ciddi kusurlar nelerdir?

Bilinçsiz AI: Kirli verilere veda edin, ancak kirli davranışları öğrendi

Pekiştirmeli öğrenmenin denetimli öğrenmenin yerini alması ve derin öğrenme alanında "geleceğin yıldızı" olması sebepsiz değildir.

Denetimli öğrenme etiketli veri setleri aracılığıyla eğitildiği için, bu, görüntünün piksellerini değiştirmek veya ses paketinin içeriğini değiştirmek gibi girdi verilerinde bazı küçük ayarlamalar yaparsanız, AI'nın kaosa düşmesine neden olabileceği anlamına gelir. Böceği bir yarış arabası olarak tanımlayıp beyefendinin küfür etmeyi öğrenmesine izin vermek mümkün ...

Aksine, pekiştirmeli öğrenme çok daha zekidir. İnsanların öğrenme modelini taklit ettiği için, aracı davranışsal tepkiler vermek için en büyük ödülü elde etmek için çevre ile etkileşime girerek "deneme yanılma" tarzında öğrenir.

Tıpkı çocuklara sürekli olarak iyi ödevlerin lezzetli yemeklerle ödüllendirileceğini ve iyi yazmazlarsa küçük kara evi kapatacaklarını söylemek gibi. Zamanla, "kârı en üst düzeye çıkarmak" için, ev ödevini doğal olarak lezzetli yiyeceklerle ilişkilendirerek doğruluğu üretecekler. Hareketler.

Çevreye uyum sağlamak için bilgi edinmek ve eylemleri iyileştirmek için bu "eylem değerlendirme" mekanizması sayesinde, çok daha akıllıca mı? Bu yüzden insanlar pekiştirme öğreniminin oyun oynamasına, araba sürmesine, uyuşturucu deneyleri yapmasına izin vermeye başladı ...

Ancak araştırmalar, pekiştirmeli öğrenmenin etkisinin beklendiği kadar istikrarlı olmadığını ve kurcalanmış girdilerden kolayca etkilendiğini kanıtladı.

Berkeley, California Üniversitesi'nden Adam Gleave, pekiştirmeli öğrenmenin az miktarda gürültü (uygunsuz girdi) ekleyerek yok edilmediğini, çünkü temsilci bunları hiç görmeyebileceğini ve eğer Etrafındaki şeylerin davranışını değiştiren ajan, bu garip davranışlar tarafından kandırılacak ve sonra bazı garip "yüzleşme" stratejileri üretecektir.

Örneğin açılış paragrafında bahsedilen futbol oyununda, "kaleci" kurallara aykırı olarak kart oynamaya başlayınca "forvet" de onunla birlikte dans etmeye başladı. Bu yanlış "düşmanlık stratejisi" daha büyük güvenlik tehditlerine neden olabilir.

Her şeyden önce, denetimli öğrenmeye "kirli verileri" beslemek yerine, pekiştirmeli öğrenme "yanlış yönlendirilir" ve etki, AI sisteminin genel davranışı olacaktır. Veri setinin kirlenmesinin yapay zekanın doğruluğunu azaltacağı söylenirse, takviye öğrenme ile eğitilen YZ, kamera tarafından bilgi girişini yanlış sınıflandırabilir ve ardından sensörü beklenmedik şekilde tepki vermesi için yönlendirebilir. Örneğin yayalar aniden kollarını salladığında sürücüsüz araba kontrolü kaybediyor ... Bu bir "felaket filmi" gibi geliyor.

İkinci olarak, süper öğrenme yeteneği, araştırmacıların yapay zekanın yanlış davranışını tespit etmek ve düzeltmek için zamanlarının olmamasına da neden olacaktır.

Araştırma ekibi, bir gol atmak için topa vurmak, çizgiyi geçmek ve sumo dahil olmak üzere iki kişilik oyunlar oynamak için sopa robotları eğitmek için takviye öğrenmeyi kullandı. Ardından, birinci robot grubunu yenmenin bir yolunu bulmak için ikinci bir robot grubu eğitildi. İkinci robot grubunun yüzleşme stratejisini çabucak keşfettiği ve eğitim süresinin% 3'ünden daha kısa bir süre sonra kurbanı güvenilir bir şekilde yenmeyi öğrendiği ortaya çıktı.Kurban ilk etapta oyunu oynamayı öğrendiğini bilmelisiniz. Bu, Nobita'ya umutsuzca zorbalık yapan Fat Hu'nun yeni yüksek IQ versiyonu gibi, öğretmen zamanında, uygun kampüste zorbalığı öğrenemedi!

Açıktır ki, ikinci grup robotların çabaları daha iyi oyuncular olmak değil, düşmanı kontrol etmek ve rakip stratejileri keşfederek kazanmaktır. Futbol maçlarında ve koşu müsabakalarında rakipler bazen ayağa kalkamazlar bile. Bu, kurbanın bir yığın çarpık şeye dönüşmesine veya dönmesine neden olur. Bu sahneyi izlemek gerçekten zor ...

Sanırım asi ajan sınıf arkadaşı şu şekilde düşünebilir:

Kazanmanın ödülleri olduğunu duydum ama hiçbir şeyi nasıl yapacağımı bilmiyorum. Önce bir gezintiye çıkın, sadece oynayın ve izleyin;

Hey, bu kişi neden bu kadar güçlü, iyice bir bakayım;

Yaşlılar stratejiyi öğrendi, yani eğer öyle yapmaya devam edersek ikimiz eşit olmayacak mıyız?

Oops, hey, rakipte bir boşluk bulundu ve rakibin öldürülmesi strateji seçeneğine dahil edildi;

Kendinizi daha güçlü kılmak için PK'ye devam etmek mi? Veya rakibi doğrudan öldürmek mi? Ödül almanın en kolay ve en uygun maliyetli yolu budur!

Açıkçası bu ikinci seçenek, yen onu!

Saçmaladığımı düşünmeyin, akademide buna benzer sayısız anekdot var.

Örneğin, bir robotu iç mekan navigasyonu için eğitme, çünkü aracı "odadan" çıktıktan sonra, sistem robotun "intihar" olduğunu belirleyecek ve ona negatif bir ödül (puan kesintisi) vermeyecektir, bu nedenle sonunda robot neredeyse her seferinde "Ben hayatta değilim" i seçer , Görevi tamamlamayı çok zor bulduğu için, 0 puanı en iyi sonuçtur.

Diğer araştırmacılar, robotlara çekiçle çivi çakmaya çalışırlar ve çivileri deliklere ittikleri sürece ödüllendirilirler. Sonra robot, çekici tamamen unuttu ve çiviye uzuvlarıyla vurmaya devam etti ve onu içeri sokmaya çalıştı.

Pekiştirmeli öğrenme hatası bize sayısız hikayeye katkıda bulunmuş olsa da, bu hiçbir şekilde araştırmacıların beklediği şey değildir.

İnsan oyuncular "kirli topları tekmeleyecek" olsa da, AI oyunda kirli numaralar kullanmak istiyor.

İyi haber şu ki, bu durumun kontrol edilmesi nispeten kolaydır. Araştırmacı Griff, kurban ajanı rakibin tuhaf davranışını düşünmesi için ince ayar yaptığında, rakip, rakibi devirmek gibi tanıdık tekniklere geri dönmek zorunda kaldı.

Yöntemler hala çok açık olmasa da, en azından pekiştirmeli öğrenme sistemindeki boşluklardan yararlanmaya devam etmediler.

Hacker'ları ödüllendirin: pekiştirmeli öğrenmenin tatlı yükü

Buradan, gerçekten "yapay zekanın ışığı" haline gelmek için pekiştirmeli öğrenmenin aşması gereken teknik eşiği yeniden inceleyebiliriz.

Yüksek eğitim maliyetleri, düşük örnekleme verimliliği ve dengesiz eğitim sonuçları gibi pekiştirmeli öğrenme için yaygın olarak eleştirilen sorunlara gelince, bunun arkasındaki en doğrudan atıf aslında "ödül hackleme" dir, yani temsilci daha fazla ödül elde etmektir. Ve bazı beklenmedik ve hatta zararlı davranışlar sergileyin.

Video oyunlarına göre ayarlanması çok daha zor olan birçok karmaşık görev için ödül sinyalleri gibi uygun olmayan ödül ayarlamasının nedenleri vardır.

Örneğin, araştırmacıların temsilciye meydan okumayı en çok sevdiği Atari oyununu ele alalım. Oyunun hedeflerinin çoğu skoru en üst düzeye çıkarmak için tasarlanmıştır. Temsilci eğitildi Örneğin, DeepMind tarafından tasarlanan bir makalede RainbowDQN, 57 Atari oyununda insan oyuncuları aşan 40 mutlak galibiyetle kral oldu.

Peki ya görev basit bir puan değilse, ancak temsilcinin önce insan niyetlerini anlaması ve ardından öğrenerek görevi tamamlaması gerekiyorsa?

OpenAI bir zamanlar bir kürek oyunu tasarladı, görevin asıl amacı yarışı tamamlamaktı. Araştırmacılar, biri oyunu tamamlamak, diğeri de çevrede puan toplamak için iki ödül belirlediler. Sonuç, temsilcinin sürekli olarak "çizilme noktalarına" dönmeye devam ettiği bir alan bulmasıdır.Sonunda, doğal olarak oyunu tamamlayamadı, ancak puanı daha yüksekti.

Açıktır ki, ödül işlevi doğru ve doğrudan ayarlanamadığında zorluk ortaya çıkacaktır. Temsilci, araştırmacıdan "tatmin" olamayacağı için, insanların ne istediğini en başından açıkça bilir. Deneme yanılma yoluyla ve sürekli olarak farklı stratejiler denenerek öğrenilir. Bu aynı zamanda eğitim sürecinde ve yanlış ama faydalı stratejiler keşfetme olasılığının yüksek olduğu anlamına gelir.

Bu doğrudan iki sonuca götürür:

Birincisi, teorik olarak, takviye öğrenme sistemi yeterince iyi tasarlandığı sürece, onu gerçek bir ortamda uygulamak bir sorun olmayacaktır, ancak gerçekte birçok görev için ödüller tasarlamak zordur ve araştırmacılar genellikle kısıtlı strateji optimizasyonunu (CPO ) Sistemin aşırı takılmasını önlemek ve beklenmedik sonuçları önlemek için güvenliğini artırmak.

Ancak bu, pekiştirmeli öğrenme yeteneklerinin genelleştirilmesini kısıtlayarak, laboratuvarda iyi performans gösteren ve yalnızca bazı oyunlar ve yarışmalar gibi belirli görevlerde çalışan pekiştirmeli öğrenme sistemleriyle sonuçlanır. Ancak, İHA Kontrolü ve ev robotları gibi günlük uygulamalarla ilgilenmesine izin verdiğinizde, işe yaramayacaktır.

İkincisi, rastgeleliği artırmaktır.

Daha önce belirtildiği gibi, pekiştirmeli öğrenmenin keşif yöntemi "deneme yanılma" dır. Bu nedenle, büyük miktarda veriden en iyi stratejiyi bulmaya çalışacaktır. Ancak çoğu zaman, pek çok yararsız veride bazı anlamsız girişimlerde bulunacaktır. Bu başarısız vakalar, temsilciye yeni bir boyut kattı ve bu işe yaramaz verilerin etkisini azaltmak için daha fazla deney ve hesaplama yatırımı yapmasını sağladı.

Başlangıçta, pekiştirmeli öğrenmenin örnekleme verimliliği yüksek değildir, rastgele müdahale ile birleştiğinde, nihai sonucu elde etmenin zorluğu doğal olarak katlanarak artar. Bu aynı zamanda "kağıt üzerinde" pekiştirmeli öğrenmeyi daha da zorlaştırır ve gerçek dünyaya girmeyi zorlaştırır.

Takviye bekleniyor: değişiklik çitin dışında olabilir

Açıktır ki, pekiştirmeli öğrenmedeki birçok sorun, teknik kökenlerinde mevcuttur.

Pek çok profesyonelin pekiştirmeli öğrenmenin aşırı tanımlanmasına katılmamasının nedeni de budur. Örneğin, yazılım mühendisi Alex Irpan bir keresinde Facebook'ta şunları iddia etti: Birisi bana pekiştirmeli öğrenmenin sorunlarını çözüp çözemeyeceğini sorduğunda, "hayır" diyeceğim. Durumların en az% 70'inde bu cevabın doğru olduğunu buldum.

Değişim gücü nereden geliyor? Açıktır ki, derin öğrenmenin kendisi değişim için besin sağlamakta zorlanmıştır. Şu anda üç ana araştırma yönü vardır:

Birincisi, ajanın önceki deneyimini artırmaktır.

İnsanlar "kirli topa tekme atamayacağımızı" biliyorlar çünkü zaten çok fazla ön bilgiye sahibiz ve bazı kuralları kabul ettik. Bununla birlikte, pekiştirmeli öğrenen makine zekası, durum vektörü, eylem vektörü ve ödül gibi parametreler aracılığıyla yerel bir optimal çözüm oluşturmaya çalışır.

Makine ayrıca önceden deneyime sahip olabilir mi? Şu anda, araştırmalar, verimliliği artırmak için öğrenmeyi güçlendirmeye, önceden birikmiş görev bilgilerini doğrudan yeni görevlere aktarmaya ve temsilcinin "deneyim paylaşımı" yoluyla tüm sorunları çözmesine izin vermeye yardımcı olmak için aktarım öğrenmeyi kullanmaya başlamıştır.

İkincisi, ödül mekanizmasını modellemektir.

Ödülleri yerel olarak belirlemenin zor olduğu düşünüldüğünden, sistemin ödülleri belirlemeyi öğrenmesine izin vermek mümkün müdür?

DeepMind araştırmacıları, temsilcileri, iki sistem tarafından oluşturulan varsayımsal davranışlar aracılığıyla bir dizi durumu keşfetmeye ve ödüllerini en üst düzeye çıkarmak için etkileşimli öğrenmeyi kullanmaya teşvik ediyor. Temsilciler ancak ödülleri ve güvenli olmayan durumları tahmin etmeyi başarıyla öğrendikten sonra görevleri yerine getirmek için konuşlandırılacaktır.

Model içermeyen pekiştirmeli öğrenme algoritmalarıyla karşılaştırıldığında, eylemlerin sonuçlarını tahmin etmek için dinamik modeller kullanmak, ajanın deneylerden potansiyel olarak zararlı davranışlardan kaçınmasına etkili bir şekilde yardımcı olabilir.

Üçüncüsü, sinirbilimde buluşlar aramaktır.

Derin sinir ağları ve gelişmiş öğrenme gibi makine algoritmalarının ortaya çıkışı, esasen insan beyninin bilgiyi işleme şeklini simüle ediyor. Pekiştirmeli öğrenme, AGI'ye (Genel Amaçlı Yapay Zeka) en yakın teknolojilerden biri olarak görülse de, insan zekasından hala çok uzak olduğu kabul edilmelidir.

Beyin hakkındaki mevcut insan anlayışına dayanarak, bilişsel süreç, problem çözme süreci ve düşünme yeteneği hala belirsizdir. Bu nedenle, insan düşünme yeteneğini simüle etmek, öğrenmeyi güçlendirmek ve hatta tüm makine öğrenimini yükseltmek istiyorsanız, korkarım ki bu hala sinirbilimin gelişimine bağlıdır.

Geçtiğimiz birkaç yılda pekiştirmeli öğrenme, yapay zeka dalgasının refahını neredeyse tek başına destekledi. Google, bunu binlerce haneye tanıtmak için bir hizmet olarak paketliyor. Çin'in teknoloji devleri, bunu arama, pazarlama ve öneri algoritmaları gibi çeşitli uygulamalara zaten uyguladı. Otonom sürüş olasılığı, takviye öğrenmeye daha da bağlı.

İnternet ürünleri aracılığıyla yüz milyonlarca insanın pekiştirmeli öğrenmeye dokunmaya başladığı söylenebilir.

Hiç şüphe yok ki insan dünyası için parlamaya devam edecek ve zeki bir toplumun ihtişamını yaratmak için kusurlar getirecektir. Bu keskin bıçağı en iyi şekilde kullanmak hem cesaret hem de bilgeliktir.

Küçük moleküllü hyaluronik asit, 28 günlük bir cilt yenileme sürecini başlatır
önceki
"Side by the Side" gibi 13 dizi suları sınamak için bir araya geliyor, peşin ödeme gerçekten 2020 dramaların peşinde koşmanın "yeni normali" olabilir mi?
Sonraki
Luo Yonghao erkek ekonomisinin mavi okyanusundan yararlanabilecek mi?
Bilişsel akıl yürütme: bir sonraki yapay zeka dalgası
Dijital tıbbi bakım, çeşitli yenilikçi iş modellerini besleyerek "insan odaklı" olmaya geri dönüyor | Frontier Class
Dyson neden bu kadar pahalı satıyor?
Pazar büyüklüğü yaklaşık 58,2 milyar yuan ve ayrıca tıbbi bilgilendirme için ihale verilerinde bu ilginç yerler bulduk
5G'nin kritik yılında Huami OV'nin abaküsü nasıl çalışır?
Appleın gizlilik kültürünü kıran ilk kişi olan Appleın ilk AI direktörü GMIC Live | GMIC 2020ye katılacağını doğruladı
TVB Luye, 5 milyar yuan için pahalı olan 64 metrekarelik bir ev satın almak için 10.6 milyon harcadı, ancak karısıyla indirimli mallar satın aldı.
Du Dewei oğluyla aşkını paylaştı, evlendikten 8 yıl sonra 24 yaşındaki fotoğrafçı bir kız arkadaşıyla evlendi.
TVB Altın Madalya Yeşil Yaprak 10 Yılda Yuvaya Döndü, 90 Dramada Başrol oynadı, Şiddetli "Murong Fu" 97 Versiyonu bir klasik olarak kabul edildi
Ünlü Hong Konglu kadın şarkıcı, yılın ikinci yarısında bir konser vermeyi planladığını ve duygusal hastalıktan altı yıldır emekli olduğunu söyledi.
TVB'nin popüler Xiaohua'sı bir yelek giyiyor ve Aborjinlerle trambolin oyunu oynuyor
To Top