ICLR yüksek puanlı kağıt, irrasyonel AI'nın AI'yı daha akıllı hale getirebileceğini söylüyor.

[Xinzhiyuan Kılavuzu] İnsan yinelemeli akıl yürütme düşüncesinden esinlenen UCL Profesörü Wang Junun grubu, çok etmenli derin pekiştirmeli öğrenme araştırmasında ilk kez yapay zekanın öğrenme sürecine olasılıklı özyinelemeli akıl yürütme getirerek, aracıların karar vermeden önce diğer aracıların tepkilerini tahmin etmesine olanak tanıdı Kendinize etki. Bu çalışma, AI grubu düşünme derinliğini artırdı ve ayrıca MARL araştırması için yepyeni fikirler sağladı.

Başlamadan önce bir oyun yapalım.

Bu makaleyi okuyan diğer okuyucularla bir oyun oynadığınızı varsayalım, 0'dan 100'e kadar bir sayı tahmin edin ve son olarak, tahmin edilen tüm sayıların ortalamasına en yakın olan kişi kazanır, o zaman bir birey olarak derdiniz birkaç?

Bu oyun ünlü oyun teorisi oyunundan uyarlanmıştır. "Ortalama oyunun 2 / 3'ü tahmin edin." Açıkçası, insan oyuncular arasında kazanma stratejisi yoktur. Bununla birlikte, sürekli olarak rakibin olası kararlarını düşünerek, bu oyundaki birçok cevap arasında 0 olan benzersiz bir Nash dengesi olacaktır.

Ortalamanın ortalamasını tahmin et

0'dan 100'e kadar olan ortalama değer 50'dir, bu nedenle herkes rasyonel olduğunda söylenebilecek en büyük değer "50" dir. 50'den büyük herhangi bir sayı hariç tutulabilir.

Bu sırada herkes tekrar düşündü, herkesin "50" dediğini varsayarak, o zaman kazanmak için bir adım daha düşünmeli ve ortalama 50- "25" demelisin.

Herkesin "25" dediğini varsayarsak, o zaman kazanmak için bir adım daha düşünmeli ve 25'in yarısını "13" demelisin.

Bu işlem sürekli olarak tekrarlanır ve sonunda 0 alırsınız. Aslında, 0 aynı zamanda bu problemin Nash dengesidir.

Ancak bunun herkesin rasyonel olduğu zaman olduğuna dikkat edin.Gerçek hayatta kimse kesinlikle mantıklı değildir. Çoğu insan "25" in zaten oldukça iyi olduğunu düşünür.

daha önemlisi, Bu oyun, başkalarının tahmin ettiği sayıyı tahmin etmenin vereceğiniz sonuç üzerindeki etkisini tam olarak göstermektedir. Böyle bir oyunda, tamamen mantıklı bir oyuncu bile, şu onaylanmadıkça "0" değerini tahmin etmemelidir: 1) diğer oyuncular da rasyoneldir, 2) her oyuncu diğer oyuncuların rasyonel olduğunu bilir.

Yukarıdaki iki nokta aynı anda doğru olmadığı sürece, yani irrasyonel oyuncular söz konusu olduğunda, en az 0'dan büyük bir sayının kazanacağı tahmin edilmelidir. Gerçek hayatta, çoğu durumda, insanların karar verme mekanizmaları irrasyonel faktörlere sahip olacaktır. Gerçek karar verme sürecini daha iyi modellemek için, çok ajanlı yapay zekanın araştırılmasında irrasyonel faktörleri dikkate almak çok önemlidir.

1981'de Alain Ledoux, Fransız dergisi "Games and Strategies" (Jeux et Stratégie) 'de "Ortalamanın üçte ikisini tahmin et" oyununu önerdi ve sonuçlar aşağıda gösterildiği gibi dağıtıldı.

1981'de 2898 okuyucu, "Ortalama 2/3 sayısını tahmin et" sonuç dağılımına katıldı, kaynak: Wikipedia

Bu oyun, grubun "düşünme derinliğini" yansıtmak için de kullanılabilir. , Nihai sayı ne kadar küçükse, grup o kadar çok düşünür (sayısı).

Deneysel psikoloji alanı, farklı mesleklerdeki farklı insanların düşünme derinliğini ayrıntılı olarak incelemiştir.Güçlü bir satranç ustası, sonraki 7 durumu ileri geri veya daha ileri durumları tahmin edebilir ve sonra tahmine göre, topun şimdi nereye yerleştirileceğine karar vermek için geri dönebilir. Aslında, bir bütün olarak insanın ortalama düşünme derinliği 1.5-2'dir.

Çoğu insan, bir şeyler yapmadan önce eylemlerinin sonuçlarını belirli bir şekilde tahmin edecek.Özellikle, insanlar önce eylemlerinin başkalarını etkileyebileceğini tahmin edecek ve ardından etkilenen diğerlerinin nasıl tepki vereceğini tahmin edecek. Gelin ve kendinizi etkileyin, bu yinelemeli bir süreçtir.

Bilişsel psikoloji buna inanıyor Başkalarının ne düşündüklerini düşündükleri üzerine spekülasyon yapmak olan yinelemeli akıl yürütme (özyinelemeli akıl yürütme), doğal bir insan düşünme modudur , Sosyal yaşamda insan davranışına karar vermede önemli rol oynar. Sayı tahmin etme oyununda, "tahmin et ne düşündüğümü tahmin et" dir.

İnsan toplumunda yinelemeli akıl yürütme süreci. Resim kaynağı: Gläscher Lab

UCL, ilk kez çok aracılı derin pekiştirmeli öğrenmeye özyinelemeli akıl yürütme sunuyor

Geleneksel çok etmenli öğrenme sürecinde, bazı araştırmacılar diğer aracıları modellerken (örn. Rakip modelleme) özyinelemeli akıl yürütme kullanırlar. Ancak, algoritmanın karmaşıklığı ve hesaplama gücünün kısıtlılığı nedeniyle, hala Multi-Agent Deep Reinforcement Learning'in rakip modellemesinde hiç kimse yinelemeli akıl yürütme kullanmadı.

UCL Profesör Wang Junun grubu, derin öğrenme konferansı ICLR 2019 tarafından yüksek puanlarla kabul edilen yeni bir makalede İlk defa, yinelemeli akıl yürütme düşünme modu, çok etmenli derin pekiştirmeli öğrenmeye dahil edildi .

Özellikle, bir Yinelemeli Olasılıksal Akıl Yürütme Çerçevesi Olasılıksal Özyinelemeli Akıl Yürütme, PR2 olarak anılır Her temsilcinin, karar verirken diğer temsilcilerin sonraki eylemlerine nasıl tepki vereceğini düşünmesine ve sonra en iyi kararı vermesine izin verin.

k-sıralı özyinelemeli çıkarım grafiği modeli. a, düşünme derinliğini temsil eder ve örtük rakip modelleme, -i fonksiyonu ile yaklaşık olarak belirlenir. 0 dereceli model, rakibin tamamen rastgele olduğunu düşünür. Yukarıdaki şekildeki gri alan, ajan i'nin yinelemeli akıl yürütme düşünme sürecini temsil etmektedir. Daha derin bir seviye düşünen temsilci, mevcut turun en iyi sonucunu almak için geri döner. Her hesaplama seviyesi, önceki seviyenin hesaplanmasını içerir, örneğin, ikinci seviye birinci seviyeyi içerir. Kaynak: UCL Wang Jun Group ICML Paper Multi-Agent Generalized Recursive Reasoning

PR2 çerçevesine dayanan araştırmacılar, sırasıyla sürekli ve ayrık eylem alanlarına karşılık gelen PR2-Q ve PR2-Aktör-Kritik algoritmaları önermişlerdir. İlginç bir şekilde, bu algoritmalar doğaları gereği dağıtılmış algoritmalardır ve Merkezi Değer Fonksiyonu gerektirmezler Birden fazla deneyin sonuçları, PR2'nin çok ajanlı pekiştirmeli öğrenmede tek bir ajanın öğrenme verimliliğini etkili bir şekilde geliştirdiğini göstermektedir.

Makalenin ilk yazarı ve UCL Bilgisayar Okulundan bir doktora yapan Yaodong Yang, Xinzhiyuan'a "MARL temsilcisinin muhakeme sürecinde, olasılıksal akıl yürütmeyi ilk kez bir grafik modeline yerleştirerek yumuşak bir öğrenme süreci başlattık," dedi.

Araştırmacılar, bu çalışmanın MARL'nin rakip modellemesine yeni bir bakış açısı getireceğini umuyorlar. Makalenin ilk yazarı ve UCL Bilgisayar Bilimleri Okulu'nda bir doktora öğrencisi olan Wen Ying, Xin Zhiyuan ile yaptığı röportajda şunları söyledi: "PR2 temelinde, daha derin yinelemeli akıl yürütme için Eğitim sırasında daha derin kitabın her adımının gerekçesinin önceki yinelemeden daha iyi olmasını sağlamak için özel bir numara tasarlanmıştır. , Aynı zamanda sınırsız hesaplama değildir, bu durumda bilgi işlem kaynaklarının tüketimi çok fazladır.

"ICLR'nin çalışması esas olarak, başkalarının sizin hakkınızda ne düşüneceğini göz önünde bulundurmak olan birinci dereceden döngüsel düşünceyi ele alır. Daha sonra, çok ajanlı pekiştirmeli öğrenmede AI'nın yinelemeli akıl yürütmesini incelemeye devam edeceğiz. ICML 2019 sunumunda, Çok-etmenli yapay zekanın daha etkili ve anlamlı Nash dengesine sahip olabilmesi için, n'inci dereceden döngüsel düşünme sürecine genişletildi. İlgili teoriler, robotlar ve otonom araçlar gibi uygulamalarda önemli bir öneme sahip olacak. "

İnanmadığını söyle! Fener Festivalini öyle büyülü bir yerde bitirdim ki
önceki
Dünya Kupası'na ilk kez katılan Panama oyuncuları gözyaşları içindeydi ve başlangıç değerleri rakiplerinden 130 kat daha kötüydü.
Sonraki
Satın almanın ve satın almanın sonuçları! Çin en büyük e-atık ülkesi oldu
11 Eylül on yıl boyunca kısıtlansaydı, onu ömür boyu satın almak için yine de mücadele eder miydin?
Wuhan Şehri Çember Çevre Otoyolu 8.068 milyar yuan yatırım yaptı ve Hanchuan halkı dışarı çıktıklarında otobana binebilir.
100.000-sınıfı kompakt aile sedan en yüksek güvenliğe sahiptir!
En zengin adam artık emlakçı değil mi? Wang Jianlin, artık yönetmeliğe dayanamayacağını söyledi!
"Haber Ağı" nda yer alan demiryolu çifti, netizenler tarafından evlenmeye çağırıldı!
MIT yeni sınıfı çevrimiçi: "Derin öğrenmede" hızlı bir şekilde ustalaşmak için TensorFlow pratik işlem
BMW X1'e benzer olduğu için neden X2'yi düşünelim?
2017 Davos Forumu Çin'in dünyaya sesi nedir?
Dünya Kupası barajı: Almanya kötü oynandı, Neymar alay edildi ve milli futbol takımı birkaç kez silah bıraktı
Cheng Kaijia'yı hatırlamak, bu nesli hatırlamaktır
PyTorch'u tek bir makalede yeniden yapılandırmak: Dahili mekanizmayı anlamak için 40 sayfalık PPT
To Top