DeepMind ile yapay zekada insan değerlerini nasıl yeniden üreteceğinizi düşünün

AI Technology Review Press : Yapay zeka söz konusu olduğunda, insanlar nadiren Skynet'i, insan karşıtı sonuçlara götüren "süper insan zekası" na götüren kendine özgü düşünme mantığına sahip "Terminator" filminde düşünürler. Bu elbette iyi bir şey, bu aşamada yapay zekanın bu tür bir mantıksal düşünme yeteneğine sahip olmadığını ve mevcut doğrultuda gelişmeye devam etmeyeceğini bildiğimizi gösteriyor; aynı zamanda çevremizde her türlü uygulama makinesinin olduğunu zaten anladığımızı gösteriyor. Belirli sorunları çözmenin teknik sonuçlarını öğrenin.

Ama aynı zamanda yeni bir problemle karşı karşıyayız, yani insanlar daha fazla karar vermek için modelleri kullandıkça, modelin değer verdiği faktörler onu tasarlayan insanlarla gerçekten aynı mı? Veya model, tasarımcı tarafından sağlanan verilerdeki desenleri tamamen yakalar, ancak verilerin kendisi tasarımcının fark etmediği önyargıları içerir. Şimdi ne yapacağız?

DeepMind güvenlik ekibinin hazırladığı bu makale bazı tartışmalar yaptı ve ilgili konularda bazı bilgiler ortaya koydu. Yakın tarihli bir DeepMind makalesinde "Ödül modelleme yoluyla ölçeklenebilir ajan hizalaması: bir araştırma yönü" (https://arxiv.org/abs/1811.07871) tarafından önerilen araştırma talimatlarını ana hatlarıyla belirtir; bu makale "ajan hizalama" sorununu ele almaya çalışır. Bir araştırma yönü sağlayın. Sonuç olarak, ödül modellemeye dayalı yinelemeli bir uygulama yöntemi önerdiler ve makinenin gerçek dünyadaki karmaşık sorunları çözmeden önce kullanıcının niyetlerini tam olarak anlamasına izin verdi. AI Technology Review aşağıdaki gibi derlenmiştir.

Son yıllarda, pekiştirmeli öğrenme birçok karmaşık oyun ortamında inanılmaz bir güç gösterdi.Atari oyunları, Go, satrançtan Dota 2 ve StarCraft II'ye kadar, AI ajanları birçok karmaşık alanda insanları hızla geride bırakıyor. Araştırmacılar için oyunlar, makine öğrenimi algoritmalarını denemek ve test etmek için ideal bir platformdur.Oyunlarda, gerçek dünyadaki sorunları çözmek için gereken yeteneklerden farklı olmayan, görevleri tamamlamak için kapsamlı bilişsel yetenekler kullanılmalıdır. Buna ek olarak, makine öğrenimi araştırmacıları, öğrenme sistemi için sabit bir eğitim verisi akışı sağlamak için bulut üzerinde paralel olarak binlerce simülasyon deneyi çalıştırabilir.

En kritik nokta, oyunların genellikle net hedefleri ve görevleri ve hedefin ilerlemesini yansıtan bir puanlama sistemine sahip olmasıdır. Bu puanlama sistemi yalnızca pekiştirme öğrenme aracıları için etkili ödül sinyalleri sağlamakla kalmaz, aynı zamanda hangi algoritma ve çerçevenin en iyi performansı gösterdiğini belirlemek için hızlı bir şekilde geri bildirim almamızı sağlar.

Aracıyı insanla tutarlı hale getirin

Bununla birlikte, AI'nın nihai amacı, insanların gerçek hayatta giderek karmaşıklaşan zorluklarla başa çıkmalarına yardımcı olmaktır. Gerçek hayatta iyi bir ödül mekanizması yok Bu, yapay zekanın performansını değerlendirmek için insanlar için bir zorluk teşkil ediyor. Bu nedenle, AI'nın insan niyetlerini tam olarak anlayabilmesi ve insanların hedeflerine ulaşmasına yardımcı olabilmesi için mümkün olan en kısa sürede ideal bir geri bildirim mekanizması bulmak gereklidir. Başka bir deyişle, yapay zeka sistemini eğitmek için insan geri bildirimini kullanmayı umuyoruz, böylece davranışı niyetlerimizle tutarlı olabilir. Bu amaca ulaşmak için, DeepMind araştırmacıları bir "aracı hizalama" problemini aşağıdaki gibi tanımladılar:

Davranışı kullanıcının niyetiyle tutarlı olan bir aracı nasıl oluşturulur?

Bu hizalama problemi pekiştirmeli öğrenme çerçevesinde özetlenebilir.Farkı, aracıların geleneksel sayısal ödül sinyalleri kullanmak yerine etkileşimli protokoller aracılığıyla kullanıcılarla iletişim kurması ve niyetlerini anlamasıdır. Etkileşimli protokole gelince, gösterme (taklit öğrenme, örneğin Google'ın taklit öğrenme robotu ), tercih eğilimi (insan doğrudan değerlendirme sonuçları, örneğin OpenAI ve DeepMind ), optimal eylem, iletişim ödül işlevi (arxiv.org/abs/1711.02827), vb. Genel olarak, Akıllı vücut hizalama sorununun çözümlerinden biri, makinenin kullanıcının niyetine göre çalışmasına izin veren bir strateji oluşturmaktır. .

DeepMind'in "Ödül modelleme yoluyla ölçeklenebilir ajan hizalaması: bir araştırma yönü" başlıklı makalesi, "ajan hizalama" problemini olumlu bir şekilde çözmek için bir araştırma yönünü özetlemektedir. DeepMind, AI güvenlik sorunlarının sınıflandırılmasında ve geçmişte AI güvenlik sorunlarının detaylandırılmasında yapılan çalışmalara dayanarak, herkese akıllı vücut hizalama sorununa bir çözüm bulmaya ve verimli bir iletişim kurmaya teşvik etmek için şu ana kadar bu alanlarda yapılan ilerlemeyi açıklayacak. Kullanıcı geri bildirimlerinden öğrenen ve kullanıcı tercihlerini doğru bir şekilde tahmin edebilen bir sistem. İster şu anda görece basit görevlerle, ister giderek daha karmaşık, soyut hale gelecek ve hatta gelecekte insan anlayışının ötesine geçecek görevlerle uğraşıyor olsun, sistemin yetenekli olacağından daha fazlasını umuyorlar.

Ödül modelleme yoluyla uyum

DeepMind'ın araştırma yönünün özü, Ödül modelleme . Önce kullanıcı geri bildirimini içeren bir ödül modeli eğitecekler ve bu şekilde kullanıcının gerçek niyetlerini yakalayacaklar. Aynı zamanda, ödül modelinin ödül etkisini en üst düzeye çıkarmak için pekiştirmeli öğrenme yoluyla bir strateji eğitilir. Başka bir deyişle, onlar Öğrendiklerinizi (ödül modeli) nasıl öğrendiğinizden (strateji) ayırt edin .

Ödül modelleme diyagramı: Ödül modeli, kullanıcının niyetini daha iyi yakalamak için kullanıcı geri bildirimlerine göre eğitilir; aynı zamanda ödül modeli, takviye öğrenme ile eğitilen aracı için ödüller sağlar.

DeepMind geçmişte ajanlara kullanıcı tercihlerine göre ters çevirme yapmayı öğretmek, nesneleri hedef örneklere göre belirli şekillere yerleştirmek ve kullanıcı tercihlerine göre Atari oyunları oynamak ve profesyonel gösteriler gibi bazı benzer görevler yapmıştır ( Bana yorum yap ). Gelecekte, DeepMind araştırmacıları, sistemin, kullanıcı geri bildirimine dayalı kullanıcı davranış modellerine adapte olmak için kendisini hızlı bir şekilde ayarlamasına izin verecek bir dizi algoritma geliştirmeyi umuyor. (Örn. Doğal dille)

Ödül modelinin ölçeğini genişletin

Uzun vadede, DeepMind araştırmacıları ödül modelinin ölçeğini şu anda insan değerlendirme yetenekleri için daha karmaşık olan bazı alanlara genişletmeyi umuyor. Bunu yapmak için, kullanıcıların sonuçları değerlendirme becerilerini geliştirmeleri gerekir. Bu nedenle, nasıl olduğunu da açıklayacaklar Özyineleme Ödül modelinin yerel uygulaması: Temsilciyi ödül modeli aracılığıyla eğitin, böylece kullanıcının değerlendirme sürecinde yardım sağlayabilir. Değerlendirme davranıştan daha basit hale geldiğinde, bu, sistemin basit görevlerden daha yaygın ve karmaşık görevlere geçebileceği anlamına gelir. Bu aynı zamanda yinelenen amplifikasyonun bir örneği olarak da görülebilir (bkz. "Süper AI" nın tohumu mu? İnsanların değerlendirilmesi zor olacak kadar karmaşık konular, bir yapay zekayı öğretebilir ).

Yinelemeli ödül modelinin şematik diyagramı: Yinelemeli ödül modeliyle eğitilen aracı (sağdaki küçük daire), kullanıcıların eğitilen temsilci tarafından üretilen sonuçları değerlendirmesine yardımcı olur (sağdaki daire)

Örneğin, bir aracı eğiterek bir bilgisayar yongası tasarlamak istiyorsak, önerilen yonga tasarımının uygulanabilirliğini değerlendirmek için, yonga simülasyonu performans karşılaştırma testi ve hesaplamasını tamamlamamıza yardımcı olmak için bir ödül modeli aracılığıyla bir grup aracı "asistan" ı eğiteceğiz. Soğutma performansı, çipin ömrünü tahmin etme ve güvenlik açıklarını bulma gibi görevler. Aracının "asistanının" çıktısı, kullanıcının çip tasarımının fizibilitesini değerlendirmesine yardımcı olur ve daha sonra kullanıcı, çip tasarım aracısını buna göre eğitebilir. Aracı "asistan" ın çözmesi gereken görevler dizisi bugünün öğrenme sistemi için hala biraz zor olsa da, doğrudan bir bilgisayar çipi tasarlamasına izin vermekten daha kolaydır: Bir bilgisayar çipi tasarlamak için tasarım sürecini anlamalısınız Her değerlendirme görevi içinde, ancak tersi değil. Bu perspektiften, yinelemeli ödül modeli, aracıya "destek" sağlamamıza izin verir, böylece kullanıcının niyetiyle tutarlı olurken giderek zorlaşan görevleri çözebilir.

Araştırma zorlukları

Ödül modelini karmaşık sorunlara uygulamak istiyorsak, üstesinden gelmemizi bekleyen birkaç zorluk var. Aşağıdaki şekil, araştırmada karşılaşılabilecek 5 zorluğu göstermektedir.İlgilenen öğrenciler, bu zorlukları ve ilgili çözümleri ayrıntılı olarak açıklayan DeepMind makalesine başvurabilirler.

Ödül modellemeyi (solda) ve en umut verici çözümleri (sağda) genişlettiğimizde karşılaşacağımız zorluklar

Bu bize ajan hizalama probleminin son anahtar unsurunu hatırlatır: Ajan gerçek dünyada kullanılacağı zaman, öncelikle bu ajanların tamamen uyumlu olduğunu kullanıcıya kanıtlamamız gerekir. Bu amaçla DeepMind, kullanıcıların daha iyi hale gelmesine yardımcı olmak için makalede 5 öğe önermektedir. Güven Araştırma yaklaşımları şunlardır: tasarım seçimi, test etme, yorumlanabilirlik, resmi doğrulama ve teorik güvence. Ayrıca ürün için yapacak iddialı bir fikirleri var. Güvenlik sertifikası , Sertifika esas olarak geliştirilen teknolojinin güvenilirliğini kanıtlamak ve kullanıcının eğitim aracısını iş için kullanma güvenini artırmak için kullanılır.

Gelecekteki araştırma talimatları

DeepMind araştırmacıları, yinelemeli ödül modelinin ajan hizalama eğitimi için çok umut verici bir araştırma yönü olacağına inanmasına rağmen, şu anda bu yönün gelecekte nasıl gelişeceğini tahmin edemiyorlar (daha fazla araştırmaya ihtiyacınız var!). Bununla birlikte, ajan hizalama sorununa odaklanan diğer birkaç araştırma yönünün de diğer araştırmacılar tarafından üretildiğini kutlamakta fayda var:

  • Taklit öğrenme

  • Miyop takviye öğrenme (

  • Ters pekiştirmeli öğrenme (

  • İşbirlikli ters pekiştirme öğrenimi (https://arxiv.org/abs/1606.03137)

  • Yinelemeli genişleme (insanların değerlendirmesinin zor olduğu karmaşık bir problem, bir yapay zeka öğretebilirsiniz)

  • Tartışarak öğrenin (insanlar kavga eder ve sinirlenir, ancak AI ve AI tartışması güvenliği sağlayabilir)

  • Acente vakıfları (Acente vakıfları) (https://intelligence.org/files/TechnicalAgenda.pdf)

DeepMind ayrıca makalede bu araştırma yönlerinin benzerliklerini ve farklılıklarını tartıştı.

Tıpkı rakip girdiler için bilgisayarla görme sistemlerinin sağlamlığı üzerine yapılan araştırmanın bugün makine öğreniminin pratik uygulaması için gerekli olması gibi, aracı hizalama araştırmasının da makine öğrenimi sistemlerinin karmaşık gerçek dünyada konuşlandırılmasında anahtar olması bekleniyor. Kısacası, insanlığın iyimser olmak için bir nedeni var: Akademik araştırmalar ödül modelini genişletmeye çalışırken zorluklarla karşılaşacak olsa da, bu zorluklar çözülmesi beklenen bazı özel teknik problemlerdir. Bu anlamda, bu araştırma yönü, derin pekiştirmeli öğrenme aracıları üzerine deneysel araştırmalar için hazırdır.

Konu araştırmasının ilerlemesine yardımcı olmak, DeepMind'ın günlük çalışmalarında çok önemli bir konudur. DeepMind'in araştırmasına katılmakla ilgilenen bir araştırmacı, mühendis veya yetenekli bir uzmansanız, DeepMind ayrıca araştırma ekibine katılmak için başvuruda bulunmalarını da memnuniyetle karşılar.

DeepMind Safety Research aracılığıyla, AI teknolojisi inceleme derlemesi

Orijinal metni okumak ve yakın çekim Li Feifei hakkında bilgi edinmek için tıklayın: Yapay zekanın gelişimine ilham verdi ve yapay zeka değeri vermeli

Çöp adam Maggie Cheung gittikçe daha fazla içine kapanıyor ve şimdi tenha bir sivil bölgede yaşıyor ve kimse onu tanımıyor!
önceki
A BATHING APE® Paris'te nasıl karıştı? İlk elden sokak çekimleri size cevabı verecektir!
Sonraki
Baharatlı Yorum | Ürünlerin bağırıp satışını bir kenara bırakırsak Elysee, Jetta ve Santana'yı nasıl yakaladı?
Cecilia Cheung'un selefi Shiji ile birleşmek istediği söyleniyor .. En sevdiği erkeğin kendisi olduğu ortaya çıktı!
19 ay Ciwen Medianın 900 milyonluk sabit artışı onaylamasından sonra, film ve televizyon uzun süredir kayıp olan sermayenin baharını mı başlattı?
Virgil Abloh x Nike Air More Uptempo görücüye çıktı! Ama neden bu kadar tartışmalı?
Tamamen geliştirilmiş süper amiral gemisi Honor Magic2 resmi olarak piyasaya çıktı: 3799 yuan'dan başlayan fiyatlarla
Site 204.800'den! Tarihteki en ucuz BMW burada, ancak baskı altında olan sadece Audi A3 değil
Changan Ruicheng CC, orta büyüklükte bir coupe tarzı otomobil olan Aralık ayında piyasaya sürülebilir
Foundation LeetCode Algoritma Problemi 30. Gün: En az kullanılan kelimeler nasıl bulunur?
2019 İnternet okulu işe alım maaşı açığa çıktı, ne kadar alabileceğinizi görün!
Yıldönümünü ve sonsuz arayışını unutarak, o kadar çok ölüme neden oldu, Yuan Yuyi onu neden hala seviyor?
Sprint! 5G cep telefonları parmaklarınızın ucunda
Porsche Macan Turbo özel sürümü daha hızlı ve daha kişiselleştirilmiş
To Top