AI dünyasında çözülmemiş yedi gizem: OpenAI, bir dizi AI araştırma konusu atıyor

Lin Lin, OpenAI resmi blogundan derlendi

Qubit Üretildi | Genel Hesap QbitAI

OpenAI bugün, araştırma sürecinde keşfedilen 7 çözülmemiş sorunu resmi blogunda yayınladı.

OpenAI, bu sorunların yeni başlayanlar için yapay zekaya girmenin ilginç ve anlamlı bir yolu olabileceğini ve ayrıca uygulayıcıların becerilerini geliştirmelerine yardımcı olabileceğini umuyor.

AI dünyasının OpenAI versiyonunun çözülmemiş yedi gizemi şimdi resmen ortaya çıktı

1. Slitherin

Zorluk endeksi:

Bir Spor Salonu ortamı olarak Snake'in çok oyunculu klonunu anlayın ve çözün.

Çevre: Mekan çok büyük yılanlarla dolu.Yılanlar rastgele görünen meyveleri yiyerek büyüyor. Bir yılan başka bir yılana, kendisine veya bir duvara çarptığında ölür.Bütün yılanlar öldüğünde oyun biter.

Aracı: Çevresel sorunları çözmek için seçtiğiniz kendi kendine oynayan RL algoritmasını kullanın. Kendi kendine oynamanın dengesizliğinin üstesinden gelmek için çeşitli yöntemler denemelisiniz.

Öğrenme davranışını kontrol edin: Temsilci yiyecekleri doğru zamanda yakalamayı ve diğer yılanlardan kaçınmayı öğrendi mi? Rakiplere saldırmayı, çerçevelemeyi veya birleşmeyi öğrendiniz mi?

2. Dağıtılmış pekiştirmeli öğrenmede parametre ortalaması

Zorluk indeksi:

Bu, parametre ortalama şemasının, örnek karmaşıklığı ve RL algoritmasındaki iletişim hacmi üzerindeki etkisini ifade eder. Basit bir çözüm, güncellenen her çalışanın gradyanının ortalamasını almaktır, ancak çalışanları bağımsız olarak güncelleyerek ve ortalama parametreleri azaltarak iletişim bant genişliğinden tasarruf etmek de mümkündür.

Bunun başka bir avantajı daha var: Herhangi bir zamanda, farklı parametrelere sahip aracılarımız var ve daha iyi algılama davranışlarına sahip olabiliriz. Diğer bir olasılık, her güncellemede parametre parçalarını birleştirebilen EASGD gibi bir algoritma kullanmaktır.

3. Üretken modeller aracılığıyla farklı oyunlarda öğrenmeyi aktarın

Zorluk indeksi:

İşlem şu şekildedir:

11 Atari oyun stratejisi geliştirin. Her oyunun stratejisinden 10.000 yörünge oluşturulur ve her yörünge 1.000 adım içerir.

Üretken bir model (Tek İhtiyacınız Olan Dikkat belgesinde önerilen Transformer gibi) 10 oyun tarafından oluşturulan yörüngeler ile eşleştirilir.

Ardından 11. oyunda yukarıdaki modele ince ayar yapın.

Amacınız, 10 oyun için ön antrenmanın faydalarını ölçmek. Bu modelin çalışması için hangi düzeyde eğitim gerekiyor? 11. oyunun veri hacmi 10 kat azaldığında efektin boyutu nasıl değişir? Ya 100x azalırsa?

4. Transformatöre doğrusal dikkat

Zorluk indeksi:

Transformer modeli softmax'ta yumuşak dikkat kullanır. Doğrusal dikkat kullanılabiliyorsa, ortaya çıkan modeli pekiştirmeli öğrenme için kullanabiliriz.

Spesifik olarak, RL'yi karmaşık bir ortamda dağıtmak için Transformer'ı kullanmak pratik değildir, ancak bir RNN'yi hızlı ağırlıkla çalıştırmak mümkündür.

Amacınız, herhangi bir dil modelleme görevini kabul etmek, Transformer'ı eğitmek ve ardından her karakterin / kelimenin aynı bitlerini, toplam parametre sayısını artırmadan farklı hiperparametrelere sahip doğrusal bir dikkat Transformatörü ile elde etmenin bir yolunu bulmaktır.

Önce üzerinize soğuk su dökün: bu mümkün olmayabilir. Size potansiyel olarak yararlı başka bir ipucu vermek için, doğrusal dikkat dönüştürücünün, softmax care'i kullanmaktan daha yüksek boyutlu bir anahtar / değer vektörü gerektirmesi muhtemeldir ve bu, parametre sayısını önemli ölçüde artırmadan yapılabilir.

5. Öğrenilen verilerin genişletilmesi

Zorluk indeksi:

Öğrenilen veriler VAE, "öğrenilen verilerin genişletilmesi" için kullanılabilir.

Öncelikle giriş verileri üzerinde bir VAE eğitmemiz, ardından her eğitim noktasını gizli bir alana kodlamamız, ardından içine basit (Gauss gibi) bir tedirginlik uygulamamız ve son olarak onu gözlemlenen alana geri çözmemiz gerekebilir. Bu yöntemin daha iyi bir genelleme yapıp yapamayacağı hala bir muamma.

Bu tür veri genişletmenin potansiyel bir avantajı, perspektif değişiklikleri ve sahne fiber değişiklikleri gibi birçok doğrusal olmayan dönüşümü içerebilmesidir.

6. Pekiştirmeli öğrenmede düzenleme

Zorluk indeksi:

Bu, farklı düzenlileştirme yöntemlerinin RL algoritması üzerindeki etkisinin deneysel araştırması ve nitel yorumuyla ilgilidir.

Denetimli öğrenmede, düzenlileştirme, modeli optimize etmek ve aşırı uydurmayı önlemek için son derece önemlidir. Ayrılma, grup standardizasyonu ve L2 düzenlenmesi gibi harika etkilere sahip bazı yöntemleri içerir.

Ancak, politika gradyanı ve Q-öğrenme gibi pekiştirmeli öğrenme algoritmalarında, araştırmacılar henüz uygun bir düzenleme yöntemi bulamamışlardır. Bu arada, RL'de insanların kullandığı modeller denetimli öğrenmede kullanılan modellerden çok daha küçüktür çünkü büyük modeller daha kötü performans gösterir.

İşte referans için eski bir makale:

7. Olimpiyat Eşitsizliği sorunlarına otomatik çözüm

Zorluk indeksi:

Olimpiyat Eşitsizliği problemini ifade etmek kolaydır, ancak bu problemi çözmek genellikle akıllı araçlar gerektirir.

Olimpiyat Eşitsizliği problemleri hakkında bir veri seti oluşturun ve problemlerin çoğunu çözebilecek bir program yazın. Burada makine öğreniminin yararlı olup olmadığı belli değil, ancak dallanma faktörünü azaltmak için bir öğrenme stratejisi kullanabilirsiniz.

Son olarak, OpenAI'nin orijinal adresini ekleyin:

https://blog.openai.com/requests-for-research-2/

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! İlgili ayrıntılar için lütfen QbitAI diyalog arayüzünde "işe alım" kelimesini yanıtlayın.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

2019 otomobil pazarı büyük tahmin : akıllı arabalar popüler mi?
önceki
4. turda bir taraf ölüm kalımla mı karşı karşıya? TEDA Trident güçlüdür! Cui Kangxi'nin temizlik becerilerini göstermesi gerekiyor
Sonraki
Premier Lig Bundesliga'dan birçok Asyalı oyuncu bu sabah erken saatlerde gol attı
Çinli oyuncular intikam alıyor! Steam'deki bu yerel oyun ne kadar iyi? Hiçbir İngilizce, yabancılar tarafından kötü bir şekilde değerlendirilmez
Karlı dağlara ve antik şehirlere ek olarak, Lijiang'da yeni bir C3-XR "Evrim Üçlemesi" ile de karşılaşabilirsiniz.
Qin Sheng: Geçen sene deplasman maçında deplasmanda 5 sayı attı.Şimdi iki maç berabere kaldı.Herkes Cui Kangxi'nin takımı iyi yönetebileceğine inanıyor.
Valdez dört yumurta yuttu ve Fort Mi Kalesi'nin küme düşmesini yendi, neredeyse kaçınılmaz bir sonuç.
Zafer Kralı'nın en değerli derisi! 10.000 oyuncudan sadece 2'si ona sahip ve satın alamıyorlar bile.
Çelik top bir tavırdır
Stillik: Taraftar sayısı artıyor. Üç Dişli Mızrak hücumu güçlendiriyor ama biz hücum ve savunma dengesine daha çok önem veriyoruz
Wu Enda: Dövüş sanatları dünyası ancak hızlı bir şekilde kırılabilir, başarım kopyalanabilir
Bayern oyuncularını şiddetle öldür, Bundesliga son 7 turda 7 gol attı
Bir bakışta şok oldum:? Gök Gürültüsü ve Ölüm Atlası (393)
Cui Kangxi Evergrande'yi evinde kazanamaz, ancak TEDA'yı kazanacağına ne kadar emin? Jonathan, TEDA zıpkınını ayrıştırıyor
To Top