Lin Lin, OpenAI resmi blogundan derlendi
Qubit Üretildi | Genel Hesap QbitAI
OpenAI bugün, araştırma sürecinde keşfedilen 7 çözülmemiş sorunu resmi blogunda yayınladı.
OpenAI, bu sorunların yeni başlayanlar için yapay zekaya girmenin ilginç ve anlamlı bir yolu olabileceğini ve ayrıca uygulayıcıların becerilerini geliştirmelerine yardımcı olabileceğini umuyor.
AI dünyasının OpenAI versiyonunun çözülmemiş yedi gizemi şimdi resmen ortaya çıktı
1. Slitherin
Zorluk endeksi:
Bir Spor Salonu ortamı olarak Snake'in çok oyunculu klonunu anlayın ve çözün.
Çevre: Mekan çok büyük yılanlarla dolu.Yılanlar rastgele görünen meyveleri yiyerek büyüyor. Bir yılan başka bir yılana, kendisine veya bir duvara çarptığında ölür.Bütün yılanlar öldüğünde oyun biter.
Aracı: Çevresel sorunları çözmek için seçtiğiniz kendi kendine oynayan RL algoritmasını kullanın. Kendi kendine oynamanın dengesizliğinin üstesinden gelmek için çeşitli yöntemler denemelisiniz.
Öğrenme davranışını kontrol edin: Temsilci yiyecekleri doğru zamanda yakalamayı ve diğer yılanlardan kaçınmayı öğrendi mi? Rakiplere saldırmayı, çerçevelemeyi veya birleşmeyi öğrendiniz mi?
2. Dağıtılmış pekiştirmeli öğrenmede parametre ortalaması
Zorluk indeksi:
Bu, parametre ortalama şemasının, örnek karmaşıklığı ve RL algoritmasındaki iletişim hacmi üzerindeki etkisini ifade eder. Basit bir çözüm, güncellenen her çalışanın gradyanının ortalamasını almaktır, ancak çalışanları bağımsız olarak güncelleyerek ve ortalama parametreleri azaltarak iletişim bant genişliğinden tasarruf etmek de mümkündür.
Bunun başka bir avantajı daha var: Herhangi bir zamanda, farklı parametrelere sahip aracılarımız var ve daha iyi algılama davranışlarına sahip olabiliriz. Diğer bir olasılık, her güncellemede parametre parçalarını birleştirebilen EASGD gibi bir algoritma kullanmaktır.
3. Üretken modeller aracılığıyla farklı oyunlarda öğrenmeyi aktarın
Zorluk indeksi:
İşlem şu şekildedir:
11 Atari oyun stratejisi geliştirin. Her oyunun stratejisinden 10.000 yörünge oluşturulur ve her yörünge 1.000 adım içerir.
Üretken bir model (Tek İhtiyacınız Olan Dikkat belgesinde önerilen Transformer gibi) 10 oyun tarafından oluşturulan yörüngeler ile eşleştirilir.
Ardından 11. oyunda yukarıdaki modele ince ayar yapın.
Amacınız, 10 oyun için ön antrenmanın faydalarını ölçmek. Bu modelin çalışması için hangi düzeyde eğitim gerekiyor? 11. oyunun veri hacmi 10 kat azaldığında efektin boyutu nasıl değişir? Ya 100x azalırsa?
4. Transformatöre doğrusal dikkat
Zorluk indeksi:
Transformer modeli softmax'ta yumuşak dikkat kullanır. Doğrusal dikkat kullanılabiliyorsa, ortaya çıkan modeli pekiştirmeli öğrenme için kullanabiliriz.
Spesifik olarak, RL'yi karmaşık bir ortamda dağıtmak için Transformer'ı kullanmak pratik değildir, ancak bir RNN'yi hızlı ağırlıkla çalıştırmak mümkündür.
Amacınız, herhangi bir dil modelleme görevini kabul etmek, Transformer'ı eğitmek ve ardından her karakterin / kelimenin aynı bitlerini, toplam parametre sayısını artırmadan farklı hiperparametrelere sahip doğrusal bir dikkat Transformatörü ile elde etmenin bir yolunu bulmaktır.
Önce üzerinize soğuk su dökün: bu mümkün olmayabilir. Size potansiyel olarak yararlı başka bir ipucu vermek için, doğrusal dikkat dönüştürücünün, softmax care'i kullanmaktan daha yüksek boyutlu bir anahtar / değer vektörü gerektirmesi muhtemeldir ve bu, parametre sayısını önemli ölçüde artırmadan yapılabilir.
5. Öğrenilen verilerin genişletilmesi
Zorluk indeksi:
Öğrenilen veriler VAE, "öğrenilen verilerin genişletilmesi" için kullanılabilir.
Öncelikle giriş verileri üzerinde bir VAE eğitmemiz, ardından her eğitim noktasını gizli bir alana kodlamamız, ardından içine basit (Gauss gibi) bir tedirginlik uygulamamız ve son olarak onu gözlemlenen alana geri çözmemiz gerekebilir. Bu yöntemin daha iyi bir genelleme yapıp yapamayacağı hala bir muamma.
Bu tür veri genişletmenin potansiyel bir avantajı, perspektif değişiklikleri ve sahne fiber değişiklikleri gibi birçok doğrusal olmayan dönüşümü içerebilmesidir.
6. Pekiştirmeli öğrenmede düzenleme
Zorluk indeksi:
Bu, farklı düzenlileştirme yöntemlerinin RL algoritması üzerindeki etkisinin deneysel araştırması ve nitel yorumuyla ilgilidir.
Denetimli öğrenmede, düzenlileştirme, modeli optimize etmek ve aşırı uydurmayı önlemek için son derece önemlidir. Ayrılma, grup standardizasyonu ve L2 düzenlenmesi gibi harika etkilere sahip bazı yöntemleri içerir.
Ancak, politika gradyanı ve Q-öğrenme gibi pekiştirmeli öğrenme algoritmalarında, araştırmacılar henüz uygun bir düzenleme yöntemi bulamamışlardır. Bu arada, RL'de insanların kullandığı modeller denetimli öğrenmede kullanılan modellerden çok daha küçüktür çünkü büyük modeller daha kötü performans gösterir.
İşte referans için eski bir makale:
7. Olimpiyat Eşitsizliği sorunlarına otomatik çözüm
Zorluk indeksi:
Olimpiyat Eşitsizliği problemini ifade etmek kolaydır, ancak bu problemi çözmek genellikle akıllı araçlar gerektirir.
Olimpiyat Eşitsizliği problemleri hakkında bir veri seti oluşturun ve problemlerin çoğunu çözebilecek bir program yazın. Burada makine öğreniminin yararlı olup olmadığı belli değil, ancak dallanma faktörünü azaltmak için bir öğrenme stratejisi kullanabilirsiniz.
Son olarak, OpenAI'nin orijinal adresini ekleyin:
https://blog.openai.com/requests-for-research-2/
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! İlgili ayrıntılar için lütfen QbitAI diyalog arayüzünde "işe alım" kelimesini yanıtlayın.
Qubit QbitAI · Toutiao İmzalayan Yazar
' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin