Akıllı şeyler (genel hesap: zhidxcom) düzenlendi | Wei Shiwei
24 Mart 23 Mart'ta Amerika Birleşik Devletleri yerel saati, Google'da bilge şeyler haberleri Açık kaynak, SEED RL adı verilen bir takviye öğrenme (RL) çerçevesi, Yapay zeka (AI) model eğitimini binlerce makineye genişletme, saniyede milyonlarca kare hızında tek bir makinede eğitime yardımcı olma yeteneği, Ve eğitim maliyetlerini% 80'e kadar azaltın.
Bu takviye öğrenme çerçevesinin açık kaynağı, aynı zamanda bu yapay zeka girişimleri ve küçük yapay zeka laboratuvarları için düşük maliyetli ve seviyeli bir oyun alanı yaratacaktır.
Araştırma belgesinin 15 Ekim 2019'da ön baskı platformu arXiv'e gönderildiği ve en son revizyonun bu yıl 11 Şubat'ta "SEED RL: Hızlandırılmış merkezi muhakeme ile ölçeklenebilir ve verimli olduğu anlaşıldı. Deep-RL (SEED RL: Hızlandırılmış Merkezi Çıkarımla Ölçeklenebilir ve Verimli Deep-RL) ".
Makaleye bağlantı: https://arxiv.org/abs/1910.06591
Aslında bu aşamada, karmaşık makine öğrenimi modellerini bulutta eğitmek çok pahalıdır.
Araştırma raporu verilerine göre, Washington Üniversitesi'nden Grover, sahte haberler üretmek ve tespit etmek için tasarlandı.Model, iki hafta boyunca eğitim için toplam 25.000 $ harcadı; OpenAI, GPT-2 dil modelini her saat eğitti Maliyeti 256 ABD dolarıdır; Google, maliyeti 6912 ABD doları olduğu tahmin edilen BERT çift yönlü dönüştürücü modelini eğitmiştir.
Bu modellerin ön eğitim maliyeti, bazı büyük AI laboratuvarları veya teknoloji devleri için yeterli olmayabilir, ancak birçok AI başlangıcı ve küçük AI laboratuvarları için baskı getiriyor.
Google'ın TensorFlow 2.0 çerçevesine dayanan SEED RL, merkezileştirilmiş model çıkarımı yoluyla grafik kartlarını ve TPU'yu (Tensor İşleme Birimi) kullanma becerisiyle karakterize edilir.
Veri iletimi darboğazlarından kaçınmak için, SEED RL ayrıca merkezi olarak yapay zeka çıkarımı gerçekleştirmek için bir öğrenci bileşeni kullanır ve bu bileşen, modeli eğitmek için dağıtılmış çıkarımdan gelen girdiyi de kullanır.
Ek olarak, hedef modelin değişkenleri ve durum bilgileri yerel olarak tutulacak ve her çevresel adımın gözlem sonuçları öğrenci bileşenine gönderilecektir. Aynı zamanda, model açık kaynaklı ortak RPC çerçevesine dayalı bir ağ kitaplığı kullandığından, gecikme süresi de minimumda tutulacaktır.
SEED RL'nin öğrenci bileşeni, binlerce çekirdeğe genişletilebilir. Örneğin, Cloud TPU'da en fazla 2048'e genişletilebilir ve katılımcı sayısı binlerce makineye genişletilebilir.
Aynı zamanda, V-trace adlı bir algoritma, eylemlerin dağılımını ondan örnekleyebilirken, R2D2 adı verilen başka bir algoritma, eylemin tahmin edilen gelecekteki değerine göre eylemleri seçer.
Google araştırma ekibi, SEED RL'yi değerlendirmek için yaygın olarak kullanılan Arcade öğrenme ortamında, çeşitli DeepMind laboratuar ortamlarında ve Google futbol ortamında SEED RL üzerinde karşılaştırma testleri gerçekleştirdi.
Araştırmacılar, Google futbol görevini başarıyla çözmek için SEED RL'yi kullandıklarını ve saniyede 2,4 milyon kare elde etmek için 64 bulut TPU çekirdeği kullandıklarını, bu da önceki en son dağıtılan aracıdan 80 kat daha yüksek olduğunu söyledi.
"Bu, duvar saati süresini büyük ölçüde kısaltır ve önemli bir hızlanma etkisi sağlar. Aynı zamanda, hızlandırıcının her işleminin maliyeti, CPU'nunkinden birkaç kat daha düşük olduğundan, model deneylerinin maliyeti de büyük ölçüde azaltılmıştır." Araştırmacıların görüşüne göre, SEED RL ve sunulan test sonuçları, hızlandırıcıların kullanımında, pekiştirmeli öğrenmenin bir kez daha derin öğrenmenin diğer alanlarını geride bıraktığını göstermektedir.
Makale kaynağı: VentureBeat
Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~