Google'ın açık kaynak SEED RL takviye öğrenim çerçevesi, eğitim maliyetlerini% 80'e kadar düşürür

Akıllı şeyler (genel hesap: zhidxcom) düzenlendi | Wei Shiwei

24 Mart 23 Mart'ta Amerika Birleşik Devletleri yerel saati, Google'da bilge şeyler haberleri Açık kaynak, SEED RL adı verilen bir takviye öğrenme (RL) çerçevesi, Yapay zeka (AI) model eğitimini binlerce makineye genişletme, saniyede milyonlarca kare hızında tek bir makinede eğitime yardımcı olma yeteneği, Ve eğitim maliyetlerini% 80'e kadar azaltın.

Bu takviye öğrenme çerçevesinin açık kaynağı, aynı zamanda bu yapay zeka girişimleri ve küçük yapay zeka laboratuvarları için düşük maliyetli ve seviyeli bir oyun alanı yaratacaktır.

Araştırma belgesinin 15 Ekim 2019'da ön baskı platformu arXiv'e gönderildiği ve en son revizyonun bu yıl 11 Şubat'ta "SEED RL: Hızlandırılmış merkezi muhakeme ile ölçeklenebilir ve verimli olduğu anlaşıldı. Deep-RL (SEED RL: Hızlandırılmış Merkezi Çıkarımla Ölçeklenebilir ve Verimli Deep-RL) ".

Makaleye bağlantı: https://arxiv.org/abs/1910.06591

1. Neden açık kaynak kodlu bir RL çerçevesi geliştirmelisiniz?

Aslında bu aşamada, karmaşık makine öğrenimi modellerini bulutta eğitmek çok pahalıdır.

Araştırma raporu verilerine göre, Washington Üniversitesi'nden Grover, sahte haberler üretmek ve tespit etmek için tasarlandı.Model, iki hafta boyunca eğitim için toplam 25.000 $ harcadı; OpenAI, GPT-2 dil modelini her saat eğitti Maliyeti 256 ABD dolarıdır; Google, maliyeti 6912 ABD doları olduğu tahmin edilen BERT çift yönlü dönüştürücü modelini eğitmiştir.

Bu modellerin ön eğitim maliyeti, bazı büyük AI laboratuvarları veya teknoloji devleri için yeterli olmayabilir, ancak birçok AI başlangıcı ve küçük AI laboratuvarları için baskı getiriyor.

2. SEED RL'nin özellikleri ve performansı

Google'ın TensorFlow 2.0 çerçevesine dayanan SEED RL, merkezileştirilmiş model çıkarımı yoluyla grafik kartlarını ve TPU'yu (Tensor İşleme Birimi) kullanma becerisiyle karakterize edilir.

Veri iletimi darboğazlarından kaçınmak için, SEED RL ayrıca merkezi olarak yapay zeka çıkarımı gerçekleştirmek için bir öğrenci bileşeni kullanır ve bu bileşen, modeli eğitmek için dağıtılmış çıkarımdan gelen girdiyi de kullanır.

Ek olarak, hedef modelin değişkenleri ve durum bilgileri yerel olarak tutulacak ve her çevresel adımın gözlem sonuçları öğrenci bileşenine gönderilecektir. Aynı zamanda, model açık kaynaklı ortak RPC çerçevesine dayalı bir ağ kitaplığı kullandığından, gecikme süresi de minimumda tutulacaktır.

SEED RL'nin öğrenci bileşeni, binlerce çekirdeğe genişletilebilir. Örneğin, Cloud TPU'da en fazla 2048'e genişletilebilir ve katılımcı sayısı binlerce makineye genişletilebilir.

Aynı zamanda, V-trace adlı bir algoritma, eylemlerin dağılımını ondan örnekleyebilirken, R2D2 adı verilen başka bir algoritma, eylemin tahmin edilen gelecekteki değerine göre eylemleri seçer.

3. SEED RL performansı nasıl değerlendirilir?

Google araştırma ekibi, SEED RL'yi değerlendirmek için yaygın olarak kullanılan Arcade öğrenme ortamında, çeşitli DeepMind laboratuar ortamlarında ve Google futbol ortamında SEED RL üzerinde karşılaştırma testleri gerçekleştirdi.

Araştırmacılar, Google futbol görevini başarıyla çözmek için SEED RL'yi kullandıklarını ve saniyede 2,4 milyon kare elde etmek için 64 bulut TPU çekirdeği kullandıklarını, bu da önceki en son dağıtılan aracıdan 80 kat daha yüksek olduğunu söyledi.

"Bu, duvar saati süresini büyük ölçüde kısaltır ve önemli bir hızlanma etkisi sağlar. Aynı zamanda, hızlandırıcının her işleminin maliyeti, CPU'nunkinden birkaç kat daha düşük olduğundan, model deneylerinin maliyeti de büyük ölçüde azaltılmıştır." Araştırmacıların görüşüne göre, SEED RL ve sunulan test sonuçları, hızlandırıcıların kullanımında, pekiştirmeli öğrenmenin bir kez daha derin öğrenmenin diğer alanlarını geride bıraktığını göstermektedir.

Makale kaynağı: VentureBeat

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

IBM, anti-salgın programı yeniden başlatıyor ve 300 milyon aylık canlı hava durumu uygulaması da salgını kontrol edebiliyor!
önceki
En ucuz Snapdragon 765G cep telefonu burada! ZTE Tianji, video çekimine odaklanarak 2698'den itibaren satışa sunulacak
Sonraki
Xiaomi'ye geliyor: Cep telefonu Jianghu Juyi Hall'un hikayesi
Çip yatırımı altın çukuru? Yedi büyük yarı iletken malzemenin ve önde gelen 17 Çinli şirketin şifresini çözün
Doğa: 1 nanometre çip mümkün olacak, TSMC dünyanın en ince iki boyutlu yarı iletken malzemesini geliştiriyor
HP ve SDC, maske üretimi için yeni çözümler getiriyor, 3D baskı üretim sorunlarını çözüyor
Huawei, güvenlik ve savunma 100 milyar dağıtım pazarına girdi! Yeni ürünler vaat ediyor, 5 yılda 1 numaralı dağıtım pazarını inşa edin
Apple, endüstriyi değiştiren başka bir siyah teknolojisi ortaya çıkardı! İPad Pro'nun lidarının gizemi nedir?
Dünyadaki anekdotlar | Jobsun dul eşi 20 milyar dolarlık mal varlığını bağışlayacak Clinton, Lewinskynin geçmişini hatırlıyor: O zamanlar çok fazla baskı vardı
Şangay polis memurunun Wuhan'da kalışının günlüğü: Baharın çok uzakta olmadığını biliyorum
Xu Liang, Wuchang Hastanesi Kritik Bakım Departmanı: hastaları cesaretlendirmek için el sıkışmakta ısrar ediyor ve tecrit koğuşunda aşkı izole etmeyin
Site Shanghai Hongqiao Tren İstasyonu salgını önlemek ve kontrol etmek için her gece tam sprey dezenfeksiyonu
John Robertson'un Avrupa siyasi düşünce tarihi üzerine
Süper Lig bir "huzurevi" değil, Winter Window'da Avrupa kulüplerine ödünç verilen 5 yabancı yardım
To Top