Google donanım mühendisleri sırrı açıkladı, TPU neden CPU ve GPU'dan 30 kat daha hızlı?

Yazar: Cheng Tao

Giriş: Bu kez yayınlanan test sonuçlarına bakıldığında, TPU sektörün beklentilerini aşmış gibi görünüyor, ancak bu çipin iç mimarisinin arkasındaki sır nedir? Jouppi'nin daha önce yayınladığı makalelerden cevabı bulabiliriz.

Google'ın TPU'yu piyasaya sürmesinden bir yıl sonra, bu makine öğrenimi özel çipinin gizemi nihayet ortaya çıktı.

Dün, Google'ın kıdemli donanım mühendisi Norman Jouppi bir makalede, Google'ın özel makine öğrenimi yongası TPU'nun GPU ve CPU'dan 15-30 kat daha hızlı olduğunu söyledi (Intel Haswell CPU ve Nvidia Tesla K80 GPU tarafından sunulan TPU'ya kıyasla). Öte yandan TPU, 30 ila 80 kat arttı.

Bu kez yayınlanan test sonuçlarına bakıldığında TPU sektörün beklentilerini aşmış gibi görünüyor ancak bu çipin iç yapısının arkasındaki sır nedir? Jouppi'nin daha önce yayınladığı makalelerden cevabı bulabiliriz.

Leifeng.com'a (herkese açık hesap: Leifeng.com) göre, Google, dört yıl kadar erken bir tarihte, çok fazla bilgi işlem kaynağı tüketen derin öğrenme modellerini kullanmaya başladı. Bu, CPU ve GPU kombinasyonu için büyük bir zorluktur. Google, Mevcut donanıma dayalı olarak, bu karmaşık bilgi işlem görevlerini desteklemek için veri merkezlerinin sayısını ikiye katlamaları gerekecek.

Böylece Google, Jouppi'nin "sonraki platform" olarak adlandırdığı yeni bir mimari geliştirmeye başladı. Jouppi bir zamanlar MIPS işlemcilerin baş mimarlarından biriydi ve bellek sistemlerinde yeni teknolojilere öncülük etti. Üç yıl önce Google'a katıldığında şirket, derin öğrenme eğitimi için bir CPU ve GPU hibrit mimarisi kullanıyordu.

Jouppi, Google'ın donanım mühendisliği ekibinin, özel ASIC'lere geçmeden önce ilk günlerde ucuz, verimli ve yüksek performanslı akıl yürütme sorununu çözmek için FPGA'leri kullandığını söyledi. Ancak, ASIC ile karşılaştırıldığında FPGA performansı ile watt başına performans arasında büyük bir boşluk olduğuna dikkat çekti. "TPU, bir CPU veya GPU gibi programlanabilir. Özel bir sinir ağı yerine farklı ağlarda (evrişimli sinir ağları, LSTM modelleri ve büyük ölçekli tam bağlantılı modeller) CISC talimatlarını yürütebilir. Ağ modeli tasarlanmıştır.Kısacası TPU, CPU ve ASIC'in avantajlarını birleştirir, sadece programlanabilir değil, aynı zamanda CPU, GPU ve FPGA'dan daha yüksek verimlilik ve daha düşük enerji tüketimine sahiptir.

TPU'nun dahili mimarisi

Şekilde harici DDR3 bellek haricinde TPU'nun dahili yapısı gösterilmektedir, soldaki ana bilgisayar arayüzüdür. Komut ana bilgisayardan kuyruğa gönderilir (döngü yok). Bu aktivasyon kontrol mantığı, komuta göre aynı komutu birden çok kez çalıştırabilir.

TPU karmaşık bir donanım parçası değil, standart bir X86 türevi mimarisi değil, radar uygulamaları için bir sinyal işleme motoru gibi görünüyor. Jouppi, birçok matris çarpım birimine sahip olmasına rağmen, GPU'sunun kayan nokta birimlerinin birlikte işlenmesinde daha yetkin olduğunu söyledi. Ek olarak, TPU'da herhangi bir depolanmış program bulunmadığı ve doğrudan ana bilgisayardan komutlar gönderebileceği unutulmamalıdır.

TPU'daki DRAM, matris çarpım birimini beslemek için daha fazla ağırlık alması gerektiğinden bir birim olarak paralel çalışır (hesaplanır, iş hacmi 64.000'e ulaşır). Jouppi, veri akışını nasıl ölçeklendirdiklerinden (sistolik) bahsetmedi, ancak ana bilgisayar yazılım hızlandırıcılarının kullanımının bir darboğaz haline geleceğini söyledi.

256 × 256 dizi yakınlaştırma veri akışı motoru, matris çarpımı birikiminden sonra doğrusal olmayan çıktıyı gerçekleştirir

İkinci resimden de görülebileceği gibi, TPU modeldeki parametreler için iki bellek birimine ve bir harici DDR3 DRAM'e sahiptir. Parametreler geldikten sonra, yukarıdan matris çarpım birimine yüklenebilir. Aynı zamanda, aktivasyon soldan yüklenebilir (veya "nöron" dan çıktı). Her döngüde 64.000 kez toplanabilen matris çarpımlarını üretmek için matris birimine sözleşmeli bir şekilde girenler.

Google'ın TPU'nun performansını ve verimliliğini artırmak için bazı yeni numaralar ve teknolojiler kullanmış olabileceğine şüphe yok. Örneğin, yüksek bant genişliğine sahip bellek veya hibrit 3D bellek kullanın. Ancak Google'ın sorunu, dağıtılmış donanımın tutarlılığını korumaktır.

TPU ve Haswell işlemci

Intel "Haswell" Xeon E5 v3 işlemci ile karşılaştırdığımızda TPU'nun performansının her açıdan eskisinden daha güçlü olduğunu görebiliriz.

Google'ın testinde, 64 bit kayan noktalı matematik birimi kullanarak 2,3 GHz'de çalışan 18 çekirdekli Haswell Xeon E5-2699 v3 işlemci, saniyede 1,3 TOPS işlemi yapabilir ve 51 GB / sn bellek bant genişliği sağlayabilir; Haswell çip Güç tüketimi 145 watt'tır ve sistemi (256 GB bellekle) tam olarak yüklendiğinde 455 watt tüketir.

Buna karşılık TPU, 8 bitlik bir tamsayı matematik hesap makinesi kullanır, 256 GB ana bilgisayar belleğine ve 32 GB belleğe sahiptir, 34 GB / sn bellek bant genişliğine ve Haswell'den 71 kat daha hızlı olan 92 TOPS'a kadar işlem hızına ulaşabilir. Ayrıca TPU Sunucunun ısıtma gücü sadece 384 watt'tır.

Ayrıca Google, farklı parti boyutlarını işleyen CPU, GPU ve TPU'nun saniye başına tahmin edilen verimliliğini de test etti.

Yukarıdaki şekilde gösterildiği gibi, küçük toplu görevde (16), Haswell CPU'nun yanıt süresi 7 milisaniyeye yakındır, saniyede 5482 çıkarım sağlar (IPS) ve elde edilebilecek maksimum toplu iş (64) saniyede 13194'ü tamamlayabilir. Bu sefer tahmin edildi, ancak yanıt süresi 21,3 milisaniyedir. Buna karşılık TPU, 7 milisaniyeden daha kısa yanıt süresiyle 200 toplu iş boyutuna ulaşabilir ve en yüksek performansının% 80'i olan 225.000 IPS çalışan çıkarım karşılaştırması sağlar. Toplu iş boyutu 250 olduğunda yanıt süresi 10 milisaniyedir. .

Ancak, Google tarafından test edilen Haswell Xeon işlemcinin sorunu tam olarak açıklamadığı unutulmamalıdır.Intel Broadwell Xeon E5 v4 işlemci ve en son "Skylake" Xeon E5, çekirdek saat başına (IPC) bu işlemciden daha fazla talimat içerir. Yaklaşık% 5'lik bir artış. Skylake'de 28 çekirdeğe ve Haswell'de 18 çekirdeğe sahiptir, bu nedenle Xeon'un toplam iş hacmi% 80 artabilir. Elbette bu iyileştirmenin TPU ile karşılaştırıldığında hala bir boşluğu var.

Son olarak, Leifeng.com'un TPU'nun bir çıkarım çipi olduğunu vurgulaması gerekiyor. GPU'nun yerini alması amaçlanmadı. Kesin olan şey, TPU ve CPU'nun birlikte kullanılmasının eğitim analizi için daha yararlı olduğu. Ancak CPU üreticileri için, ASIC gibi hem performansı hem de enerji verimliliğini hesaba katan bir yonganın nasıl geliştirileceği şimdi ve gelecekte.

Jouppi, Google'ın TPU'sunun çoktan gönderilmeye başladığını ve Intel yonga satıcılarının da daha büyük zorluklarla karşılaşacağını söyledi.

Leifeng.com tarafından derlenen nextplatform aracılığıyla

Leifeng.com'da telif hakkı bulunan makaleler, izinsiz yeniden basılması yasaktır.

Cherry Chibi Maruko gitti.Cenazesinde Japon yıldızlarının çoğu geldi ...
önceki
Yeni iPhone piyasaya sürülmeden önce gözden düştü mü? Apple içerik hizmeti, basın toplantısının kahramanı olabilir
Sonraki
Parayı şifreyi girerek alabilirsiniz Alipay kırmızı ekranı kaydırmanın zarfı nedir?
Karşılaştırmadan zararı yoktur 2x2 Wi-Fi çok harika
Bir uyuşturucu bağımlısından dünyanın en çok satan yazarlarından birine kadar, hayatının gidişatı bir kedi yüzünden değişti ...
"Yeni Gundam Destroyer", söz konusu önceki tüm savaş uçağı DLC'sini içerecek
Tek köpeğin Jedi karşı saldırısı! Bu, 2018'in en heyecan verici parti oyunudur, böylece oynayan aşıklar ayrıldı
Xiaomi, 1999 meta efsanesine geri dönecek mi? Xiaomi Mi 8 Youth Edition, 19 Eylül'de piyasaya sürülecek, hala Snapdragon 710
PS4 "Wanda and the Colossus" National Bank Edition 6 Şubat'ta aynı anda yayınlanacak
Ateş yüzünden şekli bozulduktan sonra, "dünyanın en yakışıklı" adamıyla evlendi!
Japonya'nın en büyük telekomünikasyon şirketi ile işbirliği imzalayan Xiaomi, bir kez daha Japon pazarını mı kazandı?
Cep telefonlarındaki en iyi Three Kingdoms oyunu, neden ilk olarak App Store ücretli listesini kazandınız?
Quduopai ve Midu romanları yayınlayın, Qutoutiao sessizce kısa videolar ve uzun okumalar düzenleyin?
Oyun işi 700 milyon kaybediyor Baidu'nun yatırımı kayıp mı?
To Top