Google'ın büyük katili Nvidia'da paniğe yol açacak. Asıl değerlendirme: TPU, GPU'dan daha hızlı ve daha ucuz

İçbükey tapınaktan Yue Paihuai

Qubit Üretildi | Genel Hesap QbitAI

Derin öğrenmeyle uğraşan çoğu insan için, aslında NVIDIA GPU'dan daha fazla seçenek yoktur. Ancak Google'ın TPU yongasının ortaya çıkmasının bu durumu değiştirmesi bekleniyor.

Bu ünlü AI çipi, Google'ın çeşitli AI uygulamalarının ve hizmetlerinin arkasındaki destek ve dünyaca ünlü AlphaGo'nun arkasındaki temeldir. En iyi insan Go oyuncularını ezmek için yalnızca dört TPU gereklidir.

Ancak bundan önce, birkaç "yabancı" TPU'yu tadabilirdi.

İlk duyurudan dokuz ay sonra, Google TPU nihayet halka açıldı. On gün önce, Google'ın Cloud TPU'su resmi olarak piyasaya sürüldü. Saatlik yalnızca 6,5 ABD dolarıdır ve Google TPU'yu da kullanabilirsiniz.

Cloud TPU'nun gücü nedir? RiseML (riseml.com) yakın zamanda karşılaştırmalı bir değerlendirme yaptı.

Bulutta TPU

İlk olarak, test nesnesini kısaca tanıtın.

İlk nesil TPU, çıkarıma yöneliktir, ikinci nesil ise eğitimi hızlandırmaya odaklanır. TPUv2'nin özünde, derin öğrenmede yaygın olarak kullanılan matris çarpımının gerçekleştirilmesinden bir sistolik dizi sorumludur.

Jeff Dean tarafından daha önce yayınlanan PPT'ye göre, her Cloud TPU dört TPUv2 yongasından oluşuyor. Her yonganın 16 GB belleği ve iki çekirdeği vardır ve her bir çekirdek iki matris çarpma birimine sahiptir.

İki çekirdek 45TFLOP bilgi işlem gücü sağlayabilir, böylece her Cloud TPU 180TFLOP bilgi işlem gücü ve 64 GB bellek sağlayabilir. Karşılaştırma için, bu nesil NVIDIA V100 GPU, 125TFLOP bilgi işlem gücü ve 16 GB bellek sağlar.

Kotayı aldığınızda Cloud TPU'yu Google Cloud'da başlatabilirsiniz. Belirtilen bir sanal makine örneğine bir Cloud TPU atamaya gerek yoktur (hiçbir şekilde). Kullanıcıların TensorFlow kodunu sağlaması için her Cloud TPU'nun bir adı ve IP adresi olacaktır.

Yeni bir Cloud TPU oluşturun

Cloud TPU yalnızca TensorFlow 1.6 sürümünü destekler. Ayrıca, TPU ile iletişim kurmak için gereken tüm kod TensorFlow tarafından sağlandığından sanal makine örneğinizde herhangi bir sürücüye ihtiyacınız yoktur. TPU'da yürütülen kod, aynı zamanda TensorFlow'un bir parçası olan XLA tarafından gerçek zamanlı olarak optimize edilir ve derlenir.

TPU'yu etkili bir şekilde kullanmak için, kodunuzun üst düzey Tahminci soyutlaması üzerine inşa edilmesi gerekir. Ardından, TPU'dan daha etkili bir şekilde yararlanabilecek birçok gerekli görevi gerçekleştirmek için TPUEstimator'ı kullanabilirsiniz. Örneğin bu, TPU için bir veri kuyruğu oluşturabilir ve farklı çekirdekler arasında paralel olarak hesaplama yapabilir.

https://www.tensorflow.org/api_docs/python/tf/contrib/tpu/TPUEstimator

Tüm ayarlar tamamlandıktan sonra TensorFlow kodu normal şekilde çalıştırılabilir. TPU, başlatma sırasında keşfedilecek ve ardından hesaplama grafiği derlenecek ve TPU'ya iletilecektir. İlginç bir şekilde TPU, doğrudan bulut depolamadan, mağaza kontrol noktalarından veya olay özetlerinden okuyup yazabilir. Elbette ilgili yazma ve erişim izinlerini sağlamanız gerekir.

Değerlendirme ayarları

Bu değerlendirmede en çok aranan cevap elbette TPU'nun ne kadar hızlı olduğu.

TensorFlow, GitHub'da TPU için bir model deposu sağlar. Adres: https://github.com/tensorflow/tpu.

Bir sonraki değerlendirme ResNet ve Inception'a dayanmaktadır.

TPU için optimize edilmemiş modelin nasıl çalıştığını da bilmek istiyoruz, bu nedenle TPU'da çalışan metin sınıflandırması için bir LSTM modeli de var. Ve bu küçük bir model, etkisini de görmek istiyoruz, çünkü genellikle Google TPU'da daha büyük bir model çalıştırmanızı önerir.

Tüm modeller tek bir Cloud TPU ve tek bir NVIDIA P100 ve V100 GPU üzerinde eğitilecek ve ardından hız karşılaştırılacaktır. Elbette, kapsamlı bir karşılaştırma, modelin nihai kalitesini ve yakınsamasını da içermelidir. Ancak bu sefer değerlendirme yalnızca eğitim hızına odaklandı ve daha fazla ayrıntı daha sonra incelenecek.

TPU ve P100 deneyleri, Google Cloud Platform'un n1-standard-16 örneğinde (16 vCPU, Intel Haswell, 60 GB bellek) çalışır. V100 üzerindeki deneyde Amazon Cloud'un p3.2xlarge bulut sunucusu (8 vCPU, 60 GB bellek) kullanıldı.

Tüm sistemler Ubuntu 16.04 üzerinde çalışıyor. TPU için PyPi deposundan TensorFlow 1.6.0-rc1'i kurduk. GPU deneyinde, nvidia-docker çalıştırıldı ve CUDA 9.0 ve cuDNN 7.0 dahil olmak üzere TensorFlow 1.5 (tensorflow: 1.5.0-gpu-py3) kullanıldı.

https://github.com/NVIDIA/nvidia-docker

Deneysel sonuçlar: TPU için optimize edilmiş model

İlk olarak, TPU için optimize edilmiş modelin nasıl performans gösterdiğine ilişkin ilk sonuç kümesine bir göz atalım. Aşağıda, saniyede işlenebilen resim sayısı ile ölçülen performans karşılaştırmasını görebilirsiniz.

TPU'nun parti boyutu 1024 ve GPU 128'dir. GPU için, https://github.com/tensorflow/benchmarks adresindeki TensorFlow kıyaslama deposunun uygulamasını kullandık. Eğitim verileri, bulutta (TPU için) ve yerel diskte (GPU için) depolanan, Google tarafından sağlanan sahte bir ImageNet veri kümesidir.

ResNet-50'de tek bir Cloud TPU, tek bir P100'den daha iyidir 8,4 kat daha hızlı , V100'den 5,1 kat daha hızlı . InceptionV3 için sonuçlar sırasıyla benzerdir 8,4 kat daha hızlı ile 4.8 kez . Ek olarak, doğruluk azalırsa (fp16), V100'ün hızı daha belirgindir.

Hıza ek olarak, maliyet de önemli bir husustur. Aşağıdaki tablo, TPU'nun tümü bulutta hesaplanıyorsa en uygun maliyetli olduğunu göstermektedir.

Deneysel sonuçlar: özel LSTM modeli

Özel modelimiz, metin sınıflandırması için 1024 gizli birim kullanan iki yönlü bir LSTM'dir. LSTM, bugünün NLP'sinin temel bir yapı taşıdır ve yukarıda bahsedilen resmi modellerin tümü bilgisayar görüşüne dayanmaktadır.

Kaynak kodu zaten Estimator çerçevesini kullanıyor, bu yüzden TPUEstimator için kullanmak çok basit. Ancak modelin TPU üzerinde yakınlaşmasını sağlayamayacağımızı ve GPU'da aynı modelin (parti boyutu vb.) Normal çalıştığını belirtmek gerekir. Bu bir hata veya bir kod problemi veya bir TensorFlow problemi olmalıdır.

Deneysel sonuçlar, TPU'nun özel bir LSTM modelinde daha hızlı olduğunu göstermektedir. TPU (21402 örnek / s) P100'den daha iyidir (1658 örnek / s) 16.9 kat daha hızlı , V100'den (2778 örnek / sn) 7,7 kat daha hızlı .

Bu model nispeten küçük olduğundan ve optimizasyon ayarlamalarına sahip olmadığından, sonuçlar tatmin edicidir. Elbette hata henüz düzeltilmedi, bu nedenle yukarıdaki sonuçlar yalnızca ön sonuçlardır ve yalnızca referans içindir.

sonuç olarak

Yukarıda belirtilen katılımcı testlerin sonuçları, Google Cloud TPU'nun daha iyi performansa sahip olduğunu ve Nvidia'nın en yeni nesil GPU'sundan daha ekonomik olduğunu gösteriyor. Google, TPU için daha büyük ölçekli modeli optimize etmiş olsa da, küçük modeller yine de bundan yararlanmaktadır. Genel olarak, yalnızca beta testi aşamasında olmasına rağmen, Cloud TPU çok iyi performans göstermiştir.

RiseML nihayet şu sonuca varıyor:

TPU daha fazla kullanıcıyı barındırabildiğinde, NVIDIA GPU için gerçek bir yedek olabilir.

Nasıl başvurulur

Son olarak, sınırlı sayıda Cloud TPU'nun nasıl kullanılacağı hakkında konuşun.

Cloud TPU'nun beta sürümünü kullanmak için bir form doldurmanız, TPU'yu ne için kullanmak istediğinizi açıklamanız ve Google'dan kota başvurusunda bulunmanız gerekir: https://services.google.com/fb/forms/cloud-tpu-beta-request/

Google, Cloud TPU'yu mümkün olan en kısa sürede kullanmanıza izin vereceğini söyledi.

Bir önceki blog gönderisinde Google, Cloud TPU kullanan iki müşterinin duygularından bahsetmişti.

Biri yatırım şirketi Two Sigma. Derin öğrenme araştırmaları artık çoğunlukla bulut üzerinde gerçekleştiriliyor. Şirketin CTO'su Alfred Spector, "TensorFlow iş yükünün TPU'ya aktarılması, yeni model programlamanın karmaşıklığını büyük ölçüde azaltır ve eğitim süresini kısaltır."

Diğeri ise ortak bir seyahat şirketi olan Lyft. Derin öğrenme, şirketin insansız araç araştırmalarının önemli bir parçası haline geliyor.

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Olic'in kederi: Hamburg, 1860'a geçtikten sonra küme düşme girdabına girdi
önceki
LOL S8'in ilk gününde, LCK Division arka arkaya 2 maç kaybetti. Koreli oyuncuların maçtan sonraki yorumları çok doğru: UZI bir tanrıdır
Sonraki
Hem strateji hem de ürün grubu, AIWAYS "7921" kullanıcı ortaklık programını yayınladı
Guoan SIPG galibiyet serisi attı, ancak Evergrande dövüş sanatlarını terk etti! Şiddetli kuş Luneng'den yoksun, Ka Shuai büyük testi memnuniyetle karşılıyor
LOL S8: RNG oyunu kazandı ve başlangıçta C9'u ezdi! Oyuncu: Tek dezavantajı, çok hızlı kazanmanız
Bence küresel trend, küresel süper otomobil Haval F7 "AI olmalı"
Zhang Yuning'in yurtdışında eğitiminin ikinci yılı için tam bir rekoru var. Okuduktan sonra, bu sezon nasıl performans gösterdiğini öğreneceksiniz.
Dalian Yifang yetkilisi açıkladı: Li Shuai yedek ekibine devrediliyor! Eleştiri bildirimi + 500.000 yuan para cezası
"Dağınık evrenin anısı" Geely PREFACE konsept otomobili Şangay Otomobil Fuarı'nda tanıtıldı
Sadece bir pikseli değiştirin, böylece sinir ağı kediyi bile tanıyamaz | Kağıt + Kod
Zengin ama üç kuşak! Maldininin oğlu Din Liginde oynamak için mücadele etti
Bir parti ilk ev sahibi galibiyetini gösterir! Shan Pengfei, 2 puanla Li Shuai'den aşağı değil ve Cui Cui terk edilmemeli
Gerçek bir vicdan eseri! Diablo 3 ile karşılaştırılabilir! Steam övgü oranı% 91 kadar yüksek, sınırlı bir süre için sadece 15 yuan
Sınırlı satış Dongfeng Citroen Tianyi Origins, bir yüzyıla saygı duruşunda bulunuyor
To Top