"Derinlik", Google TPU'nun belgesine, en kapsamlı analizine ve profesyonel değerlendirmesine dayanmaktadır

Xinzhiyuan önerilir

Menşei

2017 Uluslararası Bilgisayar Mimarisi Konferansı (ISAC-2017) henüz sunum aşamasındayken, "Google tensör işlemcisinin ayrıntılarını açıklayacak" gibi dedikodular mayalanmaya devam etti. Birkaç gün önce, 6 Nisan 2017'de Google, makalenin ilk taslağını web sitesinde yayınladı, böylece halk toplantıdan önce ayrıntıları öğrenebilir. Sonuç olarak, Google, TPU ve NN hızlandırma bir kez daha gündemdeki konular haline geldi.

Çünkü ilgili kamuya açık bilgiler, sinir ağı donanım hızlandırıcısına benzer şekilde ASIC çözümünün özel bölümlerinin yerini alacak kadar bol miktarda bulunmaktadır. Üç günlük kamuoyu tartışmasının ardından, tartışmanın temeli olarak ekteki makalenin çevirisini kasıtlı olarak kullandık.

Kağıt incelemeleri:

stil:

Bu makale ISCA'nın geleneksel kağıt stili değildir. ISCA gibi mimari konferansların simülatörlere ve prototiplere dayandığını ve yenilikçi tasarımlarla (veya beyin fırtınası ya da şans eseri kafaya vurma) bilindiğini gösteren uzun vadeli veri analizi ve tartışmalar olduğunu hatırlıyorum. ISCA ile ilgili fikirlerin endüstri tarafından seri üretime alınması genellikle yaklaşık 10 yıl sürer.

Bu anlamda, bu TPU kağıdı, HPCA üzerinde oluşturulan geleneksel endüstri monografileri ile daha uyumludur. Yani, yeniliği vurgularken tartışılan teknoloji ve araştırma uygulaması, seri üretim vakalarında endüstrinin ödünlerini, uzlaşmalarını ve neden analizlerini içerir. TPU 2016'da halka açık bir tasarım olduğundan, 10 sayfalık kağıt katı hal devre konferansının tarzıyla uyumlu değil.

Aydınlanma:

Makale, birçok teknik vurguyu özetlemiş ve sektöre, "Silindir" kitabının diyalog tartışma tarzındaki ilgili konuları tartışırken karşılaşılan güçlükleri ve mevcut tasarım eksikliklerini hatırlatmıştır. Ama sonuçta bu, izleyicilere değil, makalenin yazarına aittir.

  • Düşük seviyeli donanım tasarımı, özellikle işlemci tasarımının temsil ettiği Ar-Ge eşiği düşürülmedi. Bununla birlikte, hem özel hem de genel amaçlı işlemcilerin, yazılımın gerçek ihtiyaçları göz önünde bulundurularak son kullanıcılar tarafından tanınması gerektiğinden, yazılım ve donanımın işbirliğine dayalı olarak geliştirilmesi tasarım eşiğini daha da yükseltebilir. (Yani, silikon kod üreticileri için hala pazar talebi var)

  • Sinir ağı modellerinin, yazılım çerçevelerinin ve uygulamalarının mevcut evrim hızıyla karşılaştırıldığında, geleneksel ASIC yarı özel veya tam özelleştirmenin geliştirme döngüsü ve hızının hızlandırılması zordur. Bununla birlikte, tahsis edilen tasarımın belirli bir ömrünü korumak ve performans modeli değerlendirmesi yoluyla bir iyileştirme planı belirlemek hala mümkündür. (Yani, Ar-Ge hala eski bir rutindir, ancak daha zor olacaktır. Sadece silikon at hızlı koşarsa ve daha az yerse veya en iyisi ot yemese daha kötüye gidecektir)

  • Gerçek uygulamaların konuşlandırılması ve veri toplanması gerekli ve çok ikna edicidir.Tabi ki nihai amaç işlemcinin hedef kullanıcılarının onayını almaktır. (Yani: birisi her zaman hem alkışlanan hem de popüler olan bir tasarım yapabilir ve işbirliği yapmak için yeterli kaynağa sahip olma olasılığı daha yüksektir)

  • Kağıtlara dikkat ederken patent analizine daha çok dikkat etmeliyiz. Makalenin yayınlanmasından önce ve hatta makalenin ön okunması sırasında birçok yorum, TPU tasarımında hiçbir detayın olmadığı, hatta fotoğrafların ısı emicilerle kaplı olduğu söylendi. Ancak, makaleyi dikkatlice okursanız, Google'ın 2015 yılında ilgili bir kağıt başvurusu yaptığını görebilir ve Alpha GO'da satranç oynarken Patent Ofisi web sitesi üzerinden ilgili patentleri görebilirsiniz. (Yani, gelişmiş ticari şirketlerin ve borsaya kayıtlı şirketlerin fikri mülkiyet haklarının korunması, birleşme ve soruşturmalar iddialı değildir.)

  • Mesleki bilgi hala her şeyin temelidir. TPU hesaplama çekirdeği dahil: 65536 çarpandan oluşan 256x256 matris birimi ve titreşimli yürütme Systolic Execution, Harvard Üniversitesi araştırmacıları tarafından 1984 yılında TOC üzerine yayınlanan bir makaleye kadar izlenebilir. NUDT'de eğitim almış olanlar, vektörler, seyahat eden dalgalar ve akan su gibi kavramları kolayca düşünmelidir. (Yani: öğrenme rezervleri ve mesleki bilgi hala değerlidir)

  • ek:

    Yayınlanan makalelerdeki referanslar halihazırda ayrıntılı içerik barındırıyor, ancak 2018'deki "Bilgisayar Sistem Yapısı: Kantitatif Tasarım Yöntemleri" nin altıncı baskısı gibi gelecekteki belgeleri de gösteriyor. Kayan nokta birimi ile matris birimi arasındaki ilişki ve DMA kitaplarının iletimi gibi ayrıntılara dikkat etmek isteyen meslektaşlar için burada eklenecek altı Google patenti bulunmaktadır.

    • Sinir Ağı İşlemcisi. Patent Başvurusu NO.62 / 164,931, US20160217368A1, WO2016186801A1

    • Bir Sinir Ağı İşlemcisi Kullanarak Dönüşümlerin Hesaplanması. Patent Başvurusu NO.62 / 164,902, US20160342889A1, WO2016186811A1

    • Bir Sinir Ağı İşlemcisi için Prefecting Weight. Patent Başvurusu NO.62 / 164,981, US20160342892, WO2016186810A1

    • Sinir Ağı Hesaplaması için Verileri Döndürme.

    • Patent Başvurusu NO.62 / 164,908, US20160342893, WO2016186826A1

    • Bir Sinir Ağı İşlemcisinde Vektör Hesaplama Birimi. Patent Başvurusu NO.62 / 165,022, US20160342889, WO2016186813A1

    • Bir Sinir Ağı İşlemcisinde Toplu İşleme Patent Başvurusu NO.62 / 165.020, US20160342890, WO2016186823A1.

    yetersiz:

    Ana sayfası görünmediğinden, bu şirketin suçlaması ZZ'nin neredeyse doğru hamlesi. Ancak geleneksel endüstriyel makaleler için, performans modelinin hala mevcut olmadığını (veya şu anda mevcut olmadığını) ve birçok doktora mezunu için yardımın sınırlı olduğunu ekliyorum. Sonuçta, N.P Jouppi'nin HP'nin geliştirilmesine ve açık kaynak koduna katıldığı birçok araç, birçok araştırmacının veri toplamasına yönelik araçlardır.

    İlk taslak için henüz var olmayan referanslar ve 28MB ile 24MB arasında değişen yonga üstü depolama kapasitesi yetersiz değil.

    Buradan giriş resmi olarak başladı:

    Sinir ağı hızlandırma kabaca dört forma (CPU, GPU, FPGA, ASIC) ayrılabilir. Halihazırda oluşturulmuş CPU ve DSP (etki alanına özgü işlemciler değil, dijital sinyal işlemcileri) ana hızlandırma yöntemi olarak genişletilmiş SIMD'yi benimsemiştir. Mevcut ekoloji, NN hızlandırma için iki ucu keskin bir kılıçtır. CPU, zengin bir geliştirme ortamı avantajına sahip olsa da, geleneksel genelleştirilmiş tasarım ve uyumluluk gereksinimleri ile de sınırlıdır. FPGA, DNN algoritmasındaki değişikliklere ve yüksek enerji verimliliği oranına esnek bir şekilde uyum sağlama avantajlarına sahiptir. Bununla birlikte, FPGA için kapsamlı bir hızlandırılmış hesaplama ortamının ve araştırma platformunun kurulması, yazılım ve donanımın işbirliğini gerektirir ve teknik eşik, Nvidia GPU tarafından temsil edilen yeniden yapılandırılamayan yongalardan daha yüksektir. Maliyet açısından, uygun fiyatlı FPGA yongalarının bilgi işlem gücü yetersiz olmaktan çok uzaktır, ancak yüksek kaliteli, yüksek performanslı FPGA yongalarının fiyatı, benzer hesaplama gücüne sahip GPU'ların fiyatından çok daha fazladır. Bir şirket yeterli insan ve mali kaynağa sahipse, FPGA üzerinde doğrulanan tasarım, büyük ölçekli bir kullanıma sahipse, genellikle ikinci aşama çözüm olarak ASIC'i özelleştirmeyi amaçlamaktadır.

    ASIC, donanım özelleştirme için en kapsamlı çözüm olarak uzun bir Ar-Ge döngüsü ve yüksek NRE maliyetleri gibi risklere sahip olmasına rağmen, tasarımcıların çeşitli PPA hedeflerine ulaşılabilir.Tabii ki süreç ve sonuçlar da sonsuz tavizler içeriyor.

    Büyük ek "Çeviri" 1-8:

    Veri merkezinde tensör işlemcisinin performans analizini gerçekleştirin

    Bir Tensör İşlemcisinin Veri Merkezi İçi Performans Analizi

    Pek çok mimarlık tasarımcısı, "maliyet-enerji performansını" iyileştirmenin ana yolunun alana özel donanımdan gelmesi gerektiğine inanır. Bu Google raporu, Tensor Processing Unit (TPU) adlı özel bir ASIC çipini değerlendirdi. Çip, sinir ağının çıkarım sürecini hızlandırmak için 2015 yılından beri Google'ın veri merkezinde kullanılmaktadır (Çevirmenin Notu: Bu makaledeki TPU'nun hedef uygulaması eğitim sürecini içermez. Ancak metin açısından bakıldığında, TPU özel olarak tasarlanmış değildir. Eğitim için kullanılamaz). TPU'nun çekirdeği, saniyede 92TOP / S'lik en yüksek bilgi işlem kapasitesi ile 64K 8-bit matris çarpan birim dizisi ve çip üzerinde 28MB yazılım yönetim belleğidir. Önbellek, sıra dışı yürütme, çoklu okuma ve önceden getirme nedeniyle CPU ve GPU'nun belirsiz yürütme süresiyle karşılaştırıldığında, TPU'nun deterministik yürütme modeli, Google sinir ağı uygulamalarının yanıt süresi gereksinimlerinin% 99'unu karşılayabilir. CPU / GPU'nun yapısal özellikleri ortalama iş hacmi için daha etkilidir, TPU ise yanıt gecikmesi için tasarlanmıştır. Tam olarak ana CPU / GPU donanım özelliklerinin olmaması nedeniyle, çok sayıda matris çoğaltma birimi MAC'ına ve büyük kapasiteli yonga üzerinde depolamaya sahip olmasına rağmen, TPU'nun yonga alanı düşük güç tüketimini korurken nispeten küçüktür. Google araştırmacıları TPU'yu aynı veri merkezinde dağıtılan sunucu sınıfı Intel Haswell CPU ve Nvidia K80 GPU ile karşılaştırdı. Test yükü, Google veri merkezi tarafından taşınan muhakeme gereksinimlerinin% 95'ini temsil eden, gerçek ürün sinir ağı uygulamalarına (MLP'ler, CNN'ler ve LSTP'ler dahil) uygulanan TensorFlow çerçevesine dayalı üst düzey bir tanımdır. Bazı uygulamalarda kullanım oranı nispeten düşük olsa da TPU, CPU / GPU'dan ortalama 15 ila 30 kat daha hızlıdır ve performans ve güç tüketimi TOPS / W'dan 30 ila 80 kat daha hızlıdır. Ayrıca, GPU'lar tarafından TPU'larda yaygın olarak kullanılan GDDR5 belleğin kullanımı TOPS performans göstergelerini üç katına çıkarabilir ve TOPS / W enerji verimliliği oranı GPU'lardan 70 kat, CPU'lardan 200 kat daha yüksek olacaktır.

    Ek Bölüm 1: Yapay Sinir Ağlarına Giriş

    Bulut ortamındaki devasa veri kümesi ve bulutu destekleyen çok sayıda bilgi işlem kaynağı, ortaklaşa makine öğreniminin rönesansını açtı. Özellikle Deep Neural Networks (DNN: Deep Neural Networks), son 20 yılda bu alanda en büyük başarı haline gelen geleneksel yöntemlere göre konuşma tanıma hata oranında% 30 azalma sağlamış ve 2011 yılından bu yana görüntü tanıma yarışmasında yer almıştır. Hata oranı% 26'dan% 3,5'e düşürüldü ve Go turnuvasında insan dünya şampiyonunu yendi.

    Sinir Ağlarının (NN: Sinir Ağları) amacı beyne benzer şekilde işlev görmektir ve basitleştirilmiş yapay sinirlere göre tasarlanmıştır: yani, ağırlıkla birden çok girdinin toplamı ile doğrusal olmayan bir işlev (örneğin, maks (0, değer)). Çok sayıda yapay sinir katmanlar halinde düzenlenir ve bir katmanın çıktı dizisi bir sonraki katmanın girdisi olur. DNN'nin "derinliği", orijinal birkaç katmanı kıran katman sayısından gelir. Ana neden, bulut platformundaki büyük veri kümesinin, daha yüksek seviyelere kadar yaşamamak için daha doğru modeller oluşturmasına ek katmanlara ve daha büyük ölçeklere izin vermesidir. Aynı zamanda, GPU bu modelleri geliştirmek için yeterli bilgi işlem gücü sağlar.

    Bir sinir ağının iki ana aşaması eğitim (Eğitim veya öğrenme) ve çıkarımdır (çıkarım veya tahmin), bunlar aynı zamanda geliştirme ve ürün aşamalarına da karşılık gelebilir. Geliştirici, ağın katman sayısını ve sinir ağının türünü seçer ve eğitim yoluyla ağırlığı belirler. Aslında, mevcut eğitimlerin neredeyse tamamı kayan nokta işlemine dayanmaktadır, bu da GPU'ların bu kadar popüler olmasının nedenlerinden biridir. Kayan nokta sayılarını yalnızca 8 veri biti kullanarak çok dar tam sayılara dönüştüren niceleme adı verilen bir adım, genellikle çıkarım işlemi için yeterlidir. 8 bitlik tamsayı çarpma, IEEE 754 standardı altında 16 bit kayan noktalı çarpmaya göre 6 kat daha az enerji tüketir ve 6 kat daha az silikon alanı kaplar; tamsayı toplamanın faydası ise enerji tüketiminin 13 katı ve alanın 38 katıdır.

    Şu anda üç tür popüler sinir ağı vardır:

    • Çok katmanlı algılayıcı (MLP: Çok Katmanlı Algılayıcılar): Her yeni düzey, önceki düzeyin tüm çıktılarının ağırlıklı toplamının (tam bağlı) ağırlıklı toplamının doğrusal olmayan bir işlevidir ve ağırlıklar yeniden kullanılır.

    • Evrişimli Sinir Ağı (CNN: Evrişimli Sinir Ağları): Sonraki her katman, önceki katmandaki bitişik çıktı alt kümelerinin ağırlıklı toplamının doğrusal olmayan işlevler kümesidir ve ağırlıklar da yeniden kullanılır;

    • Tekrarlayan sinir ağı (RNN: Tekrarlayan Sinir Ağları): Sonraki her seviye, çıktı ağırlıklı toplamın ve önceki durumun bir dizi doğrusal olmayan fonksiyonudur. En popüler RNN, Uzun Kısa Süreli Hafızadır (LSTM: Uzun Kısa Süreli Bellek). LSTM'nin anahtarı, hangi durumların unutulması ve hangi durumların bir sonraki seviyeye aktarılması gerektiğini belirlemektir. Ağırlıklar sıralı adımlarla yeniden kullanılır.

    Tablo 1'de, Google veri merkezindeki NN çıkarım yükünün% 95'ini temsil eden yukarıdaki üç sinir ağı NN'sine ilişkin iki örnek de bu makale için test programının temel ölçütleri olarak kullanılmıştır. Genellikle TensorFlow'da yazılan bu NN'lerin tanımlanması için yalnızca 100 ila 1500 satırlık kod gerekir, bu çok kısadır. Yazar tarafından seçilen test programı, ana bilgisayarda çalışan büyük ölçekli uygulamanın yalnızca küçük bir bölümünü seçti. Uygulamanın tamamı binlerce ila milyonlarca satır C ++ kodu olabilir. Bu uygulamalar genellikle doğrudan kullanıcılarla yüzleşir ve etkileşimlere katılır, bu nedenle katı yanıt süresi sınırları vardır.

    Tablo 1: 6 NN uygulaması (kategori başına 2 uygulama) TPU üzerindeki yükün% 95'ini temsil eder. Soldan sağa, her satır şu şekildedir: NN'nin adı; kod satırlarının sayısı; NN'deki farklı ağ türleri ve katmanların sayısı (FC tamamen birbirine bağlı bir katmandır, Dönüşüm evrişimli bir katmandır, Vector kendinden açıklamalı bir katmandır ve Havuz bir TPU üzerindedir Doğrusal olmayan boyut küçültme için havuz katmanını tamamlayın). Bu popüler TPU uygulamaları Temmuz 2016'da seçildi. DNN, RandBrain'dir

    Japonya'nın en büyüleyici şehridir! Nihai gece manzarasında oturarak turistlere geri ödeme yapın!
    önceki
    Pato, Çinli hayranların tartışmasız en sevdiği dış yardım! Dili Reba'yı seviyor ve meyvelerle krep yer!
    Sonraki
    Üç kez uluslararası yarışmalara katıldı ve "Bu, muharebe sınıfının gerçek bir savaşı" diye haykırdı.
    Çayın tabu olduğunu söylemeliyim. O kadar eksiksiz ki, bilmiyorum, onu gördüğümde şok oldum
    Halkın% 90'ı tarafından görmezden gelinen bu beceri Chen Chunhua ve Zhang Quanling tarafından zorunlu bir ders olarak kabul ediliyor.
    100.000 bütçeli bu yüksek değerli SUV'leri seçin, tüm köy size hayranlıkla baksın!
    "Söylemek istediğim her şey benim rolümde ..."
    ABD hisse senetleri tekrar düştü, petrol fiyatları aniden bir yılın en düşük seviyesine indi ve küresel piyasalar büyük ölçekte riskten korunmaya başladı
    Lastiğin ne ölçüde değiştirilmesi gerekiyor? Saat beş saniyede eski bir sürücü olmayı öğrenin
    Kahve lüks bir üründen günlük bir içeceğe nasıl dönüştü?
    Wei Zhe: Bu işe alım sırlarını öğrenerek, bir Ali demir ordusu da kurabilirsiniz.
    Guangzhou Otomobil Fuarı7 koltuklu Changan Mazda CX-8 bugün piyasaya sürüldü.Öne çıkanlar neler?
    Qin Shuo: Tanrı geçmişini elinden almaz, geleceğini elinden alır
    Nepal'e neden geldin? Bin insan için bin neden var!
    To Top