"İnsan Köpek Savaşı" nın arkasındaki kahraman! Google TPU'yu tek bir makalede okuyun: Cloud AI chip öncüsü

Akıllı şeyler (genel hesap: zhidxcom) metin | Wei Shiwei

2016 AlphaGo ile Lee Sedol arasındaki dünyaca ünlü insan-makine savaşının üzerinden dört yıl geçti.

Sadece dört yıl içinde, tüm bilim ve teknoloji çemberi değişmiş görünüyordu.

O yıl AlphaGo, Go'nun dünya şampiyonu Lee Sedol'u toplam 4: 1 skorla mağlup etti ve ardından tek başına savaştı. Dünyanın 1 Numaralı Go şampiyonu Ke Jie ile savaşı kazandıktan sonra AlphaGo "emekli olduğunu" açıkladı, ancak arkasındaki çip oldu Yonga endüstrisinde yeni bir sayfa açtı.

Bu dünyayı sarsan dört yıldı, Yapay zeka yongaları alanı, özellikle de bulut yapay zeka yongalarının pazar boyutu hızla artarak birçok yonga devinin ve yeni güçlerin gözünü diktiği bir yer haline geldi.

CCID Consulting tarafından Ağustos 2019'da yayınlanan "Çin'in Yapay Zeka Çip Endüstrisinin Geliştirilmesine İlişkin Beyaz Kitap" a göre, 2018'de küresel bulut AI çip pazarı 6,21 milyar ABD doları (yaklaşık 42,75 milyar RMB) değerindeydi ve bu değerin 2021'de 22,15 milyar ABD dolarına (yaklaşık 152,47 milyar RMB) ulaşması bekleniyor. Herkese volkanik bir patlama gibi büyük bir pazar sunulacak.

Bu uçsuz bucaksız mavi okyanusta, çığır açan bir önemi olan bir rol var. Google TPU (Tensör İşleme Birimi, tensör işleme birimi).

Go oyununda Li Shishi, Ke Jie ve Çin, Japonya ve Güney Kore'den düzinelerce Go ustası ile öne çıktığından beri, Google TPU sonuna kadar ilerliyor ve şimdi üçüncü nesle dönüştü. Görünüşü şüphesiz GPU'nun bir zamanlar sinir ağı çıkarımına ve eğitim pazarına hakim olduğu durumu bozdu.

Mayıs 2019'daki Google I / O Geliştirici Konferansı'nda merakla beklenen dördüncü nesil TPU beklenmedik bir şekilde yoktu. Bunun yerine, 1.000 TPUv3'ten oluşan bir TPUv3 Kapsülü ve uç AI çip Edge TPU ile değiştirildi. Öyle olsa bile, belirli bir dereceye kadar açıklık ve yardımcı Google dahili sunucu uygulamaları aracılığıyla bulut yapay zeka yonga pazarı üzerinde hala derin bir etkiye sahiptir.

Bununla birlikte, piyasa perspektifinden bakıldığında, gelecekte bulut AI yongalarının büyük gelişme potansiyeli ve pazar fırsatları Google TPU için verimli bir zemin sağlar; diğer yandan, acil bilgi işlem gücü darboğazları ve Moore Yasasının yavaşlaması gibi sorunların görmezden gelinmesi gittikçe daha zor hale geliyor.

Bu sefer biz Google TPU'nun gelişim tarihi boyunca, ilk makine öğrenimi muhakeme uygulamasından bulutu sonuna kadar kapsayan TPU ekosistemine nasıl gelişti? Doğuşu, bulut AI çip pazarında ne gibi önemli değişiklikler getiriyor?

1. Bilgi işlem gücü darboğazından başlayarak, insan Go dünyasında ilk kez ortaya çıkıyor

TPU nedir?

Basitçe ifade etmek gerekirse, Google tarafından Haziran 2015'te I / O Geliştirici Konferansı'nda başlatıldı Kendi TensorFlow makine öğrenimi çerçevesini optimize etmek için tasarlanmış sinir ağına özel çip, Arama, görüntü ve ses gibi modelleri ve teknolojileri işlemek için esas olarak AlphaGo sisteminde ve Google Haritalar, Google Fotoğraflar ve Google Translate gibi uygulamalarda kullanılır.

GPU'dan farklı olarak, Google TPU bir ASIC çip çözümüdür. ASIC, belirli bir uygulama için özelleştirilmiş bir çip olan Uygulamaya Özel Tümleşik Devre (uygulamaya özel entegre devre) olarak adlandırılır. Ancak genel olarak konuşursak, ASIC yongalarının geliştirilmesi yalnızca birkaç yıl sürmez, aynı zamanda geliştirme maliyeti de son derece yüksektir.

Veri merkezi bilgisayar odalarındaki AI iş yüklerinin yüksek bilgi işlem gücü gereksinimleri için, birçok üretici mevcut GPU kümelerini veya GPU + CPU heterojen bilgi işlem çözümlerini kullanmaya devam etmeye daha isteklidir ve ASIC alanında nadiren risk alırlar.

Sonra, Google neden ASIC tabanlı bir TPU geliştirmekte ısrar ediyor?

Aslında Google, 2006'dan beri sinir ağları için özel bir çip geliştirme fikrine sahipti ve bu talep 2013'te daha acil hale gelmeye başladı. O zamanlar, Google tarafından sağlanan Google Görsel Arama, Google Fotoğraflar, Google Cloud Vision API ve Google Translate gibi birçok ürün ve hizmetin tümü derin sinir ağlarına ihtiyaç duyuyordu.

Google, devasa uygulama ölçeği altında, günün her saati çalışan bu milyonlarca sunucunun, iç hızla büyüyen bilgi işlem ihtiyaçlarının, tatmin olmak için veri merkezlerinin sayısını ikiye katlaması gerektiğini fark etti. Bununla birlikte, maliyet veya bilgi işlem gücünden bağımsız olarak, dahili merkez artık bakım için sadece GPU ve CPU'ya güvenemez.

Para için fena olmayan Google, çeşitli faktörlerden hareketle TPU'nun geliştirme yolculuğuna resmen başladı.

Ar-Ge kadrosundan sonra 15 aylık tasarım, doğrulama ve yapım sürecinden sonra TPU resmi olarak 2014'te geliştirildi ve ilk olarak Google'ın dahili veri merkezinde devreye alındı.

Google TPU, dahili olarak bir yıl boyunca gizlice faaliyet göstermenin yanı sıra, Go dünyasında "Dörtlüsü öldürdü" ve "insan-makine savaşı" mitlerini ortadan kaldırdı.

AlphaGo'nun TPU kullanmadan önce Avrupa şampiyonu Fan Hui'yi yenmek için yerleşik 1202 CPU ve 176 GPU'ya sahip olduğu anlaşılıyor. AlphaGo, 2015'teki Li Shishi ile savaşa kadar TPU kullanmaya başlamadı ve o sırada kullanılan TPU sayısı yalnızca 48 idi.

Bu savaş zaferinin "gizli silahı" da bir yıl sonra Google I / O Geliştirici Konferansı'nda açıklandı ve TPU resmi olarak lanse edildi.

İkincisi, Google TPU yineleme, bulut ve güç terminalleri

Piyasaya sürüldükten sadece iki yıl sonra, Google'ın TPU sürümü üçüncü nesle yinelendi ve performansı artmaya devam etti. Aynı zamanda, araştırma ve geliştirme yatırımı ve geniş uygulama alanıyla Google, kademeli olarak ölçeklenebilir bulut süper bilgisayar TPU Kapsülü ve Edge TPU'yu tanıttı.

1. 2016: İlk nesil TPU

Sinir ağları için geliştirilmiş olmasına rağmen, Google'ın orijinal birinci nesil TPU'su yalnızca derin öğrenme çıkarımı için kullanıldı.

Performans açısından, birinci nesil Google TPU, yaklaşık 40W güç tüketimi ve 700MHz ana frekansı ile 28nm işlem kullanılarak üretildi.

Araştırma ve geliştirmenin başlangıcında, Google'ın TPU'yu mevcut dahili sunuculara mümkün olan en kısa sürede dağıtması gerektiğinden, geliştiriciler işlemciyi gömülü kurulum için SATA sabit disk yuvasına yerleştirmek üzere harici bir hızlandırıcı kartta paketlemeyi seçtiler.

Aynı zamanda TPU, PCIe Gen3 x16 veri yolu üzerinden ana bilgisayara bağlanarak 12,5 GB / sn'lik etkili bir bant genişliği elde eder.

AlphaGo'daki uygulamaya ek olarak, Google'ın birinci nesil TPU, Google'ın arama, çeviri ve fotoğraf albümü uygulamalarının makine öğrenimi modelinde de kullanılıyor.

Google'ın birinci nesil TPU (solda), Google veri merkezinde dağıtılan TPU (sağda)

2. 2017: Google Cloud'u tanıtan ikinci nesil TPU

Bir yıllık güncelleme, Ar-Ge ve yinelemenin ardından Google, Mayıs 2017'de ikinci nesil TPU'yu piyasaya sürdü ve bu nesilden itibaren makine öğrenimi modeli eğitimi ve çıkarımı için kullanılabilir.

Birinci nesil ile karşılaştırıldığında, ikinci nesil TPU, 180TFLOP kayan nokta bilgi işlem gücüne ulaşabilir ve yüksek bant genişliğine sahip belleği (HBM), birinci nesil TPU belleğinin bant genişliği sınırlaması sorununu çözen 64 GB'a çıkarılmıştır.

AI iş yüklerini çalıştırma açısından, Google'ın ikinci nesil TPU'su, geleneksel GPU'lardan 15 kat, CPU'lardan 30 kat daha yüksek ve aynı döneme ait CPU ve GPU'lara kıyasla watt başına 30 ila 80 kat daha yüksek performansa sahiptir.

Ayrıca Google'ın ikinci nesil TPU'su olan ikinci nesil TPU'dan Google Cloud'u tanıtın ve Cloud TPU olarak da bilinen Google Compute Engine'de (GCE) uygulayın, Google arama motoru, Gmail, YouTube ve diğer hizmetlerin çalışmasını daha da optimize edin.

Aynı zamanda Cloud TPU, TensorFlow aracılığıyla programlanır ve kullanıcı uygulama gereksinimlerine göre makine öğrenimi sistemlerini oluşturmak ve optimize etmek için CPU, GPU, altyapı ve hizmetlerle birleştirilir.

Aynı zamanda, Google'ın ikinci nesil TPU'unun piyasaya sürülmesiyle birlikte, yeni bir insan-makine savaşı turu yeniden başladı. Bu nesil AlphaGo'nun çip yapılandırması, o zamanki dünya Go şampiyonu Ke Jie'yi yenmek için yalnızca 4 TPUv2 kullandı.

Aslında, ikinci nesil TPU'yu piyasaya sürmenin yanı sıra Google, yaklaşık 11.500 trilyon kayan nokta işlemi sağlamak için 64 Cloud TPU'yu yeni bir bilgisayar ağı üzerinden birleştirecek ölçeklenebilir bulut süper bilgisayar TPU Kapsülleri geliştirme planlarını da duyurdu.

3. 2018: Üçüncü nesil TPU, uç AI çipi Edge TPU

Aynı Ar-Ge ritmi ile Google, Mayıs 2018'de üçüncü nesil TPU'yu kazasız bir şekilde piyasaya sürdü.Her yönden performansı yalnızca yükseltilmekle kalmadı, aynı zamanda daha geniş bir derin öğrenme eğitimi ve çıkarım alanlarına genişletildi.

Google, üçüncü nesil TPU'nun performansının, 420TFLOP kayan nokta işlemleri ve 128 GB yüksek bant genişliğine sahip bellek sağlayabilen ikinci nesil TPU'nun iki katı olduğunu söyledi. Aynı zamanda, yonga sayısının önceki nesle göre dört kat daha fazla olduğu bulut tabanlı süper bilgisayar TPU Pod'a da yerleştirilebilir.

İkinci nesil TPU Kapsülünün dağıtımıyla karşılaştırıldığında, üçüncü nesildeki her Kapsülün performansı 8 kat artırılır ve her Bölmede maksimum 1024 yonga bulunur.

2018'de Google, kurumsal makine öğrenimi görevleri için tasarlanan ve IoT cihazlarında kullanılan uç muhakeme için bir mikro AI hızlandırma çipi yayınladı.

Edge TPU aynı zamanda bir ASIC çipidir. Uygulama açısından bakıldığında, Cloud TPU'yu tamamlayıcı niteliktedir. Kullanıcılar, makine öğrenimi modeli eğitimini hızlandırmak için Cloud TPU'yu kullanabilir, ardından eğitilen modeli ilgili ekipmana yerleştirebilir ve ardından makine öğrenimi çıkarımı için Edge TPU'yu kullanabilir.

Edge TPU'nun, IoT cihazlarının saniyede 30 kareden fazla bir hızda yüksek çözünürlüklü videolar üzerinde çok sayıda gelişmiş bilgisayar görüşü modeli çalıştırmasına izin verebileceği anlaşılıyor.

Aynı zamanda Google, Edge TPU için Cloud IoT Edge adlı bir yazılım platformu da başlattı. Platformun, kullanıcıların Google Cloud'da makine öğrenimi modelleri oluşturmasına ve eğitmesine yardımcı olabilecek iki ana bileşeni vardır: Edge IoT Core ve Edge ML. Edge TPU ile uç cihazlarda çalışacak şekilde genişletin.

4. 2019: İkinci / üçüncü nesil TPU Kapsülü

Google bu yıl dördüncü nesil TPU'yu piyasaya sürmemiş olsa da, ikinci nesil ve üçüncü nesil TPU Kapsülleri olan ve 1.000'den fazla TPU ile yapılandırılabilen başka bir öne çıkardı.

TPU'nun "yükseltilmiş bir sürümü" olan Google'ın ikinci nesil TPU Kapsülü, 512 çekirdek barındırabilir ve saniyede 11,5 petaflop'a ulaşabilir; üçüncü nesil TPU Kapsülü daha hızlıdır ve saniyede 10 milyondan fazla hıza ulaşabilir. Milyar kayan nokta işlemi.

ResNet-50 modeli aynı yapılandırma (265 TPU) altında eğitildiğinde, ikinci nesil TPU Kapsülünün 11,3 dakika sürdüğü, üçüncü nesil TPU Kapsülünün ise yalnızca 7,1 dakika sürdüğü bildirildi.

3. Mimari yenilik, büyük bir bulut çekirdeği üretim dalgası başlattı

Google TPU serisinin ortaya çıkışı, Yalnızca orijinal derin öğrenme donanım uygulamasının darboğazını kırmakla kalmadı, aynı zamanda Bir dereceye kadar Nvidia ve Intel gibi geleneksel GPU yonga devlerinin statüsünü sarsmış durumda.

2015 yılından bu yana, AI yongaları ile ilgili araştırma ve geliştirme aşamalı olarak tüm yonga endüstrisinde sıcak bir nokta haline geldi. Bulutta derin öğrenme eğitimi ve çıkarım alanında, GPU'lar, özellikle Nvidia artık baskın taraf değil.

Ve Google TPU'nun doğuşu, Ayrıca, daha verimli performans elde etmek için daha fazla şirketin GPU'lar dışında özel AI yongaları tasarlamaya çalışmasına olanak tanır.

Teknik açıdan, Google TPU'nun ortaya çıkışı Aynı zamanda sektöre mimari yenilik açısından bazı düşünceler getiriyor:

1. Büyük ölçekli yonga üstü bellek

Google'ın görüşüne göre, düşük yonga dışı bellek, düşük GPU enerji verimliliği oranının ana nedenidir.

Bazı GPU'lar daha az yonga üzerinde belleğe sahiptir, bu nedenle çalışma sırasında sürekli olarak yonga dışı dinamik rasgele erişim belleğine (DRAM) erişmeleri gerekir, böylece gereksiz enerji tüketimini bir dereceye kadar boşa harcarlar.

Bu nedenle, Google TPU'yu ilk tasarladığında, 24 MB yerel bellek, 6 MB akümülatör belleği ve ana kontrol işlemcisine yerleştirmek için bellek dahil olmak üzere toplam yonga alanının toplam% 37'si tasarlandı.

2. Tamsayı işlemleri gerçekleştirmek için niceleme teknolojisini kullanın

Genel olarak konuşursak, sinir ağının tahmini 32-bit veya 16-bit kayan nokta hesaplama doğruluğu gerektirmez, bu nedenle uygun doğruluğu sağlarken sinir ağı üzerinde tahminler yapmak için 8-bit düşük hassasiyetli aritmetik yöntemleri kullanabilir.

Nicel teknoloji sayesinde, sinir ağı tahmininin maliyeti büyük ölçüde azaltılır ve bellek kullanımı buna göre azaltılır. Örneğin, geliştiriciler popüler görüntü tanıma modeli Inception'a niceleme uyguladıklarında, çip belleği orijinal boyutunun yaklaşık dörtte biri olan 91MB'den 23MB'ye sıkıştırıldı.

3. Programlanabilirlik

Google TPU bir ASIC çipi olmasına rağmen, FPGA'ya biraz benzer ve belirli bir derecede programlanabilirliğe sahiptir.

Google'ın görüşüne göre TPU'nun geliştirilmesi sadece bir sinir ağı modeli çalıştırmak için değildir. Bu nedenle Google, karmaşık komut kümesini (CISC) TPU komut kümesinin temeli olarak kullanmayı seçti ve bu, daha karmaşık görevleri çalıştırmaya odaklanabiliyor.

Google ayrıca, özellikle sinir ağı çıkarımı için tasarlanmış, giriş verileri ve ağırlıklar arasında matris çarpımı yapabilen ve etkinleştirme işlevlerini uygulayabilen on iki üst düzey talimat tanımlamıştır.

TPU'yu daha fazla programlamak için Google ayrıca, TensorFlow grafiğindeki API'yi çağırabilen ve TPU talimatlarına dönüştürebilen bir derleyici ve yazılım yığını oluşturdu.

4. Paralel hesaplama

Google, TPU için matris çarpım biriminin (MXU) paralel hesaplamasını tasarladı.

Bir saat döngüsünde yüz binlerce matris işlemini işleyebilir; bu, bir seferde bir karakter, bir seferde bir satır veya bir seferde bir sayfa yazdırmaya eşdeğerdir.

5. Sistolik dizi tasarımı

MXU, sistolik diziler olarak da bilinen geleneksel CPU'lardan ve GPU'lardan tamamen farklı bir mimariye sahiptir.

Sistolik dizi, Google TPU'nun her işlem sırasında birden çok aritmetik mantık birimini (ALU'lar) seri olarak bağlamasına ve bir kayıttan sonuç almak için çoklama yapmasına olanak tanır.

Bu tasarım, yalnızca verilerin yeniden kullanımını maksimize etmekle kalmaz, aynı zamanda hesaplama sürecinde çipin bellek erişimlerinin sayısını azaltır, aynı zamanda bellek bant genişliği üzerindeki baskıyı azaltır, böylece bellek erişiminin enerji tüketimini azaltır.

TPU matris çarpan birimi (MXU)

Google TPU'nun gişe rekorları kıran filmi yalnızca AI çip alanına mimari yenilik getirmekle kalmadı, aynı zamanda Amazon ve Microsoft gibi bir dizi teknoloji devinin yanı sıra Cambrian ve Tianshu Zhixin gibi yeni güçler de oyuna girmeye başladı ve bulut AI çip pazarında yer alması kaçınılmaz. Siteyi ele geçirin, Sektörde yavaş yavaş büyük bir bulut çekirdeği üretim dalgası başlattı.

Sonuç: Bulut AI çip pazarının gelişimini hızlandırın

CPU'dan GPU'ya ve şimdi ASIC ve FPGA birbiri ardına oyuna girdi, bulut AI çip pazarının çiçek açması Google TPU'nun çabalarıyla yakından ilgilidir.

Bugün, bulut yapay zeka çip pazarı hala tüm hızıyla devam ediyor. Geçmişte, Xilinx ve Cambrian gibi eski ve yeni güçler, GPU'suz alandaki pazarı daha da aşındırarak yükselmeye devam etti. Daha sonra, teknoloji devleri, "büyük balıkların küçük balıkları yemesi" ve birleşmeleri için fırsatlar aradılar. Potansiyel yeni oyuncular, tüm pazar bir kaos içinde.

Ancak göz ardı edilemeyecek olan şey, bulut AI yongalarının sürekli gelişimi, büyük verinin sürekli patlaması ve Moore Yasasının kademeli olarak yavaşlamasıyla, hesaplama gücünün bir kez daha yeni bir darboğaza gelmesidir.

O zamana kadar, bu oyuncular bulut yapay zeka yongalarının yeni teknik alanını gelişmiş üretim süreçleri yoluyla bir kez daha açacaklar veya bilgi işlem gücünde bir sıçrama elde etmek için yenilikçi mimarilerin geliştirilmesine güvenecekler. Hangi yola giderse gitsinler, çeşitli zorluklarla doğrudan yüzleşmek zorunda kalacaklar.

AI çip pazarının başlangıcında geriye dönüp baktığımızda, Google, bulut AI çip pazarında kademeli olarak yeni bir rekabet ortamı açmak için TPU'ya güvendi, ancak bulut AI çipleri yeni bir çağa girmeye başladığında, Google TPU geçmiş ihtişamını tekrar sürdürebilir ve pazar için yeni yönler açabilir Ve fikirler? Bekleyip göreceğiz.

Makaleyle ilgili içerik referansı: Google Blog vb.

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

Ağır! Zhongguancun, zatürree ile mücadeleye katılmak için bir gecede 138 siyah teknoloji topladı
önceki
Çin cep telefonu pazarı 2019 karne! Huawei sıralamaya hakim ve küçük oyuncular çaresizlik içinde "indirme ekli"
Sonraki
Çin Bilimler Akademisi 2019 Küresel Yapay Zeka Geliştirme Teknik Raporu! Sekiz anahtar teknoloji Çin yükseliyor
Çin Atılımı: İki yıl üst üste dünyanın ilk robot tüketimi! Yangtze River Delta Robot Endüstrisini Başlatma
Xi Jinping, "tehlike" ve "fırsatı" açıklamak için bahar mevsiminin sonlarında Zhejiang'a gitti.
Milli Gün'de, ulusal bayrağı yükseltmek için güneybatı Guizhou'daki 100 metrelik ıssız dağa tırmandı ... Bu video geçen yıl ödülü kazandı, bu yıl sıra kimde?
Salgının ilk patlak verdiği İtalya valisi, Çin valisini okyanus ötesi videoya davet ediyor
Sınıftan "canlı gösteriye", evde öğretmek bebeğe bakmakla ilgilenir. Öğretmen Liu çok meşgul ...
Tabana Yılbaşı ziyareti | Shanghai Minhang, salgını önlemek ve kontrol etmek için 509 parti üyesi komando kurdu
Evde kalın, ücretsiz e-kitap okuyun veya Matematik Olimpiyatı dersleri alın
Brexit ile Premier Lig'in "Dünya 1 Numaralı Lig" unvanı kaybedilecek mi?
73 yaşındaki Akademisyen Li Lanjuan, kritik hastaları tedavi etmek için Wuhan'a bir sağlık ekibi götürdü
2020 Bahar Şenliği tatili, "plansız" bir gezi
Salgın Önleme Sürecinde Kolayca İhmal Edilen Kişiler: Pekin'de Çevre Sağlığı Çalışanlarının Korunmasına İlişkin Soruşturma
To Top