RISC-V hızlandırma çipi, 496 çekirdek! RTL açık kaynak

Mavi kelime Dikkat Biz

Kaynak: wikichip

Celerity, birçok üniversitenin ortak çabaları ile oluşturulan açık kaynaklı, çok çekirdekli bir RISC-V katmanlı hızlandırıcı çiptir. Proje, özel entegre devrelerin tasarım döngüsünü yıllardan aylara hatta haftalara kadar kısaltmayı uman DARPA'nın Daha Hızlı Zaman Ölçeklerinde Devre Gerçekleştirme (CRAFT) programının bir parçasıdır. Celerity ekibi ilk olarak çipi Hot Chips 29'da gösterdi. Geçen yılki VLSI 2019'da, Celerity ekibi ikinci nesil çipinin PLL ve NoC'sini tartıştı. Ek olarak, Celerity'nin RTL tasarımı resmi web sitesinde açık kaynaklı olmuştur. indir !

Daha sonra, tüm CeleritySoC'ye hızlı bir genel bakış vereceğim.Celerity, çok çekirdekli ve çok katmanlı bir AI hızlandırıcıdır. Genel olarak, çip üç ana katman içerir: genel amaçlı katman, büyük ölçüde paralel katman ve özel katman. Neden katmanlı bir SoC kullanmalı? Temel neden, tipik bir CPU tasarımında yüksek esneklik ve daha yüksek güç verimliliği elde etmektir (ASIC NPU kadar verimli olmasa da). Genel amaçlı katman hemen hemen her işlemi gerçekleştirebilir: genel amaçlı bilgi işlem, bellek yönetimi ve çipin geri kalanını kontrol etme. Bu nedenle, Free Chip Project'ten beş yüksek performanslı sıra dışı RISC-V Roket çekirdeğini entegre ettiler. Bir sonraki katman, 496 düşük güçlü özel tasarım RISC-V çekirdeğini bir ızgaraya entegre eden büyük ölçüde paralel katmandır. Vanilla-5 adı verilen bu özel çekirdekler, Rocket çekirdeklerinden 40 kat daha az yer kaplayan sıralı skaler çekirdeklerdir. Son katman, bir ikili sinir ağı (BNN) hızlandırıcısını entegre eden özel bir katmandır. Bu üç katman birbiriyle yakından bağlantılıdır ve 400 MHz DDR bellek ile arayüz oluşturur.

Manycore Mesh on Celerity için saat, özel bir faz kilitli döngü (PLL) tarafından sağlanır. Bu oldukça basit, birinci dereceden bir frekanstan dijitale dönüştürücü (FDC) PLL'dir. Gerçekleştirme ünitesi, bir grup oluşturmak için 16 DCO kullanır; her gerçekleştirme ünitesi, aşağıdaki slaytta devre şemasında gösterildiği gibi, aşağıdaki slayttaki devre şemasında gösterilen NAND geçit fce ile ters çevirme elemanının yüklendiği bir halka osilatördür. Bu, tüm tasarımı yalnızca standart hücreler kullanarak uygulamak için yapılır. Bu nedenle, tüm dijital PPL, tamamen entegre ve otomatik bir yerleştirme ve yönlendirme tasarımıdır. PLL, 16 nanometre çipinde 10 MHz ila 3.3 GHz frekans aralığına sahiptir.

Birçok akademik proje gibi silikon alanı da çok önemlidir, çipin tamamı 25 milimetredir (5 × 5). Celerity için, birçok önemli mimari tasarım kararına silikon alanını sınırlama ihtiyacı hakimdir, bu da azaltılmış karmaşıklık anlamına gelir. Manycore'un kendisi 16'ya 31 Vanilla-5 RISC-V küçük çekirdek dizisidir. Dizinin 32. satırı, çipteki diğer bileşenlere bağlanmak için kullanılan harici bir ana bilgisayar için kullanılır (örneğin, son işlem için Rocket çekirdeğine mesajlar / veriler göndermek için). Tüm ızgara 3,38 mm x 4,51 mm'dir (15,24 mm²) ve bu, tüm çipin yaklaşık% 61'ini oluşturur. Vanilla-5 çekirdekleri, 5 aşamalı sıralı ardışık düzen RV32IM çekirdekleridir, bu nedenle tam sayı ve çarpma uzantılarını desteklerler. Silikon çipler üzerinde gerçekleştirilen bu çekirdekler, Hot Chips 29'da gösterdikleri ilk silikon çipten 350 MHz daha yüksek olan 1.4 GHz'e ulaşabilir.

Çok çekirdekli dizilerin karmaşıklığını azaltmak için Celerity, tek yongalı veri paketi ve uzak depolama programlama modelleri için bölümlenmiş global adres alanını kullanır.

Dizi, genel bölüm adres alanını (GPAS) kullanır. Başka bir deyişle, bir önbellek kullanmak yerine, tüm bellek adres alanını ağdaki tüm düğümlere eşlemek için 32 bitlik bir adres şeması kullanılır. Bu yaklaşım aynı zamanda sanallaştırma veya dönüştürme gerekmediği anlamına gelir. Çok Tasarımı basitleştirdi. Bu tasarımın, eşdeğer tutarlı bir önbellek sistemine kıyasla alan ek yükünü 20 kat azaltabileceğini iddia ediyorlar. Çok çekirdekli dizinin hedef iş yükü AI hızlandırması olduğu için (daha genel bilgi işlemin aksine), açık bir bölümleme (açıkça bölümlenmiş) Scratchpad depolama şeması kullanabilirler çünkü bu iş yükleri yüksek derecede Paralel iyi tanımlanmış bağımsız akış modu. Dahası, bu tür bir kod için, bellek yerelliğini kontrol etme yeteneği çok faydalı olabilir. Dizideki her çekirdek, herhangi bir yerel adrese serbestçe yükleme ve depolama gerçekleştirebilir, ancak yalnızca uzak adreslere depolama gerçekleştirebilir. Uzak yük olmaması, yönlendirici alanını% 10 oranında azaltmaları anlamına gelir ve uzak depolama ardışık düzenlenebilir olduğundan, boru hattı duraklamalarını önleyebilir.

Bu uzaktan depolama programlama modeli çözümü, iki ağı kullanmalarına, bu tek veri ağını gerçekleştirmelerine ve bitmemiş depolamayı yönetmek için kredi ağına izin verir.

Daha önce de belirtildiği gibi, 32. satır harici konaklar içindir. Pratikte bu, bellek haritasının dizinin altındaki 16 yönlendirme durağına kadar uzandığı ve mesajların çok çekirdekli diziden büyük çekirdeklere ve yongadaki diğer çevre birimlerine girmesine ve çıkmasına izin verdiği anlamına gelir.

Celerity çok yaygın solucan yönlendirmesini kullanmaz (Kilocore, Piton, Tile64, vb. Tarafından kullanılır), ancak adresi ve verileri tek bir flit paketinde birleştirir. Tasarım, hem verileri hem de meta verileri göndermek için gereken başlık / kuyruk bilgilerinden kurtulur. Ayrıca ayrılmış rota olmadığı için HOL engellemesinden kurtulur. Her bir uç, kontrol için 80b genişliğinde 16 bit, veri için 32 bit, düğüm adresi için 10 bit ve bellek adresi için 22 bittir. Flit düğüm adresi, herhangi bir hedefe veri gönderme yeteneğini korur. Bu tasarımın ana faydası, ağa yalnızca tek bir uçurum enjekte edildiğinden, her döngüde bir depolama gerçekleştirmek için sıralı bir boru hattının kullanılabilmesidir.

Çok çekirdekli dizideki 496 düğüm arasında, her düğümün bir rotası vardır. Yolun kendisi, her bir temel yönün (N, S, E, W) girişinde iki öğeli bir FIFO ve ağ tıkanıklığı durumunda geçici bir depolama olarak kullanılan bir kontrol işlemcisi içerir. Veri paketlerinin önceliğini belirlemek için sıralı tahkim kullanırlar, böylece tahkim her döngüde her yönde (tahkim) gerçekleştirilebilir. Kabloları boyut sırasına göre kullanırlar (ofseti bir yönde azaltın ve ardından diğer yöne hareket ettirin). Basit bir tasarım sayesinde, tüm yönlendirmeyi tek aşamalı bir tasarım olarak uygulayabilirler ve düğümler arasında boru hattı kaydı yoktur. Başka bir deyişle, atlama başına yalnızca bir döngü gereklidir. Örneğin, herhangi bir bitişik çekirdek depolama alanının gecikmesi yalnızca 3 döngüdür - yerel yola git, bitişik rotaya atla ve son olarak komşunun bellek alanına git. Yönlendirici ve çekirdek aynı saat etki alanı içindedir, yani bunlar hala olabilir 1,4 GHz'e kadar frekanslarda çalışır.

İki ağ vardır - bir veri ağı ve bir kredi sayacı ağı. Yönlendirici, kaynak kodu tarafından kontrol edilen bir kredi sayacı kullanır ve ağa bir uzak depolama paketi her enjekte edildiğinde sayaç azaltılır. Yukarıda açıklanan verilerle aynı yapıyı kullanan ancak yalnızca düğüm adresini içerdiği için yalnızca 9 biti olan kredi sayacı ağı üzerinden geri dönün.

Peki bunlar ne anlama geliyor? Celerity ekibi, 600 mV'den 980 mV'ye, 500 MH'den 1.4 GHz'e kadar çalışma frekanslarını bildirdi. Celerity'nin şu anda en yüksek saat frekansına sahip ikinci en yüksek üniversite yongası olduğuna inanıyoruz, sadece Kilocore'dan sonra ikinci sırada (her ne kadar ambalaj sınırlamaları nedeniyle Kiloecore'un 1.000 çekirdeğinin yalnızca 160'ını destekleyebileceğini belirtmekte fayda var). 1.4 GHz'de, tüm şebekenin maksimum hesaplama gücü 694.4 INT 32 GOPS'dir. Sayılarını GOPS yerine Giga-RISC-V komutları (GRVIS) olarak rapor ederek bu talimatların sadece tamsayı işlemleri değil, eksiksiz RISC-V talimatları olduğunu vurguluyorlar. Vanilla-5 çekirdeği RV32IM olduğundan, RISC-V tamsayı ve çarpma uzantılarını desteklediklerini, ancak kayan nokta işlemlerini desteklemediklerini, bu nedenle tüm AI iş yüklerinin nicelendirilmesi gerektiğini lütfen unutmayın. Düğümleri birbirine bağlayan yönlendirici ve çekirdek aynı saat etki alanında olduğundan ve her yönlendirici döngü başına 5 fliteği desteklediğinden, her düğümün toplam bant genişliği 748 Gb / sn'dir ve toplam toplam ağ bant genişliği 371 Tb / sn'dir.

Ne yazık ki, Celerity ekibi yapay zeka ile ilgili herhangi bir ortak karşılaştırma sonucu bildirmedi. Bunun yerine CoreMark'ı kullanmayı seçtiler ve 580.25 CoreMark / MHz'e ulaştıklarında toplam puan 812.350 idi. CoreMark, son birkaç yıldır RISC-V topluluğunda karşılaştırma ölçütü olmuştur. CoreMark ile ilgili sorun, basit, sıralı tasarımlar için genellikle ayarlanmış, modern, düzensiz tasarımlarla iyi rekabet ediyor gibi görünen inanılmaz derecede iyimser puanlar oluştururken, gerçek dünyadaki iş yükleri çok Farklı sonuçlar. Çipin öncülünün oldukça esnek bir yapay zeka hızlandırıcısı üretmek olduğu göz önüne alındığında, Celerity ekibini resmi bir MLPerf sunumu gibi daha anlamlı sonuçlar üretmeye teşvik etmeyi umuyoruz.

Celerity'nin açık kaynaklı RTL tasarımı, Celerity web sitesinde (açık kaynak bağlantısı: http : //opencelerity.org/), bazı ekran görüntüleri aşağıdaki gibidir:

"Düzen Kursu Önerisi" Simülasyon Düzeni Tasarımı (pratik açıklamalar dahil)
önceki
Kablo çok uzun ve yük çok uzak ve yük terminal voltajını ölçmek zor mu? Almanıza yardımcı olacak üç yol
Sonraki
Süper Lig bu sefer La Liga'ya "teşekkür ederim" demeli: resmi hareket çok dokunaklı
Özel ter ve gözyaşları, Wuhan Tongji Hastanesi tıbbi ekibi görüyor ve destekliyor
120.000 Mercedes-Benz'den bahsediyor! Ağabey Taizhou yüksek profilli bir gösteri videosu yaptı ve bir polis tarafından yakalandı ...
Yang Zhenning'in Gözlerindeki Fiziğin Güzelliği
Kablosuz akıllı ölçüm teknolojisi
"Yeni derslerde% 30 indirim! Son gün!" Simülasyon düzeni tasarımı (pratik açıklama dahil)
OneAPI: Dünyada Büyük Birlik
Paylaşım: Zamanlama tasarımının ve kısıtlama verilerinin özeti
"Doğrudan 100 yuan" CMOS analog çip tasarım kursu + CMOS RF çip simülasyonu kursu paketi satın alma indirimli fiyat
2020 Quanzhou beden eğitimi giriş sınavı
Bu sıcak bir aşk! The Strait Herald ve Nanputuo Temple Charity Association, "Love Xiamen Yeni Yıl Paketi" nin 300 kopyasını gönderdi
Şok edici bakış açısı! Fujian'ın çevresinde "Yere Yakın Uçmayı" deneyimlemek için iki dakika
To Top