Arm'ın NPU'su ve derinliği nedir

"

Önde gelen mobil SoC tasarımcıları, yıllardır kendi SoC'lerine özel NPU'ları entegre ediyorlar. Arm, geçen yılın sonunda Ethos NPU serisini de getirdi. Bu, Arm'ın AI pazarını genişletmek için yaptığı son hamle. Şirket, yeni Ethos NPU serisi altında üç başlangıç IP'si başlattı: Ethos-N37, Ethos-N57 ve Ethos-N77. Bu üç ilk IP, önemli sayıda cihazı kapsayacak şekilde tasarlanmıştır. Adından da anlaşılacağı gibi, her işlev bir öncekinden daha güçlüdür.

Üç NPU aynı mikro mimari kullanılarak oluşturulmuştur, ancak yapılandırma biraz farklıdır, daha sonra göreceğiniz gibi. Aşağıdaki Kol görselleştirme diyagramı, NPU'nun çalıştığı çeşitli pazarları ve kısıtlamaları göstermektedir.

Alt uçta, çok az DRAM bant genişliği (yaklaşık 3 GB / s veya daha az) gerektirirken yaklaşık 1 TOPS'a kadar en yüksek bilgi işlem performansı ile en hafif iş yüküne sahip cihaz olmayı hedefleyen Ethos-N37;

Ethos-N57, çoğu akıllı ev cihazı ve bazı genel akıllı telefon SoC'leri gibi daha karmaşık cihazları kapsar. N57, daha yüksek bellek bant genişliğine sahip olacak şekilde tasarlanmıştır ve yaklaşık 2 TOPS performansı sağlayabilir;

Son olarak, Ethos-N77. Bu, serideki en güçlü üründür ve hedef, 4 TOPS'a kadar performans ve yaklaşık 5 TOPS / W gibi daha yüksek güç verimliliği ile pazardır. N77, gelişmiş ve orta düzey AR / VR cihazları için tasarlanmıştır.Performans geliştirmelerine sahip olmasına rağmen, yine de daha güçlü özelliklere ihtiyacınız vardır. Daha yüksek performans elde etmek için, daha yüksek bellek bant genişliği gereklidir (bellek bant genişliğinin 8 GB / sn'ye kadar veya daha yüksek olması gerekir).

Bu üç IP arasında çok fazla örtüşme olduğuna dikkat çekmek önemlidir. N57, N37 serisinin üst kısmını ve N77 serisinin alt yarısını kapsayabilir. N77 ile aynı. Bu, SoC tasarımcılarına kendi tasarımlarını yapmaları için biraz hareket alanı sağlar. Bu üç IP arasında çok fazla örtüşme olduğuna dikkat çekmek önemlidir. N57, N37 serisinin üst kısmını ve N77 serisinin alt yarısını kapsayabilir. N77 ile aynı. Bu, SoC tasarımcılarına kendi tasarımlarını yapmaları için biraz alan sağlar.

Ethos serisinin çekirdeği, Arm'ın ML işlemcisidir (MLP). MLP, CNN ve RNN başta olmak üzere makine öğrenimini hızlandırmak için kullanılan temiz sayfalı, temelden yapılmış bir mikro mimaridir. MLP aslında oldukça basit bir tasarım kullanıyor, bu da tasarımcılara satmayı beklediğimiz IP'den tam olarak beklediğimiz şey. MLP'nin ana bileşenleri kontrol ünitesi, DMA, yayın ağı ve hesaplama motorudur. Tahmin edebileceğiniz gibi, ana eylem hesaplama motorunda gerçekleşir. Dört bilgi işlem motorunun her bir kümesi bir "dörtlü" olarak gruplandırılmıştır. Kontrol ünitesi, tüm hesaplama motorunun ve DMA motorunun tüm sinir ağının yürütülmesini koordine eder DMA motoru, sinir ağı haritalamasını anlar ve verilerin gerektiğinde ulaşmasını sağlayabilir.

MLP'yi birden fazla konfigürasyonda uygulayabiliriz. İki ana kontrol, her bir hesaplama motorundaki SRAM kitaplığının boyutu ve hesaplama motorlarının sayısıdır. Mevcut tasarımları için MLP, tek bir dört çekirdekli tek bir bilgi işlem motorundan on altı bilgi işlem motorlu dört dört çekirdekliye kadar çok sayıda seçeneğe sahip olabilir. Her hesaplama motorunda, girdi ve çıktı özellik haritalarını ve ağırlıklarını depolamak için bir parça SRAM'e sahip olursunuz. 64 KiB ile 256 KiB arasında konfigüre edilebilir. Konfigürasyondan bağımsız olarak, kontrol ünitesi ve DMA her zaman aynıdır.

Ethos-N77, esasen eksiksiz bir MLP yapılandırmasıdır. Dört dörtlü ve 16 hesaplama motoruna ve iki olası SRAM konfigürasyonuna sahiptir - 64 KiB veya 256 KiB. Benzer şekilde, Ethos-N53, toplam sekiz hesaplama motoru için dört dörtlü içerir. N53, her CE sabit bir 64 KiB SRAM depolama alanına sahiptir. Ethos-N37, yalnızca bir dörtlü ile en düşük performanslı SKU'dur ve sabit 128 KiB kapasiteli SRAM kitaplığı ile yalnızca dört bilgisayar motorunu barındırabilir.

Hesaplama motorundaki iki ilginç bileşen, MAC hesaplama motoru (MCE) ve programlanabilir katman motorudur (PLE). MCE, verimli bir sabit fonksiyonlu MAC birimi içerirken, PLE esnek bir programlanabilir vektör motoru içerir. Süreç nispeten basittir. Giriş aktivasyon tensörü ve ağırlığı birlikte MCE'ye aktarılır. Hesaplamadan sonra sonuç, işlem sonrası ve gerekli olabilecek diğer çeşitli işlemler için PLE'ye aktarılır. Karmaşık bir kontrol yoktur, çünkü bunların çoğu statik zamanlamayı gerçekleştiren, SRAM kitaplığını ön bölümlere ayıran ve işlev haritasını ve ağırlıkları sıkıştıran derleyiciye verilir.

MCE içerisinde sekiz MAC ünitesinden oluşan bir grup bulunmaktadır. Her MAC birimi 16 bit genişliğindedir. Diğer bir deyişle, her MAC birimi döngü başına 16 adet 8-bit nokta ürün işlemi gerçekleştirebilir. Toplamda, her hesaplama motorunun 256 OP / en yüksek performans döngüsü vardır. Bu arada, buradaki işlemlerin tümü 8 bit genişliğindedir ve toplamı 32b'dir. MLP, 16 bit işlemleri destekler, ancak veriminizi 4 kat azaltacaktır (yani döngü başına 64 OP). Aşağıdaki tablo, her Ethos SKU'nun maksimum teorik performansını listelemektedir. Tabii ki, gerçek iş yükü performansı bu MAC'lerin kullanımına bağlı olacaktır. Üç SKU'nun da aynı maksimum frekans olan 1 GHz'e ulaşabileceği unutulmamalıdır.

N77'nin en yüksek TOPS'si 4.1 TOPS olmasına rağmen, gerçek SoC'nin bu performans seviyesine ulaşması gerekmez. Bunun yerine, performansı daha da artırmak için birden fazla MLP örneği SoC'ye entegre edilebilir. Bu nedenle, örneğin, CCN-500 ara bağlantılarının maksimum sekiz MLP'ye genişletmek için kullanımını teorik olarak desteklerken, güncellenmiş CMN-600 ağ ara bağlantısını maksimum 100 MLP'ye genişletmek için kullanın.

MCE'ye ek olarak, hesaplama motorundaki diğer ana bileşen Programlanabilir Katman Motorudur (PLE). PLE aslında MCE'den daha güçlüdür ve programlanabilir olduğu için, milyonlarca tekrarlanan MAC işlemini işlerken orijinal güç verimliliği rekabetinde kaybetmesine rağmen daha fazla esnekliğe sahiptir. PLE, vektör ve NN uzantılarını da içeren olgun bir Cortex-M işlemcisidir. Bu, Ethos-N77'nin dahili olarak 16 Cortex-M vektör işlemci içerdiği anlamına gelir.

Özel bir 16 kanallı vektör motor yardımcı işlemci modeli ile tasarlanmıştır. PLE, esas olarak MCE son işleme için tasarlanmıştır ve daha az yaygın olan bazı işlevleri gerçekleştirir. Ancak bu başlı başına güçlü bir vektör motoru olduğundan, MCE'nin yardımı olsun veya olmasın doğrudan SRAM verileri üzerinde çalışabilir. PLE'nin programlanabilirliği, Arm yazılım ekibinin yeni AI modellerine ve işlevlerine hızla uyum sağlamasına olanak tanır. Derleyici araç zinciri, modern NPU'ların yapmasını beklediğimiz diğer birçok optimizasyonu da sağlar. Derleyici, SRAM'ı önceden bölümleyeceğinden, etkinleştirme ve ağırlık sıkıştırması gerçekleştirecek ve bu da genel tasarımda bant genişliğini biraz azaltmaya yardımcı olacaktır. Ek olarak, seyreklik için hafif optimizasyonlar vardır. Veri yolu sıfırlanacak ve böylece biraz güç tüketimi tasarrufu sağlanacaktır.

Bir dizi oyun kağıdı "Liangshan Kahramanın Yüz Bekar ve Sekiz Generali"
önceki
Geçmiş Çin Hanedanlıklarında Bodhisattvas'ın Beyaz Çizim Atlası (Editör: Xu Huadang)
Sonraki
Kaygan parmak uçları, sıcaklık ve eve teslimat Jiangshan "kırmızı bina grubu" kapıya teslimat hizmeti
Zhejiang (Çin) Academy of Fine Arts Edition Çin Resim Resmi "Shajiabang" Çok zarif bir model drama çizgi roman
Kızıl Muhafızlar savaş hikayesi çizgi roman kitabı "Yüz Tabanca", Wang Jianping, vb.
"Orijinal" Infineon IPW60R080P748 V 2 kW kurşun-asit (lityum) akü şarj cihazı çözümü
Zhejiang Finans ve Ekonomi Üniversitesi Doğu Koleji Gençlik Gücü "Pandemi" Hattıyla Mücadele Girişimi Başlattı
Çok pahalı! "Ünlü Tablo Takdiri", Jeff Castie, Fransa
TI TIDA 010039 üç fazlı SiC AC-DC dönüştürücü referans tasarımı
"Bayram Yeni Yıl Resimleri" Baizi, amaçlandığı gibi uğurlu
Küresel fiber optik pazarı salgın altında sürdürülebilir mi?
Jiang Nanchun ve diğerlerinin yazdığı "Beş Yıllık Planın Kalbine Yerleştirin" çizgi romanının eski versiyonu
Wushu Hikayesi Çizgi Roman Kitabı "Kılıcın Gölgesi" Bölüm 1 (Piaoxiang Yijian) Tablo: Dünya
1949'da Yeni Çin'de hangi çizgi romanların yayınlandığını biliyor musunuz?
To Top