Lei Feng.com'a göre Cadence, bir AI endüstrisi katılımcısıdır.Tensilica IP ürünleri hala çok dikkat çekicidir ve HiSilicon'ın Kirin serisi veya MediaTek'in yonga setleri gibi popüler SoC'lerde görünür. Endüstri bulut tabanlı yapay zeka çıkarımını uç cihazın kendisine aktarmaya çalışırken, cihaz içi sinir ağı çıkarım pazarı, daha düşük güç ve daha düşük gecikme süresi elde etmek için patlıyor.
Leifeng.com, Cadence'in bu hafta Nesnelerin İnterneti, mobil, AR / VR'den akıllı gözetim ve otomotiv uygulamalarına kadar çeşitli alanlarda geniş bir performans gereksinimleri yelpazesi sergilediğini öğrendi ve uç uç sinir ağı çıkarımını hızlandırması beklenen daha fazla ürünü duyurdu ve Geçmişe kıyasla daha yüksek bir genişleme ile çeşitli ihtiyaçları karşılamak için performansa ve genişlemeye odaklanan yeni bir özel "AI" IP lansmanını duyurdu ve performansın 100 TMAC'ye (Trilyon Matris Biriktirme İşlemi) ulaşması bekleniyor.
Cadence, kameralar, lidarlar ve ultrasonikler dahil olmak üzere otomotiv gücü gibi uygulamalarda çok sayıda sensör olacağını, çıkarım performansı talebinin çok acil olduğunu söyledi. Standart DSP, sinyal işlemenin ana görevlerini yerine getirecek, ancak gerçekte veriler için anlamlı olan görevler, algılama ve karar verme görevlerini yerine getiren DNA 100 gibi sinir ağı hızlandırıcısına devredilecektir.
Cadence, DNA 100'ün benzer boyutlu MAC motorları ile rakip çözümlere kıyasla 4,7 kata kadar performans avantajına sahip olduğunu iddia ediyor. Cadence bunu, seyrek bilgi işlem mimarisi sayesinde başarır; bu, yalnızca sıfır olmayan aktivasyonları ve ağırlıkları hesapladığı ve rakiplerinden daha yüksek donanım MAC kullanımı sağladığı anlamına gelir.
"Sinir ağları, diğer işlemcilerdeki MAC'lerin gereksiz yere yükleyerek ve sıfırla çarparak performansı tüketmesine neden olacak doğal ağırlıklar ve etkinleştirme seyrekliği ile karakterize edilir. DNA 100 işlemcisinin özel donanım hesaplama motoru bu ikisini ortadan kaldırır. Sorun, verimliliği artırmak ve hesaplama miktarını azaltmak için bu seyrekliğin kullanılmasına izin verilmesidir. Nöral ağların yeniden eğitilmesi, ağın seyrekliğini artırmaya ve DNA 100 işlemcisinin seyrek hesaplama motoru aracılığıyla maksimum performansa ulaşmaya yardımcı olabilir. "
Mimari açısından DNA 100, diğer çıkarım hızlandırıcılara çok benziyor. En önemli işlem gücü, Cadence'in "Ölçeklenebilir Seyrek Hesaplama Motoru" olarak adlandırdığı MAC motorunda yatıyor. Evrişim aşamasının ve tamamen bağlı sınıflandırma katmanının görevlerini yerine getiriyorlar. .
MAC'ler, tam verimli niceleme modelinde çalışabilen yerel 8 bitlik tam sayılardır, ancak aynı zamanda yarı hızda 16 bit tam sayı ve çeyrek çıktıda 16 bit kayan nokta işlemleri sağlar. Tek bir MAC motoru / seyrek hesaplama motoru, 256/512/1024 MAC'de ölçeklenebilir ve ardından IP, dörde kadar daha fazla motor eklenerek genişletilebilir. Bu, en büyük konfigürasyonun tek bir DNA 100 donanım bloğunun 4096 adede kadar MAC içerdiği anlamına gelir.
Cadence, bazı uygulama senaryolarının veya sinir ağı modellerinin sabit işlevli IP tarafından işlenemeyebileceği ve yine de DNA 100'ü mevcut DSP IP ile birleştirme olasılığını sağladığı konusunda çok açıktır. İki ürün birbirine sıkıca bağlıdır ve DSP, daha özel NN katmanlarını etkili bir şekilde işleyebilir ve çekirdeği DNA 100'e geri gönderebilir, böylece çözüm gelecekte ölçeklenebilirliğe sahip olur ve müşterilerin istediği özelleştirilmiş katmana genişletilebilir.
Bant genişliği, sinir ağı çıkarım donanımında önemli bir darboğazdır, bu nedenle en iyi performansı elde etmek ve platformla sınırlı kalmamak için sıkıştırma çok önemlidir. DNA 100 tarafından ham bant genişliği açısından ağırlıkları sıkıştırarak ve etkinleştirerek sağlanan bant genişliği azaltma işlevine ek olarak, IP ayrıca 1 ila 4 AXI 128 veya 256 bit arabirimden oluşan çok geniş bir arabirim seçeneği sunar, bu da mümkün olan en yüksek bant genişliğinin en geniş yapılandırmada elde edilebileceği anlamına gelir. 1024 bit'e kadar veri yolu genişliği.
IP'yi 4096MAC'den daha fazlasına genişletmek için, yalnızca çok sayıda donanım bloğunu SoC üzerinde yan yana yerleştirmeniz gerekir, bu da teorik hesaplama kapasitesini büyük ölçüde artırabilir. Yazılım, iş yükünü farklı bloklar arasında doğru bir şekilde dağıtabildiği için burada önemli bir rol oynar. Cadence, bu yaklaşımın tek bir çekirdeği / çıkarımı hızlandırmak için de kullanılabileceğini ve ayrıca çipten çipe iletişim yoluyla olası çok yongalı genişlemeyi öngördüğünü açıkladı.
DNA 100'ün performansı söz konusu olduğunda, Cadence bir kez daha mimarisinin gerçek performansının aynı sayıda MAC ile eşdeğer rekabetçi mimariden önemli ölçüde daha yüksek olduğunu vurguluyor. Burada "Etkili TMAC'ler" garip bir göstergedir Leifeng.com tarafından elde edilen bilgilere göre, etkili performans, ağırlık ve aktivasyon verilerinin derleyici ve eğitim tarafından kesilip kesilmediğine bağlı olarak 2 ila 3 kat arasında değişmektedir.
Cadence, ResNet50'nin performansını gösterdi. DNA 100, 4TMAC'nin orijinal donanım performansı ile maksimum 4K MAC yapılandırması olarak yapılandırıldı. Resmi verilere göre DNA 100'ün performansı rakip çözümlere göre 4,7 kat daha yüksek, performansı 2550 fps'ye ulaşırken, rakiplerin performansı 538 fps. Enerji tüketim oranı açısından DNA 100, rakip çözümlere göre 2,3 kat avantaja sahiptir. Tabii ki, test edilen ağ DNA 100'de en iyi sonuçları elde etmek için budanmıştır.
Yazılım açısından Cadence, gerekli aygıt sürücülerinin yanı sıra ağ çözümleyicileri ve optimize ediciler dahil olmak üzere donanımdan tam olarak yararlanmak için eksiksiz bir yazılım yığını ve sinir ağı derleyicisi sağlar. Cadence ayrıca kısa süre önce Facebook'un Glow derleyicisini (bir çapraz donanım platformu makine öğrenimi derleyicisi) destekleyeceğini duyurdu.
DNA 100'ün donanım IP'si 2019'un başlarında lisanslanacak ve ürün en erken 2020'nin sonunda satışa sunulacak.