Yeniden Yapılandırılabilir Dizi İşlemcisinde Dağıtılmış Önbellek Tasarımı

Devre teknolojisinin hızla gelişmesiyle, yapay zeka gibi yeni uygulamalar sonsuz bir akışta ortaya çıkıyor.Yeniden yapılandırılabilir dizi işlemciler, genel amaçlı işlemcilerin (GPP) esnekliğini ve uygulamaya özel entegre devrelerin (ASIC'ler) hesaplama gücünü hesaba katıyor. Güncel yoğun uygulama alanında bir araştırma noktası haline geldi. Yeniden yapılandırılabilir dizi cihazındaki devasa bellek erişim verileri, mevcut depolama bant genişliğini ciddi şekilde yetersiz kılar, bu nedenle bant genişliğindeki ciddi kıtlığı çözmek için depolama yapısını incelemek, tüm sistemin performansını iyileştirmenin anahtarıdır.

Yukarıdaki sorunları çözmek için tasarımcılar genellikle Cache teknolojisini kullanırlar.Bunlardan literatürdeki CGRA donanım platformunda, depolama yapısı zayıf veri paralelliği olan veri paylaşım Cache kullanır; CONG J ve diğerleri tarafından önerilen FPCA yapısı paylaşılan bir Cache kapasitesini arttırır. İsabet oranını iyileştirmek için, literatür ayrıca belleğe erişmek için yonga üzerinde yüksek kapasiteli paylaşımlı Önbellek kullanır.Bu büyük kapasiteli Önbellek yapısı, sadece tüm sistemin alanını arttırmakla kalmaz, aynı zamanda bellek erişiminin paralelliği hala yüksek değildir. Yukarıdaki tek bir Önbellek alanının birden çok işlemci tarafından paylaşılması rekabeti öne çıkarır ve gecikme artar. GALANIS MD ve diğerleri tarafından önerilen yeniden yapılandırılabilir veri yolunda, depolama yapısı, bellek erişim hızını artırmak için paylaşılan birincil Önbelleği ve paylaşılan ikincil Önbelleği kullanır; SWANSON S ve diğerleri tarafından önerilen WaveScalar veri akışı yapısında, yonga üzerinde depolama birimi Yalnızca birinci düzey paylaşılan veri önbelleği ve talimat önbelleği kullanılır; SOUZA JD ve diğerleri tarafından önerilen dinamik uyarlamalı işlemcide, depolama birimi hala iki düzeyli paylaşılan önbellek tarafından uygulanmaktadır ve birinci düzey önbellek, veri ve talimat önbelleğine bölünmüştür. Literatür çipi, veri erişiminin verimliliğini artırmak için dağıtılmış bir tampon tasarımı kullanır, ancak harici bellekle etkileşim yine de paylaşılan Önbellek teknolojisi kullanılarak gerçekleştirilir. Yukarıdaki çok seviyeli paylaşılan Önbellek yapısı, verilerin yerel özelliklerini ve paralellik gereksinimlerini dikkate almaz, bu da bellek erişiminin paralelliğini zayıflatır ve verim büyük ölçüde kısıtlanır.

Büyük miktarda veriye erişen, yüksek veri paralelliği, daha az global veri yeniden kullanımı ve bariz yerellik gerektiren yeniden yapılandırılabilir dizi işlemcisinin özelliklerini hedefleyen bu makale, "fiziksel dağıtım, mantıksal birlik" dağıtılmış bir Önbellek yapısı önerir. Bunların arasında, yeniden yapılandırılabilir dizi işlemcisi, hem yerel Önbelleğe hem de uzak Önbelleğe okuma ve yazma erişim haklarına sahiptir.Yerel Önbellek yüksek bir önceliğe sahiptir.Uzak Önbellek erişimi, verimli satır ve sütun çapraz anahtarı aracılığıyla endekslenir. Harici bellekle etkileşimde bulunurken, tasarım çarkı Sorgu tahkim mekanizması bir sinyali tahkim ettikten sonra, veriler yönlendirici aracılığıyla iletilir.Son olarak tasarım, Xilinx'in Virtex-6 serisi xc6vlx550T geliştirme kartı tarafından test edilir.Deneysel sonuçlar, yapının basitliği ve ölçeklenebilirliği korurken mümkün olan en yüksek performansı sağlayabileceğini göstermektedir. 10.512 GB / sn bellek erişim bant genişliği, yeniden yapılandırılabilir dizi işlemcilerinin bellek erişim gereksinimlerini karşılar.

1 Yeniden yapılandırılabilir dizi işlemci dağıtılmış Önbellek yapısı

Bu makalede kullanılan yeniden yapılandırılabilir dizi yapısı, 4 × 4 PE'den oluşan bir dizi işlemci kümesidir (Processing Element Group, PEG). Her PE'nin veri bit genişliği 32 bittir. Dağıtılmış Cache yapısı aşağıdaki gibidir Şekil 1'de gösterildiği gibi, bir önbellek, bir sorgulama hakemi ve bir ağ bağdaştırıcısından oluşur. Her PE'nin toplam 16'sı yerel bir Önbelleği vardır ve 16 Önbellek yapısı fiziksel olarak dağıtılır ve mantıksal olarak birleştirilir. Her PE yalnızca yerel Önbelleğe değil, aynı zamanda verimli çapraz çubuk anahtarı aracılığıyla uzak Önbelleğe de erişebilir. Herhangi bir çakışma olmaması durumunda, PE yerel Önbelleğe eriştiğinde, öncelik en yüksek olandır.Yerel Önbellek isabet ettiğinde, veriler derhal talep eden PE'ye geri gönderilir. Vurulmazsa, sanal kanal yönlendiricisinden geçmek için sorgulama hakemi aracılığıyla bir sinyal üzerinde hakemlik yapması gerekir. VCR0901 harici depolama birimi ile iletişim kurar; PE uzak Önbelleğe eriştiğinde, uzak Önbelleğin çalışmasını tamamlamak için hedef PE'yi satır ve sütun çapraz çubuğu anahtarı aracılığıyla endekslemesi gerekir. Yerel ve uzaktan işlem çakışmaları olması durumunda, yerel erişime öncelik verilir ve uzak talebin ardından doğru geri bildirim gelir. Yeniden yapılandırılabilir dizi işlemcisinin dağıtılmış Önbellek yapısı, 16 PE'nin aynı anda yerel Önbelleği okumasını ve yazmasını sağlar.Çatışma erişimi olmadığında, dağıtılmış Önbellek yapısının bellek erişim bant genişliği zirveye ulaşır.

1.1 Önbellek tasarımı

Önbellek, Şekil 2'de gösterildiği gibi temelde bir isabet değerlendirme birimi (yargıç), bir etiket kayıt birimi (etiket_indisi), bir durum kayıt birimi (durum), bir yazma değiştirme strateji birimi (wr_strategy) ve bir Önbellek veri depolama biriminden (Cache_data) oluşur.

(1) Yargı birimi: Bu birim esas olarak PE'den okuma ve yazma sinyallerini almak, adres bilgisine göre bayrak yazmaç biriminin bayrak bilgisini okumak ve ardından karar biriminde okuma / yazma isabet bilgisinin çıktısını almak için karşılaştırmak için kullanılır;

(2) Bayrak kayıt birimi: Bu birim esas olarak verinin bayrak bitini ve indeks bilgisini kaydetmek ve Önbellek veri depolama biriminin bilgilerine göre bunu gerçek zamanlı olarak güncellemek için kullanılır;

(3) Durum kayıt birimi: Bu birim esas olarak verinin kirli bitini ve geçerli bit bilgisini kaydetmek ve Önbellek veri depolama biriminin bilgilerine göre bunu gerçek zamanlı olarak güncellemek için kullanılır;

(4) Değiştirme strateji birimi yazma: Bu birim, Önbellek satırının değiştirilmesini sağlamak için en son kullanılan stratejiyi kullanır ve verilerin, durum kayıt biriminin bilgilerine göre harici belleğe geri yazılması gerekip gerekmediğine karar verir;

(5) Önbellek veri depolama birimi: Bu birim, yönlendirme yoluyla harici depolama ile etkileşim kurmak için esas olarak bir geri yazma stratejisi kullanır.

1.2 Oylama hakemin tasarımı

Dağıtılmış Önbellek çarpmadığında, hakeme bir okuma veya yazma erişim sinyali gönderir ve hakem, yoklama mekanizması aracılığıyla bir sinyal grubunu hakemlik eder ve bunu ağ adaptörüne verir.Soylama hakeminin yapı diyagramı Şekil 3'te gösterilmiştir.

1.3 Ağ adaptörünün tasarımı

Ağ adaptörü, PE ile harici bellek arasındaki iletişim için ağ arayüzüdür ve iletişim bilgileri yönlendirici formatına göre paketlenir ve paketten çıkarılır Paket formatı Şekil 4'te gösterilmiştir.

Ağ bağdaştırıcısı, bir veri yazma modülü ve bir veri okuma modülünden oluşur Üst düzey yapı Şekil 5'te gösterilmektedir.

2 Dağıtılmış Önbelleğe dayalı paralel erişim stratejisi

Yeniden konfigüre edilebilir dizi işlemcisi için, küme içindeki bilgi etkileşimi satır ve sütun çapraz çubuğu anahtarı tarafından konumlandırılır ve kümeler arasındaki bilgi etkileşimi, sorgulama ve tahkimden sonra yönlendirici aracılığıyla iletilir.

PE'nin okuma erişim süreci Şekil 6'da gösterilmektedir. PE bir okuma talebi gönderdiğinde, adres bilgilerine göre yerel Önbelleği okuyup okumayacağına karar verir ve yerel okuma önbelleği en yüksek önceliğe sahiptir. Uzak Önbelleği okuyorsanız, kümedeki PE konumunu bulmak için satır ve sütun çapraz anahtarını kullanın; okuma adresini Önbellekteki bayrak bitiyle karşılaştırın, eğer okuma isabet ederse, okunan veriler doğrudan satır ve sütun çapraz anahtarı aracılığıyla talep eden PE'ye döndürülür; Bir isabet ve isabet satırı geçersizse, harici depolamadan gelen veri bloğu yönlendirme yoluyla Önbelleğe taşınır ve ardından veriler okunur; okuma eksikse ve isabet satırı geçerliyse, değiştirme algoritması ve geri yazma stratejisi ana Depolama veri bloğu taşınır ve son olarak okunan veriler çapraz anahtar aracılığıyla talepte bulunan PE'ye geri gönderilir. Yeniden konfigüre edilebilir dizi işlemcisindeki 16 PE, eşzamanlı olarak, Önbellek üzerinde yukarıdaki okuma işlemlerini gerçekleştirebilir. PE yazma erişim süreci, Şekil 7'de gösterildiği gibi okuma erişim işlemine benzer.

3 Simülasyon ve performans analizi

3.1 Tasarım simülasyonu

Dağıtılmış Önbellek erişim stratejisine dayalı olarak, yüksek hızlı arabellek birimi, sorgulama hakemi ve ağ bağdaştırıcısı, RTL düzeyinde tasarlanmıştır.Çok tipik erişim durumlarında test uyarıcıları yazarak, işlevsel simülasyon için Questsim ve yeniden yapılandırılabilir dizi işlemcisi kullanılarak Sanal kanal yönlendiricisi, hafif çekirdekli işlemci ve Xilinx özel bellek IP'si birbirine bağlıdır ve tasarım, Xilinx'in Virtex-6 serisi xc6vlx550T geliştirme kartı aracılığıyla donanım açısından test edilir. Spesifik parametreler Tablo 1'de gösterilmiştir.

Şekil 8, yerel ve uzaktan erişim arasında bir çelişki olmadığı tipik bir durumda veri erişimi için minimum gecikme döngüsü sayısını göstermektedir; Şekil 9, yerel ve uzaktan erişim arasında bir çelişki olduğu tipik bir durumda veri erişimi için minimum gecikme döngüsü sayısını göstermektedir.

Şekil 8'den, rekabet olmadığında, uzak önbelleğe erişimin yerel önbelleğe kıyasla 1 saat döngüsü geciktiği görülebilir. Şekil 9'dan, yerel Önbelleğe yerel ve uzaktan erişim aynı anda olduğunda, yerel Önbelleğin yüksek önceliğe sahip olması nedeniyle, önce yerel Önbellek isteğine yanıt verildiği ve uzak isteğin 4 saat döngüsünden sonra yanıtlanacağı görülebilir.

3.2 Performans analizi

Tasarım, Xilinx ISE14.7 ile sentezlenmiştir.Cihaz xc6vlx550T ile sentezlendikten sonra, dağıtılmış Cache uygulama şemasının maksimum çalışma frekansı 164.249 MHz'e ulaşabilir Spesifik cihaz kaynak kullanımı Tablo 2'de gösterilmiştir.

Literatür, paylaşılan bir Önbellek ve dağıtılmış Önbellek yapısı tasarlar ve paylaşılan Önbellek ve dağıtılmış Önbellekteki yerel ve uzak önbelleklerin ortalama erişim gecikmesini verir Tablo 3, bu metin ile literatür yapısı arasındaki ortalama erişim gecikmesinin karşılaştırma sonucudur.

Tablo 3'ten görülebileceği gibi, en kötü durumda bu makalenin ortalama erişim gecikmesi (yani, çakışan uzaktan erişim) paylaşılan Önbelleğe kıyasla hala daha düşüktür; yerel Önbelleğe erişirken, bu makalenin erişim gecikmesi biraz artmaktadır, bunun nedeni Bulunduğunda, yönlendiricinin erişim gecikmesi nispeten büyüktür; uzak Önbelleğe erişirken, ortalama erişim gecikmesi önemli ölçüde daha düşüktür, bu da literatürden% 30 daha azdır.

Bu makaledeki dağıtılmış Önbelleğin ana donanım ek yükü (T + S) × N × W × P ile hesaplanabilir; burada T ve S, sırasıyla bayrak biti ve durum biti tarafından işgal edilen bit sayısını temsil eder; N, Önbellek gruplarının sayısını temsil eder; W, Önbelleğin ilişki derecesini temsil eder; P, işlemci çekirdeği sayısını temsil eder. Her işlemci çekirdeğine karşılık gelen Önbelleğin donanım yükü, yonga üzerindeki Önbellek kapasitesinin yalnızca% 5'ini oluşturan yukarıdaki formüle göre 1,6 KB olarak hesaplanır.

4. Sonuç

Yeniden yapılandırılabilir dizi işlemcisinin büyük miktarda bellek erişimi, bellek erişiminin düşük global yeniden kullanımı ve bariz konumu göz önüne alındığında, önbelleğin iki yönlü grupla ilişkili bir adres eşleştirme stratejisini benimsediği ve en az son kullanılan dağıtılmış bir Önbellek yapısı tasarlanır ve uygulanır. Değiştirme algoritması, bellek erişiminin paralelliğini iyileştirmek ve gecikmeyi azaltmak için Önbellek paylaşımına ulaşmak için yerel yüksek verimli çapraz çubuk anahtarları ve yönlendirmeyi kullanır. Xilinx'in FPGA geliştirme kartı tarafından doğrulanmıştır.Deneysel sonuçlar, çakışma olmaması durumunda, 16 PE'nin aynı anda okuma ve yazma istekleri gönderdiğini göstermektedir. Şu anda, bant genişliği 10.512 GB / sn'lik tepe değerine ulaşır ve donanım ek yükü çok küçüktür, bu yalnızca yonga üzerindeki Önbellek miktarıdır. Yeniden yapılandırılabilir dizi işlemcinin bellek erişim gereksinimlerini karşılarken% 5, yapının ölçeklenebilirliğini sağlar.

Referanslar

Wei Shaojun, Liu Leibo, Yin Shouyi. Yeniden yapılandırılabilir hesaplama işlemci teknolojisi. Science in China: Information Science, 2012 (12): 1559-1576.

Zhou Li. Verimli Yeniden Yapılandırılabilir Dizi Hesaplama: Mimari, Tasarım Metodu ve Program Haritalama Teknolojisi Üzerine Araştırma Changsha: Ulusal Savunma Teknolojisi Üniversitesi, 2014.

SCHMIDHUBER J. Sinir ağlarında derin öğrenme: genel bir bakış .. Neural Networks the Official Journal of the International Neural Network Society, 2014, 61: 85.

HAN X, ZHOU D, WANG S ve diğerleri.CNN-MERP: Evrişimsel sinir ağlarının ileri ve geri yayılması için FPGA tabanlı, bellek açısından verimli, yeniden yapılandırılabilir bir işlemci. IEEE, Uluslararası Bilgisayar Tasarımı Konferansı.IEEE, 2016: 320-327 .

ROMANOV A Y, ROMANOVA I I. Çipte ağların sentezi için düzensiz topolojilerin kullanımı IEEE, Uluslararası Elektronik ve Nanoteknoloji Konferansı, IEEE, 2011: 445-449.

YIN S, YAO X, LIU D, ve diğerleri.Kaba taneli yeniden yapılandırılabilir mimarilerde belleğe duyarlı döngü eşlemesi.Çok Büyük Ölçekli Entegrasyon Sistemlerinde IEEE İşlemleri, 2016, 24 (5): 1895-1908.

CONG J, HUANG H, MA C, et al.CGRA.IEEE'nin tamamen ardışık düzenlenmiş ve dinamik olarak birleştirilebilir mimarisi, Uluslararası Alan Programlanabilir Özel Hesaplama Makineleri Sempozyumu, IEEE, 2014: 9-16.

LIANG S, YIN S, LIU L, vd. Hesaplama yoğun harita hızlandırmayı azaltma için kaba taneli yeniden yapılandırılabilir mimari. IEEE Computer Architecture Letters, 2016, PP (99): 1-1.

Li Chongmin, Wang Hai, Li Zhaolin CMP'de önbellek tutarlılığı protokolü doğrulaması Elektronik Teknoloji Uygulaması, 2005, 31 (12): 1-4.

GALANIS MD, THEODORIDIS G, TRAGOUDAS S, ve diğerleri Hesaplamalı yoğun çekirdekleri hızlandırmak için yeniden yapılandırılabilir bir kaba graindata yolu. Journal of Circuits Systems and Computers, 2005, 14 (4): 877-893.

SWANSON S, SCHWERIN A, MERCALDI M, ve diğerleri, Dalga skalar mimarisi. Bilgisayar Sistemlerinde ACM İşlemleri, 2007, 25 (2): 1-54.

SOUZA J D, CARRO L, RUTZIG MB, et al. Homojen bir ISA ile yeniden yapılandırılabilir heterojen çok çekirdekli. Avrupa Konferansı ve Sergisinde Tasarım, Otomasyon ve Test. IEEE, 2016: 1598-1603.

DU Z, LIU S, FASTHUBER R, ve diğerleri.Yüksek verimli görüntü işleme için bir hızlandırıcı. Entegre Devrelerin ve Sistemlerin Bilgisayar Destekli Tasarımında IEEE İşlemleri, 2017, 36 (2): 227-240.

BECKMANN B M, MARTY M R, WOOD D A. ASR: CMP Önbellekleri için uyarlamalı seçici çoğaltma. IEEE / ACM Uluslararası Mikro Mimari Sempozyumu IEEE Bilgisayar Topluluğu, 2006: 443-454.

Zhao Xiaoyu, Wu Junmin, Sui Xiufeng, ve diğerleri. CMP'de dizin tabanlı işbirliğine dayalı önbellek tasarım şeması Bilgisayar Mühendisliği, 2010, 36 (21): 283-285.

yazar bilgileri:

Jiang Lin1, Liu Yang2, Shan Rui1, Liu Peng1, Geng Yurong2

(1. Elektronik Mühendisliği Okulu, Xian Posta ve Telekomünikasyon Üniversitesi, Xian 710121, Shaanxi; 2. Bilgisayar Bilimleri Fakültesi, Xian Posta ve Telekomünikasyon Üniversitesi, Xian 710121, Shaanxi)

Dünya Ekonomik Forumu Raporu: Fintech'in yol, mod ve sonuç dahil olmak üzere finans endüstrisinin rekabet ortamını nasıl bozacağına dair kapsamlı bir değerlendirme (1)
önceki
Hulunbuir çayırlarında karda kros seferi, Yakeshi tüm Subaru SUV'ları test sürüşü
Sonraki
Dashi Johnson seyirciye kadeh kaldırıyor, belli ki içemiyor! Çin'de "Game of the Brave" galası
Bant Boşluğu Referans Kaynağının Tek Olay Duyarlılık Analizi
Aylık SUV satışları 80.000'in üzerinde, ne bekliyorsunuz?
"Blog Makale Dizisi" S32DS IDE-Uygulama Mühendisliği Hata Ayıklaması İçin İpuçları Sık Sorulan Sorular (SSS)
Dünya 1,1 milyar ABD dolarını aştı! "Star Wars 8" bugün sinemalarda
"Sekiro: Shadows Die Twice" hakkında bilmeniz gereken 15 şey var
Ülkem harika! İlk yerli kuantum bilgisayar kontrol sistemi doğdu
Hangi Toyota Corolla veya Ralink daha uygun maliyetli?
Apple, otonom sürüş filoları için yeni lidar sistemleri kuruyor veya yüksek hassasiyetli harita toplamaya hazırlanıyor
Tony Leung ve Wu Yifan tüm Avrupa'da "Avrupalı Baskıncılar" ilk pozlama fotoğraflarını vurdu
Uydu Haberleşmesinde Modülasyon ve Demodülasyon Performansı Üzerine "Akademik Makale" Araştırması
Oyun Karakter Popülerlik Genel Seçim 2018 Erkekler Yarı Finali DAY1 Oylama Noktası
To Top