Şangay Jiaotong Üniversitesi'nin yerel üniversitelerinde en güçlü AI bilgi işlem platformu nasıl oluşturulur? Süper DGX-2, AI + bilimsel araştırmayı hızlandırır

Bilgelik şeyler (herkese açık hesap: zhidxcom) metin | Xinyuan

Yapay zekanın tüm hızıyla geliştirilmesiyle birlikte, kolejler ve üniversiteler, temel araştırmanın ana temeli olarak, ilerleyen yapay zeka araştırma ve geliştirme ve uygulamalarının pankartını alıyor. YZ'nin gerektirdiği ultra yüksek hesaplama gücünün nasıl oluşturulacağı ve bilimsel araştırma sonuçlarının dönüşümünün nasıl hızlandırılacağı uzun zamandır gündemdedir.

Geçen yıl Kasım ayında, yerel üniversitelerdeki en güçlü AI bilgi işlem platformu resmi olarak açıldı. En yüksek 16PFLOPS bilgi işlem gücü ile, Şangay Jiaotong Üniversitesi'nin çeşitli bölümleri ve bilimsel araştırma kurumları için verimli hesaplama gücü desteği sağlar.

Bu AI bilgi işlem platformu, Şangay Jiaotong Üniversitesi Ağ Bilgi Merkezi'nin Bilgi İşlem Bölümü (bundan böyle "Bilgisayar Bölümü" olarak anılacaktır) tarafından oluşturuldu ve şimdi yapay zeka ve tipik HPC gibi bilimsel araştırma ve yenilik uygulamalarını yürütmek için 20'den fazla araştırma ekibini destekledi.

Son zamanlarda, Şanghay Jiaotong Üniversitesi Ağ Bilgi Merkezi mühendisi olan Zhishi ve Cheng Shenggan, yerel üniversitelerdeki en güçlü AI bilgi işlem platformunun arkasındaki hikayeyi anlamaya çalışırken derinlemesine bir alışveriş yaptı.

Şanghay Jiaotong Üniversitesi Ağ Bilgi Merkezi'nin bilgisayar odası

1. Yerel kolej ve üniversitelerdeki en eski yapay zeka bilgi işlem platformu, tüm kuyrukların kullanım oranı% 100'e yakındır

Shanghai Jiao Tong Üniversitesi Ağ Bilgi Merkezi'nin öncülü, 1973'te kurulan Şangay Jiao Tong Üniversitesi Bilgi İşlem Merkezi idi. Çin üniversitelerinde kurulan en eski ve en büyük bilgi işlem merkezlerinden biridir.

Merkez 2013 gibi erken bir tarihte, en yüksek performansa sahip heterojen bir HPC sistemi olan süper bilgisayar 1.0 üretti. 262TFLOPS , Haziran 2013'te küresel TOP500 süper bilgisayar sıralamasında 158. sırada, O zamanlar yerel üniversitelerde 1 numara ve Şangay'da 1 numara idi.

Yapay zeka araştırma ve geliştirme eğilimi akademik çevreyi kasıp kavurduğunda, daha fazla bölüm araştırma ve geliştirme sonuçlarını hızlandırmak için yapay zekayı kullanmayı umuyor. Sınırlı bilgi işlem kaynakları ve karmaşık donanım dağıtım süreçleri, önlerinde duran ana engeller haline geldi.

Şu anda, güçlü bir bilgi işlem gücü temeline sahip istikrarlı ve olgun bir kaynak planlama platformu katı bir talep haline geldi. İsteğe bağlı olarak AI bilgi işlem gücünü tedarik edip dağıtabilir ve uzman teknik, operasyon ve bakım ekipleri tarafından desteklenir.

Bu, daha fazla araştırma ekibinin, kendi başına donanım ekipmanı satın almak zorunda kalmadan ve çevresel yapılandırma ve uygulama dağıtımına zaman harcamadan yapay zeka hesaplamasının ihtiyaçlarını karşılamasını sağlayacak, bunun yerine kendi bilimsel araştırma projelerine daha fazla odaklanacak.

Evet gibi yerli çoğu Yapay zeka alanına erken katılan üniversitelerden biri Şangay Jiaotong Üniversitesi, Çok sayıda AI bilgi işlem ihtiyacı.

Süper bilgisayarların yinelemesiyle aynı zamana denk gelen Shanghai Jiaotong Üniversitesi'nin AI bilgi işlem platformu, 2018'de kurulan 2.0'a dayanıyor. Çin'deki üniversiteler için en eski birleşik yapay zeka hesaplama platformlarından biri.

Shanghai Jiaotong Üniversitesi'nin AI bilgi işlem platformu, tüm okul için istikrarlı ve güçlü GPU kaynak planlaması sağlar ve ayrıca okul dışındaki kullanıcıların bilgi işlem kaynaklarına başvurmalarını destekler. En yüksek bilgi işlem gücü 16PFLOPS'a ulaşır.

Şangay Jiaotong Üniversitesi Ağ Bilgi Merkezi Sunucusu

2.0 kümesi, ekipmanın kurulumuna ve dağıtımına Nisan 2019'da resmi olarak başladı. Cheng Shenggan da bu dönemde bu yeni projenin tanıtımına katılmaya başladı. Bilgisayar odası dönüşümü, soğutma ekipmanlarının kapasitesinin artırılması, kurulum ve devreye alma gibi bir dizi işlemin ardından, 2.0 resmi olarak Kasım 2019'dan itibaren okula açıldı.

Cheng Shenggan, Aralık 2019'da bunu açıkladı Şangay Jiaotong Üniversitesi'nin AI bilgi işlem platformunun tüm kuyruğunun kullanım oranı% 100'e yakın, GPU kullanım oranı% 70'e ulaşıyor, AI ile ilgili yük% 75'e ulaşıyor ve kalan% 25, bazı yüksek performanslı bilgi işlem yükü.

2. Bir yapay zeka bilgi işlem platformu oluşturmak, Şangay Jiaotong Üniversitesi'nin üç avantajı

Üniversitelerin bilimsel araştırma ortamında, bir yapay zeka hesaplama platformu oluşturmak kolay değildir ve en az üç zorlukla karşı karşıyadır.

Birincisi, devasa veri ve muazzam bilgi işlem ihtiyaçları. Hem AI hem de HPC büyük miktarda veri gerektirir ve AI bilgi işlem platformlarının yüksek veri işleme özelliklerine, depolama özelliklerine ve ağ özelliklerine sahip olması gerekir.

İkincisi, çevresel konfigürasyon. AI ve HPC uygulama çerçeveleri, kitaplıklar, sürücüler ve diğer karmaşık bileşenler çok hızlı bir şekilde güncellenir ve yinelenir, tüm platformun yazılım yığınını korumak ve yazmak için çok fazla insan gücü gerektirir.

Üçüncü olarak, kaynak planlaması . Yapay zeka bilgi işlem platformunun, eksiksiz bir kaynak planlama sistemine ve küme bilgi işlem kaynaklarını esnek bir şekilde planlayabilen, farklı yükler arasında karşılıklı etkileşimi önleyebilen ve uygulama işletim verimliliğini artırabilen sağlam küme yönetimi araçlarına sahip olması gerekir.

Ancak bu, küme dağıtımında uzun yıllara dayanan deneyime sahip Jiaotong Üniversitesi'nin Bilgi İşlem Bölümü için zor değildir. Cheng Shenggan, ekibinin yapay zeka hesaplama platformu oluştururken Üç temel avantaj :

Her şeyden önce, Birinci nesil süper bilgisayar 1.0'ı oluştururken, Ağ bilgi merkezi, zengin bir kullanıcı tabanı, güçlü bir işletim ve bakım ekibi ve olgun bir küme yönetimi deneyimi biriktirdi , Küme sisteminin kararlı çalışmasını sağlamak için.

İkinci olarak, Şangay Jiaotong Üniversitesi, GPU hesaplama hizmetleri sağlayan ilk üniversitelerden biriydi.

GPU, büyük ölçekli derin öğrenme eğitimini ve bazı tipik HPC görevlerini yerine getirmede iyidir, Şangay Jiaotong Üniversitesi ise temel bilimsel araştırmalar için GPU kullanımında uzun yıllara dayanan birikime sahiptir ve gelişmiş GPU ekipmanı ve kampüs içi bilgi işlem ihtiyaçlarını iyi bir şekilde anlar.

Buna ek olarak, Bilgi İşlem Departmanı ayrıca yenilikçi bir "geniş kapsamlı" hizmet modeli önerdi.

Bilgi İşlem Departmanı, üst düzey bilimsel araştırma kullanıcılarına zengin teknik destek sağlamak için süper bilgisayarı kullanır ve okulun bilimsel araştırma geliştirmesini desteklemek ve katalize etmek için çok disiplinli araştırmalarla yakından bütünleşir.

3. Yüksek bilgi işlem gücü kümesinin arkasında: DGX-2 bir performans patlaması getiriyor

Yapay zeka bilgi işlem platformunun kendisine odaklanarak, bu kadar yüksek bir bilgi işlem gücü nasıl elde edilebilir? Altta yatan altyapıyı dağıtma sürecinde, Shanghai Jiaotong Üniversitesi Bilgi İşlem Bölümü hangi seçilmiş kavşaklarda durdu?

Cheng Shenggan ile yapılan alışverişlerden üç önemli noktayı daha çıkardık.

1. Donanım seçimi: Süper yapay zeka hesaplama güç kümesi oluşturmak için 8 DGX-2

GPU, derin öğrenme eğitim performansı ve eksiksiz ekoloji açısından diğer hesaplama cihazlarından daha bariz avantajlara sahip olduğundan, Jiaotong Üniversitesi Bilgi İşlem Bölümü, temel bilgi işlem gücü desteği sağlamak için 8 NVIDIA DGX-2 sunucusunu kullanmayı seçti.

NVIDIA DGX-2 kabini

Bu seçim için iki ana husus vardır. Birincisi, GPU'nun derin öğrenme eğitim performansı ve tam ekolojide kendi avantajları vardır.İkincisi, Şangay Jiaotong Üniversitesi, GPU hesaplama ekipmanını kullanma ve bilgisayar kümeleri oluşturma konusunda uzun vadeli deneyime sahiptir.

Ve DGX-2, NVIDIA GPU'nun ultra yüksek bilgi işlem ve depolama yeteneklerinin ustasıdır. NVIDIA, GPU'lar ve kümeler arasındaki ara bağlantı bant genişliğini etkin bir şekilde artırmak için çeşitli ara bağlantı teknolojileri kullanır.

Her DGX-2'de 16 dahili NVIDIA Tesla V100 GPU bulunur.Cheng Shenggan, DGX-2'nin 16'ya kadar GPU ara bağlantısını destekleyebilen ve GPU'lar arasındaki toplam çift kanallı bant genişliğini 2,4 TB'a çıkarabilen NVIDIA NVSwitch yenilikçi ara bağlantı teknolojisi ile donatıldığından özellikle bahsetti. / s.

DGX-2 ayrıca ölçeklenebilir bir mimari benimser, böylece modelin karmaşıklığı ve uygulamanın ölçeği geleneksel mimarinin sınırlamalarıyla sınırlı değildir.8 DGX-2, derin öğrenme tensör hesaplama kapasitesinin 16PFLOPS'a ulaşmasını sağlar ve yerel NVMe depolaması 300 TB'a ulaşır. Pek çok karmaşık yapay zeka ve HPC zorluğunun üstesinden gelmek için.

DGX-2'nin donanım performansı avantajları, önceden GPU sunucuları tarafından desteklenmesi zor olan büyük ölçekli AI ve HPC uygulamalarını desteklemesine olanak tanır.

Örneğin, Şangay Jiaotong Üniversitesi Yaşam Bilimleri Fakültesi'nden bir ekip, tek parçacıklı kriyo-EM görüntü işleme için bir yazılım çerçevesi olan Relion üzerinde çalışıyor ve kullanılan veri seti 1 TB kadar yüksek. Bu, sıradan bir GPU sunucusu için çok büyük, ancak Şangay Jiaotong Üniversitesi'nin AI hesaplama platformunun yardımıyla ekip, DGX-2 tam makinesinin 6 düğüm ve 8 kartlı yapılandırmasını kullanarak bilgi işlem görevini başarıyla tamamladı.

2. Yazılım optimizasyonu: GPU'nun etkin kullanımını iyileştirmek için donanımla işbirliği yapın

Yüksek performanslı bir donanım altyapısı ile düşünmemiz gerekiyor GPU'nun etkin kullanımı nasıl daha iyi garanti edilir? . Bu bağlamda, Cheng Shenggan'ın ekibi işin üç yönüne odaklandı.

(1) DGX-2 ve 2.0 kümeleri tarafından paylaşılan bir paralel dosya sistemi oluşturulur.Bu dosya sistemi artı DGX-2 yerel NVMe depolaması, veri aktarım hızının büyük ölçekli veri işleme görevlerini üstlenebilmesini sağlar.

(2) AI bilgi işlem platformunun mevcut durumuna göre, SLURM iş planlama sistemi ve Singularity konteyner teknolojisi, kullanıcı işlerinin göreceli bağımsızlığını sağlamak, kaynak izolasyonunu etkili bir şekilde gerçekleştirmek ve kullanıcılara en yüksek verimlilikle en iyi performans uygulama desteğini sağlamak için birleştirilir.

(3) Yazılım dağıtım sürecini daha da optimize etmek için kullanıcılara NGC aracılığıyla özel olarak optimize edilmiş konteyner görüntüleri sağlayın.

Uygulamaları doğrudan DGX-2 üzerinde çalıştırmak, karmaşık derleme süreci, uygulama optimizasyonunun en son donanıma uyarlanması, yapay zeka saha deneyinin yeniden üretilmesi ve çevresel yönetim zorlukları gibi sorunlarla karşılaşabilir. Bu nedenle, kullanıcıların mükemmel performansa sahip, kullanıma hazır bir uygulama dağıtım çözümüne ihtiyacı vardır. , Ve NGC iyi bir seçimdir.

NGC, NVIDIA'nın GPU için optimize edilmiş AI ve HPC yazılım yığını için bir konteyner platformudur. 50'den fazla ilgili uygulama ve çerçevenin görüntülerini sağlar, bu da yazılım dağıtım sürecini ve yazılım ve donanım işbirliğine dayalı ayarlama sürecini basitleştirir.

Örneğin, ImageNet veri kümesinde ResNet50'yi eğitmek için PyTorch kullanıldığında, NGC'nin kapsayıcı görüntüsü açık kaynak sürümünden önemli ölçüde daha hızlıdır.

3. Deneyim yükseltmesi: süper hesaplama platformuyla birleşik giriş

Yapay zeka bilgi işlem platformu, yapay zeka bilgi işlem platformu için bağımsız bir giriş oluşturmak veya süper hesaplama sistemi ile birleşik bir giriş kullanmasına izin vermek için 2.0 kümesi üzerine inşa edildiğinden, bilgi işlem departmanı bunu kasıtlı olarak test etti.

Kullanıcı geri bildirimlerini test ettikten sonra, birleşik portal, yönetim verimliliği ve kullanıcı deneyimi açısından daha iyidir.

Eski süper bilgisayar kullanıcıları için, süper bilgisayar 1.0 kullanıcıları, yeni bilgiler öğrenmeden yapay zeka hesaplama platformlarının kullanımında hızla ustalaşabilir.

Okuldaki yeni kullanıcılar için birleşik giriş, süper hesaplama platformları ve AI bilgi işlem platformlarındaki öğrenme maliyetlerini de azaltabilir.

Dördüncüsü, en yüksek artış 18.000 kattır! Süper AI platformu, birden fazla bilimsel araştırmanın verimliliğini artırır

AI bilgi işlem platformunun açılması, AI işleme görevleri için eşiği daha da düşürecek ve daha verimli bilimsel araştırmalar elde etmek için daha fazla bilimsel araştırmacının AI hesaplamasını kullanmasına yardımcı olacaktır.

Önceden, okul düzeyinde yüksek performanslı bilgi işlem kamu hizmeti platformu olarak as1.0, Science ve Nature gibi üst düzey dergilerde yayınlanan bilim, mühendislik, öğrenciler ve tıp üzerine birçok çalışmayı desteklemişti. Bugün, AI bilgi işlem platformu tarafından desteklenen birçok bilimsel araştırma projesi ve makale, önemli akademik konferanslara ve dergilere de gönderilmiştir.

Bu ay itibarıyla, Şangay Jiaotong Üniversitesi'nin AI bilgi işlem platformu, Shanghai Jiaotong Üniversitesi Yapay Zeka Araştırma Enstitüsü, Bio-X Araştırma Enstitüsü, Michigan United College ve diğer bölümlerin araştırma ekiplerine bilgi işlem yapay zekası ve HPC uygulamalarını optimize ederek bilimsel araştırmanın verimliliğini 18.000'e kadar artırmada yardımcı oldu. Zamanlar.

Cheng Shenggan bizi dört tipik uygulama ile tanıştırdı.

1. AI uygulaması: ikili sinir ağı

Araştırma, Elektronik Bilgi ve Elektrik Mühendisliği Okulu'ndan bir ekip tarafından yapıldı. Veri okumayı hızlandırmak ve optimize etmek için Tensor Core karma hassasiyeti kullanırlar, 4 NVIDIA 1080Ti (saniyede 103 görüntü) ile bir sunucuda önceki çalışmadan daha hızlı olan saniyede 6826 görüntü eğitim hızı elde etmek için bir DGX-2 kullanarak ) 66,3 kat artış.

2. AI uygulaması: AlphaGo eğitimini hızlandırmak için pekiştirmeli öğrenmeyi kullanın

Bu araştırmayı yapan ekip ayrıca Elektronik Bilgi ve Elektrik Mühendisliği Okulu'ndan geldi ve NVIDIA MPS teknolojisini kullanarak 8 DGX-2 kullanarak yük dengesini ayarladı.

Eskiden iki NVIDIA Tesla v100 kartıyla 500.000 tur kendi kendine oyun eğitmek 35 gün sürüyordu. Artık eğitimi tamamlamak yalnızca 34,8 saat sürüyor.

3. AI uygulaması: derin öğrenmeye dayalı hava kirliliği tahmini

Araştırma ekibi Çevre Bilimi ve Mühendisliği Okulu'ndan geliyor. Ülke çapındaki emisyonlar ve hava dağılımı ile kirletici madde dağılımı arasındaki eşleştirme ilişkisini öğrenmek için, kodek yapısıyla birlikte Conv-LSTM modelini kullanırlar.

DGX-2 tekli makineyi kullandıktan sonra, sistem eğitimi yineleme hızı önceki NVIDIA P100'den 31,6 kat daha hızlıdır.

4. HPC uygulaması: Fonon Boltzmann denklemini çözün

AI eğitimi için bilgi işlem gücü sağlamanın yanı sıra, AI bilgi işlem platformu HPC uygulamalarını da destekleyebilir. Örneğin, Michigan Union College, Boltzmann fonon denklemini çözmek için bu platformu kullanıyor.

Başlangıçta bu hesaplamayı bir CPU ile yapmak 2 hafta sürdü. 8 DGX-2'yi kullandıktan sonra, hesaplama süresi 2 dakikaya sıkıştırıldı, bu eskisinden tam 18.000 kat daha hızlıydı.

Sonuç: AI bilgi işlem platformu, daha fazla bilimsel araştırma yeniliğini katalize edecek

Şangay Jiaotong Üniversitesi Ağ Bilgi Merkezi Bilgi İşlem Bölümü direktörü Lin Xinhua şunları söyledi: Yapay Zeka, bilimsel araştırmanın dördüncü aracı olarak uluslararası bir trend haline geldi ve dünyaca ünlü üniversiteler ve araştırma enstitüleri, yeni hesaplama platformları oluştururken hem sayısal hem de yapay zeka hesaplamaları sağladılar. Tam değerlendirme. NVIDIA DGX-2 ve NGC konteyner platformu gibi gelişmiş donanım yapılandırması ve yazılım yığını çözümleri, üniversitelerin bilimsel araştırma ortamında AI bilgi işlem platformları oluşturmanın karşılaştığı birçok sorunu çözdü, disiplinlerin ilerlemesini hızlandırdı ve disiplinlerin entegrasyonunu teşvik etti. "

Lin Xinhua, AI bilgi işlem platformunun yalnızca tüm okul için bir bilgi işlem hizmet platformu değil, aynı zamanda disiplinler arası ve bilimsel araştırma inovasyonu için bir platform olduğuna inanıyor.Bu temelde, tipik yüksek performanslı bilgi işlem uygulamaları, yapay zeka ve büyük verilerin derinlemesine araştırma ve inovasyonunu gerçekleştirebilir.

Ardından, Şangay Jiaotong Üniversitesi Ağ Bilgi Merkezi'nin Bilgi İşlem Bölümü, daha fazla kullanıcıyla derinlemesine işbirliği yapmak, daha fazla araştırma alanında derinlemesine işbirliği başlatmak, daha fazla bilimsel hesaplama problemini çözmek ve Jiaotong Üniversitesi'nin bilimsel araştırma düzeyini iyileştirmeye yardımcı olmak için AI bilgi işlem platformunu kullanmayı umuyor.

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

Suifenhe: Gizlenme raporu, yanlış hastalık raporu ve diğer ipuçları doğru olduğu doğrulandı ve 2.000 RMB ile ödüllendirildi
önceki
Askeri teknoloji ablukasından anti-salgın başarılara kadar, yerli kızılötesi çipler on yılda arttı
Sonraki
"Oxford English Dictionary" güncellemesi: Salgın dilimizi nasıl etkiledi?
Uzun tatil için geri sayım yapın ama bu Pazar günü işe gitmeyi unutmayın! Dördüncü Mayıs Hareketi sırasında tatil boyunca fazladan yarım gün olacak mı?
2020'nin ilk çeyreğinde Zhoujiaqiao Caddesi'nde "iki yeni" parti örgütünün sekreterinin olağan toplantısı
Kamu Güvenliği Bakanlığı, telekomünikasyon dolandırıcılığının en kapsamlı yöntemini yayınladı
İyi insanlar 365 "Aşk adına, özveri kalbi"
87 yaşındaki 87 yaşındaki parti üyesinin son bağışları
Derinlik İki büyük organizasyon yardım etmek için güçlerini birleştiriyor, e-spor ne zaman Olimpiyatlara girecek?
2020 Malezya Turizm Yılı iptal edildi, Malezyalı turizm personeli ne yapmalı?
Bulut Semineri | Song Yuanming'in Çarpışması: Para Tarihi ve Finansal Tarih Üzerine Yeni Düşünce
Makaleleri okumak için "Platin Büyük Tanrı" yazarlarının listesi daha çeşitli web makaleleri ile birlikte yayınlandı
Haftanın yeni spor ürünleri | Sıçrayan mürekkep tabanlı Nike fitilli yeni ayakkabı, Yeezy outdoor terlikleri görücüye çıktı
Eve gitmek güzel! Çok sayıda Meitu, karantinadan kaldırılan Pudong destekli Meleklerin son partisini kaydeder.
To Top