Eylül 2019'da, Ulusal Bilim ve Teknoloji Konseyi (NSTC), NITRD büyük veri ile üst düzey bilgi işlem araştırma ve geliştirme kurumları arasındaki çalışmalar hakkında bir rapor olan "Yüksek Performanslı Hesaplama, Büyük Veri ve Makine Öğreniminin Yakınsaması" raporunu yayınladı. Grup, geçtiğimiz yıl Ekim ayında aynı isimli bir toplantı yaptı.
Anahtar sonuç
(1) Bilimsel talebin yönlendirdiği veri hacmindeki hızlı artışla birlikte, yüksek performanslı bilgi işlem (HPC), büyük veri (BD) ve makine öğrenimi (ML) birleşmeye devam ediyor. Veri üretimi artık bir darboğaz değil, bunun yerine veri yönetimi, analizi ve muhakemesidir.
(2) Yarı iletken ölçeklendirmenin performans iyileştirmeye katkısı giderek azaldıkça, gelecekteki sistemlerin heterojenliği artmaya devam edecektir. Yeni uygulamaları daha etkili bir şekilde desteklemek için sistemin tamamen esnek olması ve düşük gecikme süresine sahip olması gerekecektir. Buna ek olarak, şu anda çok az güvenilir veri olduğundan, HPC simülasyonunda, büyük veride ve makine öğrenimi uygulamalarında karşılaşılan yaygın sorunların üstesinden gelmek için yeni araçlara ve kıyaslamalara ihtiyaç vardır.
(3) Gelecekteki bilgi işlem ekosistemi, mevcut bilgi işlem ekosisteminden farklı olacak ve uç bilgi işlem, bulut bilgi işlem ve yüksek performanslı bilgi işlemi birleştirme olasılığı daha yüksektir. Bu kusursuz ekosisteme ulaşmak için, yeni soyutlamalar ve hizmetler sağlamak için yeni programlama algoritmaları, dil derleyicileri, işletim sistemleri ve çalışma zamanı sistemlerine ihtiyaç duyulacaktır. Ağ ucunda (veri kaynağının yakınında) akıllı veri toplama veya veri sınıflandırmayı içeren "uç akıllı hesaplamanın" öneminin artması beklenmektedir.
(4) HPC, BD ve ML toplulukları, yüksek okulların hızlı ekosistem gelişimini gerçekleştirmek ve bu üç tür topluluğa daha etkin hizmet vermek için daha fazla işbirliği yapmalıdır. Veri analizi ve HPC simülasyonunun entegrasyonunda bir miktar ilerleme sağlanmıştır, ancak teknoloji ve organizasyondaki farklılıklar nedeniyle, HPC ve BD topluluklarını destekleyen yazılım ekosistemi tamamen farklı bir durum sunmaktadır.
Durum
HPC-BD-ML füzyonunun bir örneği, molekülleri, ilaç tepkilerini ve tedavi stratejilerini bir araya getirmeye adanmış Ulusal Kanser Enstitüsünde ABD Enerji Bakanlığı ve Ulusal Sağlık Enstitüleri tarafından yürütülen "Kansere Dağıtılmış Öğrenme Ortamı" (CANDLE) projesidir. Kanser hastalarının etkinliğini iyileştirmek için önemli bir zorluk alanındaki veriler. Her alanda, farklı uzman ekipleri, "üç zorluğu da çözen tek bir ölçeklenebilir derin sinir ağı kodu" oluşturmak için farklı ölçeklerde, modellerde ve simülasyonlarda farklı veri formları kullanır: temel protein etkileşimlerini anlama Moleküler biyolojinin ilkeleri; ilaç yanıtı için kullanılabilecek öngörücü modeller geliştirin; milyonlarca kanser hastası kayıtlarından bilgileri otomatik olarak analiz edip çıkartın ve en iyi kanser tedavi stratejisini belirleyin.
Diğer bir örnek ise Enerji Bakanlığı, sanayi ve akademi tarafından ortaklaşa başlatılan "İklim Analizi için Ekstra Ölçekli Derin Öğrenme" projesidir.Çok sayıda kurumdan araştırmacılar Enerji Bakanlığı'nın "Zirve" süper hesaplama sistemini kullanıyor. Eğitimli derin öğrenme modellerini kullanarak aşırı hava koşullarını tanıma. Araştırma ekibi, iklim bilimi topluluğunun gelecekte benzer olayların sıklığını ve yoğunluğunu karakterize etmesine yardımcı olacak, tropikal siklonlar ve atmosferik nehirler gibi aşırı hava modellerinin piksel düzeyinde maskelerini otomatik olarak çıkarabilen yenilikçi bir evrişimli bölümleme mimarisi geliştirdi. Proje 2018 Gordon Bell Ödülü'nü kazandı.
Fırsatlar ve Zorluklar
(1) Donanım
Hem simülasyon hem de veri analizi, bilgi işlem sisteminin yeteneklerine bağlıdır.Donanım heterojenliği değişen kullanıcı ihtiyaçları ile arttığında, sistem performansı da artacaktır. Yakınsamanın karşılaştığı temel donanım zorlukları arasında şunlar yer alır: tüm katmanların ara bağlantı verimliliği, yenilikçi araçlar ve evrensel uçtan-uca karşılaştırma paketleri, güç tüketimi, entegre bellek, ölçeklenebilir dosya sistemi, güvenilir ağ, dengeli donanım geliştirme vb.
(2) Çalışma modu
Geçmişte, büyük ölçekli deneyler temelde veri analizi için yerel bilgi işlem kaynaklarına dayanıyordu, ancak şimdi giderek artan bir şekilde HPC aracılığıyla gerçek zamanlı sonuçlar elde etmeye yöneliyorlar. Benzer şekilde, bazı makine öğrenimi ve derin öğrenme uygulamaları da eğitim için HPC kaynaklarına ihtiyaç duyar. Simülasyonun ölçeği ve karmaşıklığı, karmaşık iş akışlarının üstesinden gelmek ve makine öğrenimi aracılığıyla iş yüklerini otomatikleştirmek için bir uygulama da gerektirir. Dağıtılmış altyapının iş akışında HPC, simülasyon, veri analizi ve makine öğreniminin entegrasyonu açısından, uç akıllı bilgi işlem iyi bir örnek sağlar. Temel operasyonel model zorlukları şunları içerir: ML ve büyük ölçekli veri analizi için ölçeklenebilir araçlar ve yetenekler, yeni kullanıcı eğitimi ve desteği, yeni veri araçları ve hizmetleri ve iyi yönetilen uçtan uca çözümler.
(3) Yazılım
Son HPC sistemleri, simülasyonun tahmin işlevini makine öğreniminin analiz ve optimizasyon işlevleriyle birleştirebilir. Makine öğreniminde derin sinir ağlarının uygulanmasıyla, veri analizi artık geleneksel HPC iş yüklerinin hesaplama özelliklerine de sahip. Hem HPC hem de veri analiz sistemleri, tek bir bilgi işlem düğümünün performansını iyileştirmek için GPU'lar gibi hızlandırıcılar kullanır ve bu eğilim, bilgi işlem performansı genişlemesinin sınırlamalarını aşmaya devam edecektir. Başlıca yazılım zorlukları şunları içerir: sistem tasarımı, uç bilgi işlem veya uç akıllı bilgi işlem, sistem yönetimi, genel yazılım kitaplıkları vb.
Büyük veri geliştirme ve yüksek maaşlar [ücretsiz erişim] için eksiksiz bir gerekli kaynak seti
Oracle'ın kıdemli teknik direktörü, büyük verilerin geliştirilmesine tam olarak yardımcı olmak için uzun yıllar boyunca eksiksiz bir müfredat sistemi [büyük veri ve yapay zeka geliştirme için görülmesi gereken bir] oluşturdu Sıfır temel + giriş + iyileştirme + proje = yüksek maaş !
"Büyük Veri Sıfır Temeline Giriş"
"Büyük Veri Mimarisi Sistem Bileşenleri"
"Büyük Veri Komple Sistem Aracı Kurulum Paketi"
Java temel araçları
Büyük veriler için temel araçlar
"Büyük Veri Endüstrisi için Temel Bilgiler"
"Büyük veri butiği gerçek savaş vakası"
"Büyük Veri Kariyer Rehberliği Programı"
Söylenecek son şey, yukarıdaki öğreticinin nasıl alınacağıdır!
Nasıl alınır:
Hala binlerce yıldır değişmeyen eski kural
1. Yorum yazıları, kelime sınırı yoktur, tek kelime yeterlidir!
2. Xiaobian hayranı olun!
3. Özel Mesaj Editörü: "Büyük Veri Geliştirme Eğitimi"!
Hepinize teşekkür eder, iyi çalışmalar dilerim! (Öğreticiyi aldıktan sonra, çok çalışmalı ve daha fazla pratik yapmalısınız!)