Yüz bin sunucu ikinci düzey denetim Tencent Cloud, günlük yönetim için AIOps'u nasıl kullanıyor?

Takip etmek için tıklayın InfoQ , Yapışkan resmi hesap

Programcının saat 8'de teknik kahvaltısını alın

1 Editörün notu

AIOps, Gartner tarafından tanımlanan yeni bir kategori olan Algoritmik BT Operasyonlarını (Algoritmik BT Operasyonları) ifade eder ve sektörün daha önce ITOA (IT Operations and Analytics) dediğinden türetilmiştir. Geleneksel BT operasyon ve bakım görevlerini ve süreçlerini otomatikleştirmek için veri bilimi ve algoritmaların kullanıldığı bir çağa ulaştık. Algoritmalar, şirketlerin işletim ve bakım çalışmalarını daha da basitleştirmelerine yardımcı olmak ve insanları zaman alıcı ve hataya açık süreçlerden kurtarmak için araçlara entegre edilmiştir.

Geçtiğimiz birkaç yıl içinde Docker, OpenStack ve Puppet gibi yeni teknolojiler ortaya çıktı ve popüler hale geldi ve CI / CD ve DevOps gibi kavramlar kök saldı.Akıllı işletim ve bakım yöntemlerinin kullanımı, operasyon ve bakım verimliliğini artırmaya ve iş gücü ve süreçleri azaltmaya yardımcı oldu. Operasyonların neden olduğu operasyon ve bakım hataları, şirketler için otomatik operasyon ve bakım kısıtlamalarını aşmanın en iyi yolu haline geldi ve "AIOps" (Algoritmik BT Operasyonları) ortaya çıktı.

Büyük ağ hizmetlerine dayanan Tencent Cloud, İnternet portalı çağının, WEB2.0 çağının ve mobil İnternet çağının tarihsel değişimlerinde farklı ürün formlarının teknik zorluklarını deneyimledi ve kademeli olarak bir dizi olgun akıllı işletim ve bakım sistemleri ve stratejileri biriktirdi. 200.000'den fazla birimin ekipman ölçeğinin ikinci seviye kontrolünü gerçekleştirmektedir.

Bu makale, Tencent Cloud'un dokuma bulut sisteminin yapım sürecini birleştirecek ve Tencent Cloud'un diğer şirketler için AIOps'u uygulamak için akıllı depolama ve entegre verilerin analizi yoluyla BT sisteminin her bir bağlantısındaki sorunları nasıl hızlı bir şekilde bulabileceğini, giderebileceğini ve tahmin edebileceğini ayrıntılı olarak açıklayacak. Uygulama bazı yöntemler, fikirler ve çözümler sağlar.

2 Tencent Cloud otomatik işletim ve bakım sistemi ve inşaat fikirleri

Tencent Cloud'un akıllı işletim ve bakım sistemi bir gecede tamamlanmaz.AIOps ile ilgili teknolojiler, AI perspektifinden, esas olarak makine öğrenimi algoritmalarını ve büyük veri ile ilgili teknolojileri içerir. Ops perspektifinden, esas olarak operasyon ve bakım otomasyonu ve operasyon ve bakım izleme ile ilgilidir. İlgili teknoloji. Bu nedenle, AIOps, son derece sofistike işletim ve bakım otomasyonu temelinde oluşturulmalıdır.Sadece AI'da Ops yoktur ve AIOps'dan bahsedilemez. AIOps hakkında konuşmadan önce, Tencent Cloud'un otomatikleştirilmiş işletim ve bakım sisteminin genel işletim ve bakım çerçevesine bir göz atalım.

İşletme ve bakım nesnesi tanıma

İşletme değeri odaklı bir işletim ve bakım sistemi oluşturmak için yapılacak ilk şey, işletim ve bakım nesnelerini belirlemektir.İşletme ve bakım nesnelerini daha iyi sınıflandırmak ve yönetmek için Tencent Cloud, işletim ve bakım nesnelerini mimari katmanlara ayırır ve bunları ağlara, cihazlara ve Altı sistem, bileşen, iş ve kullanıcı katmanı.

(Şekil Operasyon ve bakım nesnelerinin hiyerarşik bölümü)

Şekil, operasyon ve bakım nesnelerinin hiyerarşik yapısını göstermektedir. Aşağıdan yukarıya, alt katman, esas olarak kaynak izleme, bulut kaynakları, anahtarlar ve yük dengelemeyi içeren ağ kaynak katmanıdır; bunun üzerinde, esas olarak ana bilgisayardan sorumlu olan cihaz kaynak katmanı yer almaktadır. İzleme, işlem durumu izleme ve kaynak havuzu yönetimi ve üst katman, temel olarak kullanıcı / şifre yönetimi, sistem başlatma, işletim sistemi / çekirdek ve temel aracılar olan sistem kaynak katmanıdır; API arayüz katmanı, kaynak katmanı iş katmanı ve kaynak katmanı arasında bölünmüştür. Mantık katmanı ve veri katmanı esas olarak bileşen seçimi, izleme, paket yönetimi ve konfigürasyon yönetimi için kullanılır; iş katmanı iş mimarisi, dağıtım, felaket toleransı ve izlemeyi içerir; üst katman, cep telefonu modelleri, zamanlama yöntemleri ve izleme dahil olmak üzere kullanıcı tarafı uyarlamadır. Ve diğer modüller, hiyerarşik soyut yönetim, donanım çalıştırma ve bakım nesnelerini ve uygulama çalıştırma ve bakım nesnelerini daha net hale getirebilir.

(Şekil Çalıştırma ve Bakım Nesne Modeli)

Farklı işlem ve bakım nesneleri, yapılandırma özniteliklerini, iş özniteliklerini, izleme özniteliklerini ve araçla ilgili öznitelikleri içerir.Her öznitelik, işlem ve bakım nesnelerinin yaşam döngüsündeki değişikliklerle birlikte değişir.

CMDB konfigürasyon yönetimi

Çalışma ve bakım nesnelerinin tanımlanması, soyutlanması, standardizasyonu ve yapılandırılması yoluyla CMDB, kayıt, tüketim, güncelleme ve diğer işlem ve bakım nesnelerinin eylemlerini daha rahat bir şekilde modelleyebilir, böylece işletim ve bakım için çevrimiçi bir deneyim veritabanı oluşturabilir ve işletme ve bakıma izin verebilir. Çalışma modu birleştirilmiştir. Tencent Zhiyun CMDB, tüm işletim ve bakım nesneleri ile iş modelleri arasında bir ilişki ilişkisi kurar ve işletim ve bakım nesneleri arasındaki ilişki analizi için veri desteği sağlar.

(Resim Zhiyun CMDB modeli)

Yukarıdaki resim, standart model ve özel mantık CI'ya bölünmüş Tencent Zhiyun CMDB yönetim modelini göstermektedir. Standart model, temel veritabanı yapılandırma yönetimi için iş ağacı, sunucu, ağ ayarları, IDC, özel hat / dışa aktarma ve uygulama modüllerini içerir. Kendi kendini tanımlayan mantık CI, standart bileşen CI ve kullanıcı tanımlı CI sağlar, kullanıcılar parametre ayarlarını iş ihtiyaçlarına göre özelleştirebilir.

İşletme ve bakım nesnesi yönetimi

Operasyon ve bakım nesneleri soyutlandıktan, yapılandırıldıktan ve modellendikten sonra, CMDB'yi tasarlarken çok önemli bir senaryonun çözülmesi gerekir: CMDB verilerini operasyon ve bakım araçları, izleme sistemi ve CMDB'yi belirleyen üretim ortamı ile tutarlı tutmak Uygulamanın gerçekten uygun olup olmadığı.

(Şekil Çalıştırma ve bakım nesnesi yaşam döngüsü yönetimi)

Tutarlı bir ortam sağlama açısından Zhiyunun çözümü, işletim ve bakım nesnesinin tüm yaşam döngüsünden başlamak ve depolama, başlatma, değiştirme, çalıştırma ve çevrimdışı gibi işletim ve bakım yaşam döngüsünün farklı aşamalarında sağlamaktır. Bu aşamada gerekli olan operasyon ve bakım işlemlerini tamamlamak için standart araçlar veya süreçler. Aynı zamanda CMDB verilerinin okuma ve yazma senaryoları kontrol edilerek, CMDB ile üretim ortamı arasındaki veri tutarlılığı garanti edilir, böylece operasyon ve bakım platformunun çalışması izlenebilir ve denetlenebilir.Bu sırada operasyon ve bakım değişikliği operasyonu ile izleme alarmı arasındaki bağlantı kurulacaktır. Veri tabanı.

(Şekil: İşletim ve bakım kontrol işleminin soyutlanması)

Güçlü CMDB yapılandırma verilerinin desteğiyle, ardından işletme ve bakım araçlarının işletim ve bakım araçlarıyla yönetimi ve çalıştırılmasıyla Zhiyun, tüm işletim ve bakım kontrol işlemlerini bir "kaynak aktarım yürütme" süreci olarak özetler ve buna göre tasarlanmıştır. Dokuma bulut aracı platformu.

Zhiyun araç platformu, operasyon ve bakımın atomik operasyonunu uygular ve versiyonlama, yetkilendirme, zamanlama görevleri ve ilgili operasyon ve bakım nesneleri gibi farklı yönetim enlemleri için destek sağlar. Atomik aletlerin düzenlenmesi yoluyla, karmaşık operasyon ve bakım senaryolarında birden fazla aletin yürütülmesini desteklemek için araçlar arasında seri çağrılar gerçekleştirilir.

(Resim sahnesine dayalı alet zinciri ve alet düzenlemesi)

PaaS'nin standardizasyonu ve çeşitlendirilmesi

Zhiyun platformunun çözümündeki operasyon ve bakım otomasyonu, temel veri temeli olarak CMDB ve senaryo odaklı çözüm olarak araç zinciri ile bir çözüm olarak soyutlanmıştır. Operasyon ve bakım sürecindeki ortak sürüm, değişim ve toplu operasyon senaryoları için, aletlerin düzenlenmesi yoluyla, sık yapılan operasyon ve bakım operasyonları, operasyon ve bakım operasyonlarının birleştirilmesi ve standardizasyonu ve kurallara dayalı olarak senaryo bazlı bir alet zincirine dönüştürülür. İşletme ve bakımın otomasyonu.

Bu, yalnızca işletim ve bakım işlemlerinin işletim ve bakım deneyimine olan bağımlılığını azaltmakla kalmaz, aynı zamanda alet zincirinin standardizasyonu yoluyla işletim ve bakım işlemleri riskini büyük ölçüde azaltır. Ayrıca Zhiyun, operasyon ve bakımın ilgili işletmelerinin standartlaştırılmış araç ve süreçlerini esnek bir şekilde birleştirebilmesi için soyut atomik aletler ve iskele sağlar.Bin kişilik PaaS kapasitesinden, bin kişinin iş operasyon ve bakım sahnesini destekler.

(Şekil: Bin kişinin bir tarafında işletim ve bakım için PaaS çözümü)

3 Zhiyun üç boyutlu izleme çözümü

Tencent Cloud'da işletme ve bakım, teknik operasyon olarak adlandırılır.Adından da anlaşılacağı gibi, bakım çalışmalarına ek olarak, işletme ve bakım ekibi, teknik verileri kullanma ve madencilik sorumluluğunu da üstlenir. Teknik veriler için en doğrudan kullanım senaryosu, hizmet kalitesinin izlenmesi ve uyarılmasıdır. Tencent Cloud, işletme ve bakımda iş kalite güvencesi tanımını üç boyuta ayırır:

İzleme kapsamı, durum geri bildirimi, indeks ölçümü. İzleme, kör noktalar olmadan 360 derece olmalı ve işletmedeki herhangi bir sorun bulunabilir.İzleme geri bildirimi ile gerçek zamanlı izleme durumunu görebilirsiniz.Aynı zamanda, göstergeler değiştiğinde bazı geri bildirimler görmeniz gerekir.

Uyarılar-zamanlılık, doğruluk ve erişim. İşletmeler gittikçe daha fazla seviyeyle daha karmaşık hale geliyor, her izleme noktası veri göstergeleri, anormal durum üretecek ve giderek daha fazla alarm alacak. İşlenmemiş olanı görmemenizden veya görmemenizden sorumlu tutulmanız gerekir, çünkü hepsi yanlış alarm almadı. En önemli şey erişim oranıdır, alarmı kim yayınlar ve idare eder?

Operasyon-RCA, olay yönetimi, istatistiksel raporlar ve değerlendirme. Sorunlar yeniden ortaya çıkar ve kaynaktan optimize edilmelidir. Olay yönetimi mekanizması, RCA'nın uygulanabilmesini sağlar ve son olarak, raporlar ve değerlendirmeler yoluyla, işletim ve bakıma, mimari ve kodun optimizasyonu dahil olmak üzere ilgili optimizasyon faaliyetlerinin geliştirilmesini teşvik etme hakkı verilir.

(Şekil kalite güvencesinin üç enlemi)

CMDB'nin operasyon ve bakım nesnelerini yönetme fikrine göre, kalite güvence senaryolarında, üç boyutlu bir izleme sistemi kurmanın, her mimari seviyede izlenen işletme ve bakım nesnelerini ve işletme ve bakım izleme sistemindeki işletme ve bakım nesnelerinin ürettiği izleme verilerinin rolünü netleştirmesi gerekir. Dağıtılmış hizmetler ve yüksek kullanılabilirlik mimarisi gibi teknolojilerin etkisi altında, iş mimarisi gittikçe daha mükemmel hale geliyor. Operasyon ve bakım izleme için, "tam, doğru ve hızlı" elde etmek için anormallikleri düzenli bir şekilde bulma, analiz etme ve bulma yeteneğini gerçekleştirmek. İzleme verilerini kullanın.

İzleme yetenekleri oluştururken, Zhiyun İzleme Sistemi izleme göstergelerini iki kategoriye ayırır:

  • Düşük seviyeli göstergeler. Genel ve altyapı gibi iş mantığının altındaki göstergelere ağ, donanım, sanallaştırma vb. Gibi düşük seviyeli göstergeler denir.

  • Üst düzey göstergeler. Başarı oranı, gecikme, talep oranı vb. Gibi üst düzey göstergeler işletmenin kullanılabilirliğini daha doğrudan geri besleyebilmelidir.

Bir şirket, üst düzey göstergelerin rolünü düşük düzeyli göstergelerle değiştirirse, kalite yönetimi kolayca karmaşık ve kafa karıştırıcı hale gelecektir. Bu nedenle, izleme işlemeyi veya izleme stratejilerini optimize etmeyi planlarken, Zhiyun izleme sistemi düşük seviyeli göstergeleri otomatik araçlara devretmek veya yakınsama için yüksek seviyeli göstergeler kullanmak için elinden gelenin en iyisini yapmaya çalışır. Hizmet kalitesini ölçerken, yüksek seviyeli göstergeler genellikle gösterge alarmları ile hizmet kalitesi arasındaki ilişkiyi geliştirmek için kullanılır. Çünkü üst düzey göstergeler genellikle temeldir ve en çok dikkat edilmesi gerekir ve iş mevcudiyeti hakkında en iyi geri bildirimi sağlayabilirler.

(Resim: Zhiyun üç boyutlu izleme sistemi)

Üst düzey göstergeler, işletmenin gerçek durumunu gerçek zamanlı olarak geri bildirebilmelidir. Büyük ölçekli bir iş operasyon ve bakım senaryosunda, tek başına seviyeye gitmek zorunda kalmadan yalnızca tüm kümenin çalışma ve bakım durumunu gözlemlemek gerekir.Bu, iş odaklı operasyon ve bakım düşüncesi ile geleneksel operasyon ve bakım düşüncesi arasındaki en önemli farktır.

Zhiyunun üç boyutlu izleme sistemi, birleşik bir izleme ve alarm platformu aracılığıyla çeşitli düzeylerde izleme yetenekleri sağlar ve düşük düzeyli göstergeleri iş odaklı bir perspektiften üst düzey göstergelere dönüştürmek için CMDB'deki çalışma ve bakım nesnelerinin ilişkisini birleştirir. İşletim verilerinin değerini araştırmak için teknolojiyi kullanın.

4 Tencent Cloud'un AIOps tabanlı keşif ve uygulaması

Tencent Cloud, verimli bir otomatik operasyon ve bakım sistemi kurduktan sonra, operasyon ve bakım alanında AI teknolojisinin uygulanmasını keşfetmeye başladı. Belirli operasyon ve bakım problemlerini çözmek için AIOps teknolojisini kullanmak için, öncelikle AI'nın çalışma mekanizmasını anlamanız gerekir.Az hakkında en iyi bilinen şey, büyük miktarda girdiden sonuçları doğru bir şekilde tahmin edebilen kuralları veya modelleri (algoritmalar) özetleyebilmesidir. Bu yasalar veya algoritmalar sayesinde, AI teknolojisi, işletim ve bakımdaki bazı sayısal modelleri, Boole modellerini ve olasılık modellerini tahmin etmek için kullanılabilir, böylece işletim ve bakım sürecini basitleştirir ve işletim ve bakım verimliliğini artırır.

Açıkçası, AI teknolojisinin operasyon ve bakım alanında uygulanmasının birincil koşulu, verilerin yasasını veya modelini bulmak için makine öğrenimi (denetimli veya denetimsiz öğrenme) için büyük miktarda verinin mevcut olmasıdır.

Birleşik bir veri yönetimi platformu oluşturun

AIOps'u Tencent Cloud'da uygulama sürecinde, üç boyutlu izleme sistemindeki her bir izleme sisteminin farklı inşa süresi nedeniyle, her iş ve izleme nesnesinin veri formatı farklıdır ve her izleme sisteminde bağımsız olarak farklı operasyon ve bakım izleme verileri bulunmakta ve ciddi sorunlara neden olmaktadır. Veri adaları. Bu nedenle, Zhiyun sistemine makine öğrenimi ve eğitim modellerini uygulamadan önce, Tencent Cloud ilk olarak bir dizi etkili işletme ve bakım verisi yönetişim çözümleri oluşturdu - Zhiyun İşletme ve Bakım Veri Bankası.

Aşağıdaki şekil Zhiyun Veri Bankasının yapısını göstermektedir.Heterojen veri kaynakları, veri bankasının erişim hizmeti aracılığıyla mesaj kuyruğuna girer ve akış işleme platformunda veri istatistikleri, çeviri, hesaplama ve diğer işlemleri gerçekleştirir. Süreçte bir anormallik bulunursa, bir alarm gönderilecektir. Strateji, alarm işleme için birleşik alarm platformuna dağıtılır.

(Resim: Zhiyun Veri Bankacılığı Platformu)

Zhiyun'un operasyon ve bakım veri bankası, operasyon ve bakım verilerinin merkezi olarak toplanması ve işlenmesi için platform yetenekleri sağlar ve düzenli analiz, veri çevirisi gibi heterojen operasyon ve bakım izleme verileri için genel akışlı veri işleme ve analiz çözümleri sunar. Veri istatistikleri ve sayısal hesaplama gibi veri işleme mantığı. Veri bankası, platformun farklı veri kaynaklarıyla uyumluluğunu dikkate alarak, özel eklentilere doğrudan erişim esnekliği de sağlar.

Ortak zaman serisi tabanlı operasyon ve bakım veri modeli göz önüne alındığında, veri bankası, OLAP çok boyutlu veri detaya inme analizi, Gauss dağıtım analizi, küme analizi, GBDT vb. Gibi yerleşik veri değeri madenciliği yeteneklerine sahiptir ve izleme verileri üzerinde operasyon ve bakım ekibinin analiz yöntemlerini zenginleştirir. . Veri bankası platformunun desteği ile Tencent Cloud operasyon ve bakım ekibi, büyük izleme verilerinin merkezi olarak depolanmasını ve analizini gerçekleştirdi.

Zaman serisi verilerini izleme akıllı izleme sistemi

Büyük miktarda izleme verisi genellikle yanlış alarmlar ve zor eşik yapılandırması gibi sorunlarla karşılaşır.Klasik yapay zeka algoritmalarını öğrenerek, izleme sisteminin anormallikleri doğru bir şekilde tespit edebilmesi için zaman serisi verileriyle başa çıkmanın, bazı izleme verisi sorunlarının çözülmesi gerektiğini gördük. Örneğin, normal dağıtılmayan veriler ve uzunlamasına döngüsel dalgalanma verileri vb., Zaman serisi veri anormalliği tespitinin doğruluğuna güçlü bir şekilde müdahale ettikleri için Tencent Zhiyun Monitor sistemi bunun için doğdu.

Monitor, Tencent Cloud'un zaman serisi verilerine dayalı akıllı izleme sistemidir. 2 milyon / dak. Zaman serisi verilerinin tekrarlanan eğitimi sayesinde Zhiyun Monitor, istatistiksel algoritmalar (3-Sigma) + denetimsiz algoritmalar ( İzole orman), büyük izleme verilerinde hızlı bir şekilde pozitif örnekleri bulun ve örnek verileri denetimli öğrenme yöntemiyle manuel olarak etiketleyin.

(Şekil: Zaman serisi anormallik algılamanın teknik çerçevesi)

Yukarıdaki resim, zaman serisi anormallik tespitinin teknik çerçevesini göstermektedir.Bir zaman serisi anormallik algılama modeli olarak, genel çerçeve üç bölüme ayrılmıştır, birincisi çevrimdışı eğitim bölümü, ikincisi çevrimiçi tahmin bölümü ve üçüncüsü AB testi ayarlamasıdır. Tabak.

  • Çevrimdışı bölümünde, istatistiksel ayrımcılık ve denetimsiz algoritmalar şüpheli anormallikleri çıkarır ve ardından bunları manuel olarak gözden geçirir, pozitif ve negatif örnek kitaplıkları ekler, zaman serisi özelliklerini çıkarır, çevrimdışı eğitim ve çıktı modelleri için denetimli algoritmalar ekler;

  • Çevrimiçi bölümde, çevrimdışı eğitilmiş modeli yükleyerek ve gerçek zamanlı tahmin için denetimli bir öğrenme algoritması kullanarak, pozitif ve negatif örnekleri yargılamaktır. Burada, yanlış rapor edilen örnekleri numune kitaplığına ekleyerek manuel bir düzeltme işlemi de gerçekleştireceğiz;

  • AB test modülü bir ayarlama aracı olarak kullanılır.Belirli bir trafik modeli iyi bir etkiye sahip olduğunda, tüm ağ üzerinde yayınlanacak ve gerçek zamanlı olarak tahmin edilecektir.

Zhiyun monitörü, model yargısı yoluyla zaman serisi verilerinin anormalliğini hızlı bir şekilde belirlemek için manuel tanımlama sonuçlarını ve hesaplanan özellik eğitim modelini kullanır ve eşiksiz çok sayıda izleme göstergesi için ikinci seviye izleme yeteneğini gerçekleştirir.Büyük veri seviyeleri için uygundur, Farklı izleme eğrilerine ve dengesiz veri yönetim modellerine sahip sahneler.

Zhiyun entegre işletim ve bakım çözümü

Yukarıda belirtilen veri bankasının büyük veri akıllı izleme sistemine ek olarak, Tencent Cloud, AIOps üzerinde, alarm kök neden analizinin sahne problemini çözmeye çalışmak için karar ağacı algoritmalarının kullanılması ve denenecek Apriori algoritması veya FP-Growth algoritmasının kullanılması dahil olmak üzere birçok işlem ve bakım uygulamasına sahiptir. Alarm yakınsaması sorununu çözün, kullanıcı şikayetlerini hızlı bir şekilde keşfetme sorununu çözmek için NLP'yi kullanın ve uygulama performansı parametre ayarı sorununu çözmeye çalışmak için pekiştirmeli öğrenmeyi kullanın ... Sınırlı alan nedeniyle, bu makale her biri hakkında ayrıntılı bilgi vermeyecektir.

(Resim: Zhiyun entegre işletim ve bakım çözümü)

Genel olarak, büyük ölçekli işletmelerin işletme ve bakım senaryosunda, AIOps teknolojisi, insansız operasyon ve bakım için verimli bir çözüm sağlamak üzere otomatikleştirilmiş işletim ve bakım becerisiyle birlikte izleme verilerinin sorunları daha doğru bir şekilde bulmasını ve bulmasını sağlayabilir. Tencent Cloudun AIOps iniş uygulaması, farklı senaryolarda işletim ve bakım gereksinimlerine dayalı olarak ve büyük ağ mimarilerinin akıllı izleme ve işlemesini tamamlamak için akıllı araçlar aracılığıyla iş odaklı ilkeye bağlı kalır.

5 Zhiyun AIOps çözüm iniş uygulaması

Tencent Cloud, kendi devasa işini desteklemenin yanı sıra, yıllarca süren ağ sistemi işletme ve bakım deneyimine dayanan açık ve karşılıklı yardımlaşma tavrı ile sektöre eksiksiz bir akıllı işletme ve bakım metodolojisi, teknik sistem ve veri modeli seti çıkarmaktadır.Bu araçlar ve fikirler aracılığıyla, Şirketler, kendi iş özelliklerine ve taleplerine göre etkili bir AIOps sistemi oluşturabilir. Bir finans şirketini örnek olarak ele alan bu makale, size referans sağlamayı umarak Tencent'in kurumsal akıllı operasyon ve bakım dönüşümündeki bulut dokuma çözümünün iniş uygulamasını kısaca açıklamaktadır.

Kurumsal operasyon ve bakım sorunları

Finans şirketleri tarafından benimsenen BT kaynak yönetimi sistemlerinin çoğu, verileri yönetmek için orijinal Excel'in kullanılması, iş tarafında birleşik planlama ve yönetimin olmaması vb. Gibi nispeten ilkeldir. Sermaye piyasasının yükselişi ve refahı ile, eski BT altyapısı ve tasarım konseptleri çok uzaktır. İşletmelerin kitlesel kullanıcı işlem ve ödeme hizmetlerinin izlenmesini desteklemek yeterli değildir ve işletmelerin genel işletim verimliliğini artırmak için acilen verimli ve akıllı bir işletim ve bakım araçlarına ihtiyaçları vardır.

  • Orijinal EXCEL yönetimini kullanan bu yöntem, esas olarak müşterilere aşağıdaki dezavantajları getirir:

    • Gerçekleştirilen her kaynak nesnesinin yaşam döngüsünü ve çalışma durumunu sezgisel ve etkili bir şekilde yansıtmak mümkün değildir.

    • Orijinal verilerin değiştirilmesi tamamen manuel tetik değişikliğine dayanır, verilerin geçerliliğini ve doğruluğunu garanti etmek zordur ve ayrıca daha sıkıcı veri doğrulama çalışmasını da beraberinde getirir.

    • BT kaynaklarının genel ve kısmi kullanımı net bir şekilde gösterilmemiştir ve BT kaynaklarının maliyeti yüksek kalmıştır.

  • IAAS katmanındaki sunucular ve ağ ekipmanı, etkili birleşik izleme, alarm ve otomasyon yeteneklerinden yoksundur;

    • 1000'den fazla sunucu kullanım ölçümü ve izleme

    • Anahtarlar ve yönlendiriciler gibi ağ ekipmanının operasyonel kalitesi ve kapasitesi

  • Küresel iş ortamında ve operasyon destek ortamında ağa ayrılmış hatların ve genel ağ çıkışlarının yönetimi, trafik analizi, izlenmesi vb.

  • İş desteği için kullanılan çok sayıda harici alan adının hizmet kalitesi ölçümü;

  • Özel bulut ve genel bulut için birleşik operasyon ve bakım yönetimi

  • İşletme tarafında işletme ve bakım, etkin yönetim ve planlamadan yoksundur.

Zhiyun sistemi akıllı işletim ve bakım çözümü

Şirketin sorunlu noktalarına ve taleplerine göre, Tencent Cloud genel bir BT operasyon ekosistemi planlar ve kurar, önde gelen AIOps konseptini benimser, orijinal kaynak yönetimi yöntemlerinin yerini alır, izlenen nesnelerin veri ayrıntı düzeyini iyileştirir, ağdaki ilgili bilgileri yakalar ve alan adlarını ölçer. Kamusal ağ erişiminin kalitesi ve üç seviyeli işlevsel modüllere ait bilgilerin sınıflandırılması, değişimin iş fonksiyonu modüllerini tamamlamış, tam bir yetki kontrol mekanizması oluşturmuş ve standartlaştırılmış uygulama hizmeti sürüm yönetimi ile işletim ve bakım işlem şartnamelerini oluşturmuştur. Spesifik iniş fikirleri aşağıdaki gibidir:

1. Orijinal Excel yönetim kaynaklarını CMDB ile değiştirin

EXCEL'in kaynak yönetiminin yolu yalnızca verimsiz olmakla kalmaz, aynı zamanda her bir özel kaynak nesnesinin yaşam döngüsünü ve çalışma durumunu sezgisel ve etkili bir şekilde yansıtamaz. Tencent Cloud, yönetimde ilk konfigürasyon konseptiyle kaynakları birleşik bir şekilde yönetir.Her kaynağın kendi ölçülebilir ve çalıştırılabilir yönetim modeli vardır.

CMDB, nesnelerin kategorisini, miktarını, ilişkisini (nesne ile nesne arasındaki ilişki), durumunu vb. Tek tip olarak tanımlar ve izleme platformuyla gerçek zamanlı bağlantı, her nesnenin hizmet kalitesinin kontrol edilebilir ve ölçülebilir olmasını sağlar.

Bu yönetim modeli sayesinde, donanım ve iş arasındaki ilişki gerçekleştirilmekte ve konfigürasyon bilgileri çeşitlendirilmiş işletim ve bakım senaryolarında kullanılmaktadır. İşletim ve bakım belirli bir fiziksel sunucuyu açıkça tanıyabiliyorsa, kaynaklar belirli bir IDC'de depolanır, IDC'nin belirli bir rafında depolanır, belirli bir anahtardaki belirli bir bağlantı noktasına bağlanır ve sunucu, iş planlama durumundadır. Belirli bir işletmeye tahsis edilen kaynaklar hakkında belirli bilgiler, iş operasyon durumunda sunucunun gerçek yükü nedir ve hangi koşullar sunucu alarmlarını tetikler.

2. İzlenen nesnenin veri ayrıntı düzeyini iyileştirin

Finansal kuruluşların sunucu ve ağ ekipman kaynakları için, Zhiyun, sunucu aracısı veri raporlamasına, ağ ekipmanı SNMP'ye ve syslog analizine, vb. Dayalı olarak, her kaynak nesnesinin durumunu, yükünü, hizmet kalitesini ve diğer verileri doğru bir şekilde ölçer. Örneğin, santralın ağ ekipmanının izlenmesi için aşağıdaki üç boyut detaylandırılmıştır:

  • Ağ ekipmanının fiziksel portlarının izlenmesi ve alarm verilmesi;

  • Ağ ekipmanının mantıksal portlarının (fiziksel portların mantıksal kombinasyonları) izlenmesi ve alarm verilmesi;

  • Ağ ekipmanının sistem günlüğünün (cihaz işlem günlüğü) izlenmesi ve uyarılması;

  • Ağ ekipmanının izlenmesi, hizmetlerin ve ana bilgisayarların izlenmesi ile ilişkilidir.

3. Xflow protokolüne dayalı olarak ağ oturumu bilgilerini yakalayın

Finans şirketlerinin ağ çıkışları ve ağa ayrılmış hat kaynakları için Zhiyun, ekipman üreticisinin Xflow protokolüne göre ağdaki ilgili oturum bilgilerini (ip + bağlantı noktası boyutları) yakalayabilir ve değişimin çözmesine yardımcı olmak için her oturum için niceliksel analiz ve görüntüleme gerçekleştirebilir. O&M yüksek frekans senaryolarının sorunları şunları içerir:

  • Belirli bir tahsisli hattın mevcut kullanım oranı nedir?

  • Kullanılan trafikte, o hizmet veya bu IP tarafından ne kadar bant genişliği kullanılıyor?

  • Tüketilen bu bant genişliği hangi protokol ve yöne dayalıdır?

  • Ayrılan hattın paket kayıp oranı ve gecikmesi nedir?

  • Ayrılmış çevrimdışı bağlantının sunucuları ve hizmetleri nelerdir?

4. Etki alanı adlarının genel ağ erişiminin kalitesini ölçün

Finans kuruluşlarının çok sayıda işletmeyi destekleyen alan adları için Zhiyun, ülke çapında farklı operatörlerde 170 arama testi noktasında gerçek zamanlı arama testi yoluyla alan adlarının genel ağ erişiminin kalitesini doğru bir şekilde ölçer.

5. Üç seviyeli işlevsel modülün bilgilerini bölün

Tencent'in en iyi dahili operasyon ve bakım uygulamaları ile birleştiğinde, ekipman, paketler, görevler, izleme ve üç seviyeli fonksiyonel modüllerin diğer bilgilerine odaklanarak, en iyi verimlilik operasyon ve bakım yönetimini iyileştirir. Örneğin, kaynakları, izinleri ve eylemleri iş modülleri perspektifinden ölçün ve yönetin.

6. İş göstergelerinin akıllıca izlenmesi

İşin kalitesini sağlamak için, işletme ve bakımın işi, uygulamaları ve altyapıyı izlemesi ve ölçmesi gerekir. İlgili göstergelerin miktarı çok fazladır. Eşik yönetimi göstergelerini kullanan geleneksel izleme yöntemi, çok sayıda manuel işlem gerektirir. Zhiyun, birçok göstergeyi içeren işletim ve bakım senaryolarını izlemek için daha akıllı çözümler sunar:

  • Statik eşik yerine dinamik eşik

  • Alarm verilerinin akıllı yakınsaması

  • Alarm verilerinin korelasyon analizi

  • Alarm veri bağlantısının çalışması ve bakım çalışması, arızanın kendi kendini iyileştirmesini tamamlar

  • Veri AI denetimli model eğitim programı

Bir dizi pratik dönüşüm yoluyla Zhiyun sistemi, grubun donanım performansı, özel hat / ihracat, özel hat, alan adı trafik analizi ve kendi gereksinimlerine göre IAAS katmanı sağlığı izleme gibi iş geliştirmeye uygun eksiksiz bir finansal DevOps işletim ve bakım sistemi kurmasına yardımcı oldu. Tüm işletmenin operasyon izleme kalitesini teşvik eder ve kurumsal BT operasyonlarının iş geliştirme üzerindeki genel etkisini iyileştirir.

yazar hakkında

Liang Ding'an (Liang), Tencent SNG İşletme ve Bakım Teknik Direktörü, Tencent Cloud Zhiyun Ürün Başkanı, Tencent Bulut Evangelisti, Fudan Üniversitesi Misafir DevOps Öğretim Görevlisi. Bir zamanlar Qzone ve fotoğraf albümleri gibi SNG sosyal platform hizmetlerinin işletim ve bakım planlaması ve yönetiminden sorumlu olan operasyon ve bakım, operasyon geliştirme ve DevOps alanlarında yılların tecrübesi ve SNG operasyon ve bakım standardizasyonu, otomasyon ve akıllı inşaat sürecinin tüm sürecini deneyimledi. Şu anda, Tencent Cloud'un işletme ve bakım alanındaki yeni teknolojilerin uygulamalarını aktif olarak araştıran ve endüstri için otomasyon ve akıllı operasyon ve bakım yetenekleri üreten kurumsal düzeydeki operasyon ve bakım çözümü Zhiyun'un ürünleştirilmesine kendini adamıştır.

ilgili olaylar

31 Mart (Cumartesi), Tencent Cloud ve Geekbang Technology ortaklaşa "WeChat Mini Program Çevik Geliştirme Gerçek Savaş" salonunu düzenleyecek. Etkinlik, Mini Programın tasarımı, geliştirilmesi, çalıştırılması ve pazarlanması dahil olmak üzere çeşitli boyutlardan bir Mini Programın nasıl yapılacağını öğretecek Kendi popüler mini programınız, ilgilenen arkadaşlar aşağıdaki QR kodunu tarayın veya kayıt olmak için orijinal metni okumak için tıklayın!

Boşandıktan sonra, kız gibi Yang Mi duygusu nihayet geri geldi ve tekrar tekrar "silaha yatırıldıktan" sonra hayatı bir gülümsemeyle izledi.
önceki
Amerikan draması "Uyuşturucu Efendisi" nin ilk sezonundaki kahramanın prototipi büyük uyuşturucu lordu Pablo Escobar
Sonraki
Shengli ile çok fazla arkadaşlığı var ve bir zamanlar Long Joon Hyung ile çıktı, o da zafer davasının kurbanı olabilir mi?
"Horizon Zero Dawn" ön siparişi başladı, Hong Kong versiyonunun detayları açıklandı
Ürün yöneticinizin ortadan kaybolduğunu duydumGeek Official House
Avrupa ve Amerika eğlence ve moda çevrelerinde halka açık olan süper yakışıklı ve şık gey erkeklere bir göz atalım.
Wang Zhongleinin kızı güzel fotoğraflarında melek bebek gibi görünüyor ve mükemmel bir makyajı var ve kadınlarla dolu
Gölgesiz bir ışık efekti yaratmak için Bamuda The Light, vinyet oluşturmadan çocukların dünyasını yaratmaya çalışıyor
Tencent'in Douyin'e karşı ilk adımı: Weishi'yi diriltmek ve etkileyiciler için rekabet etmek | Titanyum Medya Derinliği
"Accelerated World VS Sword Art Online: Millennium Twilight" sahne olarak HDS'yi gösterecek
Shanda Cloud Platform'da dağıtılmış ExpressNet SDN'nin ağ dağıtım uygulaması
"Ode to Joy" Fan Shengmei'nin annesi "Everything is Good" dizisine konuk oldu. Eski en iyi anne artık ataerkil değil
Pixel Stand uygulamalı deneyiminin özeti olan Google Home için Pixel'i kablosuz şarj cihazına dönüştürün
190326 Wang Yuan "Dünya ve Sonsuza Kadar" Roadshow Wang Yuan anında minnettarlığını ifade etti
To Top