Tencent Cloud Weimeng'i "kurtarıyor"! 766 çevrimiçi toplantı düzenleyin, 100'den fazla sunucu tahsis edin ve alarm saati yalnızca 2 saat için ayarlanabilir

Görüşülen | Tencent Bulut Teknik Ekibi

Muhabir | Hu Weiwei

Üretildi | CSDN (ID: CSDNnews)

766 çevrimiçi toplantı, 100'den fazla sunucunun geçici olarak tahsisi ve dört konumdan mühendislerin "seferber edilmesi", Tencent Cloud'un Weimeng'i "kurtarmaya" katkılarıdır.

1 Mart'ta, "Weimeng veri tabanını silme" olayı sonuçlandı ve 150 milyon yuan tazminat planı formüle edildi. Bu kanlı bir dersten daha azı değil.

3 milyon kayıtlı kullanıcısı ve 70.000'den fazla ödeme yapan kullanıcısı olan halka açık bir şirket olan Weimob için felaketin ciddi sonuçları oldu.

Bu çok para ve zaman maliyeti çok büyük. Yerli geliştirme endüstrisinde bir lider olarak, Tencent Bulut mühendisleri bile bunu halletmek için tam 7 gün 7 gece sürdü.

Peki bu sefer veritabanının silinmesi ne kadar karmaşık? Tencent Cloud, teknoloji dünyası denen bu kalp ameliyatını nasıl tamamladı?

CSDN, bu kurtarmaya katılan Tencent Cloud mühendisleriyle röportaj yaptı, okuyucular için tüm "kurtarma" sürecini yeniden kurmaya çalışıyor ve bu olayın çemberin merkezi olmasıyla geliştiriciler ve kuruluşlar için yapıcı öneriler getirmeyi umuyor.

Olaydan sonra, üç taraf kurtarma ekipleri oluşturdu.

Kaza, 23 Şubat Pazar günü saat 18.00 sularında meydana geldi. Tencent Cloud ve Weimob aynı anda ortaya çıktı ve iki taraf, karşı önlemleri tartışmak için hemen sanal bir ekip kurdu.

Tencent Cloud, sunucu teknolojisi, IDC sitesi, satış sonrası uzmanlar, güvenlik, depolama, veritabanı, ağ, temel IaaS Ar-Ge ve işletme ve bakım alanlarında 30'dan fazla ekip mühendisine yatırım yaptı.Bu mühendisler Pekin, Şangay, Guangzhou ve Shenzhen'den. 7 gün 7 gecede her zaman zamana karşı yarışıyorlar.

On binlerce görev nedeniyle, herkes sadece 2 saat uyumak için bir çalar saat kurmaya cesaret etti ve alarm çaldığında savaş devam edecekti. Tencent Cloud'un başkan yardımcısı Wang Huixing de gecede birkaç kez teknik rehberlik yaptı ve bir keresinde sabah 6'dan fazlasına kadar meşguldü.

Bu kurtarma operasyonunun baş komutanı, Tencent Bulut Operasyon ve Bakım Merkezi ve Müşteri Hizmetleri Departmanı başkanı Xu Yongzhou, olaydan sonra bir süre uyumadan önce en az 36 saat sürekli çalıştı.

Weimob CTO Huang Junwei, onarım sürecindeki teknik sorunlar için Tencent Cloud ekibiyle zamanında iletişim kurmak için günde 7 * 24 saat çevrimiçi.

Kurtarma çok acildir ve işbölümünde daha profesyonel planlama gereklidir.Bu nedenle, Tencent Cloud, Weimob ve veri kurtarma şirketi Jijia Ruikang, nedeni en hızlı şekilde araştırdı ve eksiksiz bir veri kurtarma planı hazırladı.

Sorun giderme nedeni: Weimob hesabı yüksek riskli bir işlem gerçekleştirildi

Sorunun hangi kısmının meydana geldiğini araştırırken, mühendisler tüm sunucuların hizmetin yanıt veremeyeceği bir durumda olduğunu buldular, evet, hepsi!

Ardından, yeniden başlatmak için sunuculardan birini seçerler. Yeniden başlatıldıktan sonra, sistemdeki tüm verilerin kaybolduğu bulundu, bu da veritabanının istila edildiğini veya kasıtlı olarak yok edildiğini gösteriyor.

Şu anda, Tencent Yunding Lab'ın acil durum uzman ekibi ve Weimob teknik ekibi derhal ortak bir araştırma yürüttü ve Weimob tarafından kendi oluşturulmuş MySQL veritabanında dağıtılan temel iş verilerine hızlı bir şekilde izlendi. Programcı, Linux sistemi altında dosya silme komutunu duydu ve tamamı geri alınamaz bir şekilde silindi.

Weimob, daha sonraki kamu duyurularında ayrıntıları da açıkladı. Nedeni belirledikten sonra, Tencent Cloud bir kurtarma planı oluşturmaya başladı.

Plan üç adıma bölünmüştür:

İlk önce hasarlı yüzeyi kontrol edin. Verileri tekrar alma şansı olan sunucunun tekrar almasına izin veremezsiniz ve bu durumda herhangi bir hata olacaktır.

İkincisi, verileri geri alın. Bu işlem çok zaman alıcıdır.Önce, orada ne kadar veri kaldığını görmeniz ve ardından verileri bulduktan sonra kurtarmanız gerekir. Kurtarma işleminden sonra Weimeng, verilerin sağlam olup olmadığını, veritabanına aktarılıp aktarılmadığını ve sunucuya yüklenip yüklenmediğini doğrulamalıdır.

Üçüncüsü, hata ayıklama verileri. Veri doğrulamasından sonra Weimob, verilere dayalı olarak iş başlatma ve ortak hata giderme çalışmaları yürütecektir.

Ancak, kurtarma süreci sorunsuz bir seyir değildi çünkü geçmişte referans bir durum yoktu, bu yüzden nehri ancak taşları hissederek geçebildim.

Veri kurtarma: Tehlikenin kenarında yürümek

Sebebini bulduktan sonra zor bir veri kurtarma sürecidir.

Tencent Cloud, kaynak verileri korumak için önce Weimeng sunucusundaki kaynak verileri yansıttı ve kopyaladı.

Weimob'da neredeyse yüzlerce terabayt veri var ve veri kopyalama zaman alıyor, bu nedenle mühendisler iki kopyalama yöntemi düşündü.

İlk yol, iki makineden oluşan bir ağ üzerinden kopyalamaktır. Normal şartlar altında yaklaşık iki gün süreceğini hesapladılar, bunun avantajı nispeten güvenli olmasıdır.

İkinci yol, sabit diski takmaktır. Sabit diski sunucudan çıkarın ve daha fazla diske sahip bir aygıta takın, yani verileri her bir sabit diske kopyalamak için paralel olarak birden çok sunucu kullanın. Hız hızlı olsa da risk yüksektir. Herhangi bir adım ince ise veriler olabilir Tamamen gitti.

Bir ikilemde, Weimeng'in onayını aldıktan sonra, ekip cesur bir karar verdi: yansıtma ve kopyalama adımlarını atlamak ve aynı zamanda Weimeng veri diskini orijinal sunucudan çıkarmamak. Bunun yerine, orijinal sunucuya başka bir sistem diski kurun, işletim sistemini ve veri kurtarma yazılımını yeni sistem diski aracılığıyla yükleyin ve veri diskindeki "gizli" verileri doğrudan tarayın ve çıkarın.

Veri kopyalama yöntemini belirledikten sonra Tencent Cloud, ekipmanı hazırlamak için hemen bir ekip düzenledi.

Kurtarma işlemi uzaktan ve yerinde yapıldığı için uzaktan haberleşmenin yapılması kaçınılmazdır. Uzaktan bağlanan mühendisler toplantılar, yerinde rehberlik ve savaş raporları için Tencent toplantılarını kullanıyor.

Tencent Bulut Veri Merkezi Donanım Mühendisi,

Tencent toplantısıyla operasyon ayrıntılarını uzaktan gösterin.

Görüntü Tencent Cloud'un izniyle

Bazı önemli işlemlerde, düzinelerce çift göz genellikle canlı konferans ekranına bakıyor çünkü herhangi bir hata geri dönüşü olmayan sonuçlar doğuracaktır.

7 gün 7 gece herhangi bir zamanda toplantılara başladılar ve Tencent toplantıları durumun gidişatını sessizce kaydetti.Uzak görüşmeler için hesaplar 7/24 kesintisizdi. Tencent toplantıları ile tüm iş ekipleri iletişim için 766 toplantı gerçekleştirdi. Ve bu konferans numarası, bu savaşın numarası olarak kalıcı olarak muhafaza edilecektir.

En endişeli şey olur!

Neyse ki, erken aşamadaki ilerleme çok pürüzsüzdü, ancak son üç sistem diski takıldığında, ekibin en endişelendiği şey oldu - yeni sistem diski takıldıktan sonra, veri sabit diski bağlantısı kesildi.

Neyse ki, araştırmadan sonra, montaj yapılmamasının nedeni, orijinal sunucudaki donanım koruma mekanizmasını tetikleyen yeni eklenen sistem diskinden kaynaklanıyor.

Arızayı belirledikten sonra, mühendisler hızlı bir şekilde önlemleri uyguladı ve tüm verileri okudu. Normal veri yansıtma süreciyle karşılaştırıldığında, zamandan% 70'den fazla tasarruf sağlar.

Karşılaşılan en büyük sorun, fail yüzlerce terabaytlık veriyi (yedekleme verileri dahil) sildiğinde, mühendislerin bu kadar kısa sürede geri yükleyebilmeleridir.Veri miktarı ve zorluğu bunların çok ötesinde. deneyimi.

Veri çıkarma işlemi resmi olarak girildiğinde, Weimob'un büyük dosyaları çıkarılamadı, bu da tam veriyi almak istiyorsanız eklemeniz gerektiği anlamına gelir.

Bu, parçalanıp okyanusa atılan bütün bir yapboz parçası gibidir, sadece parçaları kurtarmakla kalmaz, aynı zamanda parça parça yeniden yapboz yapmak zorundadır.

Ve veriler ne kadar büyükse, dikmek o kadar zor olur. Neyse ki, Weimeng'in yedekleme mekanizması nispeten tamamlanmıştır ve veri türleri nispeten tek tiptir, bu nedenle hangi bloğun başlangıç olduğunu belirlemek kolaydır ve kalan blokları başlangıçta bulmak daha kolaydır.

Bunlar arasında en büyük dosya 6 orijinal parçadan oluşmaktadır. Başlangıcı bulduktan sonra, Tencent Cloud diğer benzer blokları taramaya başladı. Şanslıysanız, orijinal parçaya benzeyen yalnızca bir parça veri vardır (bu olmalı) Şanssız olduğunuzda, benzer olan 20 veya 30 parça vardır.

Bu nedenle, bir ekleme her yapıldığında, eşleşip eşleşmediğini doğrulamak için veri bloğunun baştan sona taranması gerekir.

Tarama, çok fazla bilgi işlem gücü gerektirir.Bu nedenle, Tencent Cloud, tarama ve bilgisayarı desteklemek için Şangay bilgisayar odasından geçici olarak 100'den fazla sunucuyu tahsis etti.

Ekibin ruh hali, bir roller coaster'a binmek gibidir. Bir problem her yenildiğinde, herkes veri kurtarmanın umut verici olduğunu hisseder ve hemen heyecanlanır. Ama bir şeyler ters gittiğinde, ruh halim dibe vurdu.

Neyse ki, sonunda verilerin% 100'ü geri yüklendi ve tüm sıkı çalışma ve çabaya değdi.

7 gün ve 7 gecede 100 saatten fazla bu, tüm kurtarıcıların fiziksel gücü ve iradesi için büyük bir testtir. Bu savaştan sonra, Tencent Cloud mühendislerinin yeteneği tekrar doğrulandı ve kurtarmaya dahil olan mühendisler de bazı samimi kelimeleri ifade etmek için CSDN kullanmak istiyor.

Bin gün asker yetiştir, bir süre kullan

Aslında, bir kuruluş işini ister kendi IDC'sinde (İnternet Veri Merkezi, İnternet Veri Merkezi) ister harici olarak barındırılan bir IDC'de konuşlandırsın, kamu ağına açık olduğu sürece tehditler olacaktır.

Bu nedenle, şirketlerin risk noktalarını bir bütün olarak ayırmaları, genel planlama ve ortak savunma yapmaları ve dış, iç ve büyük veri gibi farklı senaryolar için bunlara uygun çözümler hazırlamaları önerilmektedir.

Kuruluş zaten bulut üzerindeyse, tam bir yaşam döngüsü veri güvenliği koruması oluşturmak için bulut ana bilgisayarının, bulut hesap yetki yönetiminin ve kontrolünün düzenli anlık görüntülerinin gerçekleştirilmesi, önemli verilerin hiyerarşik yönetiminin uygulanması ve aynı zamanda şifreleme yapılması gerekir.

Bir kuruluş kendi kendine oluşturulmuş bir veritabanı kullanıyorsa, Binlog veya diğer yedekleme dosyaları aracılığıyla bir plana kurtarma için ayrıntılı adımların formüle edilmesi ve düzenli alıştırmalar yapılması önerilir.

Geliştiriciler için, bulut güvenliği, veri koruma, şifreleme ve kötü niyetli saldırılar dahil olmak üzere bulut bilişim alanındaki en son gelişmelere daha fazla dikkat edebilirler ve ayrıca veri kurtarma vaka uygulamalarına daha fazla dikkat edebilirler.

Buluta gitmenin aciliyeti ve gerekliliği

Ayrıca buluta gitmemiş şirketler de buluta gitmeyi düşünebilirler.

Tencent Cloud sabit diski söz konusu olduğunda, dağıtılmış bir blok depolama mimarisi benimser ve her veri bloğunun mevcut bölgede 3 kopyası vardır, böylece fiziksel disk arızasından ve kesinti süresinden kaynaklanan veri hasarını önleyebilir.

Ek olarak, bulut sabit disk anlık görüntü teknolojisi sayesinde, veriler "saniyeler" içinde bir saat içinde duruma geri yüklenebilir.

Daha da önemlisi, Tencent Cloud, güvenlik olayları için kapsamlı izleme, uyarı ve denetim sonrası işlevler uygulayabilen veri güvenliği ürünlerine de sahiptir.

Yapay zeka teknolojisi ile birleştirilen Tencent Cloud Fortress, işletmelere operasyon ve bakım personelinin operasyon denetimlerini sağlayabilir ve ayrıca dahili veri sızıntısını önlemek için anormal davranışları uyarabilir.

Açıkçası, geçmişte birçok şirket güvenliğe yeterince önem vermemişti. "Weimeng Olayı" bizim için hala alarm zilini çalıyor.

İnsanlar genellikle bir hendek yiyerek bilgelik kazanabileceğinizi söylerler, ancak en endişesiz şey başkalarının sizin bilgeliğinizi kazanmak için hendek yemesi mi? Weimobun çok yüksek öğrenim ücretinin sadece kendisi için değil aynı zamanda tüm endüstri için ödendiği söylenebilir.

Son olarak, kurtarmaya katılan tüm mühendisleri de övdüm, onlar olmasaydı Weimob'un kaybı daha da büyük olurdu. 7 gün 7 gece kesintisiz çalışan "itfaiye" gibidirler.

Bir internet kazası her tamir edildiğinde, netizenlerin görebildiği şey, ürünün yeniden kullanılabileceği ve görünmeyen şey, arkasındaki mühendislerin uykusuzluğudur.

Bu mühendis aileniz, meslektaşınız veya arkadaşınız olabilir ... Çevremizdeki bu tür "itfaiyecilerden" hiçbir zaman yoksun olmadık, bu nedenle gelecekte programcılarla daha az alay edeceğim ( Kel), onunla daha çok ilgilen!

Transformer neden bir grafik sinir ağıdır?
önceki
1w2'nin altındaki programcılar 2020'de gerçeklerle yüzleşecek ...
Sonraki
Ali mühendisleri size bir B-end dikey pazarlama merkezinin nasıl tasarlanacağını öğretir
Duotu sizi Wuhan'a götürüyor: Hubei, 0! Wuhan, 0
Wuhan'da beyaz melek sayesinde binlerce ışık yanıyor, en sıcak olanı Wuhan halkının kalbi.
Kimura Takuya'nın 18 yaşındaki kızı da çıkış yaptı! Alev kırmızı dudaklar fotoğraf pozlama
Guiyang County Köprüsü Merkez Okulu bahar girişinde acil durum tatbikatını başlattı
Suxian Bölgesinde Wugaishan Eyaletine ait Orman Çiftliği, gerçek çatışmaya yakın orman yangını söndürme tatbikatları gerçekleştirdi.
Li County, Changde: İşleri Dengelemek ve Yoksul Haneler için Gelir Artışı Motorları Kurmak için Yoksulluğu Azaltma Çalıştayı
Juxian Wenxin Lisesi: Tam süreç, tam eleman simülasyon alıştırmaları, okulun başlangıcına hazırlanın
Juxian No.4 Orta Okulu: Salgın önleme ve kontrol gevşek değildir ve gerçek savaş tatbikatı okula hazırdır
Yemek yerken öğrenciler maskelerini nereye koyarlar? Juxian 1 Nolu Ortaokul açılış alıştırması parmak uçlarına "iyi"
Aşk birbirinden ayrılmıyor, aile ve okul "bulut" buluşuyor, Juxian 5 Nolu Ortaokul çevrimiçi kalite kontrol testi yaptı
Bir Bahar Işığının Efendisi | Bi Liu gölü döndürür, dua eder, dua eder ve çiçek açan bahar çiçekleri
To Top