Ali SRE sistemi, zaman dilimlerinde ve karmaşık ağlarda "Uluslararası El Kırpma Partisi" nin dengeleyicisini garanti eder

Alibaba's Guide: 10 Eylül'de Şangay'da düzenlenen CNUTCon Küresel İşletme ve Bakım Teknolojisi Konferansı'nda Alibaba'nın kıdemli uzmanı Zhou Zhiwei, "SRE ve Mikro Hizmet En İyi Uygulamaları" alt forumunda "Alibaba'nın Uluslararası Ortamında SRE Sistemi" ni sundu "Aliexpress SRE inşaatının yolunu paylaşan açılış konuşması.

Alibaba Kıdemli Teknik Uzmanı / AliExpress Direktörü SRE Zhou Zhiwei

Aliexpress, Alibaba Group'un sınır ötesi ve uluslararası tüketici işidir.Çin'deki herkes Taobao'yu bilir, ancak yurtdışına gittiklerinde Aliexpress'i bilen birçok yabancı vardır. AE, Alexa'da ilk 50, Taobao'da ise 11. sırada yer alıyor. Aliexpress'in trafiğinin şimdiden çok büyük olduğu tahmin edilebilir. Ayrıca AE, yaklaşık 100 ülkede alışveriş uygulamalarında birinci sırada yer almaktadır. Rusya'ya seyahat ediyorsanız, yerel taksi şoförlerine, restoran garsonlarına veya Aliexpress'in yerel yoldan geçenlerine sorabilirsiniz. Sanırım çoğunun üzerinde alışveriş deneyimi var.

Şu anda, Aliexpress'in işlem kayıtları olan 220'den fazla ülkesi var.Herkes Double 11'de Taobao'nun tüm Çin'i aydınlattığını ve Aliexpress'in dünyayı aydınlattığını biliyor. Ancak, AE International sadece 1-2 lojistiğe sahip. Bir zamanlar yaşanan en yoğun baskı, birçok ülkenin bankacılık sistemini ve lojistik sistemini felç etti. Tasfiye sadece Çin'de gerçekleşmiyor. Aliexpress olarak SRE'nin baskı altında olduğu düşünülebilir.

AliExpress, Alibaba tarafından küresel pazar için oluşturulmuş bir çevrimiçi ticaret platformudur ve satıcıların çoğu tarafından "Taobao'nun uluslararası versiyonu" olarak adlandırılır.

Aliexpress SRE

Aliexpress'deki SRE'nin tanımı yalnızca kullanılabilirlik ile ilgilidir. Teknik bir boyuta atıfta bulunduğunda, orijinal istikrar kavramına atıfta bulunur; bir takıma atıfta bulunduğunda, her teknik ekipte istikrardan sorumlu öğrencilerden oluşan sanal bir ekibi ifade eder. takım. Aliexpress'de SRE, yatay sanal ekiplerden oluşur.Her iş ekibinin tüm Aliexpress'in istikrarını sağlamak için bir ana ve bir yedeği vardır. Ancak bu şekilde sorunun ve sorunun temel nedeni en verimli ve hızlı bir şekilde çözülebilir. Kararlılık her şeyin temelidir, bu nedenle bu sanal organizasyon aynı zamanda çok sayıda kaynak ve KPI ile garanti edilmektedir.

Ali'nin SRE'yi uluslararasılaştırmasının zorluğu

Zaman farkı her anı zirveye çıkarır

Küreselleşme öncülüğünde, SRE'nin zorlukları çok büyük, sorunları ve zorlukları Taobao'nun yaşadığı şeyler değil ve bu yönlerde fazla referansımız ve referansımız yok. Her şeyden önce, Aliexpress'in kullanıcı grupları, farklı ırklar ve ten renkleri ile dünya çapında 238 ülkeden geliyor. Bu en kritik nokta değil, çünkü kullanıcılar farklı ülkelerde ve farklı saat dilimlerinde dağıtılıyor. Aslında Aliexpress için gerçek bir düşük yoğun dönem yoktur. Her ülkenin en yoğun zamanı farklıdır. Bir dalga birbiri ardına, ürünlerimizin kullanılabilirliği Tüm ülkelerin daha yüksek gereksinimleri vardır * 7 * 24.

Ağ karmaşıktır ancak herhangi bir gecikmeye tahammül edemez

Çin'de, ağımızın üç büyük operatörün desteğiyle çok iyi olduğu söylenebilir.Arada gelen gerginlikler olsa da, en azından nedenlerini anlamak veya bazı planlar yapmak çok net ve kolay oluyoruz. Ancak dünyadaki pek çok ülke için operatörler çok karmaşıktır ve bunların getirdiği küresel ara bağlantı sorunları da çok karmaşıktır.Birçok ülke için her ülkede hangi operatörün iyi olduğunu bilmek için biraz enerji harcamak zor olmasa gerek. Ülkeler birbirine bağlandığında, ara bağlantı ve etkileşim konusu karmaşık hale gelir. Örneğin, Güneydoğu Asya ülkelerinde Çin sunucularına veya Amerikan sunucularına erişmek için hangisi daha hızlıdır? Fiziksel bir mesafeden, Çin'de daha hızlı olmalı, değil mi? Ama gerçek gerçek değil. Güneydoğu Asya, çoğu Amerika Birleşik Devletleri'ni atlayan ve ülkeye bağlanan ülkeyi ziyaret ediyor. Bu garip bir ağ bağlantısı, ancak doğru çünkü Amerika Birleşik Devletleri'ne ve ardından Çin'e doğrudan erişimden daha ucuz. Çin ucuzdur. Bu, küreselleşmemize birçok zorluk ekledi ve bu sorunları çözmek için daha fazlasını yapmamız gerekiyor.

Belki herkes etrafta dolaşabileceğinizi, sadece kullanabileceğinizi söyleyecektir, ancak Çin'den Amerika Birleşik Devletleri'ne gidip gelmek yaklaşık 130 ms sürer veya ağ çok iyi olduğunda, ışık hızına yakınsa, bu gecikme göze çarpmıyor gibi görünüyor, bir karşılaştırma yapalım. Genel olarak, hizmet istek veri tabanı yaklaşık 5 ~ 10 ms içinde geri dönecektir Benzer bir önbellekleme mekanizması varsa, daha hızlı olacaktır.Uzaklıktan kaynaklanan 130ms gecikmeyi kaç hizmet kaldırabilir. Bu, web sitesi istikrarı için teknik bir zorluk oluşturmaktadır. Uluslararası durumda, kullanıcı geri bildirimi almak Çin'deki kadar kolay değil ve bunu aktif olarak elde etmek için daha fazla önlem almamız gerekiyor.

Aliexpress SRE yol

Aliexpress olarak kullanılabilirliği iyileştirmek istiyorsak, maliyet ve Ar-Ge verimliliğini göz önünde bulundurmalıyız.SRE ekibini ilk kurduğumuzda herhangi bir temelimiz yoktu.Ayrıca kullanılabilirliği iyileştirmek istedik. Nereden başlayacağımızı analiz etmemiz gerekiyordu. Bu resim biraz mekanik gibi Bir tarafın çabası diğer tarafın gerilemesine neden olacak Nasıl denge bulunup en yüksek getiri elde edilir.

Kullanılabilirlik arayışının Ar-Ge verimliliğini azaltacağını ve kullanılabilirlik arayışının Ar-Ge ve teknik maliyetleri artıracağını görebiliriz. Süreç özelliklerinin oluşturulması kullanılabilirliği artırabilir, ancak Ar-Ge verimliliğini büyük ölçüde azaltacaktır. Kullanılabilirliğin akıllıca gerçekleştirilmesi, verimlilik artışı ve maliyet tasarrufu için faydalıdır.

Kullanılabilirliği artırmak için spesifikasyonlar geliştirin

Aliexpress'in SRE'sinin ilk aşamasında, kullanılabilirliği hızlı bir şekilde iyileştirmeyi umuyorduk.Önce sonuçları elde etmek için en düşük maliyeti ve en kolay yolu seçtik ve süreç özelliğini formüle ettik, ancak araştırma ve geliştirme verimliliğini azaltacak ve spesifikasyonun birçok kısıtlaması olacak. Gözden geçirilmesi gereken, bir kod satırını değiştirmek için temel uygulama birden fazla bilgisayar odasının gözlemlenmesini ve izlenmesini de gerektirir, tüm süreç uzun zaman alır.

Aslında, mevcut düzenlemeler çok kirli ve yeterince havalı olmasa da çok etkili.İlk sıra Ar-Ge öğrencileri için normun sadece onun için bir kısıtlama olmadığını söylemeliyim. Kararlılık ve normlar testini geçmek, birinci basamak Ar-Ge'nin birçok süreç kuralını bilmesini sağlar. Ve neden bunu yapmanın gerekli olduğu ve risklerin neler olduğu, böylece ön saftaki mühendislerin üretim ortamını daha iyi anlaması. Devop'ların rolü de pek çok bilişsel gelişme kaydetti. Ayrıca tarihsel başarısızlıkları da analiz ettik.Sorunların büyük bir kısmının üretim ortamına yabancı olduğunu ve dikkatsizlikten veya ne yapılacağını bilmemekten kaynaklandığını göreceğiz. sorun. Küreselleşmiş çoklu bilgisayar odalarımızda dikkat etmemiz gereken birçok şey var.Çevreye aşina olmamak kesinlikle sorunlara neden olacaktır.Örneğin, birden fazla bilgisayar odasında veri senkronizasyonu ve görev tüketiminin idempotansını idare edememe kesinlikle veri tutarlılığı sorunlarına neden olacaktır. Mimari spesifikasyonunun ve SRE kararlılığının kapsamının bir parçasıdır. Ayrıca, herkesin protokolü ve çevrimiçi ortamı yinelemeli olarak güncelleyebilmesi ve üretim ortamının işleyişine hayran kalması için altı ayda bir kararlılık testi yapmakta ısrar ediyoruz.

Aliexpress SRE Temel yönetişim

SRE için en çok yapmak istediğimiz şey, çevrimiçi olan her şeyin kontrol altında olmasıdır. Bir şeyler ters gitse bile, etkili yollarla hızlı bir şekilde kurtarabiliriz Bu aynı zamanda Aliexpress SRE'nin özüdür. Yönetişimimiz de bu temel fikirden yola çıkıyor: Bunu ilk yapmak için, tüm sitenin kapsamlı bir şekilde izlenmesi zorunludur ve sorunları ortaya çıktığında hızla bulabiliriz, bu da izlemedir. İnşaatın izlenmesinde bir maliyet yatırımı vardır.İstediğimiz çekirdek pazarı (işlemler, trafik ve giriş için beklemek) gerektiği gibi çıkararak, iş sisteminden ek log çıktısı gerektirir. Bir düşüş varsa, hangi kanallar bir sonraki sınıflandırma seviyesine girebilir. , Sorunun hızlı bir şekilde bulunmasına yardımcı olmak için, genişleme odasının pazarını da ekleyeceğiz.Bu, böyle bir sınıflandırmanın neden gerekli olduğunu ve amacının ne olduğunu açıklayacaktır.

Başlangıçta bunu sistematik olarak yapmadık. Bunun yerine, her takım ayrı ayrı günlükler çıkardı ve ardından izleme pazarını manuel olarak yapılandırdı. Geçen yılın başında, bir başlangıç programını özel olarak standart günlük çıktılarını yapacak şekilde özelleştirmek için Springboot ile birlikte mikro hizmet Springboot'u tanıtmaya başladık. Ar-Ge verimliliğini artırırken gerekli günlüklerin toplanması Standartlaştırılmış günlükler sonraki büyük veri analizi için çok faydalıdır. Bu aynı zamanda uzun vadeli bir değerlendirme için bir adımdır ve gelecekteki istihbaratın yolunu açar.

Daha önce de belirtildiği gibi, SRE için kontrol bende olmasını umuyorum.İzlemenin mükemmelliği ancak kontrol etme yeteneği olmadan görülebilir, bu nedenle SRE'nin kontrolüne izin vermemiz gereken birkaç şey var. Yaygın olarak "afet toleransı" olarak bilinen hızlı kurtarma yeteneği, küreselleşmenin de gerektirdiği farklı problemlerle başa çıkmak için birçok katmana bölünmüş, Aliexpress afet toleransında bir sistemdir.

Bunun nedeni arka plandır. Daha önce de belirtildiği gibi, Aliexpress SRE'nin karşılaştığı zorluklar ve küresel ağ kalitesi sorunları Aliexpress'in DNS'yi değiştirmesi için kolay değildir. Bunun iki ana nedeni vardır:

1. Küreselleştirilmiş mimari, kullanıcı özniteliğini yönlendirecek ve erişim katmanındaki değişiklik sonraki bağlantılarda değişmesine neden olmayacaktır. 2. DNS anahtarlama performans kaybına neden olacaktır, kaynağa geri dönmek için pek çok CDN stratejimiz olduğundan bahsetmeye bile gerek yok Neden olan performans kaybı yaklaşık% 8 ~ 15, bu kayıp çok üzücü

Küresel bir mimari oluşturun

Küresel mimari basitçe, küresel kullanıcıları kontrol ettiğimiz, büyük verilerle hesapladığımız ve en yakın optimum DNS çözünürlüğü ile koordine ettiğimiz, kullanıcıları farklı bölgesel IDC'lere atadığımız, böylece küresel kullanıcıların en iyi alışveriş deneyimini elde edebilmeleri olarak tanımlanabilir. Bu mantığa dayalı olarak, katı sürüm kontrolü yoluyla, ZK raporlama, dünya çapında birden fazla IDC'nin kullanıcı yönlendirme tablolarının tutarlı olmasını sağlamak için kullanılır.Veri içeren erişim katmanı, hizmet katmanı ve veri katmanı, kullanıcı yönlendirme tablosunu eşzamanlı olarak yükler ve kullanıcıların sahipliğini sağlamak için bölgesel düzeltme yönlendirmesi gerçekleştirir Global veri tutarlılığını sağlamak için tüm işlemler tek bir alanda tamamlanır. Bu tam bir küreselleşme çözümüdür.

Bu mimariye dayanarak, SRE'nin afet toleransı da daha zengin hale geldi.Belirli bir değişiklik web katmanında sorunlara neden olduğunda, İngilizce sitenin arama sayfasında bir sorun gibi, stil veya sayfa işleme mantığı olabilir. Spesifikasyonlarımıza göre, yayınlamak için kesinlikle şube odasını takip edin Strateji, en az bir bilgisayar odasının mevcut olması ve felaket kurtarma yoluyla kirlenmemiş bir alana gidebilmesi ve diğer katmanların mantığının değişmemesidir.

Hizmet katmanında bir sorun olduğunda, kullanıcılar, ağ erişim katmanında herhangi bir değişiklik olmaksızın, alan A'dan B alanına da geçirilebilir. Bu katmandaki felaket kurtarma daha hassastır, orantılı olarak saptırma gözlemini ve saptırmayı destekler. Elbette, büyük bir sorun meydana gelirse, tüm alanı devre dışı bırakabilir ve felaket kurtarma alanına geçebilirsiniz.Bu felaket kurtarma saniyeler içinde devreye girer ve bir veri koruma kapatma mekanizması vardır.

Garanti mekanizması GTR oluşturun

Yukarıda bahsettiğim şey, bilgisayar odası seviyesinin hızlı bir şekilde toparlanmasına dayanmaktadır.Küreselleşme bağlamında, küresel ara bağlantı sorunları ile başa çıkmak için bir dizi garanti mekanizması da yaptık, GTR (küresel trafik yönlendirme hizmeti)

Bu resmin anlamını kısaca açıklayın: kırmızı nokta, dünya çapında birden fazla KOK'umuz olduğunu, yani ağ erişim noktalarımızı ve beş köşeli yıldız, küresel IDC'mizi temsil eder. Fikir, belirli bir ülkedeki kullanıcılar gibi bilgisayar odamızı ziyaret eden küresel kullanıcılar hakkında bilgi toplamaktır. Farklı pop noktalarını ve ardından IDC'mizi ziyaret ederek, POP noktalarının tümü, dinamik hızlandırma teknolojisine benzer şekilde daha kararlı kabul edilebilecek Alibaba omurga ağına aktarılacaktır.

Ülkenin ilgili pop noktasına karşılık gelen IDC'nin erişim yanıt süresine bakılırsa, bir hatta bir sorun olduğunda, bu ülkenin veya bölgenin kullanıcı erişimini başka bir ağ hattına geçirebiliriz. Bu, bir ülkenin ABD bilgisayar odasına erişim verisidir. Bir Alman erişim noktasının ABD bilgisayar odasına girmesi, doğrudan ABD'den yaptığı gibi yaklaşık aynı zaman alır.

Yukarıdakiler, SRE izleme ve felaket kurtarma için bir giriş niteliğindedir.Ayrıca, büyük sorunlarla uğraştığımızda, hızlı bir şekilde bulup kurtarabileceğimizden emin olabileceğimizi paylaşmak istiyorum. Bu savaş platformu, muharebe personelinin deneyimlerini toplamada çok iyi bir rol oynadı. Savaş üyeleri, çeşitli ürün gruplarında uzmandır ve deneyimleri platforma aktarılabilir, bu da uluslararası SRE istihbaratımıza büyük ölçüde yardımcı olur.

Aliexpress SRE'nin kuruluşundan bu yana, sonuçlar da açıktı ve başarısızlıkların sayısı önemli ölçüde azaldı. Ön hat Ar-Ge'sinin çevrimiçi ortama bir devop olarak dönüşümü nispeten başarılı oldu. Bu süreçte, birçok büyük çevrimiçi başarısızlık başarıyla kurtarıldı ve bu da teyit ediyor Her zamanki tatbikatlarımız çok etkili ve önemlidir. Aynı zamanda Ali Group'un uluslararasılaşması için temel teknolojiyi de inşa ediyor.

SRE sisteminin çalışması altında, istikrar özellikleri-alt-bölgesel değişiklikler-alt-bölgesel izleme-alt-bölgesel afet kurtarma-normalize edilmiş tatbikatlar ile erdemli bir döngü içinde çalışır. Araçları sürekli olarak optimize edin, veri biriktirin, Ar-Ge okuryazarlığını geliştirin ve gelecekteki SRE zekasına hazırlanın. Bu sistem kapsamında, otomasyon araçlarımızı optimize etmeye ve zenginleştirmeye, verilerimizi zenginleştirmeye, temel yönetişimimizi optimize etmeye ve zekaya yönelik geliştirmeye devam edeceğiz. hepinize teşekkür ederim.

Aliexpress, uluslararası geçmişi olan teknik personeli doğrudan posta kutusuna katılmaya içtenlikle davet ediyor: zhiwei.zhouzw@alibaba-inc.com

Hat 5'in güneydeki uzantısı yıl sonunda trafiğe açılacak Mevcut kablo sinyal sistemi aynı anda yükseltilmelidir Önümüzdeki Pazartesi (20th) - 20 Ekim, yoğun tren tıkanıklığı artabilir.
önceki
Araç kalite garantisi otomobili gerçekten koruyor mu? Küçük parçaların kırılması umrunda mı?
Sonraki
Zhao Junzhe, Liaoning Futbol Kulübü'nü tekrar bombaladı: kulüp gerçek şeyler yapmadı ve dürüst insanları uzaklaştırmaya zorladı!
Dyson saç kurutma makineleri, genç bayanları Dyson elektrikli arabalara ne dersiniz?
James, Kardeş Qiu'ya ne dedi? Oyundan sonraki bazı ipuçları ilgi çekici!
3.4 milyonluk küçük bir ülke, iki büyük forvetin yanı sıra dünyanın en iyi iki savunucusu var, Fransa titriyor!
Manchester United forvet oyuncusu 90 dakika içinde birinci sınıftan daha iyi performans gösterdi! Aktif savunma, Manchester United forvet oyuncuları için iyi bir gelenektir
Çalışanların seyahat etmesi için akıllı bir yol nasıl oluşturulur? Ali'nin kendi geliştirdiği seyahat eserinin ilk teşhiri
450.000 / Cadillac XT5 sınırlı sayıda satıştan başlayan yeni BMW 5 Serisi uzun eksenli versiyon ön satışları 359.900'den başlıyor / Volkswagenin sorunlu dizel araç çözümü onaylandı Car Totem Eveni
Manchester United, I.Dünya Savaşı'nda 50 milyon kurtarabilir mi? Bu geçici işçi biraz güçlü ve Zhan Jun da onun tarafından ikna oldu!
Paul galibiyet serisi hakkında konuşuyor: Harden bir havlu oynuyor! Ben de bir kayıp yaşamak istiyorum!
Arjantin çıktıktan sonra diğer takım arkadaşları tatile çıkmaya başladı: Kayıp ve çaresiz Messi ne yapıyor?
2018 Şangay Kitap Fuarı | Eski kitap sevenler için buraya bakın! "Guoxue Salonu" nda sürprizler var ~
Gençler, akıllı sürüş deneyimi kampı, Pekin istasyonu, bilgelik grevlerinin WEY "5" dinamik yeni öğrencileri VV5 yükseltme modeline sahip
To Top