Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Yüksek kullanılabilirliğin avantajları ve dezavantajları

Şimdiye kadar, çok iyi Bölgenin diğer iki veri merkezi yüksek kullanılabilirlik kümesini destekledi ve kritik hizmetleri çevrimiçi tuttu Ve toprak arızası dediğimde, sigortayı tamir etmek için sizi bodruma inmeye zorlayan türden bir kısa devreden bahsetmiyorum Dağıtılmış sistemlerde iyiyiz Dolayısıyla HA küme hizmetleri Kafka ve Clickhouse’u aradığında yanıt alamadılar Ve bu kolay değildi Ama hepsi birbirinden bağımsız Ayrıca Cloudflare’in tarama sürelerinin kabul edilebilir olması nedeniyle günlük sistemlerini yüksek kullanılabilirliğe sahip kümeye entegre etmeme kararının bir hata olduğu ortaya çıktı 280’i İçerik Dağıtım Ağı (CDN) hizmetlerine güveniyor

Kulağa harika geliyor, değil mi? Ama olan bu değil Böylece kesinti devam etti

Birkaç güç dalgalanması olacağını tahmin eden Cloudflare ayrıca “tek güvenli kurtarma işleminin tüm kurulumun tamamen yeniden başlatılması olduğuna” karar verdi Ancak Flexential, kesilen elektriği tamamlamak için jeneratörlerini çalıştırdı


2 Kasım 2023’te müşteri arayüzleri Bulut parlamasıWeb siteleri ve API’lerin yanı sıra günlükler ve analiz araçları da dahil olmak üzere , düzgün çalışmayı durdurdu Üstelik hizmetlerinin büyük bir kısmı temel tesislerin mevcudiyetine bağlıdır Bunun yerine, invertörler yaklaşık dört dakika sonra ölmeye başladı ve jeneratörler zaten asla zamanında çalıştırılamayacaktı Esnekve bu da birbirini takip eden sorunların ortaya çıkmasına neden oldu

Özellikle, günlükleri işleyen ve Cloudflare’in analitiğini güçlendiren iki kritik hizmet: Kafka’nın Ve ClickHouse – yalnızca çevrimdışı veri merkezinde mevcuttu Bu olay boyunca küresel ağımız beklendiği gibi çalışmaya devam etti ancak çekirdeğin mevcut olmaması durumunda çok fazla sistem başarısız oluyor İyi haber şu ki CDN başarısız olmadı Portland General Electric (PGE), binanın bağımsız güç kaynaklarından birini kesmek zorunda kaldı

Veri merkezinin en iyi uygulamalarına aşina olmayanlar için bu yaklaşımdan kaçınılmalıdır Bu açıkça gerçek bir sorundu Bu cümleyi okumanızdan daha kısa bir sürede bağlantıyı ve tüm jeneratörleri devre dışı bırakan 12 Dağıtılmış sistemler ürünlerini kullanmamız gerekiyor Ancak yüksek kullanılabilirlik kümesinde olması gereken hizmetlerin bir alt kümesi, yalnızca yeni ölen veri merkezinde çalışan hizmetlere bağlıydı Otuz altı saat sonra Cloudflare hizmetleri nihayet normale döndü 470 voltluk bir akım

Daha sonra veri merkezine güç sağlayan PGE transformatöründe toprak arızası oluştu

Bağlantıyı ve tüm jeneratörleri kesen 12 Kötü haber şu ki Cloudflare Dashboard ve uygulama programlama arayüzleri (API’ler) neredeyse iki gün boyunca ulaşılamadı

Teorik olarak, invertörlerin sunucuları 10 dakika boyunca çalışır durumda tutması gerekiyordu, bu da jeneratörlerin tekrar çalışır duruma gelmesi için yeterli olurdu com”



genel-15

Saha dışı enerji ve jeneratörleri aynı anda kullanmıyoruz

Cloudflare itiraf ediyor “çok gevşekti ve yeni ürünlerin ve bunlarla ilişkili veritabanlarının yüksek kullanılabilirlik kümesine entegre edilmesini gerektirmesi gerekirdi” Yani tasarım gereği tesislerden biri arızalanırsa diğerleri yükü devralmalı ve çalışmaya devam etmelidir Ve son iki günün zorluğu bizi daha iyi hale getirecek

Bu tür bir şey büyük internet hizmet şirketlerinin başına gelmez veya en azından gelmemesi gerekir Daha da kötüsü Flexential, Cloudflare’e bir şekilde jeneratör gücüne geçtiğini söylemedi ”


Kaynak : “ZDNet Örneğin devre kesicilerin neredeyse tamamı patlamıştı ve Flexentail bunları değiştirmek için yenilerini satın almak zorunda kaldı

Merkezi sistemine bağlı kalan dağıtık sistemlerin kralı

Birçok şirket bunu yapıyor ancak Prens itiraf ediyor Bu durum “Cloudflare’in lehine çalışmıyor

Talihsizlik! Flexential, güç kaynağını desteklemek için jeneratörlerini açtı

Üç veri merkezi, doğal bir felaketin hepsinin birden çökmesine neden olmayacağı kadar birbirinden yeterince uzakta ” Merkezi tesislerimizde kesinti olsa bile neredeyse normal şekilde çalışmaya devam edebilmeleri için tüm hizmetlerimizi tüm müşterilerimizin kullanımına sunuyoruz

Hata!

Tek personel olarak bir hafta boyunca bir teknisyen iş başında

Belki de kimse başa çıkamadı Bu olaydan ve bunun müşterilerimize ve ekibimize yaşattığı zorluktan dolayı üzgünüm ve utanıyorum

O haklı

Prince sorunu açıklamak için elinden geleni yaptı:

Öncelikle bunun asla olmaması gerekirdi Aynı zamanda aktif, yedekli veri kümelerinden yararlanabilecek kadar da yakındırlar

İlk olarak Flexential’ın tesisindeki elektrik kesintisi beklenmedik bir hizmet kesintisine neden oldu

Ve üç veri merkezi “çoğunlukla” yedekli olsa da tamamen yedekli değildi ” Kısacası durum umutsuzdu Büyük veri merkezi sağlayıcılarımızdan biri felaketle sonuçlanabilecek bir arıza yaşadığında bile bu tür bir kesintiyi önleyecek yüksek kullanılabilirliğe sahip sistemlerimiz olduğuna inanıyorduk Cloudflare’in kontrol düzlemi ve analiz sistemleri, Hillsboro, Oregon çevresindeki üç veri merkezinde bulunan sunucularda çalışır Bu olayın asla yaşanmaması gerekirdi Bu konu, yıl sonuna kadar benim ve ekibimizin büyük bir kısmının tüm dikkatini koruyacak Milyonlarca avroluk soru şu: “Ne oldu?”

Şirketin üç ana veri merkezinden birinde elektrik kazası meydana geldi

Cloudflare CEO’su Matthew Prince’e göre cevap, şirketin Oregon’daki (Amerika Birleşik Devletleri) üç ana veri merkezinden birinde meydana gelen bir elektrik kazasıydı Her birinin birden fazla yedekli ve bağımsız güç kaynağı ve İnternet bağlantısı vardır Ancak sitede gece nöbetçisi personeli “güvenlik ve yalnızca bir haftadır işte olan refakatsiz bir teknisyenden oluşuyordu Bu yaklaşım, tüm sunucuların yeniden inşa edilmesini ve yeniden başlatılmasını gerektiriyordu; bu da saatler sürdü

4 Kasım’a kadar süren olay nihayet çözümlendi Ne için ? Çünkü Cloudflare personeli neyin yanlış olduğunu anlamak için günlüklere bakamadı İleriye dönük olarak Bay Prince şu sonuca vardı: “Veri merkezi sağlayıcımızda gördüğümüz ardışık kesintilere bile dayanabilecek doğru sistem ve prosedürlere sahibiz, ancak bu sistemleri ve prosedürleri uygularken daha titiz olmamız gerekiyor ve bunları bilinmeyen bağımlılıklar açısından test etmek

Bu arada Cloudflare, bazı kritik sistem ve hizmetlerin henüz yüksek kullanılabilirlik kurulumuna entegre edilmediğini zor yoldan keşfetti 000 web sitesinden 3 470 volttan bahsediyorum ”

Birkaç saat sonra nihayet her şey normale döndü Her ne kadar pek çok sistem beklendiği gibi çevrimiçi kalsa da, bazı kritik sistemlerde, onları kullanılamaz hale getiren belirgin olmayan bağımlılıklar vardı Ancak veri merkezi, tesise güç sağlayan, belirli düzeyde bağımsızlığa sahip birden fazla güç kaynağına sahiptir


7,5 milyondan fazla web sitesi Cloudflare kullanıyorve dünyanın en popüler 10