Facebook 4 Ekim kesintisinin nasıl başladığını açıklıyor | Engadget

Pazartesi günkü tüm hizmetlerini devre dışı bırakan büyük hizmet kesintisinin ardından Facebook, dün olanları ayrıntılandıran bir blog yazısı yayınladı. Şirketin altyapıdan sorumlu başkan yardımcısı Santosh Janardhan’a göre, kesinti rutin bakım olması gereken bir bakımla başladı. Dün bir noktada, Facebook’un tüm farklı bilgi işlem tesislerini birbirine bağlayan omurga ağının kullanılabilirliğini değerlendirmesi beklenen bir komut yayınlandı. Bunun yerine, emir istemeden bu bağlantıları kaldırdı. Janardhan, şirketin iç denetim sistemindeki bir hatanın, komutun yürütülmesini gerektiği gibi engellemediğini söylüyor.

Bu sorun, dünkü kesintiyi nihayetinde uluslararası bir olay haline getiren ikincil bir soruna neden oldu. Facebook’un DNS sunucuları şirketin birincil veri merkezlerine bağlanamadığında, internetteki her cihazın bir sunucuya bağlanması için ihtiyaç duyduğu sınır ağ geçidi protokolü (BGP) yönlendirme bilgilerinin reklamını yapmayı bıraktılar.

“Son Sonuç olarak, DNS sunucularımız hala çalışır durumda olmalarına rağmen erişilemez hale geldi” dedi Janardhan. “Bu, internetin geri kalanının sunucularımızı bulmasını imkansız hale getirdi.”

Dün yarı yolda öğrendiğimiz gibi, zaten zor olan durumu daha da kötüleştiren şey, kesintinin Facebook mühendislerinin bağlantı kurmasını imkansız hale getirmesiydi. düzeltmeleri gereken sunucular. Ayrıca, DNS işlevselliğinin kaybı, normal koşullarda ağ sorunlarını araştırmak ve çözmek için bağımlı oldukları birçok dahili aracı kullanamayacakları anlamına geliyordu. Bu, şirketin veri merkezlerine fiziksel olarak personel göndermesi gerektiği anlamına geliyordu. Bu görev, bu konumlarda uyguladığı fiziksel güvenlik önlemleri nedeniyle karmaşıktı.

“Buralara girmek zor ve bir kez Janardhan’a göre, donanım ve yönlendiriciler, fiziksel erişiminiz olduğunda bile değiştirilmesi zor olacak şekilde tasarlanmıştır. Omurga ağını geri yükleyebildiğinde, artan güç ve bilgi işlem talepleri daha fazla çökmeye yol açabileceğinden, Facebook her şeyi bir kerede yeniden açmamaya dikkat etti.

“Bunun gibi her başarısızlık bir fırsattır. öğren ve daha iyi ol ve bundan öğreneceğimiz çok şey var” dedi Janardhan. “Küçük ve büyük her sorundan sonra, sistemlerimizi nasıl daha dayanıklı hale getirebileceğimizi anlamak için kapsamlı bir inceleme süreci yapıyoruz. Bu süreç zaten devam ediyor.”

Bir cevap yazın