Facebook blames outage on error during routine maintenance

انقطاع فيسبوك: الشبكة تلقي باللوم على خطأ أثناء الصيانة الروتينية


LONDON: The global outage that knocked Facebook and its other platforms offline for hours was caused by an error during routine maintenance, the company said.

Santosh Janardhan, Facebook’s vice president of infrastructure, said in a blog post that Facebook, Instagram and WhatsApp going dark was “caused not by malicious activity, but an error of our own making.”

The problem occurred as engineers were carrying out day to day work on Facebook’s global backbone network; the computers, routers and software in its data centers around the world along with the fiber-optic cables connecting them.

“During one of these routine maintenance jobs, a command was issued with the intention to assess the availability of global backbone capacity, which unintentionally took down all the connections in our backbone network, effectively disconnecting Facebook data centers globally,” Janardhan said Tuesday.

Facebook’s systems are designed to catch such mistakes but in this case a bug in the audit tool prevented it from properly stopping the command, Janardhan said.

That change also triggered a second problem that made things worse by making it impossible to reach Facebook’s servers even though they were operational.

Engineers scrambled to fix the problem on site, but this took time because of the extra layers of security, Janardhan said. The data centers are “hard to get into, and once you’re inside, the hardware and routers are designed to be difficult to modify even when you have physical access to them.”

Once connectivity was restored, services were brought back gradually to avoid traffic surges that could cause more crashes.

It was an “unforeseen anomaly” for a faulty maintenance update to take down Facebook’s backbone network, but the company probably could have avoided a scenario in which its servers were completely taken offline, making it impossible to access the tools needed to fix it, said Angelique Medina, of Cisco Systems’ ThousandEyes, a firm that monitors internet outages.

“The big question is why so many internal tools and systems could have a single source of failure,” Medina said. “Facebook would still have been down because of the network outage, but they could have resolved the outage sooner if they had internal access.”

أسوشيتد بريس

لندن: قالت الشركة إن الانقطاع العالمي الذي تسبب في توقف فيسبوك ومنصاتها الأخرى عن العمل لساعات كان سببه خطأ أثناء الصيانة الروتينية.

وقال سانتوش جاناردان، نائب رئيس البنية التحتية في فيسبوك، في منشور على مدونة إن توقف فيسبوك وإنستغرام وواتساب “لم يكن بسبب فعل أذى، بل خطأ اقترفناه “.

وحدثت المشكلة عندما كان المهندسون يقومون بأعمال يومية على شبكة فيسبوك الرئيسية العالمية. أجهزة الكمبيوتر وأجهزة التوجيه والبرامج الموجودة في مراكز البيانات الخاصة بها حول العالم جنباً إلى جنب مع كبلات الألياف الضوئية التي تربطها.

قال جاناردان يوم الثلاثاء: “خلال إحدى وظائف الصيانة الروتينية هذه، تم إصدار أمر بهدف تقييم مدى توفر قدرة الشبكة الرئيسية العالمية، والتي أدت عن غير قصد إلى قطع جميع الاتصالات في شبكتنا الأساسية، مما أدى إلى قطع اتصال مراكز بيانات فيسبوك على مستوى العالم”.

قال جاناردان إن أنظمة فيسبوك مصممة للتحقق على مثل هذه الأخطاء، لكن في هذه الحالة خلل في أداة التدقيق منعها من إيقاف الأمر بشكل صحيح.

وأثار هذا التغيير أيضاً مشكلة ثانية جعلت الأمور أسوأ من خلال جعل الوصول إلى خوادم فيسبوك مستحيلاً على الرغم من أنها تعمل.

قال جاناردان إن المهندسين سارعوا لإصلاح المشكلة في الموقع، لكن هذا استغرق وقتاً بسبب طبقات الأمان الإضافية. من الصعب الوصول إلى مراكز البيانات، وبمجرد دخولك، تم تصميم الأجهزة وأجهزة التوجيه بحيث يصعب تعديلها حتى عندما يكون لديك وصول فعلي إليها.

وبمجرد استعادة الاتصال، تم إعادة الخدمات تدريجياً لتجنب الزيادات في حركة المرور التي قد تسبب المزيد من الأعطال.

وقالت أنجيليك ميدينا من شركة ثاوزند آيز التابعة لشركة سيسكو سيستمز -وهي شركة تراقب انقطاع الإنترنت- “إنه كان “شذوذاً غير متوقع” لتحديث الصيانة الخاطئ لإلغاء الشبكة الرئيسية العالمية لـ فيسبوك، ولكن ربما كان بإمكان الشركة تجنب سيناريو تم فيه قطع اتصال خوادمها تماماً، مما يجعل من المستحيل الوصول إلى الأدوات اللازمة لإصلاحها”.

وقالت ميدينا: “السؤال الكبير هو لماذا يمكن أن يكون لهذا العدد الكبير من الأدوات والأنظمة الداخلية مصدر واحد للفشل”. “كان موقع فيسبوك لا يزال معطلاً بسبب انقطاع الشبكة، لكن كان بإمكانهم حل الانقطاع في وقت أقرب إذا كان لديهم وصول داخلي.”

