Facebook отключил один из своих ЦОД для тестирования отказоустойчивости
Несколько месяцев назад инженеры социальной сети Facebook вывели процесс стресс-тестирования вычислительной и вспомогательной инфраструктуры ЦОД на качественно новый уровень. Специалисты американской компании полностью отключили один из своих дата-центров от центральной электросети на продолжительный период времени, чтобы оценить, как аппаратура поведет себя в такой ситуации.
Об этом заявил руководитель инженерного подразделения Facebook Джей Парик во время своего выступления на выставке-конференции @Scale14 (At Scale 2014) в Сан-Франциско, штат Калифорния (США).
«Это не мелочь. Речь идет о дата-центре мощностью в десятки мегаватт. И мы держали его отключенным в течение всего дня, чтобы проверить, как наши системы будут работать в подобной ситуации «, сказал специалист. При этом он не уточнил, какой именно из дата-центров Facebook был отключен от центральной электросети.
Напомним, что в распоряжении социальной сети имеются кампусы ЦОД в американских штатах Орегон, Айова, Северная Каролина, а также кампус в Швеции. Кроме того, американская компания арендует пространство в машзалах оптовых поставщиков площадей ЦОД из американских штатов Калифорния и Вирджиния.
По словам Парика, его компания провела «пожарные учения» перед стресс-тестом для подготовки персонала. Специалист отметил, что в команде инженеров было много скептиков, которые отговаривали руководство от отключения ЦОД, но, в конечном итоге, данная операция оказалась крайне полезной.
Не все сработало на 100 процентов как нужно. Но члены команды инженеров взяли соответствующую информацию «на карандаш» и составили план улучшения инфраструктуры ЦОД. В целом система показала себя хорошо, и веб-приложения соцсети не ушли в офлайн. При этом команда Парика планирует продолжить проведение таких стресс-тестов в будущем.
По совам Парика, процедуры вроде этой относятся к одному из основных принципов проектирования вычислительной инфраструктуры, используемых инженерами Facebook, который заключается в том, что следует по возможности экспериментировать и учиться на своих ошибках. Руководство Facebook поощряет своих инженеров брать на себя разумный риск и не наказывает тех, кто рискует и допускает ошибки.
«Мы не увольняем тех инженеров, которые хотят улучшить инфраструктуру, но по тем или иным причинам допускают ошибки. Существуют меры предосторожности, предпринимаемые для минимизации последствий отказа, и команда тратит много усилий на анализе причин отказа, внедряя новые возможности для быстрого восстановления «, сказал Парик.
Всего комментариев: 0