Facebook отключил один из своих ЦОД для тестирования отказоустойчивости

26 сентября 2014

FacebookНесколько месяцев назад инженеры социальной сети Facebook вывели процесс стресс-тестирования вычислительной и вспомогательной инфраструктуры ЦОД на качественно новый уровень. Специалисты американской компании полностью отключили один из своих дата-центров от центральной электросети на продолжительный период времени, чтобы оценить, как аппаратура поведет себя в такой ситуации.

Об этом заявил руководитель инженерного подразделения Facebook Джей Парик во время своего выступления на выставке-конференции @Scale14 (At Scale 2014) в Сан-Франциско, штат Калифорния (США).

«Это не мелочь. Речь идет о дата-центре мощностью в десятки мегаватт. И мы держали его отключенным в течение всего дня, чтобы проверить, как наши системы будут работать в подобной ситуации «, сказал специалист. При этом он не уточнил, какой именно из дата-центров Facebook был отключен от центральной электросети.

Напомним, что в распоряжении социальной сети имеются кампусы ЦОД в американских штатах Орегон, Айова, Северная Каролина, а также кампус в Швеции. Кроме того, американская компания арендует пространство в машзалах оптовых поставщиков площадей ЦОД из американских штатов Калифорния и Вирджиния.

По словам Парика, его компания провела «пожарные учения» перед стресс-тестом для подготовки персонала. Специалист отметил, что в команде инженеров было много скептиков, которые отговаривали руководство от отключения ЦОД, но, в конечном итоге, данная операция оказалась крайне полезной.

Не все сработало на 100 процентов как нужно. Но члены команды инженеров взяли соответствующую информацию «на карандаш» и составили план улучшения инфраструктуры ЦОД. В целом система показала себя хорошо, и веб-приложения соцсети не ушли в офлайн. При этом команда Парика планирует продолжить проведение таких стресс-тестов в будущем.

По совам Парика, процедуры вроде этой относятся к одному из основных принципов проектирования вычислительной инфраструктуры, используемых инженерами Facebook, который заключается в том, что следует по возможности экспериментировать и учиться на своих ошибках. Руководство Facebook поощряет своих инженеров брать на себя разумный риск и не наказывает тех, кто рискует и допускает ошибки.

«Мы не увольняем тех инженеров, которые хотят улучшить инфраструктуру, но по тем или иным причинам допускают ошибки. Существуют меры предосторожности, предпринимаемые для минимизации последствий отказа, и команда тратит много усилий на анализе причин отказа, внедряя новые возможности для быстрого восстановления «, сказал Парик.

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *