Аварии в ЦОД по полочкам – от ошибок электриков до сбоев систем пожаротушения
Любой оператор или владелец ЦОД не понаслышке знает о том, что даунтайм серверной фермы может стать причиной серьезных проблем, включающих недополученную прибыль, репутационные потери и дополнительные капвложения, необходимые для замены вышедшего из строя оборудования. По словам экспертов, уровень потерь из-за ухода ЦОД в офлайн может доходить до десятков тысяч американских долларов в минуту. При этом в некоторых случаях аварии в дата-центре даже могут становиться причиной серьезных травм операторов. Но на ком же лежат вина? Каким образом можно минимизировать риски? Ответы на эти и другие вопросы специалисты могут получить после изучения двух недавних громких даунтаймов.
Ошибка электрика обернулась уходом в офлайн дата-центра площадью в 2500 «квадратов»
Эта история поступила в редакцию популярного среди англоязычных пользователей ресурса The Register, посвященного высокотехнологичным решениям корпоративного класса. Один из читателей под ником «JF» рассказал о неудачной попытке расширения корпоративной инфраструктуры ЦОД. Уже запущенная серверная ферма имела три ИБП на 220 киловольт-ампер. Но после расширения их количество решено было сократить до двух. Третий ИБП должен был быть перемещен в новый ЦОД. Такое решение было принято, чтобы сократить затраты путем оплаты транспортных расходов вместо покупки нового ИБП.
Инженер JF пишет, что «просил руководство компании санкционировать полную остановку ЦОД, чтобы демонстрировать один из ИБП». Топ-менеджеры, в свою очередь, поинтересовались о том, какова вероятность возникновения проблем. Инженер сказал, что риск был около одного к сотне. Он думал, что даже 1-процентная вероятность сбоя в подаче электропитания в дата-центр площадью 2500 квадратных метров, набитый доверху серверными стойками, напугает топ-менеджеров. Но он был не прав. Финансовое руководство компании сочло этот риск совершенно приемлемым. Смирившись с этим решением руководства, автор пришел в ЦОД в свой выходной, чтобы лично понаблюдать за переездом.
«Я сидел за рабочим столом, когда электрики начали отключение блока ИБП от сети. Они перевели систему в режим байпаса без проблем. Затем они обрезали автомат защиты на выходе и еще несколько проводов для ускорения демонтажа. И тут дата-центр площадью в 2500 квадратных метров вдруг затих. Я побежал в машзал, ожидая обнаружить пораженных током электриков. Но они просто спокойно отсоединяли провода. Я закричал, что ЦОД ушел в офлайн, на что электрики ответили, что оборудование запитывается в режиме байпаса. Я повторил. Они остановили работу, подумали 10 секунд, а затем их глаза открылись действительно широко», пишет JF.
Автор спросил электриков, как много времени уйдет на починку. Они сказали, что смогут исправить положение примерно за час. В конечном итоге восстановление работоспособности ЦОД заняло около 36 часов. При этом около 12 старых систем хранения данных вышли из строя окончательно и бесповоротно, унеся с собой по четыре-пять дисков каждая. На многих сетевых системах были несохраненные файлы конфигурации, и для исправления этой проблемы потребовалось дополнительное время.
Сбой системы пожаротушения в ЦОД вывел из строя интернет-сервисы городского совета Глазго
Сбой системы пожаротушения в дата-центре стал причиной того, что интернет-сервисы городского совета Глазго вышли из строя более чем на три дня. Сбой имел место в минувший вторник. Как сообщают представители муниципалитета крупнейшего города Шотландии, причиной всему стало повреждение IT-оборудования с ценными данными (включая системы хранения данных) системой пожаротушения в коммерческом ЦОД. Эта система активировалась автоматически после выхода их строя блока кондиционирования воздуха, что привело к резкому повышению температуры в машзале арендуемого дата-центра.
Власти рассматривают возможность направления судебного иска в отношении своих IT-партнеров, которые не смогли обеспечить оговоренный контрактом уровень сервиса. Они отмечают, что даунтайм ЦОД привел к уходу в офлайн электронной почты и других критически важных государственных интернет-сервисов (в частности, касающихся обслуживания уязвимых групп населения). Это заставило чиновников обслуживать обращения граждан вручную.
Всего комментариев: 0