Как предотвратить пожары в ЦОД: уроки из крупнейших инцидентов
Пожары в центрах обработки данных могут привести к серьезным последствиям: травмам или гибели сотрудников и оборудования, отказам в обслуживании сервисов и потере доверия клиентов к оператору дата-центров. Чтобы минимизировать риски, важно изучить уроки из крупных происшествий и внедрить соответствующие меры безопасности.

Почему информация о пожарах в ЦОДах остается в тени?
Компании зачастую неохотно делятся подробностями о пожарах в ЦОДах из-за соглашений о неразглашении (NDA) и опасений за свою репутацию. Как правило, такие инциденты становятся известными только в случаях, когда они фиксируются местными пожарными службами, освещаются в СМИ или когда клиенты сталкиваются с длительными простоями и требуют объяснений.
Такая тенденция к сокрытию информации помогает компаниям сохранить репутацию, но при этом затрудняет для сообщества выявлению уязвимостей, анализу произошедших инцидентов и внедрение превентивных мер для обеспечения безопасности сотрудников и клиентов.
Статистика и последствия пожаров в ЦОДах
Согласно данным Uptime Institute, опубликованным после катастрофического пожара в дата-центре OVHcloud во Франции в 2021 году, с 1994 года было зарегистрировано 11 случаев пожаров в ЦОДах — в среднем 0,5 пожара в год.
Более свежая статистика Uptime Institute за период с 2020 по начало 2023 года указывает на 14 крупных сбоев в работе дата-центров, вызванных пожарами или системами пожаротушения.
Хотя пожары составляют относительно небольшой процент инцидентов в ЦОДах, их последствия могут быть катастрофическими. Помимо угрозы для жизни и здоровья сотрудников, пожары приводят к длительным простоям, что может обойтись компаниям в миллионы долларов и серьезно подорвать доверие клиентов.

Крупнейшие инциденты: уроки для отрасли
1. Пожар в дата-центре Google, Айова
8 августа 2022 года в крупном дата-центре Google в Каунсил-Блафс, штат Айова, произошел пожар. Инцидент, первоначально зарегистрированный как «электрический сбой», был вызван дуговым разрядом, который привел к взрыву на подстанции рядом с основным зданием ЦОД.
Дуговой разряд, хотя технически не является пожаром, создает температуру до 16 500 градусов по Цельсию, что может воспламенить окружающие материалы. Взрыв произошел, когда трое сотрудников работали с электрическим шкафом в ГРЩ ЦОД.
В результате пожара три работника получили травмы и были госпитализированы. Интересно, что в тот же день сервисы Google Maps и поиска столкнулись с отказами в обслуживании, хотя компания заявила, что эти события не связаны.
Дата-центр в Каунсил-Блафс является одним из первых объектов Google и одним из крупнейших кампусов ЦОДов в мире.
2. Пожар в дата-центре Evocative, Нью-Джерси
12 октября 2023 года пожарные ликвидировали возгорание в дата-центре Evocative в Секаукусе, штат Нью-Джерси. Огонь был локализован в зоне системы бесперебойного питания (ИБП) и быстро потушен. Однако объект площадью 32 000 квадратных метров был полностью обесточен. К счастью, жертв и пострадавших не было.
Evocative, ранее известная как INAP, предоставляет интернет-услуги множеству компаний в регионе Нью-Йорка.

3. Пожар в дата-центре OVHcloud, Франция
10 марта 2021 года пожар уничтожил один из дата-центров OVHcloud в Страсбурге и частично повредил второй. По словам представителей компании, никто из сотрудников OVHcloud, пожарных или местных служб не пострадал.
Согласно отчету на сайте компании, пожар полностью уничтожил дата-центр SBG2 и четыре помещения в SBG1. В дата-центре SBG3 система ИБП вышла из строя, и только SBG4 не пострадал физически.
4. Пожар в дата-центре AT&T, Техас
15 октября 2018 года пользователи AT&T в районе Далласа остались без интернета и кабельного телевидения из-за пожара в дата-центре компании в Ричардсоне, штат Техас. Причина возгорания так и не была установлена.
По данным отчета, пожар начался на электрическом вводе и привел к простою услуг на срок до 12 часов. К счастью, никто из сотрудников не пострадал. Однако инцидент стал напоминанием о важности регулярной проверки электрических систем и наличия резервных источников питания.

5. Пожар в дата-центре Fisher Plaza, Вашингтон
2 июня 2009 года в дата-центре Fisher Plaza в Сиэтле произошел пожар, вызванный неисправностью электрической системы. В этом ЦОД размещались серверы популярных сервисов, таких как Adhost.com, Bing Travel от Microsoft, Verizon и платежный портал Authorize.net.
Все сотрудники были успешно эвакуированы, но инцидент привел к ущербу на сумму $6,8 млрд. Расследование, проведенное инженерной компанией Power Science Engineering из Вашингтона, показало, что причиной пожара стала недостаточная изоляция в электрическом кабеле, соединяющем здание с городской энергосетью.
Это был не первый случай проблем с электропитанием в Fisher Plaza. Годом ранее в распределительном щите на уровне гаража произошел пожар, из-за чего сайт компании Redfin был недоступен в течение пяти часов.
6. Пожар в дата-центре SK Inc. C&C, Южная Корея
15 октября 2021 года пожар в дата-центре SK C&C в Пангё, Южная Корея, затронул две крупные технологические компании — Kakao Corporation и Naver Corporation.
Naver быстро восстановил свои серверы, а вот Kakao столкнулся с длительными простоями, что привело к сбоям в работе мессенджеров, платежных приложений и сервисов такси на несколько часов.
Несмотря на наличие плана аварийного восстановления, Kakao не учла возможность отключения электроэнергии во время пожара, что замедлило процесс восстановления. В ответ компания создала «комитет по предотвращению повторения инцидентов», чтобы избежать подобных ситуаций в будущем.

Повышение устойчивости: как предотвратить пожары в ЦОД
Приведенные выше примеры напоминают, что пожары в дата-центрах могут возникать по разным причинам: дуговые разряды, неисправности инфраструктуры, отказы оборудования или человеческий фактор. Хотя существуют и непредвиденные угрозы, такие как стихийные бедствия, во многих случаях риски можно минимизировать.
Ключевые меры предотвращения пожаров:
1. Регулярная проверка электрических систем. Дуговые разряды и короткие замыкания — одни из самых частых причин пожаров.
2. Современные системы пожаротушения и мониторинга. Раннее обнаружение возгорания снижает ущерб.
3. Резервные источники питания. Дизель-генераторы (ДГУ) помогают избежать отключений электроэнергии.
4. Планы аварийного восстановления. Протоколы должны учитывать различные сценарии, включая отключения электроэнергии.
5. Обучение персонала. Сотрудники должны знать, как действовать в чрезвычайных ситуациях.
Борьба с пожарами через регулирование
В последние годы в мире наблюдается тренд на ужесточение регулирования в отрасли ЦОД. Например, в мае 2024 года Мэриленд принял Закон об оптимизации критической инфраструктуры (Critical Infrastructure Streamlining Act). В январе 2024 года аналогичный закон был принят в Великобритании, который ввел новые правила отчетности об инцидентах в дата-центрах и ужесточил требования к безопасности и инфраструктуре.
Регулирование и меры безопасности играют ключевую роль в повышении устойчивости инфраструктуры. Однако важно помнить, что некоторые инциденты все же неизбежны. В таких критически важным становится наличие аварийных протоколов, которые обеспечат быстрое и безопасное восстановление.
Вывод
Пожары в ЦОДах — это не только техническая проблема, но и вызов для всей отрасли. Уроки из крупных инцидентов показывают, что предотвращение таких катастроф требует комплексного подхода: от внедрения современных технологий до строгого соблюдения нормативов и регулярного обучения персонала. Только так можно обеспечить надежность и безопасность критически важной инфраструктуры.
Всего комментариев: 0