Самые громкие аварии в ЦОД и новые способы их избежать: дайджест за 1 кв. 2025 года

2 апреля 2025

Первый квартал 2025 года выдался насыщенным на инциденты в секторе ЦОД. Сбои электроснабжения, природные катастрофы, пожары, технические отказы и даже угрозы терроризма — инфраструктура многих дата-центров столкнулась с серьезным давлением.

Самые громкие аварии в ЦОД за 1 кв. 2025 года

В дайджесте собраны самые резонансные аварии за январь–март 2025 года. Рассмотрим события в России, США, Великобритании, Испании, Австралии, Японии и Сингапуре. Также обратим внимание на технологические новинки и решения, которые появляются в ответ на вызовы — от фотонных сетей до страхования на случай утечек в системах жидкостного охлаждения серверов.

Рунет пережил сбой из-за проблем с электросетью, пострадали «Госуслуги»

11 февраля 2025 года одна из наиболее загруженных российских точек обмена интернет-трафиком MSK-IX, расположенная в московском дата-центре ММТС-9, начала сбоить. Причина – проблемы с электропитанием. Авария не затронула весь узел, но привела к перебоям у отдельных операторов связи.

Платформа «сбой.рф» зафиксировала резкий рост жалоб на доступность «Госуслуг», TikTok, Ivi и «Яндекс.Карт» в промежутке с 6 до 7 утра по Москве. Хотя «Ростелеком» заявил, что портал «Госуслуг» не пострадал, пользователи сообщали об обратном. Проблема возникла в часы минимальной нагрузки, что позволило избежать более серьёзных последствий.

Узел MSK-IX контролируется группой «РТК-ЦОД», входящей в «Ростелеком». Площадка размещена в здании на улице Бутлерова и считается критически важной для национальной интернет-инфраструктуры. Она играет ключевую роль в маршрутизации российского трафика.

Массовый переход дата-центров на генераторы едва не обрушил энергосистему Вирджинии

Журналистское расследование, результаты которого были опубликованы в марте 2025 года, обнаружило серьезные уязвимости энергосистемы региона с наибольшей концентрацией дата-центров в мире. Речь о штате Северная Вирджиния в США.

дата-центр в Вирджинии

Риски продемонстрировал инцидент, произошедший в июле 2024 года: отказ молниеотвода вызвал короткое замыкание на линии электропередачи, что привело к автоматическому отключению участка сети. Последовавшее кратковременное нарушение качества электроснабжения заставило 60 дата-центров с совокупной нагрузкой 1,5 ГВт одновременно перейти на резервные источники электричества.

Из-за синхронного отключения потребителей предложение электричества превысило спрос. Это могло привести к лавинообразному росту напряжения и выходу оборудования из строя. Оператор сети PJM Interconnection был вынужден срочно сократить подачу электричества с генерирующих мощностей, чтобы избежать аварии.

Угрозу удалось предотвратить, однако возврат нагрузки в сеть оказался не менее сложной задачей. Как показало расследование, большинство серверных ферм региона на тот момент не были оснащены средствами автоматического переключения обратно с дизель-генераторов и ИБП на внешнюю сеть. В результате потребовалось вмешательство персонала, который выполнил процедуры в ручном режиме. Нагрузка возвращалась в сеть в течение нескольких часов, несмотря на нормализацию параметров.

Согласно оценкам экспертов, такие инциденты будут учащаться на фоне резкого роста энергопотребления со стороны ЦОД. Только во 2 половине 2024 года дата-центры Вирджинии увеличили совокупную заявленную мощность с 21 до 40 ГВт. Уже сейчас электросетевые операторы, владельцы генерирующих мощностей и регулирующие органы рассматривают внедрение механизмов обязательной координации при переходе на ДГУ и возврате нагрузки – особенно для потребителей с высокой плотностью IT-инфраструктуры.

Чтобы минимизировать риски, местная энергокомпания Dominion планирует инвестировать дополнительные средства в модернизацию сетей. Регулятор NERC, в свою очередь, запустил рабочую группу по изучению влияния крупных потребителей на устойчивость сетевой инфраструктуры.

Мужчина, угрожавший поджечь дата-центр xAI в Мемфисе, обвинён в терроризме

20 февраля 2025 года федеральный суд США предъявил обвинение в терроризме 25-летнему жителю Теннесси Итану Эрли. Он приобрёл запрещённые взрывчатые вещества и планировал поджечь дата-центр компании xAI в Мемфисе. В этом ЦОД размещён суперкомпьютер Colossus, разработанный для обучения нейросети Grok.

По данным следствия, Эрли собирался использовать термит — пиротехнический состав, способный достигать температур до 2,5 тыс. °C. Друзья убедили его избавиться от взрывчатки. Но в ходе допроса мужчина подтвердил полиции намерение совершить атаку на «ИИ-фабрику Маска». Поводом он назвал политические убеждения, не согласующиеся с позицией предпринимателя, активно поддерживавшего администрацию действующего президента Дональда Трампа.

Компания xAI разместила вычислительные мощности в бывшем заводе Electrolux в Мемфисе, где на момент инцидента работало около 100 тыс. графических процессоров. В октябре 2024 года Илон Маск объявил о планах довести их число до 200 тыс., а в перспективе — до миллиона. Масштабы проекта вызвали обеспокоенность местных властей и жителей из-за давления на электросети и инфраструктуру водоснабжения.

Инцидент в очередной раз подстегнул дискуссии на тему физической безопасности IT-инфраструктуры, которые усилились в условиях роста числа критически важных ЦОД. После ареста Эрли суд назначил залог в размере $500 000. Расследование продолжается. На фоне происходящего компания xAI, по заявлениям ее представителей, усиливает меры физической защиты ЦОД.

Зимний шторм вызвал отключение электроснабжения в дата-центре Pfizer в Коннектикуте

17 февраля 2025 года в Гротоне, штат Коннектикут (США), сильный зимний шторм с порывами ветра и обильными снегопадами нарушил работу критической инфраструктуры, включая дата-центр на территории кампуса фармацевтической компании Pfizer. В результате отключения внешнего электропитания ЦОД автоматически перешёл на резервную когенерационную установку. После восстановления энергоснабжения из центральной сети были выявлены аппаратные сбои — часть оборудования потребовала восстановления.

Pfizer

Помимо применения вычислительных мощностей для собственных нужд, компания Pfizer использует ресурсы дата-центра для обслуживания автоматизированных диспетчерских систем и административных IT-сервисов. Как сообщается, недавний сбой не повлиял на работоспособность службы 911 и не нарушил работу полиции.

Площадь ЦОД, где случилась авария, оценивается примерно в 1,1 тыс. кв. метров. Эта серверная ферма входит в число крупнейших в регионе. Особенностью архитектуры дата-центра выступает возможность полной изоляции от городской электросети и перехода на собственные энергомощности в случае угрозы. Однако инцидент показал, что даже наличие резервного плана не исключает риска внутренних сбоев.

Два года назад власти города Гротон, где находится ЦОД, приняли решение запретить строительство новых дата-центров площадью свыше 1 200 кв. метров, сославшись на экологическую нагрузку и ограниченные ресурсы инфраструктуры. Авария, произошедшая на фоне этих ограничений, подчеркнула необходимость более тщательного проектирования отказоустойчивых систем на случай неблагоприятных климатических условий.

Пожар в сингапурском дата-центре привел к госпитализации сотрудника

14 марта 2025 года в дата-центре по адресу Чай Чи Роуд, 750C, в Сингапуре произошёл пожар, вызванный, по предварительным данным, взрывом серверного оборудования. Инцидент случился в ранние утренние часы. Он сопровождался задымлением, срабатыванием спринклерной системы пожаротушения и отключением электропитания здания. Один человек был госпитализирован с симптомами отравления дымом.

дата-центр WebSatMedia

Дата-центром управляет компания WebSatMedia. Помещения в ЦОД арендуют несколько поставщиков облачных и телекоммуникационных услуг. В число арендаторов входит компания SG.GS. Представители последней подтвердили факт пожара, но заявили, что очаг не находился в их стойках.

Компания HostSG, оборудование которой также присутствует в здании, сообщила, что тушение пожара завершилось к 11:00 по местному времени, а восстановление электропитания началось около 16:30. Однако запуск всех серверов был отложен из-за повреждений системы охлаждения — кондиционеры пострадали от сажи, и одновременный запуск оборудования мог привести к перегреву.

Пожар затронул не только IT-инфраструктуру, но и офисные помещения. По словам представителей SG.GS, их команда работает над восстановлением обслуживания клиентов, а в здании задействована бригада по очистке и ремонту инженерных систем.

Инцидент стал уже вторым серьёзным случаем подобного плана на сингапурском рынке ЦОД за последний год: в сентябре 2024 года пожар произошёл в серверной ферме колокейшн-провайдера Digital Realty (SIN11), затронув интересы поставщика облачных услуг Alibaba. Новая авария подчеркнула важность проверки оборудования на соответствие стандартам пожаробезопасности и своевременного обслуживания инфраструктуры в условиях все более высокой плотности размещения IT-компонентов в стойках и их интенсивной эксплуатации.

Дата-центр городского совета Ноттингема в Великобритании вышел из строя

13 марта 2025 года в здании городского совета Ноттингема произошёл сбой в системе электроснабжения, вызванный отказом в цепи безопасности высоковольтного силового коммутатора. Авария вывела из строя не только само здание, но и главный дата-центр горсовета, обслуживающий основные IT-системы города, включая телефонию и платёжные сервисы.

горсовет Ноттингема

По заявлению руководства горсовета, авария носила беспрецедентный характер. Резервные дизель-генераторы не смогли подать электропитание обратно в систему из-за неисправности в цепи переключения. В результате зафиксировано повреждение жёстких дисков и утрата некоторых файлов. Но критические данные, как утверждается, удалось сохранить. Восстановление систем велось в круглосуточном режиме с привлечением внешних технических специалистов.

Жителям рекомендовалось обращаться за экстренной помощью по электронной почте, так как линии связи с техподдержкой были перегружены. Несмотря на частичное восстановление телефонии, полноценный запуск всех сервисов был отложен до завершения диагностики и повторных тестов электросети.

Отказ оборудования в здании, которое изначально строилось по заказу банковской холдинговой компании Capital One и эксплуатировалось горсоветом с 2010 года, вновь поставил вопрос о надёжности электроснабжения и отказоустойчивости публичных IT-систем. Особенно с учётом того, что менее чем за полгода до инцидента два госпиталя в Ноттингеме уже сталкивались с IT-сбоями, повлиявшими на диагностику пациентов и анализы крови.

Британская телекоммуникационная компания Community Fibre дважды за неделю «уронила» интернет

В феврале 2025 года лондонский интернет-провайдер Community Fibre столкнулся с двумя крупными сбоями в течение одной недели, что вызвало массовое недовольство среди 0,3+ млн клиентов компании, включая владельцев серверных комнат и операторы полноценных дата-центров. Первая авария произошла 17 февраля. По данным сервиса Downdetector, более 9,5 тыс. пользователей сообщили о проблемах с доступом к сети. 21 февраля произошёл второй сбой, вновь нарушивший работу инфраструктуры Community Fibre на территории британской столицы.

Компания заявила, что инженеры оперативно занимаются устранением неполадок, и извинилась перед абонентами. Гендиректор провайдера направил клиентам письмо с извинениями, подчеркнув, что понимает важность стабильного подключения. Однако ни одна из аварий не была детально объяснена, а их близость во времени вызвала критику в адрес техподдержки и систем мониторинга провайдера. Вторая авария также сопровождалась временной блокировкой официальной страницы компании в соцсети X, что лишь усилило информационный вакуум.

Community Fibre управляет оптоволоконной сетью, охватывающей более 1,3 млн объектов в Лондоне. С учётом плотности цифровой инфраструктуры города и зависимости жителей от высокоскоростного интернета, такие инциденты ставят под сомнение устойчивость оборудования провайдера.

TPG Telecom восстановила ЦОД в Австралии, используемый Vodafone, после серьезного сбоя

11 февраля 2025 года австралийский провайдер услуг связи TPG Telecom сообщил о восстановлении работы после масштабного сбоя в одном из своих дата-центров в Сиднее, обслуживающего ряд крупных клиентов, включая Vodafone Australia. Инцидент произошёл вечером 10 февраля и затронул тысячи компаний и физлиц по всей стране. Особенно сильно пострадали клиенты из штата Новый Южный Уэльс и столичного региона.

Причиной стала комбинация погодных условий и технических сбоев. Мощный шторм вызвал локальные затопления и отключение электроснабжения, а резервный генератор в дата-центре не смог автоматически запуститься. Это лишило доступа к телекоммуникационным услугам пользователей Vodafone Australia, TPG, iiNet, Internode и Kogan.

Проблема получила широкий резонанс: платформа Downdetector зафиксировала более 14 тыс. жалоб от клиентов TPG. В социальных сетях и на сайтах операторов были опубликованы срочные уведомления. Национальный оператор связи NBN Co был вынужден отдельно заявить, что его сеть не имеет отношения к произошедшему, после того как пользователи начали искать виновника среди всех провайдеров.

Компания TPG восстановила работу большинства сервисов уже к утру следующего дня, однако подчеркнула, что некоторые абоненты могут по-прежнему испытывать сложности и рекомендовала перезагрузку оборудования. Этот случай показал уязвимость сетевой инфраструктуры при одновременном отказе внешнего электропитания и резервных систем, а также необходимость пересмотра аварийных протоколов в условиях растущей нагрузки на дата-центры.

Vodafone тестирует дроны с модулями Taara для аварийного восстановления связи

В начале 2025 года компания Vodafone представила экспериментальное решение для экстренного восстановления связи в случае повреждения волоконно-оптических линий. Ее инженеры взяли на вооружение беспилотники, оснащённые модулями Taara. Это система беспроводной передачи данных по лазерному лучу, разработанная лабораторией X (входит в Alphabet / Google).

дроны Vodafone

В ходе испытаний в испанской Севилье два дрона с передатчиками Taara успешно установили стабильное соединение на расстоянии около 3 км. Один из аппаратов был «привязан» к мобильной вышке, второй — к дата-центру Vodafone. Демонстрация подтвердила возможность создания временного канала связи с высокой пропускной способностью (до 20 Гбит/с) в случае разрушения наземной или подземной инфраструктуры.

Система Taara использует узконаправленный инфракрасный лазер, который требует точной юстировки и отсутствия помех между модулями. Для поддержания соединения дроны оснащаются системой стабилизации и позиционирования. Каждое устройство потребляет около 40 Вт энергии и способно работать автономно в течение ограниченного времени.

Компания Vodafone сталкивается с 75–100 случаями повреждения магистрального волокна ежегодно в одной только Европе. Новая технология может стать оптимальным решением для труднодоступных или пострадавших от катастроф регионов. Аналогичные решения ранее тестировали Swisscom, Verizon и Telia, а также австралийская Vocus. Но проект Vodafone и Alphabet впервые продемонстрировал возможность интеграции беспилотников и оптики свободного пространства (Free Space Optics) на промышленном уровне.

DeNexus расширяет платформу DeRISK для повышения безопасности и эффективности дата-центров

Компания DeNexus, специализирующаяся на управлении киберрисками, представила расширенную версию платформы DeRISK, ориентированной на оценку и минимизацию рисков в дата-центрах. Обновление учитывает как киберугрозы, так и физические инциденты, включая пожары, сбои электропитания и атаки на инженерные системы.

Новая версия платформы позволяет моделировать действия злоумышленников с различными уровнями подготовки, частотой атак и типами поведения. Внедрена система визуализации «графа атаки», демонстрирующая потенциальные пути проникновения через защитные периметры ЦОД. Отдельно оценивается потенциальный ущерб для оборудования и инфраструктуры в разрезе ряда физических кластеров: машзалов, систем охлаждения, электроснабжения, охраны и управления зданием.

Алгоритм DeRISK рассчитывает возможные убытки от простоев ЦОД, повреждений и восстановления сервисов, а также позволяет моделировать сценарии «что, если» (например, в случае отказа ИБП или целенаправленной атаки на систему кондиционирования). Результаты выражаются в финансовых показателях, что делает платформу полезной для принятия инвестиционных и страховых решений.

Как заявляют в DeNexus, учитывая стремительный рост IT-нагрузок на фоне распространения ИИ, традиционное разделение на физическую и кибербезопасность становится неэффективным. Система DeRISK предлагает интегрированный подход, позволяющий IT-руководителям, инженерам и специалистам по безопасности видеть полную картину рисков в ЦОД. DeNexus позиционирует DeRISK как полезный инструмент не только для операторов дата-центров, но и для владельцев другой критической инфраструктуры, включая банковский сектор, медицину и промышленную автоматизацию.

Accelsius предлагает страховку от утечек хладагента с покрытием до $0,1 млн на стойку

Американская компания Accelsius, специализирующаяся на системах жидкостного охлаждения, запустила программу поддержки NeuGuard, в рамках которой дата-центры могут получить страховое покрытие до $100 тыс. за каждую стойку в случае утечки хладагента.

NeuGuard включает стандартную и расширенную техническую поддержку, а также профессиональные услуги по внедрению и эксплуатации системы NeuCool. Это решение на базе диэлектрической жидкости, которая испаряется при непосредственном контакте с наиболее горячими чипами, а затем конденсируется в замкнутом контуре. Такая архитектура позволяет эффективно удалять тепло без риска коротких замыканий. Система разрабатывалась на базе технологий Bell Labs.

Программа страхования NeuGuard реализуется совместно с CNA — одним из крупнейших страховщиков в США. Она охватывает повреждение оборудования внутри стойки, связанное с утечками в системе охлаждения. В дополнение предлагаются гарантии на уровне отдельных серверов, прошедших сертификацию у ведущих OEM-производителей.

Крупнейший банк Японии использует фотонные технологии для предотвращения сбоев в ЦОД

Банк MUFG Bank совместно с NTT DATA и NTT WEST провёл успешные испытания междатацентровой синхронизации IT-систем с использованием фотонной инфраструктуры IOWN APN (All-Photonics Network). Проект продемонстрировал возможность почти мгновенного переключения нагрузки между дата-центрами с минимальным временем простоя — менее одной секунды. Тесты также подтвердили работоспособность синхронной репликации баз данных на расстоянии до 2 500 км.

Технология IOWN APN, основанная на оптической передаче данных с ультранизкой задержкой, создаёт условия для более надёжного и отказоустойчивого взаимодействия между отдельными элементами географически распределённой инфраструктуры ЦОД.

Испытания включали два сценария: онлайн-миграцию виртуального финансового ПО между двумя дата-центрами в пределах 70 км и синхронизацию баз данных в нескольких ЦОД, расположенных на большом расстоянии друг от друга. В обоих случаях достигнуты крайне низкие задержки при передаче информации и сохранена целостность данных.

В основе технологии лежат фотонные каналы, обеспечивающие значительно меньшие потери и тепловыделение по сравнению с традиционными электрическими интерфейсами. Это позволяет создать распределённую инфраструктуру, устойчивую к региональным сбоям и катастрофам, с возможностью мгновенного переключения нагрузки между узлами.

По мнению экспертов MUFG, использование фотонных сетей — ключ к цифровой трансформации финансовой отрасли. Решение открывает новые возможности для построения географически распределённых кластеров дата-центров и создания банковских систем нового поколения, способных обеспечивать непрерывность бизнес-процессов даже в условиях серьёзных сбоев.

Выводы и тренды

События первых месяцев 2025 года показали сохранение риска даунтайма ЦОД даже при наличии резервных систем и многоуровневой защиты. Повторяющиеся сбои в электропитании, влияние погодных условий, человеческий фактор и возрастающая зависимость бизнеса от ИИ-инфраструктуры формируют новую повестку для операторов ЦОД.

На фоне инцидентов всё чаще внедряются инновационные подходы — от фотонных сетей с минимальной задержкой до дронов с лазерными каналами связи и страхования от утечек хладагента. Комплексные решения, сочетающие физическую и кибербезопасность, становятся стандартом. В условиях роста нагрузки на ЦОД и усиления угроз даунтайм становится событием из категории не «если», а «когда», и выигрывает тот, кто готов действовать на опережение.

Всего комментариев: 0

Оставить комментарий