Ключевые сбои в ЦОД на рубеже 2024 и 2025 годов: от Бразилии до Нигерии

7 февраля 2025

Инциденты в ЦОД продолжают происходить по всему миру, затрагивая как локальные, так и глобальные сервисы. От выхода из строя корпоративных серверных ферм до нарушений в работе крупнейших облачных платформ — сбои инфраструктуры не щадят ни национальные ведомства, ни многомиллиардные корпорации.

В январе 2025 года молния вывела из строя дата-центр в Бразилиа, что привело к остановке работы Департамента транспорта и вызвало хаос в управлении дорожным движением южноамериканской страны. Похожие инциденты ранее останавливали производство полупроводников в Японии и нарушали работу сетей в США.

Крупнейшие корпорации тоже подвержены рискам. Так, проблемы с электропитанием в дата-центре Microsoft оставили миллионы пользователей без доступа к платформе генеративного искусственного интеллекта ChatGPT и связанным с ней сервисам. Громкими инцидентами отметились и другие компании, также известные многомиллиардными инвестициями в инфраструктуру дата-центров. Например, команда Alibaba Cloud столкнулась с пожаром на стройплощадке ЦОД.

Эти случаи подчеркивают, что цифровая инфраструктура по-прежнему уязвима перед природными явлениями, авариями и человеческим фактором. Независимо от масштабов и уровня инвестиций, обеспечение устойчивости и надежности IT-систем в условиях растущей глобальной цифровизации остается непростой задачей. Подробности в дайджесте, охватывающем первый и последний месяцы 2024 и 2025 гг., соответственно.

Бразильский дата-центр выведен из строя ударом молнии

23 января 2025 года в Бразилии молния ударила в дата-центр, расположенный в столице страны. Инцидент привел к полному отключению цифровых сервисов Департамента транспорта (Detran), включая управление светофорами в Бразилиа, что вызвало перебои в движении на дорогах. Для минимизации последствий были привлечены дорожные офицеры, которые вручную регулировали движение. Одновременно технические специалисты начали работу по восстановлению IT-инфраструктуры.

Проблемы, вызванные отключением ЦОД, затронули как управление транспортной инфраструктурой, так и обслуживание посетителей профильного ведомства. В Detran сообщили, что граждане, ранее записывавшиеся на встречи с сотрудниками департамента, получили уведомления о переносе визитов на более поздние даты.

Молнии представляют серьезную угрозу для дата-центров по всему миру. Например, в 2024 году молния вывела из строя вышку мобильной связи в округе Лейк, Флорида (США), а в Японии производство полупроводников на фабрике Renesas Electronics было остановлено на неделю из-за удара молнии в линию электропередачи. Случай в Бразилии подчеркивает важность дополнительных мер защиты от подобных природных явлений.

Операторы немецкого дата-центра в Оффенбахе допустили утечку загрязненной воды

Команда дата-центра, расположенного в промышленной зоне на Lämmerspieler Weg в Оффенбахе, Германия, столкнулась с утечкой охлаждающей жидкости во время ввода оборудования в эксплуатацию. Инцидент, получивший широкую огласку в ноябре 2024 года, привел к проникновению технической H2O в почву через систему инфильтрации дождевой воды, установленную на крыше здания. Власти города сообщили, что в составе утекшей жидкости были многочисленные добавки для защиты от коррозии и консервации, две из которых классифицируются как опасные вещества.

Несмотря на это, угрозы для населения, по словам представителей администрации Оффенбаха, нет: инцидент произошел слишком далеко от водоносных горизонтов. Однако для контроля последствий будут проводиться регулярные анализы состава грунтовых вод в нескольких точках. В случае превышения допустимых концентраций загрязняющих веществ власти обязуются оперативно проинформировать соответствующие органы. Ближайшие скважины для питьевой воды находятся на расстоянии 1,5 километра от места инцидента, что снижает риск загрязнения инфраструктуры водоснабжения.

Немецкий дата-центр, пострадавший от утечки, не назван, но известно, что в промышленной зоне Lämmerspieler Weg кампус ЦОД строит компания CloudHQ. Кампус включает два дата-центра общей площадью 108 371 квадратный метр и мощностью 112 МВт. Пока не уточняется, связана ли утечка именно с проектом CloudHQ. В регионе Оффенбах, расположенном к востоку от Франкфурта, сосредоточены многие крупные кампусы ЦОД, включая объекты Vantage, Main Cubes и MightyCare DC.

На стройплощадке дата-центра Alibaba Cloud в Китае вспыхнул пожар

9 декабря 2024 года на строительной площадке дата-центра Alibaba Cloud в районе Юаньчэн города Хэюань в провинции Гуандун (Китай) произошел пожар. Инцидент вызвал эвакуацию сотен людей. К счастью, обошлось без жертв и значительных материальных убытков.

По официальной информации, распространенной пресс-службой компании, возгорание произошло из-за попадания горячих металлических частиц при резке на экструдированные панели снаружи здания. Контакт материалов привел к сильному задымлению без возникновения сильного пламени. Пожар был ликвидирован в течение 10 минут с использованием обычного пожарного шланга, не затронув инфраструктуру облачных сервисов Alibaba Cloud, так как пострадавшее здание на кампусе ЦОД пока еще находился на стадии строительства.

С момента ввода в эксплуатацию в 2020 году существующий кампус в Хэюане уже стал ключевым звеном инфраструктуры компании в регионе. Кампус ЦОД в Хэюане — часть масштабного проекта Alibaba Cloud по расширению вычислительной инфраструктуры, предполагающего инвестирование капитала в общем размере до 15 млрд юаней (примерно $2,06 млрд). В планах строительство трех объектов, которые китайцы надеются завершить к 2028 году.

Подобные инциденты ранее фиксировались и в других дата-центрах, где размещено оборудование Alibaba Cloud. В начале 2024 года пожар произошел в одном из действующих ЦОД, арендуемых поставщиком облачных сервисов. Речь о ЦОД SIN11 колокейшн-провайдера Digital Reality в Сингапуре. Инцидент привел к временному отключению сервисов ByteDance. Несмотря на это, Alibaba активно продолжает глобальное расширение, планируя строительство дата-центров в Южной Корее, Малайзии, Таиланде, на Филиппинах и в Мексике, одновременно сворачивая деятельность в Австралии и Индии.

В сети нигерийской компании 9Mobile произошел сбой из-за пожара в дата-центре в Лагосе

17 декабря 2024 года пожар в главном дата-центре телекоммуникационной компании 9Mobile в Лагосе привел к массовым сбоям в работе сети. Пользователи столкнулись с перебоями в предоставлении голосовых, интернет- и мобильных услуг, что вызвало шквал жалоб в социальных сетях. По данным компании, пожар стал основной причиной проблемы, однако дополнительные трудности были вызваны многократными повреждениями оптоволоконных линий, которые произошли еще до инцидента.

Оператор 9Mobile, обслуживающий миллионы клиентов, отметил, что огонь был оперативно потушен благодаря вмешательству пожарной службы Лагоса. Это позволило предотвратить более серьезные последствия. Тем не менее, восстановление сети заняло несколько дней, и на момент публикации официального заявления компании о последствиях полное функционирование услуг было обеспечено лишь в некоторых регионах страны, включая Север и Юго-Запад.

Проблемы с инфраструктурой не новы для 9Mobile. В июле 2024 года сеть компании оставалась недоступной на протяжении шести дней. Инцидент также произошел из-за повреждений оптоволоконных линий и актов вандализма. Ситуация ухудшается на фоне постоянного оттока клиентов: за последние годы активная абонентская база оператора сократилась с 20 млн до 3,3 млн.

В 9Mobile извинились перед клиентами за неудобства и пообещали ускорить восстановительные работы. Этот и другие похожие инциденты подчеркивают необходимость усиления защиты инфраструктуры и оптимизации управления рисками.

Из-за аварии ЦОД в Индии оказались недоступны правительственные сайты

31 декабря 2024 года в индийском Национальном дата-центре (National Data Centre) произошел сбой электропитания. Объект, контролируемый правительством, расположен на территории Шастри-Парка в Дели (Индия). Инцидент привел к временной недоступности ряда ключевых правительственных сайтов. Среди пострадавших ресурсов оказались сайты Министерства связи, Министерства иностранных дел, Министерства здравоохранения и социальных служб, а также других ведомств.

Сбой длился около часа, после чего электроснабжение было восстановлено, и сайты начали поэтапно возвращаться в онлайн-режим. Однако некоторые ресурсы оставались недоступными до вечера того же дня. Проблема также затронула внутреннюю почтовую систему правительства, управляемую Национальным центром информатики (National Informatics Centre; NIC).

Серьезные последствия инцидента отчасти нивелировались тем, что он не был связан с кибератакой и, соответственно, не привел к утечке данных, о чем заявили представители NIC. Однако этот случай вызвал обеспокоенность относительно устойчивости инфраструктуры правительственных дата-центров, учитывая высокую значимость их работы в контексте предоставления государственных услуг и управления страной.

Это не первый подобный случай в Индии. В том же месяце (декабрь 2024 года) технические проблемы в системе бронирования билетов государственной железнодорожной компании IRCTC (Indian Railway Catering and Tourism Corporation) вызвали перебои в обслуживании пассажиров. Этот случай продемонстрировал необходимость модернизации и усиления резервных мощностей.

ChatGPT перестал работать из-за проблем с электропитанием в дата-центре Microsoft

29 декабря 2024 года пользователи по всему миру столкнулись с недоступностью инструмента ChatGPT и связанных с ним сервисов. Впоследствии выяснилось, что даунтайм случился из-за перебоев при подаче электропитания в дата-центре Microsoft. Проблемный ЦОД расположен в центральном регионе США. Инцидент вызвал массовые сбои в работе API OpenAI, генератора видеороликов SORA и других инструментов, которые зависят от доступности облачной инфраструктуры.

Перебои начались около 13:30 по Северноамериканскому восточному времени (ET), когда пользователи стали получать сообщения об ошибках на сервере. Команда OpenAI оперативно отреагировала, подтвердив высокий уровень ошибок. Полное восстановление ChatGPT произошло только к 23:00 (ET) того же дня. Этого удалось добиться после восстановления электропитания в ЦОД Microsoft и устранения проблем с инфраструктурой.

Представители Microsoft впоследствии заявили, что причиной сбоя в ЦОД стали локальные перебои с электропитанием и высокая нагрузка на оборудование, что также затронуло их облачный игровой сервис Xbox Cloud. Несмотря на успешное завершение восстановительных работ внутри дата-центра, данный инцидент в очередной раз подчеркнул зависимость критически важных сервисов от стабильности облачной инфраструктуры.

Однако глобальные проблемы с доступом к ChatGPT повторились 23 января 2025 года, когда пользователи вновь начали массово сообщать о сбоях. По данным OpenAI, сбой был вызван увеличением уровня ошибок в работе системы. Платформа оставалась недоступной в течение часа с 12:33 до 13:23 по Центральноевропейскому стандартному времени (CET), после чего сервисы начали поэтапно восстанавливаться. Несмотря на заявление о решении проблемы, пользователи в США и Европе продолжали фиксировать перебои, связанные с медленной загрузкой и ошибками соединения.

Эти инциденты подчеркивают необходимость значительных улучшений в резервировании и обеспечении устойчивости инфраструктуры. Команда OpenAI уже анонсировала соответствующие проекты в конце 2024 года. Компания планирует внедрить новую систему автоматического переключения на резервные мощности для предотвращения длительных даунтаймов в будущем.

В сети Three UK произошел сбой, затронувший тысячи клиентов в Великобритании

23 января 2025 года британский оператор мобильной связи Three UK столкнулся с масштабным сбоем в своей сети, который затронул тысячи пользователей по всей Великобритании. Согласно данным Downdetector, первые жалобы появились около 13:00 по местному времени, а пик сообщений о проблемах пришелся на 14:00, когда было зарегистрировано более 10 тыс. обращений.

Инцидент повлиял на доступ к голосовым сервисам и в некоторых случаях вызвал проблемы с подключением к сети передачи данных. Особенно тревожным стало то, что некоторые пользователи сообщили о невозможности совершать звонки на экстренный номер 999, хотя в Three UK заверили, что в большинстве случаев такие вызовы проходили успешно. Представители компании отметили, что анализ данных экстренных служб не выявил значительного увеличения пропущенных вызовов.

В Three UK оперативно извинилась перед клиентами за неудобства, отметив, что сбой затронул «небольшой процент голосовых услуг», и заверили, что ведутся активные работы по устранению проблемы. Полное восстановление услуг было завершено в ночь на 24 января, о чем оператор сообщил на своем сайте, пообещав продолжить мониторинг для обеспечения стабильности сети.

Компания Three UK уже сталкивалась с похожей проблемой в феврале 2024 года, когда сбой в ее дата-центре затронул около 13 тыс. пользователей. Последний инцидент вновь подчеркивает важность надежной инфраструктуры и оперативного реагирования на технические сбои в критически важных сетях связи.

Потеря электропитания и отказ оборудования вывели из строя инфраструктуру Capital One

В январе 2025 года клиенты американского банка Capital One столкнулись с масштабным сбоем в работе онлайн-банкинга и задержками в обработке прямых депозитов. Причиной стала авария у стороннего поставщика услуг ЦОД. Речь о компании Fidelity Information Services (FIS). Как сообщается, инцидент был вызван локальной потерей электропитания и отказом оборудования, что повлекло за собой перебои в работе не только Capital One, но и ряда других банков, использующих решения FIS.

Сбой начался 16 января и продолжался несколько дней. Инженеры FIS частично восстановили сервисы уже в первые сутки после даунтайма, но на полное восстановление системы ушло гораздо больше времени. Это произошло лишь 19 января. В это время многие клиенты Capital One не могли получить доступ к своим аккаунтам. Некоторые клиенты жаловались на задержки в получении заработной платы через прямые депозиты.

Масштаб сбоя подчеркнул уязвимость финансовых систем, зависящих от внешних подрядчиков. Эксперты по кибербезопасности отметили, что для профилактики таких инцидентов и минимизации последствий даунтаймов требуется регулярное тестирование резервных систем и использование надежных механизмов аварийного переключения. Представители FIS заверили, что компания проведет анализ произошедшего и внедрит дополнительные меры для предотвращения повторения подобных ситуаций в будущем.

Для банков вроде Capital One сбой стал напоминанием о важности управления рисками, связанными со сторонними подрядчиками. Клиенты в подобных ситуациях, как правило, возлагают ответственность за проблемы напрямую на банки, которые могут пользоваться инфраструктурой сторонних дата-центров. Это подчеркивает необходимость усиления требований к SLA (соглашение о качестве обслуживания) с поставщиками услуг ЦОД и регулярной оценки подрядчиков. Такие инциденты также повышают актуальность страхования от сбоев в работе инфраструктуры – особенно в условиях растущей сложности процессов и зависимости от внешних IT-партнеров.

Телекоммуникационные компании Японии будут вместе реагировать на стихийные бедствия

Крупнейшие телекоммуникационные компании Японии в лице NTT Group, KDDI Corporation, SoftBank Corp. и Rakuten Mobile заключили соглашение о совместных действиях в случае стихийных бедствий. Новая рамочная инициатива, которая официально вступила в силу 1 декабря 2024 года, направлена на ускоренное восстановление сетевой инфраструктуры в пострадавших регионах.

Согласно договоренности, операторы будут совместно использовать ключевые ресурсы, включая бизнес-объекты, склады для хранения оборудования, заправочные станции и даже жилые помещения для сотрудников. Компании также обязуются обмениваться информацией о повреждениях инфраструктуры и координировать действия по восстановлению сетей – особенно в критически важных зонах. Например, в муниципальных учреждениях и больницах.

Инициатива запущена на фоне высокой сейсмической активности в Японии, где землетрясения и другие природные катаклизмы регулярно приводят к разрушению инфраструктуры. Исторически эти события оказывали значительное влияние на телекоммуникационные сети, что делало восстановление связи приоритетом для операторов и правительства.

Ожидается, что новая модель сотрудничества не только повысит надежность сетей в условиях чрезвычайных ситуаций, но и станет важным шагом к обеспечению доступности связи для населения даже в самых сложных условиях. Она также может послужить примером для других стран с высокой уязвимостью к природным бедствиям.