Подробности об авариях в ЦОД Digital Realty, Telus, Cloudflare и MTN
Инфраструктура ЦОД постоянно совершенствуется в направлении повышения надежности и предотвращения риска сбоев. Но аварии почти неизбежны, когда речь заходит о дата-центрах. Причин, как показывает наш свежий дайджест, масса. И многие совершенно не зависят от операторов и владельцев дата-центров. Именно поэтому здравомыслящие колокейшн-провайдеры и поставщики услуг ЦОД предоставляют клиентам гарантии безотказной работы инфраструктуры в течение 99,99% времени, но никак не 100%.
Перебои электроснабжения в ЮАР привели к отказу системы охлаждения в дата-центре MTN
Затяжной энергетический кризис в Южно-Африканской Республике сильно бьет по местной индустрии ЦОД. В ходе очередной серии веерных отключений электроэнергии на национальном уровне, обусловленных недостаточностью электроснабжения для удовлетворения спроса домохозяйств и компаний, в офлайн ушел центр обработки данных колокейшн-провайдера MTN в пригороде Йоханнесбурга, оптовым арендатором которого выступает хостинговая компания Afrihost.
Проблемы с электроснабжением привели к отказу системы охлаждения дата-центра. Авария случилась 29 июня 2022 в 09:07 по местному времени. В итоге клиенты африканской компании Afrihost лишились доступа к корпоративной электронной почте, а веб-сайты, хостером которых выступал данный провайдер, оказались отключены. Сбой длился более тридцати часов. Несмотря на то, что система полностью восстанавливалась в течение 45 минут, внезапное отключение теплохладотехники повредило некоторые серверы хостинг-провайдера Afrihost.
Незадолго до инцидента местная энергетическая компания Eskom произвела «сброс нагрузки» (веерное отключение объектов от электросети в соответствии с графиком для контроля нагрузки и предотвращения полного коллапса энергетической инфраструктуры). От сети была отключена нагрузка мощностью более 4 ГВт.
Отключения электроэнергии становятся все более регулярными в ЮАР, поскольку сеть испытывает трудности с удовлетворением потребностей клиентов. Эксперты предупреждают, что в ближайшем будущем может потребоваться отключение нагрузки мощностью 8 ГВт. Представители Eskom заявили о незаконной забастовке, которая замедляет ремонт оборудования. Сотрудники компании бастуют из-за невысокой заработной платы.
В коммерческих дата-центрах MTN на территории ЮАР имеются системы резервного электропитания. Но частота и серьезность отключений подачи электричества из центральной сети ведут к тому, что батареи установленных ИБП не могут перезарядиться в достаточной мере. Для перезарядки резервных батарей обычно требуется 12-18 часов.
Представители компании заявили о проведении «агрессивного развертывания» аккумуляторов, генераторов и альтернативных источников электропитания, обратившись к местным предприятиям с просьбой обеспечить поставки дополнительных генераторов для нужд ЦОД.
Компания модернизировала свои резервные аккумуляторы в более чем 80% подконтрольных ЦОД. MTN также развернула более 2000 генераторов разной мощности, чтобы противостоять последствиям сброса нагрузки, и в настоящее время использует более 400 000 литров топлива в месяц для поддержания этих генераторов в рабочем состоянии.
ЦОД Стэндфордского университета ушел в офлайн из-за отключения электроэнергии
Вследствие перебоев в подаче электроэнергии после лесного пожара в округе Сан-Матео, штат Калифорния (США), частный дата-центр именитого Стэндфордского университета пришлось на время частично отключить.
Сильный пожар привел к обесточиванию главного кампуса ВУЗа. Местная энергетическая компания PG&E обеспечила ограниченное электроснабжение через вторичную линию, но выделенных ресурсов оказалось недостаточно для удовлетворения потребностей кампуса.
Часть критически важных объектов удалось переключить на электроснабжение от генератора. На кампусе продолжилось производство охлажденной воды для нужд ЦОД и прочих объектов, но возможности для ее подачи в отдельные здания оказались ограничены вследствие обесточивания помп.
В коннектикутском ЦОД колокейшн-провайдера Digital Realty произошла утечка химикатов
21 июня 2022 года в дата-центре колокейшн-провайдера Digital Realty в Трамбалле, штат Коннектикут (США), произошла небольшая утечка химикатов. Если точнее, «слабым звеном» оказался насос, обслуживающий градирню на крыше здания. Никто не пострадал.
Из насоса, обеспечивающего циркуляцию охлаждающей жидкости в здании на бульваре Мерритт, 80, произошла утечка коррозионно-активных химикатов, в результате чего у одного из сотрудников появились боли в глазах и горле. На объект оперативно прибыли бригады химзащиты и около трех десятков пожарных.
Здание на бульваре Мерритт изначально было центром обработки данных биржи Nasdaq, которая продала его в 2006 году за 30 миллионов долларов. Колокейшн-провайдер Digital Realty приобрел постройку в 2009 году в рамках сделки по покупке трех дата-центров у Sentinel Data Centers.
После покупки новый владелец отремонтировал ЦОД с привлечением компании Sentinel в качестве подрядчика. Ремонт и модернизация проводились в соответствии с действующими на тот момент отраслевыми стандартами. В настоящее время в здании имеется несколько машзалов общей площадью около 5 тыс. кв. м.
Масштабные отключения ЦОД в Канаде вызваны попыткой кражи меди и активностью бобров
7 июня 2022 в канадской провинции Британская Колумбия произошло масштабное отключение интернета вследствие активности местной фауны. Крупный грызун (вероятно, бобер) прогрыз осину, в результате чего дерево упало как на линии электропередачи энергетической компании BC Hydro, так и на оптоволоконную кабельную линию местного поставщика телекоммуникационных услуг Telus, проходящую между Топли и Хьюстоном. Затем дерево загорелось. Благо, пожар оперативно потушили местные добровольцы.
Из-за отключения электроэнергии пострадал только 21 клиент BC Hydro в сельской местности, но отключение интернета затронуло клиентов Telus в городах Бернс-Лейк, Гранисл, Хайда-Гвайи, Хейзелтоны, Китимат, Принс-Джордж, Принц-Руперт, Смитерс, Террас, Торнхилл, Хьюстон, Топли, Телква, Фрейзер Лэйк и Вандерхоф.
Эксперты отметили, что бобры иногда вызывают перебои в подаче электроэнергии в Канаде, но это явление не является регулярным. В прошлом году из-за бобра также произошел сбой в инфраструктуре Telus: животное использовало оптоволоконный кабель для своей плотины, зарывшись на метр в мерзлую землю, чтобы добраться до кабеля.
Сотни отключений электроэнергии связаны с белками, змеями и другими представителями фауны, которые случайно закорачивают оборудование, но результат для них обычно хуже, чем для электросети. Иногда животные наносят ущерб непосредственно инфраструктуре ЦОД. Так, в 2016 году внутри дата-центра в британском городе Айлворт оказались несколько кошек, заполнивших машзалы шерстью.
Но для ЦОД гораздо более опасны двуногие злоумышленники. Так, в 22:40 11 июня 2022 года все та же канадская компания Telus столкнулась с очередным обрывом телекоммуникационного кабеля. Но на этот раз ущерб канадской компании и ее клиентам, включая операторов ЦОД и владельцев серверных комнат, расположенных в регионе, причинили люди. Работоспособность инфраструктуры оказалась нарушена при попытке похитить медь. Бригады техников быстро определили место повреждения и завершили восстановительные работы к вечеру следующего дня.
19 дата-центров Cloudflare по всему миру ушли в офлайн вследствие человеческой ошибки
21 июня в 06:27 по всемирному координированному времени (UTC) началось каскадное отключение вычислительных мощностей сети доставки контента Cloudflare, в конечном итоге затронувшее 19 дата-центров компании по всему миру, включая объекты в Мумбаи, Осаке, Сингапуре, Сиднее и Токио.
Благодаря усилиям технического персонала к 07:42 UTC все центры обработки данных были подключены к сети и корректно функционировали. Авария затронула 4% от общего объема ресурсов компании, но сбой повлиял на 50% от общего числа запросов. В результате из строя вышли многие сайты и сервисы, включая Discord и Shopify.
Сбой в работе почти 2 десятков центров обработки данных оказался вызван «человеческой ошибкой» при внесении изменений в протоколы функционирования инфраструктуры в рамках долгосрочного проекта по повышению устойчивости в самых загруженных местах.
В корпоративном блоге Cloudflare отмечается, что инцидент произошел в результате ошибки операторов , а не хакерской атаки или злонамеренной деятельности. В течение последних 18 месяцев компания работала над преобразованием всех своих самых загруженных объектов с использованием более гибкой и отказоустойчивой архитектуры, которая называется Multi-Colo PoP (MCP).
Новая архитектура, как ожидается, обеспечит значительное повышение надежности, позволяя проводить техническое обслуживание, не прерывая клиентский трафик. Но при ее реализации разными командами возникла путаница, приведшая к даунтайму. Причем инженеры Cloudflare столкнулись с дополнительными трудностями при попытке добраться до затронутых мест, чтобы отменить проблемное изменение.
Всего комментариев: 0