Аварии в ЦОД: новости из Канады, Китая и США

16 января 2023

Вследствие неисправности кондиционера в ЦОД канадский авиаперевозчик WestJet начал массово отменять рейсы Согласно результатам анализа простоев ЦОД за 2022 год, проведенного организацией Uptime Institute, негативные репутационные последствия аварий стабильно усиливаются, а финансовые издержки – растут. 60% сбоев в настоящее время приводят к общим потерям не менее $100 тыс. в эквиваленте. Исследователи также обнаружили, что более 85% серьезных инцидентов связаны с несоблюдением персоналом ЦОД процедур или с несовершенством рабочих процедур и процессов, используемых в дата-центрах.

Большинство владельцев корпоративных и коммерческих серверных ферм осведомлено о необходимости непрерывного совершенствования процедур. Собственники дата-центров также уделяют все больше внимания минимизации риска даунтаймов, связанных с «человеческим фактором», делая ставку на автоматизацию инфраструктуры и снятие нагрузки с операторов на фоне обостряющегося дефицита кадров. Тем не менее, серьезные аварии в дата-центрах продолжают происходить, что подтверждают свежие новости из Канады, Китая и США.

Вследствие неисправности кондиционера в ЦОД канадский авиаперевозчик WestJet начал массово отменять рейсы

Вследствие сбоя в работе находящегося в Канаде ЦОД, случившегося в субботу 5 ноября 2022 года, второй по величине канадский авиаперевозчик WestJet оказался вынужден отменить более 2 сотен рейсов за выходные. В следующий понедельник компания отменила еще 31 рейс. С проблемами также столкнулись клиенты лоукостера Swoop, принадлежащего WestJet, и компании Sunwing, которая ранее была приобретена все той же WestJet.
Вследствие неисправности кондиционера в ЦОД канадский авиаперевозчик WestJet начал массово отменять рейсы
Авиаперелеты, отмены которых удалось избежать, выполнялись со значительными задержками вследствие сочетания неполадок в IT-инфраструктуре и непогоды, затронувшей Альберту и некоторые районы Западной Канады. Так, в субботу, ознаменовавшуюся пиковым количеством отмен, некоторые путешественники ждали более трех часов, чтобы зарегистрироваться. Многие пассажиры прибыли в пункт назначения на несколько часов позже запланированного времени прибытия.

Комментируя инцидент в ходе пресс-конференции во вторник, представители авиаперевозчика отметили, что проблема возникла из-за перебоев в работе инфраструктуры охлаждения в основном центре обработки данных WestJet. Руководство компании извинилось перед пассажирами от имени всей команды WestJet. Представители перевозчика отметили, что команде удалось добиться стабильной работы инфраструктуры, но все же можно ожидать небольшие сбои.

Согласно сообщениям местных СМИ, ссылающихся на федеральные правила защиты авиапассажиров в Канаде, компании WestJet придется выплатить компенсацию пострадавшим клиентам в размере до 1000 канадских долларов (в зависимости от продолжительности задержки).

Оборудование в нью-йоркской серверной Twitter перегрелось из-за хаоса, обусловленного массовыми увольнениями персонала

После покупки Twitter миллиардером Илоном Маском команда сервиса столкнулась с массовыми увольнениями, приведшими к неразберихе и перегрузке инфраструктуры. В отчете о хаосе, связанном с приобретением, издание The New York Times сообщает, что в один момент в компании не осталось никого, кто мог бы обслуживать серверную комнату Twitter в Нью-Йорке. Оставленная без присмотра инфраструктура перегрелась, что привело, помимо прочего, к отключению Wi-Fi в местном офисе компании. Инцидент произошел в начале ноября 2022 года.

Маск агрессивно сокращает рабочие места в команде Twitter Redbird, которая управляет инфраструктурой компании. Согласно инсайдерской информации The New York Times, миллиардер уволил около 80 процентов инженерно-технического персонала, а также большое количество менеджеров. Это заставило специалистов поставить под сомнение способность сервиса Twitter оставаться онлайн и бесперебойно функционировать.

Ранее стало известно, что Маск, который обременил компанию выплатой процентов по долгу на сумму около 1 миллиарда долларов, стремился сэкономить все тот же 1 миллиард долларов на затратах на инфраструктуру.

Добиваться достижения поставленной цели миллиардер планирует путем сокращения количества собственных серверов, используемых для обработки генерируемой пользователями нагрузки в периоды пикового спроса, и за счет уменьшения расходов на облачную платформу Google Cloud.

Согласно сведениям Reuters, оставшиеся в штате сотрудники планируют добиваться ежедневной экономии на уровне 1,5 миллиона долларов и 3 миллионов долларов за счет сокращения пула собственных серверов и снижения расходов на облачные сервисы, соответственно.

Независимые аналитики сходятся во мнении, что сокращение штата инженеров, уменьшение числа собственных сервисов и отказ от стороннего облака увеличат вероятность сбоев и ошибок в работе платформы Twitter, которая еще до покупки Маском и объявленной миллиардером реструктуризации не считалась образцовой в плане стабильности работы.

В одном лишь только 2022 году перебои в работе сервиса фиксировались в январе, марте, июле и дважды в сентябре. Второе отключение в сентябре произошло, когда экстремальная жара в Калифорнии привела к остановке центра обработки данных компании.

В китайском центре суперкомпьютерных вычислений произошел пожар, пострадавших нет

13 октября 2022 года в китайском Сучжоуском центре суперкомпьютерных вычислений произошел пожар. Огонь возник в резервной системе охлаждения офисного здания, в котором расположен дата-центр. О пострадавших не сообщается. Пожар начался в 9 утра по местному времени и был потушен примерно через полчаса.
В китайском центре суперкомпьютерных вычислений произошел пожар, пострадавших нет
Данной информацией поделилась компания Suzhou Industrial Park Science and Technology Development, занимающаяся администрированием Индустриального парка Сучжоу, на территории которого располагается объект. Отмечается, что сам дата-центр практически не пострадал.

Центр суперкомпьютерных вычислений в городе Сучжоу был открыт в марте 2020 года. Проект был профинансирован Suzhou Industrial Park Science and Technology Development и принадлежит данной компании. Общий объем инвестиций в проект составляет 210 миллионов юаней (29 миллионов долларов США). Целью выступало создание передового суперкомпьютера с емкостью системы хранения 6,75 ПБ и пиковой производительностью 2657 Тфлопс и 1268 Тфлопс при вычислениях с плавающей запятой одинарной точности и двойной точности, соответственно.

Это быстрая машина, но она на несколько порядков уступает наиболее мощным аналогам, созданным к настоящему моменту. Самым быстрым суперкомпьютером в мире официально признана машина US Frontier с производительностью 1,1 экзафлоп. Но, как сообщается, в распоряжении Китая имеются две секретные машины, способные выдавать более 1 экзафлопа. Производительность машины в Сучжоу составляет примерно одну четырехсотую от производительности лидеров.

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *