Аварии в ЦОД: новости от Microsoft, Google и Университета им Генриха Гейне
В наши дни дата-центры развиваются более динамично, чем когда-либо прежде. Постоянные изменения инфраструктуры ЦОД часто являются отражением стремительного роста рынка, заставляющего IT- компании предвидеть возникающие потребности своих клиентов и превентивно их удовлетворять.
Тем не менее, в погоне за инновациями, повышающими производительность, и инвестициями в модернизацию центров обработки данных следует помнить о поддержании их надежности. Ведь от аварий в ЦОД не застрахованы даже самые крупные интернет-корпорации, что подтверждает наш свежий дайджест о даунтаймах в серверных фермах по всему миру. Речь пойдет об инцидентах в дата-центрах Microsoft и Google. В статье также повествуется об аварии в серверной комнате с печальными последствиями, случившейся по вине хакеров.
Проблемы с охлаждением серверов вызывали сбой в работе облака Microsoft Azure в южной части Великобритании
14 сентября в центре обработки данных корпорации Microsoft, обслуживающем облачную платформу Azure, произошел продолжительный сбой в работе серверного оборудования из-за неполадок в системе охлаждения.
ЦОД на юге Великобритании был переведен в офлайн, когда несколько насосов, осуществляющих перекачку охлажденной воды, отключились по неизвестным причинам. Проблемы с насосами привели к остановке остальной части инфраструктуры серверной фермы, что позволило избежать резкого повышения температуры серверов. Дата-центр был недоступен с 13:54 до 00:41 UTC.
Когда внутренние температуры в некоторых частях центра обработки данных начали подниматься выше эксплуатационных порогов, автоматика начала отключать сеть, вычислительные системы и системы хранения данных для защиты пользовательской информации.
Затем инженеры, находящиеся на месте, перевели систему охлаждения в ручной режим и начали перезагружать поврежденные насосы, чтобы восстановить работоспособность охлаждающей установки. Это помогло довести температуру до безопасных рабочих диапазонов во всех пострадавших областях центра обработки данных к 16:40 UTC.
Как только температура достигла безопасных пороговых значений, инженеры начали восстанавливать электропитание затронутой инфраструктуры и стали поэтапно возвращать IT-системы к рабочему режиму.
После полного восстановления хранилища и сетевой инфраструктуры зависимые вычислительные узлы начали восстанавливать работоспособность. По мере роста числа серверов, находящихся в рабочем режиме, виртуальные машины и другие зависимые службы Azure также переходили в режим онлайн.
В числе пострадавших от отключения ЦОД оказался информационный портал британского правительства, с помощью которого осуществлялся мониторинг Covid-19. Сбои в работе облака Microsoft Azure наблюдались преимущественно в южном регионе Великобритании.
Примечательно, что сбой, как сообщают СМИ, произошел в тот же день, когда инженеры Microsoft подняла со дна океана свой центр обработки данных Project Natick. Полагаясь на внешнюю среду для охлаждения серверов и заполненный газообразным азотом машзал, этот подводный ЦОД оказался в восемь раз надежнее наземных аналогов.
Сервисы Google вернулись к работе после получасового отключения из-за сбоя серверов
25 сентября пользователи многочисленных сервисов Google стали сообщать в соцсетях вроде Twitter и на сайтах мониторинга аварий дата-центров, включая DownDetector, о том, что работоспособность сервисов поискового гиганта была нарушена.
В частности, сообщалось о том, что пользователи не могли войти в аккаунты Gmail или Google Play Retailer. Также сообщалось о нарушении работы термостата Google Nest и сервиса для управления умным домом Google Home, утратившего возможность создавать файлы с помощью цифровой камеры Nest.
После 30-минутного отключения работоспособность сервисов была восстановлена. В Google заявили, что из-за проблем с маршрутизацией некоторые серверы в ЦОД корпорации вышли из строя, в результате чего многие сервисы, включая Gmail, Nest и множество облачных решений, ушли в офлайн примерно на полчаса.
Пациентка умерла после выхода из строя серверов немецкой больницы
Власти Германии заявили, что атака программы-вымогателя на IT-системы серверной комнаты в дюссельдорфской больнице могла привести к смерти одной из пациенток данного медучреждения. Из-за того, что системы были выведены из строя, данные о пациентах оказались недоступны, а операции – отложены.
Одну из находившихся на лечении женщин пришлось отправить в другую больницу, располагающуюся на расстоянии 32 километров, это привело к необходимости перенести на более поздний срок потенциально жизненно важные процедуры.
Отмечается, что хакеры планировали атаковать Университет им. Генриха Гейне (Heinrich-Heine-Universität Düsseldorf), но случайно вывели из строя серверные системы его “дочки”: Университетской клиники Дюссельдорфа (Das Universitätsklinikum Düsseldorf; UKD). Атака привела к зашифровке содержимого 30 серверов в больнице, на одном из которых было сообщение от вымогателей, адресованной администрации университета.
Когда полиция Дюссельдорфа сообщила хакерам, что они атаковали больницу, те решили пойти на попятную. Злоумышленники отказались от вымогательства и предоставив цифровой ключ для расшифровки данных.
Прокуратура начала расследование в отношении хакеров по подозрению в непредумышленном убийстве по неосторожности. Если расследование убедительно покажет, что женщина могла бы выжить, не подвергнись больница кибератаке, дело может рассматриваться как убийство.
Специалисты в области кибербезопасности давно предупреждают, что больницы подвержены риску кибератак и что, поскольку все больше и больше медицинского оборудования подключается к интернету, такие взломы могут остановить работу медицинских учреждений.
Еще в 2017 году атака WannaCry нарушила работу большей части Национальной службы здравоохранения Великобритании, помешав выполнению бесчисленного множества медицинских процедур. Многие больницы по всему миру подверглись атакам программ-вымогателей.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать