Инциденты в ЦОД: новости из Великобритании, Франции, США, Индии, Сингапура и не только
Строительство и эксплуатация ЦОД сопряжены со смертельными рисками. Вторая половина марта 2023 года отметилась сразу несколькими пожарами в дата-центрах по всему миру и одним крайне серьезным инцидентом на стройплощадке, результатом которого стала гибель человека.
Рабочий погиб на стройке в Стаффордшире, где выполняется проект по переоборудованию ЦОД
20-летний мужчина умер на строительной площадке в британском городе Стоун, графство Стаффордшир, где реализуется проект по трансформации центра обработки данных в логистический объект (склад с офисами). Инцидент произошел 23 марта 2023 года. На место прибыли машины скорой помощи и санитарная авиация. К сожалению, несмотря на все усилия сотрудников скорой помощи, спасти мужчину не удалось. Медики констатировали его смерть на месте.
Генподрядчик Glencar Construction, занимающийся проектом, подтвердил гибель сотрудника одной из подрядных структур. Подробности инцидента не разглашаются. Местная полиция инициировала расследование обстоятельств инцидента вместе с коллегами из британского Управления по охране труда и технике безопасности. Работы на площадке приостановлены до дальнейшего уведомления.
Ранее на месте стройплощадки располагался центр обработки данных банковского учреждения Royal Bank of Scotland (RBS), известный как Stone Data Center. ЦОД был первоначально построен для нужд коммерческого банка NatWest после авиакатастрофы в Кегворте в 1989 году. Авария произошла недалеко от другого дата-центра NatWest, и было решено, что в распоряжении банка должна быть резервная серверная ферма. Трехэтажный центр обработки данных площадью 10,5 тыс. квадратных метров перешел в руки RBS после того, как этот банк приобрел NatWest в 2000 году.
В 2022 году Glencar Construction и PLP объявили о намерении снести центр обработки данных и построить на его месте современный складской комплекс площадью около 30 тыс. квадратных метров. Строительство началось в сентябре 2022 года. Завершение проекта запланировано на второй квартал 2023 года.
К сожалению, инциденты со смертельным исходом периодически случаются как на строительных площадках ЦОД, так и в уже введенных в эксплуатацию серверных фермах. Например, в октябре 2010 года во время обслуживания ЦОД Morgan Stanley в городе Хаунслоу на территории все той же Великобритании погиб электрик. Расследование завершилось спустя 5 лет штрафом для подрядной организации.
В декабре 2021 года в результате пожара в дата-центре Cyber 1, принадлежащем компании CDCI (Cyber Data Center International) и расположенном в пригороде Джакарты, Индонезия, погибли двое технических специалистов. Интересно, что в 2015 году произошло возгорание на восьмом этаже того же здания. Предыдущий пожар, к счастью, не нанес вреда здоровью персонала.
Дата-центр Maxnod во Франции сгорел из-за неисправности аккумуляторов
28 марта 2023 года во французском дата-центре, которым управляет компания Maxnod, произошел разрушительный пожар. В результате ЦОД, расположенный в городке Сен-Тривье-сюр-Муаньян, был обесточен, а его инфраструктура оказалась серьезно повреждена.
Сообщений о жертвах нет. Один пожарный получил легкие ранения во время ликвидации очага возгорания. Представители местных органов власти заявили, что для устранения пожара потребовались значительные ресурсы: было задействовано 49 автомобилей. В ликвидации возгорания участвовал 81 пожарный.
По словам представителя телекоммуникационной ассоциации MilkyWan, который находился в центре обработки данных во время обнаружения возгорания около 11 часов утра по местному времени, огонь возник в техническом помещении с аккумуляторными батареями. Аккумуляторы были подключены к массиву солнечных панелей.
Значительная часть оптоволоконных кабелей сгорела. Помещение с электромеханическим оборудованием пережило пожар, но оказалось покрыто сажей и водой, – равно как и машзал. Хотя некоторые стойки выглядели поврежденными, серверы внутри них оказались в сохранности. Дата-центр площадью 800 квадратных метров — единственный ЦОД компании Maxnod, веб-сайт которой ушел в офлайн после инцидента.
Пожары в центрах обработки данных продолжают досаждать субъектам индустрии ЦОД, причиняя огромный ущерб и даже становясь причиной гибели людей, как отмечалось выше. Самый “заметный” инцидент подобного плана произошел во все той же Франции, когда в марте 2021 года сгорел дата-центр облачного и колокейшн-провайдера OVHcloud, расположенный в Страсбурге.
Компания до сих пор ликвидирует последствия инцидента. После того как выяснилось, что OVH хранила резервные серверы в том же центре обработки данных и случайно стерла некоторые диски, которые ей удалось извлечь из-под обломков, компания столкнулась с коллективным иском пострадавших.
В Южной Корее возгорание литий-ионной батареи в ЦОД в октябре 2022 года стало причиной отключения популярного мессенджера KakaoTalk , вызвавшего хаос в азиатской стране. Проблемы с силовым оборудованием вызвали небольшой пожар в мадридском центре обработки данных колокейшн-провайдера Equinix в феврале 2022 года.
На строительной площадке ЦОД AdaniConneX в Индии случился пожар
28 марта 2023 года на строительной площадке центра обработки данных AdaniConneX в Нойде, Индия, произошёл небольшой пожар. Инцидент случился в 23:20 по местному времени. Потушить огонь, возникший в строящемся дата-центре, удалось сравнительно быстро. Обошлось без травм.
Причиной стало несоблюдение техники безопасности при выполнении сварочных работ на объекте. Загорелось несколько листов термокола [полистирола] и пластика. На место сразу же прибыла пожарно-спасательная бригада.
Строящийся ЦОД рассчитан на IT-нагрузку мощностью 100 МВт. Открытие запланировано на конец 2023 года. Компания AdaniConneX — это совместное предприятие EdgeConneX и индийского конгломерата Adani Enterprises.
ЦОД Internet Archive вышел из строя из-за прекращения электроснабжения
22 марта 2023 года калифорнийский дата-центр некоммерческой организации Internet Archive, в ведении которой находится одноименная цифровая библиотека, вышел из строя из-за отключения электроснабжения компанией PG&E. Организация Internet Archive предоставляет всем без исключения интернет-пользователям бесплатный доступ к резервным копиям многочисленных веб-сайтов, программ, игр, музыкальных произведений, видеороликов, изображений и книг.
В течение двух дней, прошествовавших даунтайму, более 180 тыс. потребителей электроэнергии в соответствующем районе остались без электричества из-за сильных ветров. В результате падения деревьев по меньшей мере два человека погибли, трое получили тяжелые ранения. Сильный шторм, случившийся неделей ранее, привел к тому, что тысячи людей в Калифорнии остались без электричества.
Частота и интенсивности штормов в регионе увеличиваются в результате антропогенного изменения климата. В свежем отчете Межправительственной группы экспертов ООН по изменению климата, опубликованном в марте 2023 года, содержится предупреждение о том, что человечеству необходимо добиться быстрого и устойчивого сокращения выбросов парниковых газов во всех секторах, чтобы ограничить потепление до 1,5°C.
Последствия климатических изменений в последние годы все чаще оказывали негативное влияние на инфраструктуру компании PG&E, которая также страдала от нехватки инвестиций в течение десятилетий и оказалась ответственна за возникновение разрушительных лесных пожаров. Стремясь снизить риск возникновения нового пожара в своей сети, PG&E в 2020 году превентивно прекратила электроснабжение миллионов клиентов.
Клиенты банка DBS из Сингапура потеряли доступ к счетам через интернет из-за сбоя в ЦОД
29 марта 2023 года сингапурские клиенты крупнейшего банка Юго-Восточной Азии DBS Group Holdings Ltd. столкнулись с потерей доступа к функционалу интернет-банкинга. Услуги были восстановлены после 10-часового сбоя. По предварительной информации, причиной инцидента стали неполадки в инфраструктуре ЦОД. После сбоя деятельность DBS подверглась проверке со стороны регулирующего органа.
Свежий инцидент напоминает сбой в работе банка DBS Group Holdings Ltd., произошедший в ноябре 2021 года и признанный одним из самых серьезных сбоев в работе цифровой банковской инфраструктуры за последнее десятилетие.
В соответствии с правилами сингапурского Бюро по вопросам денежно-кредитной политики, финансовым учреждениям надлежит гарантировать, чтобы максимальное время незапланированного простоя для каждой критически важной системы не превышало 4 часов в течение произвольного 12-месячного периода. Поэтому после очередного инцидента регулирующий орган поручил банку провести тщательное расследование, чтобы выяснить первопричину.
В 2022 году Бюро по вопросам денежно-кредитной политики Сингапура приказало DBS выделить 930 миллионов сингапурских долларов (700 миллионов долларов США) на улучшение инфраструктуры после инцидента 2021 года, когда тысячи клиентов не могли воспользоваться интернет-банкингом в течение как минимум двух дней. Проблема была связана с неполадками в работе серверов, использующихся банком для управления доступом.
Uptime Institute: число простоев ЦОД снижается, но крупные аварии обходятся все дороже
Согласно свежему отчету Annual Outages Analysis 2023, опубликованному организацией Uptime Institute, общее количество сбоев в ЦОД по всему миру по-прежнему увеличивается. Но инфраструктура дата-центров расширяется быстрее. Следовательно, аварийность серверных ферм фактически снижается. Другие выводы авторов доклада представлены ниже:
- Не стоит доверять SLA: Частота и продолжительность отключений инфраструктуры ЦОД убедительно свидетельствуют о том, что многие поставщиков облачных услуг и колокейшн-провайдеры не способны обеспечить соответствие собственным соглашениям об уровне обслуживания (SLA). Авторы отчета предупреждают, что соглашения об уровне обслуживания не стоит рассматривать в качестве надежных индикаторов доступности инфраструктуры ЦОД в будущем.
- Ошибочное впечатление: Согласно исследованию, серьезные сбои в работе IT-инфраструктуры могут казаться все более распространенным явлением, чем ранее вследствие активной цифровизации. Сегодня все больше людей и организаций полагаются на онлайн-сервисы. Как следствие, сообщения о сбоях ЦОД в новостях и социальных сетях стали привлекать больше внимания. В реальности десятилетия инноваций, инвестиций и улучшения процедур привели к тому, что критически важные IT-системы, сети и центры обработки данных стали намного надежнее, чем раньше.
- Сообщения о простоях ЦОД: Отмечается неуклонное снижение количества сообщений о простоях. 60% участников ежегодного опроса организации Uptime Institute сообщили о минимум одном отключении, случившемся за последние три года. В 2021 году и 2020 году об этом сообщали 69% и 78% респондентов, соответственно.
- Влияние аварий: Собранные данные свидетельствуют, что влияние аварий фактически снижается. Организация Uptime Institute классифицирует простои по шкале от 1 до 5. На долю двух наивысших категорий (серьезные и очень серьезные аварии) ранее приходилось около 20% всех отключений. Но к 2022 их доля упала до 14%.
- Причины аварий (опрос операторов ЦОД): Результаты опроса, касающиеся причин перебоев в работе ЦОД, с течением времени демонстрируют «удивительное постоянство». Проблемы с электропитанием остаются основной причиной серьезных отключений. На их долю приходится 44% аварий. Далее следуют проблемы с сетью (14%), аппаратные/программные сбои и проблемы с охлаждением (13%). Однако когда дело доходит до всех отключений, а не только тех, которые оказали серьезное влияние на соответствующую компанию, оказывается, что проблемы с сетью являются основной причиной (31%), а проблемы с электропитанием занимают лишь второе место.
- Причины сбоев, публикуемые в открытых источниках: С другой стороны, результаты анализа публично зафиксированных / объявленных сбоев в работе ЦОД показывают иной набор причин. В частности, выделяются кибератаки и программы-вымогатели, на долю которых приходится около 11% сбоев. Частота подобных инцидентов растет. В 2021 году на долю данной причины приходилось 8% сбоев.
- Ненадежное публичное облако: Обнаружилось, что многие корпоративные IT-менеджеры обеспокоены отказоустойчивостью публичных облачных сервисов. Лишь 1 из 10 респондентов сказал, что публичные облачные сервисы достаточно устойчивы для всех рабочих нагрузок. Почти пятая часть (18%) респондентов указали, что публичные облака недостаточно устойчивы и надежны. Доля таких скептиков стабильно растет.
- Скорость устранения сбоев: Цифры показывают, что большинство сбоев (около 70%) исправляются в течение 12 часов. Большинство аварий устраняются гораздо быстрее. Однако зафиксирован рост числа отключений, которые не удается устранить даже спустя 48 часов. Доля сбоев подобного типа в общее числе зарегистрированных инцидентов выросла с 4% в 2017 года до 16% в 2022 году. Причин несколько. Например, крупные атаки программ-вымогателей, требующие отключения всех потенциально уязвимых систем, становятся все более распространенными.
- Ущерб: Исследователи обнаружили, что более двух третей всех аварий ЦОД сейчас обходятся организациям более чем в 100 000 $. Следовательно, аргументы в пользу увеличения инвестиций в отказоустойчивость становятся все более убедительными. Четверть респондентов, принявших участие в глобальном опросе Uptime Institute, заявили, что последнее отключение стоило их организации более 1 миллиона $ в форме прямых и косвенных затрат. Еще 45% опрошенных заявили об ущербе в размере от 100 тысяч $ до 1 миллиона $. Эксперты заявляют о формировании четкой тенденции к увеличению затрат. Данные за 2019 показывают, что 60% респондентов указали затраты при крупных простоях на уровне менее 100 000 $.
Авторы отчета приветствовали переход к архитектуре распределенных вычислений, способной уменьшить влияние некоторых локальных сбоев на работоспособность IT-платформ в целом. Однако эксперты предупреждают, что иные тенденции способны подорвать прогресс. Например, переход на возобновляемые источники энергии и распределенные системы электрогенерации способен снизить надежность электросети.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать