Uptime Institute: частота и серьезность сбоев в ЦОД снижаются, главная причина аварий – сеть

17 мая 2024

Организация Uptime Institute опубликовала отчет о сбоях в ЦОД за 2024 год (англ.: Uptime Institute Data Center Resiliency Survey 2024). В документе сказано, что проблемы с сетью стали основной причиной большинства аварий, связанных с IT-услугами. В случае физической инфраструктуры дата-центров главная причина даунтаймов – неполадки в системе электропитания. Кибератаки также становятся все более существенной причиной сбоев.

В основу доклада легли ответы участников ежегодного глобального опроса Uptime Intelligence, проводившегося во втором и третьем кварталах 2023 года с участием 850 респондентов. Также использовались ответы участников опроса на тему устойчивости ЦОД, который проводился в первом квартале 2024 года и также привлек 850 респондентов. Более того, был проанализирован отчет Uptime Intelligence Public Outage Tracking, при составлении которого зафиксировано более 750 сбоев в ЦОД в период с 2016 по 2023 годы.

В Uptime Institute отметили, что одним из ключевых факторов увеличения времени безотказной работы ЦОД является то, что из года в год организации вкладывают все больше средств в резервирование физической инфраструктуры.

Причины сбоев, связанных с IT-услугами

31% опрошенных указали на проблемы с подключением к сети передачи данных как на наиболее распространенную причину сбоев, связанных с IT-услугами. Далее следовали проблемы с IT-системами/программным обеспечением (22%). Другие распространенные причины сбоев, связанных с IT-услугами, включают электропитание (18%), охлаждение (7%) и сторонние IT-услуги (10%).

Аналитики из Uptime Institute проанализировали ряд сбоев, информация о которых стала достоянием общественности. Были проведены исследования как сбоев, связанных с IT-услугами, так и простоев инфраструктуры ЦОД, чтобы определить, какие факторы больше всего влияют на корпоративные сети и дата-центры. Согласно докладу за 2024 год, основными причинами публично сообщаемых сбоев в работе IT-услуг являются:

• IT-системы (программное обеспечение/конфигурация): 23%;
сетевая инфраструктура (программное обеспечение/конфигурация): 22%;
электроснабжение: 11%;
кибератаки/программы-вымогатели: 11%;
опотоволокно: 10%;
пожары/срабатывание противопожарных систем: 9%;
перебои в работке системы охлаждения серверов: 6%;
сеть (кабели): 4%;
проблемы с провайдером/партнером: 2%;
недостаточная располагаемая мощность IT-нагрузки для удовлетворения спроса: 1%;
другое: 1%.

Серьезность сбоев в ЦОД и их последствий снижается

Исследовательская фирма отметила, что большинство операторов ЦОД, принявших участие в опросе, сообщили об отсутствии аварий или незначительных перебоях в подконтрольных дата-центрах за последние три года. Это означает, что организации не понесли серьезного ущерба из-за простоя ЦОД.

55% операторов, участвовавших в опросах Uptime Institute в 2023 году, сообщили о сбоях в работе ЦОД за последние три года. Для сравнения в 2022 году таких респондентов было 60%, а в 2021 году о даунтаймах рапортовали 69% участников опроса. Рассмотри инциденты по уровню влияния на бизнес:

Незначительные инциденты. Когда их попросили классифицировать сбои, 41% участников свежего исследования ответили, что столкнулись с незначительными инцидентами. Такие инциденты авторы отчета из Uptime Institute классифицировали как «зарегистрированные сбои с незначительным или нулевым очевидным влиянием на услуги». Доля респондентов, столкнувшихся с такими сбоями, выросла на 4 процентных пункта по сравнению с 2022 годом и на 10 процентных пунктов по сравнению с 2021 годом.
Минимальные сбои. Еще 32% сообщили о сбоях, определяемых как «минимальные». Речь об инцидентах с минимальным негативным влиянием на пользователей/клиентов/репутацию.
Значительные инциденты. Менее одной пятой респондентов (17%) столкнулись со сбоями, классифицированными как «значительные». Имеются в виду инциденты, которые привели к перебоям в обслуживании клиентов/пользователей, но имели минимальный финансовый эффект или вообще не имели его, а также оказали определенное негативное влияние на репутацию или соответствие бизнеса/ЦОД нормативным требованиям.
Серьезные сбои. 6% указали на серьезные сбои в работе силовой и иной инфраструктуры подконтрольных дата-центров, последствия которых включали перебои в обслуживании клиентов (с возможными финансовыми потерями на стороне клиентов), финансовые потери, нарушения нормативных требований, проблемы в области безопасности и репутационный ущерб.
Критические сбои со значительными последствиями. Еще 4% респондентов заявили, что столкнулись с серьезными перебоями в работе инфраструктуры, которые привели к критическим или деструктивным сбоям IT-служб или физической инфраструктуры ЦОД. Последствия таких сбоев включают крупные финансовые потери и возможные проблемы с безопасностью, нарушения нормативных требований, потерю клиентов и репутационный ущерб.
Авторы отчета отметили, что серьезность аварий в дата-центрах падает. Другими словами, уменьшается доля инцидентов, которые попадают в категорию «очень серьезных» или «серьезных», снижая репутацию, оказывая сильное негативное влияние на финансовую составляющую бизнеса или приводя к другим экстремальным последствиям.

Более половины (54%) респондентов заявили, что серьезные даунтаймы обходятся более чем в 100 000 долларов США. 16% утверждали, что последний сбой в работе их ЦОД привел к ущербу в стоимостном размере свыше 1 миллиона долларов США.

Согласно отчету Uptime Institute, в год происходит в среднем 10-20 громких IT-даунтаймов. Речь об инцидентах, которые приводят к серьезным финансовым потерям, сбоям в функционировании бизнеса поставщика услуг ЦОД и клиентов, репутационным потерям или, в крайних случаях, к гибели людей.

В Uptime Institute указали на несколько недавних сбоев в ЦОД, которые оказали серьезное негативное влияние на соответствующие организации. Например, в инфраструктуре Федерального управления гражданской авиации США произошел сбой, причиной которого была ошибка в конфигурации программного обеспечения. Из-за ошибочно удаленных файлов перестала нормально функционировать система оповещения пилотов. Инцидент затронул более 30 тысяч рейсов. Это негативно повлияло на акции крупных авиакомпаний.

Австралийский провайдер телекоммуникационных услуг Optus столкнулся с дорогостоящими последствиями сбоя из-за инцидента в сети передачи данных. Авария в ЦОД вызвала задержки транспорта, проблемы в банковской системе и прекращение работы больничных телефонных линий на 12 часов. Она затронула более 10 миллионов пользователей и 400 тысяч предприятий.

Другой пример — кибератака с использованием программы-вымогателя на Dish Network, в которой киберпреступники зашифровали критически важные данные. Это нарушило работу почти 300 тысяч пользователей и привело к падению стоимости акций компании более чем на 6%.

Негативные последствия кибератак усиливаются

Аналитики Uptime Institute заявили, что, несмотря на продолжающееся снижение общей частоты и серьезности сбоев в ЦОД, негативное влияние инцидентов, связанные с киберпространством, усиливается. Такие события привели к ряду наиболее серьезных сбоев в последние годы.

Авторы отчета отметили кибератаки и программы-вымогатели как быстро усиливающийся негативный фактор, на который приходится 11% серьезных сбоев. Одной из примечательных особенностей атак с применением программ-вымогателей эксперты назвали то, что они обычно длятся несколько дней. А в некоторых случаях и несколько недель. В редких случаях вовлеченной компании так и не удается вернуть к работе.

Собранные данные позволили понять ключевой момент: сегодня кибератаки поражают бизнес операторов и владельцев ЦОД иначе, чем несколько лет назад. По данным Uptime Institute, большинство современных систем управления инфраструктурой, используемых в дата-центрах, и их компонентов теперь поддерживают передачу данных через IP.

Это делает их более восприимчивыми к кибератакам, повышая вероятность сбоя в работе ЦОД. Для сравнения: в прошлом системы управления инфраструктурой ЦОД часто использовали собственные / проприетарные последовательные каналы связи, отдельные от корпоративной сети.

Сетевой безопасности нужно уделять больше внимания при использовании таких систем с поддержкой IP, поскольку, они с большей вероятностью могут оказаться во власти злоумышленников. Производители инфраструктурных решений для дата-центров и систем управления инфраструктурой ЦОД, охладителей IT-оборудования, генераторов, систем управления зданиями с поддержкой передачи рабочих данных через IP-канал периодически выпускают патчи для исправления проблем безопасности. Но многие из этих систем не так часто обновляются как должно из соображений безопасности.

Проблемы с электропитанием сохраняются

По данным Uptime Institute, несмотря на улучшение конструкции и многократное резервирование, системы подачи электроэнергии остаются одним из главных уязвимых мест ЦОД в контексте сбоев. Проведенные организацией опросы показали, что у 30% респондентов произошел сбой той или иной степени критичности, вызванный непосредственно проблемой с электропитанием.

Среди них 42% указали на отказ источника бесперебойного питания (ИБП) как на основную причину проблем с электропитанием. Еще одной основной причиной для 28% опрошенных стал сбой при переводе нагрузки на резервный генератор.

В 2023 году у Microsoft случился такой даунтайм, повлиявший на работу сервисов Azure в Западной Европе. Тогда из-за сбоя в системе подачи электроэнергии коммунальной компанией инженеры Microsoft перешли на генераторное электропитание в пострадавшем дата-центре, но часть генераторов не заработала, как ожидалось.

Авторы исследования отметили, что многие операторы ЦОД забывают про тестирование силового оборудования. В их распоряжении могут быть передовые системы резервного электроснабжения. Но если такие системы регулярно не тестируются в реальных условиях, риск сбоя растет.

Исследователи также обнаружил положительные моменты. Все больше организаций активизируют усилия, когда дело доходит до резервирования. Около 39% опрошенных предприятий сообщили о повышении резервирования компонентов системы электропитания. 37% сказали то же самое об охлаждении. Это общемировой уровень в разрезе ЦОД всех категорий.

Среди колокейшн-провайдеров результаты ниже: об усилении резервирования электропитания и охлаждения сообщили 35% и 33% респондентов, соответственно. 37% провайдеров облачных услуг/хостинга/SaaS увеличили резервирование электропитания, еще 33% увеличили резервирование охлаждения. В обоих случаях умеренный рост (относительно общемирового) объясняется и без того высокой базой на момент начала отчетного периода.

В Uptime Institute утверждают о наличии оснований полагать, что переход к более динамичным энергосетям, использующим возобновляемые источники энергии, снижает надежность силовой инфраструктуры. По мере развития этой тенденции в ЦОД может наблюдаться увеличение количества отключений электроэнергии.

Влияние пандемии и компании-партнеры

Пандемия Covid-19 привела к колебаниям спроса на все, включая серверы и вспомогательное оборудование для ЦОД. Это, в свою очередь, привело к перенапряжению цепочек поставок и искажению показателей простоев. В отчете говорится, что перебои в цепочках поставок тормозят капитальные проекты и приводят к задержкам при модернизации инфраструктуры серверных ферм. Это временно снизило количество инцидентов, которые часто приводят к сбоям в ЦОД.

За восемь лет на сторонние операторы ЦОД-партнеров, провайдеры телекоммуникационных, облачных и интернет-услуг оказались в той или иной степени вовлечены в 67% сбоев в работе дата-центров в целом по миру. Доля таких инцидентов демонстрирует незначительный, но постоянный рост с 2020 года. В частности, по этим причинам произошел почти каждый десятый даунтайм в 2023 году (увеличение на 5 процентных пунктов относительно предыдущего исследования).

«Человеческий фактор» — частая причина сбоев в работе инфраструктуры ЦОД

Поставщики телекоммуникационных услуг и электроснабжения могут взять на себя часть вины за некоторые публично сообщаемые сбои в работе ЦОД. Но почти 40% респондентов смогли напрямую связать сбои с человеческой ошибкой. Например, 48% тех, кто сообщил о сбоях, заявили, что причиной стало несоблюдение персоналом дата-центра процедур. Еще 45% указали на некорректные процессы или процедуры, которые использовал персонал. 23% — на проблемы с монтажом, приводящие к сбоям. Другие причины, связанные с «человеческим фактором», включают:

проблемы во время эксплуатации: 20%;
нехватка персонала: 15%;
проблемы с частотой профилактического обслуживания: 14%;
упущения при проектировании дата-центра: 10%.

Например, на Нью-Йоркской фондовой бирже (NYSE) в 2023 году произошел такой инцидент. Тогда сотрудник не смог отключить систему аварийного восстановления во вторичном дата-центре, обслуживающем биржу. Поскольку эту систему оставили работать на ночь, программное обеспечение, управляющее NYSE, действовало так, как будто торги уже начались. Это не позволило корректно установить цены открытия торгов.

По оценкам Uptime Institute, за 25 лет на человеческие ошибки приходится от двух третей до четырех пятых всех случаев простое ЦОД. Авторы отчета назвали «человеческий фактор» компонентом, прямо или косвенно в той или иной степени вовлеченным почти в почти каждый даунтайм. Если компонент вспомогательной инфраструктуры ЦОД или IT-система была изготовлена, установлена и эксплуатируется человеком, ей де-факто присуща некоторая вероятность отказа.

Четверо из пяти респондентов, принявших участие в свежем исследовании, утверждают, что последний серьезный сбой в работе их ЦОД можно было бы предотвратить за счет улучшения процедур управления, эксплуатационных процессов и конфигурации оборудования.

В Uptime Institute утверждают, что у организаций есть возможность еще больше сократить простои в ЦОД за счет улучшения программ обучения персонала и более тщательного анализа процессов для устранения любых потенциальных сбоев.