Uptime Institute: аварий в среднестатистическом ЦОД в 2020 стало меньше, ущерб возрос

16 сентября 2021

Uptime Institute: аварий в среднестатистическом ЦОД в 2020 стало меньше, ущерб возрос Согласно новым данным, опубликованным организацией Uptime Institute в тематическом докладе Annual Outage Analysis, пандемия оказалась лишь одним из множества факторов, которые повлияли на изменение паттернов аварий ЦОД в 2020 году.

Хотя общее количество даунтаймов, похоже, все еще растет, темпы расширения IT-инфраструктуры опережают скорость увеличения числа аварий. Иными словами, число инцидентов на отдельно взятом ЦОД (или количество отключений на 1 киловатт IT-нагрузки) снижается.

Растущий ущерб при падающем числе крупных аварий

Данные ежегодного опроса Uptime Institute, посвященного перебоям в работе ЦОД и их причинам, показывают, что серьезных аварий стало меньше. Лишь только 6 процентов респондентов заявили о серьезных инцидентах («категория 5») в 2020 году. Годом ранее о подобных авариях сообщили 11 процентов опрошенных.
Uptime Institute: аварий в среднестатистическом ЦОД в 2020 стало меньше, ущерб возрос
Интересно, что на фоне сокращения числа крупных аварий в ЦОД финансовый и репутационный ущерб от подобных инцидентов, к сожалению, повышается, что, как полагают эксперты, обусловлено непрерывно увеличивающейся зависимостью бизнеса и государственных организаций от IT-инфраструктуры.

В частности, комментируя недавние значительные аварии, более половины респондентов, сообщавших о даунтаймах за последние три года, оценили стоимость аварий более чем в 100 000 долларов (причем около трети заявили о сумме ущерба в размере от 1 миллиона долларов и выше).
Uptime Institute: аварий в среднестатистическом ЦОД в 2020 стало меньше, ущерб возрос
Учитывая тот факт, что аварии могут иметь катастрофические последствия для заинтересованных сторон, авторы доклада заявляют о необходимости сохранять бдительность и интенсифицировать вложения ресурсов в максимизацию отказоустойчивости.

Автоматические переключатели и батареи ИБП следует подвергать тщательной проверке

Специалисты организации Uptime Institute использовали данные опроса в сочетании с прямым анализом моделей использования электроэнергии клиентами, чтобы сделать некоторые выводы касательно причин даунтаймов.

Сбои в работе локальных систем электроснабжения по-прежнему являются наиболее распространенной причиной отключений дата-центров, связанных с электроснабжением. При этом такие компоненты этих систем как батареи ИБП и автоматические переключатели, чаще всего оказываются наиболее уязвимыми «точками отказа».

Эксперты организации отметили, что для снижения затрат на строительство ЦОД владельцам и операторам объектов рекомендуется устанавливать так называемые системы с распределенным резервированием (Distributed Redundant Systems; DRS).

Реализация данной концепции на практике предполагает развертывание двух независимых массивов аккумуляторных батарей, формирующих ИБП, каждый из которых способен взять на себя всю нагрузку, а не только ее часть.

Человеческий фактор

Хотя большая часть вины за даунтаймы ЦОД ложится на технологии, необходимо учитывать и пресловутый человеческий фактор. Как показал свежий опрос Uptime Institute, аварии по вине операторов ЦОД случаются достаточно часто.

В ходе опроса 42% респондентов заявили, что за последние три года у них случался сбой из-за человеческой ошибки. Среди этих опрошенных 57% назвали причиной аварии некорректную работу персонала центра обработки данных (несоблюдение процедур), а остальные 43% указали на некорректные процессы / процедуры в качестве основной причины даунтайма.

Исследование ясно показывает, что увеличение акцента на эффективное управление человеческими ресурсами и непрерывное обучение персонала ЦОД приведет к повышению эффективности обслуживания критически важной инфраструктуры и минимизации риска даунтайма.

Прочие факты

Напоследок приведем дополнительные заслуживающие внимания результаты опроса Uptime Institute:

  • Почти половина (44%) опрошенных операторов дата-центров считают, что за последние двенадцать месяцев возросла обеспокоенность по поводу отказоустойчивости инфраструктуры ЦОД / критически важных IT-систем.
  • Более половины (56%) всех организаций, использующих сторонние сервисы обработки и передачи данных, столкнулись с умеренными или серьезными сбоями в работе соответствующих IT-сервисов за последние три года, случившиеся по вине поставщика.
  • Проблемы с сетью и конфигурацией становятся все более частыми причинами ухудшения качества обслуживания.

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *