Uptime Institute: аварий в среднестатистическом ЦОД в 2020 стало меньше, ущерб возрос
Согласно новым данным, опубликованным организацией Uptime Institute в тематическом докладе Annual Outage Analysis, пандемия оказалась лишь одним из множества факторов, которые повлияли на изменение паттернов аварий ЦОД в 2020 году.
Хотя общее количество даунтаймов, похоже, все еще растет, темпы расширения IT-инфраструктуры опережают скорость увеличения числа аварий. Иными словами, число инцидентов на отдельно взятом ЦОД (или количество отключений на 1 киловатт IT-нагрузки) снижается.
Растущий ущерб при падающем числе крупных аварий
Данные ежегодного опроса Uptime Institute, посвященного перебоям в работе ЦОД и их причинам, показывают, что серьезных аварий стало меньше. Лишь только 6 процентов респондентов заявили о серьезных инцидентах («категория 5») в 2020 году. Годом ранее о подобных авариях сообщили 11 процентов опрошенных.
Интересно, что на фоне сокращения числа крупных аварий в ЦОД финансовый и репутационный ущерб от подобных инцидентов, к сожалению, повышается, что, как полагают эксперты, обусловлено непрерывно увеличивающейся зависимостью бизнеса и государственных организаций от IT-инфраструктуры.
В частности, комментируя недавние значительные аварии, более половины респондентов, сообщавших о даунтаймах за последние три года, оценили стоимость аварий более чем в 100 000 долларов (причем около трети заявили о сумме ущерба в размере от 1 миллиона долларов и выше).
Учитывая тот факт, что аварии могут иметь катастрофические последствия для заинтересованных сторон, авторы доклада заявляют о необходимости сохранять бдительность и интенсифицировать вложения ресурсов в максимизацию отказоустойчивости.
Автоматические переключатели и батареи ИБП следует подвергать тщательной проверке
Специалисты организации Uptime Institute использовали данные опроса в сочетании с прямым анализом моделей использования электроэнергии клиентами, чтобы сделать некоторые выводы касательно причин даунтаймов.
Сбои в работе локальных систем электроснабжения по-прежнему являются наиболее распространенной причиной отключений дата-центров, связанных с электроснабжением. При этом такие компоненты этих систем как батареи ИБП и автоматические переключатели, чаще всего оказываются наиболее уязвимыми “точками отказа”.
Эксперты организации отметили, что для снижения затрат на строительство ЦОД владельцам и операторам объектов рекомендуется устанавливать так называемые системы с распределенным резервированием (Distributed Redundant Systems; DRS).
Реализация данной концепции на практике предполагает развертывание двух независимых массивов аккумуляторных батарей, формирующих ИБП, каждый из которых способен взять на себя всю нагрузку, а не только ее часть.
Человеческий фактор
Хотя большая часть вины за даунтаймы ЦОД ложится на технологии, необходимо учитывать и пресловутый человеческий фактор. Как показал свежий опрос Uptime Institute, аварии по вине операторов ЦОД случаются достаточно часто.
В ходе опроса 42% респондентов заявили, что за последние три года у них случался сбой из-за человеческой ошибки. Среди этих опрошенных 57% назвали причиной аварии некорректную работу персонала центра обработки данных (несоблюдение процедур), а остальные 43% указали на некорректные процессы / процедуры в качестве основной причины даунтайма.
Исследование ясно показывает, что увеличение акцента на эффективное управление человеческими ресурсами и непрерывное обучение персонала ЦОД приведет к повышению эффективности обслуживания критически важной инфраструктуры и минимизации риска даунтайма.
Прочие факты
Напоследок приведем дополнительные заслуживающие внимания результаты опроса Uptime Institute:
- Почти половина (44%) опрошенных операторов дата-центров считают, что за последние двенадцать месяцев возросла обеспокоенность по поводу отказоустойчивости инфраструктуры ЦОД / критически важных IT-систем.
- Более половины (56%) всех организаций, использующих сторонние сервисы обработки и передачи данных, столкнулись с умеренными или серьезными сбоями в работе соответствующих IT-сервисов за последние три года, случившиеся по вине поставщика.
- Проблемы с сетью и конфигурацией становятся все более частыми причинами ухудшения качества обслуживания.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать