Uptime Institute: сбои в ЦОД случаются реже и обходятся дороже
Организация Uptime Institute опубликовала результаты исследования 11th Global Data Center Survey, подготовленного на основе опроса профессиональных работников индустрии ЦОД, включая операторов и владельцев центров обработки данных, и отражающего состояние данного сектора в 2021 году.
Ежегодное исследование Uptime Institute является критически важным индикатором состояния индустрии ЦОД. Проводимый при его подготовке опрос охватывает ряд тем, включая показатель PUE, простои, усилия по обеспечению устойчивости и сбои в цепочке поставок . Рассмотрим результаты более детально.
Обеспечение устойчивости
Сегодня инициативы в области устойчивого развития привлекают все большее внимание общественности, эко-активистов и иных заинтересованных сторон, которые стремятся к тому, чтобы организации серьезно относились к воздействию собственного бизнеса на окружающую среду. Центры обработки данных не являются исключением. Причем в докладе Uptime Institute отмечается, что индустрии ЦОД пока еще только предстоит пройти долгий путь на пути к устойчивости.
В целях обеспечения устойчивости 82% респондентов отслеживают потребление электричества ЦОД. На втором месте среди наиболее популярных индикаторов устойчивости стоит эффективность энергопотребления (PUE). Операторы 70% охваченных исследованием дата-центров рассчитывают данный индикатор. И лишь только 40% отслеживают интенсивность использования / уровень загруженности серверов.
Гораздо меньше внимания уделяется отслеживанию выбросов (33%) и утилизации выведенного из эксплуатации оборудования (25%). Большая часть респондентов не отслеживает использование воды. Несмотря на сильную зависимость дата-центров от воды, только 51% респондентов в настоящее время отслеживают данный индикатор. Внешнее давление со стороны тех же экологов давление может скоро это изменить.
Аварии
Ежегодно команда Uptime Institute просит респондентов сообщать о количестве и серьезности даунтаймов, имевших место в течение предыдущего трехлетнего периода. Результаты свежего опроса показывают, что количество аварий ЦОД постепенно сокращается, но последствия для организаций остаются серьезными.
Аптайм является приоритетом номер один для большинства операторов ЦОД. Хорошая новость заключается в том, что количество отключений продолжает сокращаться по мере того, как системы и процессы становятся более надежными. В ответ на просьбу сообщить о наиболее значительных даунтаймах, 31% респондентов указали на отсутствие таких случаев (по сравнению с 22% в 2020 году).
Исследователи Uptime Institute отмечают, что улучшение ситуации может быть обусловлено эффектами, вызванными пандемией. В ответ на повышение спроса на IT-инфраструктуру организации стали вкладывать больше средств во внедрение передового оборудования / актуальных процессов и обучение персонала, чтобы сократить количество аварий.
Человеческий фактор продолжает играть важную роль. 79% респондентов, столкнувшихся с авариями, отметили, что причиной была человеческая ошибка. 76% заявили, что отключение можно было предотвратить с помощью более эффективного управления, передовых процессов или конфигураций.
Что вызывает перебои в работе ЦОД? Причины отключений оставались неизменными с 2020 года. Чаще всего проблемы возникали в системе подачи электричества. Доля соответствующих аварий увеличилась с 37% до 43%. Следующие три основные причины, доля каждой из которых составляет 14%, связаны с сетевыми проблемами, сбоями системы охлаждения, а также ошибками программного обеспечения и IT-систем. Доля сбоев из-за SaaS-решений, кибербезопасности и сторонних облачных провайдеров выросла с 7% до 11%.
Последствия аварий ЦОД остаются серьезными. За период с 2019 года процент тяжелых кейсов не изменился, оставаясь на уровне 8%. Более половины (56%) даунтаймов эффективно ликвидировались и не приносили особого вреда бизнесу. В остальных случаях негативные эффекты оказывались гораздо более значительными.
Хотя перебои в работе ЦОД всегда приводили к потере доходов, времени, ресурсов и, возможно, репутационному ущербу, они также становятся все более дорогостоящими. С 2019 года количество случаев, когда общий ущерб составлял менее 100 тысяч долларов, снизилось с 60% до 39%.
В то же время, число аварий, приносящих убытки в диапазоне от 100 тысяч до 1 миллиона долларов, подскочило до 47%. Иными словами, чуть менее половины всех аварий обходятся организациям в сотни тысяч долларов.
Вытеснение операторов ЦОД системами автоматизации на основе ИИ
Пятая часть респондентов указывает на нехватку квалифицированного персонала, ощущающуюся все более остро по мере расширения и усложнения центров обработки данных. Почти половина опрошенных подтвердила трудности с поиском квалифицированных кандидатов (47%), и почти треть сообщила о сложностях при удержании нанятого персонала (32%).
Хотя искусственный интеллект в теории способен улучшить технологические процессы в ЦОД и уменьшить количество человеческих ошибок, подавляющее большинство респондентов считают, что потребуются годы для достижения данных целей. Более половины респондентов заявили, что доверяют системам на базе искусственного интеллекта при принятии оперативных решений.
Сбои в цепочке поставок
Наблюдая за глобальной нехваткой микросхем и констатируя продолжающийся рост вычислительных мощностей поставщиков облачных сервисов и интернет-компаний, большинство респондентов ожидают возникновения проблем в цепочках поставок, обслуживающих индустрию ЦОД, в следующие два года.
Гипермасштабные ЦОД (мощностью 20 МВт или более), принадлежащие компаниям с большими финансовыми возможностями, продолжают генерировать спрос на электронику, что ведет к росту цен и мешает развивать бизнес владельцам небольших центров обработки данных.
Согласно результатам опроса, более половины респондентов считают, что гипермасштабные дата-центры будут оказывать значительное влияние на цепочки поставок в ближайшие три-пять лет. Причем стремление владельцев гипермасштабных ЦОД создавать собственное “железо” может сигнализировать об опасности для поставщиков традиционного оборудования.
В частности, 63% респондентов говорят, что в ближайшие три-пять лет крупные облачные и интернет-компании, владеющие гипермасштабными ЦОД, вероятно, ограничат или уменьшат конкуренцию между поставщиками оборудования.
В то время как критически важные рабочие нагрузки в основном остаются за пределами облачных сегментов, все большее число (57%) администраторов уже выбрали облако, начав переход на облачную платформу или планируя подобный переход.
Плотность мощности оборудования внутри стоек продолжает расти
По мере того, как плотность мощности оборудования внутри серверных стоек продолжает расти, операторам ЦОД и прочим респондентам приходится пересматривать компоновку комплектующих, охлаждение и распределение электропитания.
В ходе исследования были заданы соответствующие вопросы. Анализ ответов показал, что вышеназванная тенденция постепенно усиливается, но внутри большинства серверных шкафов по-прежнему находится нагрузка мощностью менее 10 кВт.
Если рассматривать PUE как индикатор, то среднегодовой PUE охваченных исследованием центров обработки данных продолжает снижаться, достигнув к настоящему моменту отметки в 1,57. ЦОД, где используются стойки с низкой плотностью мощностью (5 кВт) по-прежнему демонстрируют повышенные уровни PUE – отчасти потому, что подобные центры обработки данных были построены достаточно давно. Стойки с низкой плотностью – редкость для центров обработки данных с PUE ниже 1,3.
Эксперты сходятся во мнении о том, что центрам обработки данных, содержащим множество стоек с высокой плотностью размещения компонентов, придется в конечном итоге подготовиться либо к переходу на прямое жидкостное охлаждение, либо к подаче больших объемов холодного воздуха для обслуживания этих стоек.
Подробнее об исследовании Uptime Institute Global Data Center Survey
Организация Uptime Institute является независимым консультативным органом, занимающимся улучшением производительности, эффективности и надежности критически важной бизнес-инфраструктуры за счет стимулирования инноваций и сотрудничества, а также проведения независимой сертификации эффективности. С 1993 года организация выдала более 2.5 тыс. сертификатов Tier 1-4, отражающих уровень надежности инфраструктуры ЦОД, в более чем 1 сотне стран.
Проводимое организацией Uptime Institute исследование Global Data Center Survey отражает тенденции в индустрии центров обработки данных и влияние ключевых событий на данный сектор. Опираясь на глобальную сеть партнеров, организация опрашивает сотни заинтересованных сторон в десятках стран, чтобы подготовить свой годовой отчет.
Регион | Доля среди участников опроса |
США и Канада | 25% |
Европа | 23% |
Азиатско-Тихоокеанский регион | 16% |
Латинская Америка | 15% |
Африка | 8% |
Средний Восток | 6% |
Китай | 5% |
Россия и СНГ | 2% |
Занимаемая респондентом должность | Доля среди участников опроса |
Сотрудники критически важных объектов | 41% |
Руководители | 26% |
IT менеджеры | 16% |
Инженеры-конструкторы | 16% |
Участие в недавнем опросе приняли чуть более 8 сотен респондентов из всех регионов мира. Авторы разбили демографические данные респондентов по регионам и должностным обязанностям (см. таблицы выше).
- Alexander: За R718 будущее )
- нет событий, чтобы показывать