Пандемия COVID-15 или лесные пожары – что опаснее для ЦОД?
Пандемия нового китайского коронавируса COVID-19 привела к значительному замедлению развития глобальной экономики и мира в целом. При этом благодаря интенсификации взаимодействия людей через интернет цифровая инфраструктура стала гораздо более важной, чем когда-либо прежде.
Но способен ли рост спроса на цифровые сервисы вместе с локдауном привести к нарушению в работе серверных ферм, обслуживающих интернет. И если да, то насколько серьезным будет урон? Случалось ли подобное прежде? На самом деле случалось. И не так давно. На отдельно взятом континенте, который называется Австралия.
Пандемия уже вызывает перебои в работе ЦОД
На сегодняшний день, если верить картине, которую рисуют освещающие аварии в дата-центрах по всему миру профильные СМИ, воздействия Covid-19 и локдауна на индустрию ЦОД было в значительной степени умеренным. Было мало громких или серьезных инцидентов, связанных с перебоями в работе ЦОД (возможно, меньше, чем обычно).
Но прогуливаясь вдоль реки, никогда не знаешь, что может скрываться под спокойной поверхностью воды. На самом деле операторы центров обработки данных активно трудятся, чтобы поддерживать работоспособность инфраструктуры, обслуживание которой усложняется из-за нехватки персонала на некоторых объектах.
Анализ результатов тематического опроса, проведенного организацией Uptime Institute, показал, что 84 процента респондентов не испытывали замедлений в работе инфраструктуры или даунтаймов, причиной которых можно назвать Covid-19. Однако 4 процента (восемь операторов) заявили, что у них был сбой, связанный с Covid-19, а 10 процентов (20 операторов) испытали замедление в работе инфраструктуры, связанное с Covid-19.
Установление реальных причин этих замедлений или простоев, вероятно, становится все более сложным делом. Исследования показывают, что нехватка персонала и усталость могут привести к большему количеству инцидентов и даунтаймов.
Отмечается, что устойчивая нехватка персонала (из-за болезни, разделения смен и самоизоляции) стала широко распространенным явлением в рассматриваемом секторе. Некоторые недавние сбои в работе центров обработки данных, которые наблюдали эксперты Uptime Institute, явно были результатом ошибки оператора. Но это обычное явление.
В то же время замедления, скорее всего, являются результатом внезапных изменений спроса и перегрузки или проблем с сетью. Так, администрация неожиданно ставшего сверхпопулярным сервиса для организации видеоконференций Zoom столкнулась с некоторыми проблемами, связанными с обслуживанием. Из-за обрыва кабеля CenturyLink в США и еще одной проблемы с сетью в Tata Communications в Европе число отключений превысило средние.
По мере того, как пандемия коронавируса продолжается, операторы центров обработки данных могут испытывать еще большую нагрузку. Большинство операторов отложили некоторые плановые работы по техническому обслуживанию, что, несмотря на мониторинг и тщательное управление, вероятно, приведет к увеличению риска новых отказов. Кроме того, многие, если не большинство ЦОД, в настоящее время работают с сокращенным уровнем персонала на местах.
Тысячи телекоммуникационных площадок пострадали от пожаров в Австралии, перебои в работе были в основном обусловлены отключениями электроэнергии
Отчет, подготовленный по заказу австралийского правительства Австралийским управлением по коммуникациям и СМИ (Australian Communications and Media Authority; ACMA), показывает, что 1390 телекоммуникационных площадок, включая мини-ЦОД и полноценные дата-центры, пострадали от лесных пожаров, которые привели к хаосу в стране в конце 2019 года и в начале 2020 года.
77 процентов объектов, включая базовые станции мобильной связи и фиксированной проводной передачи данных, узлы обмена трафиком в ЦОД, помещения для оборудования, элементы магистралей медных и оптоволоконных кабелей, испытывали перебои в работе. Это привело к тому, что жители австралийских городов часто не могли обратиться за помощью, когда они больше всего в ней нуждались.
Из 1390 объектов 51% испытывали перебои в работе, продолжавшиеся более четырех часов, 26% – менее четырех часов, тогда как оставшиеся 23% объектов пострадали, но не вышли из строя полностью. Средняя продолжительность инцидентов с отключением составила 3,5 дня, а медианная – 1,6 дня.
В отчете отмечается, что операторы связи смогли предпринять временные меры, чтобы восстановить услуги в рамках более чем одной трети аварий. Но в двух третях случаев сбоев сотрудники соответствующих компаний столкнулись с трудностями при получении доступа к объектам с целью проведения восстановительных работ из-за тех или иных ограничений. Например, из-за упавших деревьев.
За весь сезон лесных пожаров было повреждено 51 км (31,6 миль) медных кабелей, которые необходимо было заменить, а также 8,8 км (5,5 миль) наземных волоконно-оптических кабелей и воздушных линий передачи данных на базе оптоволокна.
Рассмотрим причины выхода систем из строя. В отчете ACMA говорится, что большинство аварийных отключений были вызваны перебоями в подаче электроэнергии, а не прямым пожаром. На долю непосредственного повреждения от пожара пришелся только один процент инцидентов.
Однако, те объекты, на которые непосредственно воздействовал огонь, оказались одними из наиболее пострадавших. Так, из 11 базовых станций мобильной связи, поврежденных пожарами в период с 20 декабря 2019 года по 3 января 2020 года, к 31 января была восстановлена только одна.
В общей сложности в результате пожаров сгорело около 186 000 квадратных километров (72 000 квадратных миль) земли, было разрушено более 5900 зданий и погибло по меньшей мере 34 человека. Приблизительно один миллиард животных был убит огнем, включая исчезающие виды, которые, как теперь полагают ученые, по существу вымерли.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать