Как индустрия ЦОД Великобритании пережила самый жаркий день в истории?
Во второй половине июля 2022 года многие корпоративные и коммерческие центры обработки данных в Лондоне и иных британских городах полностью / частично вышли из строя. Причиной стал сбой в системах охлаждения серверов, не справившихся с нагрузкой в самый жаркий день в истории Великобритании.
Экстремальная жара и 2 абсолютных температурных рекорда
19 июля 2022 года в Великобритании был установлен новый рекорд максимальной дневной температуры. Местом, где метеорологи зафиксировали аномально высокую температуру, стал городок Конингсби в графстве Линкольншир на востоке Англии.
Столбик термометра поднялся до +40,3°C (на 1,6°C выше предыдущего рекорда). Температура выше 40°C была зафиксирована в Великобритании впервые в истории. Рекорд также оказался побит и ночью, когда на аэродроме Кенли в Большом Лондоне была зафиксирована новая наиболее высокая минимальная суточная температура на уровне + 25,8°C.
Согласно данным Британского метеорологического бюро, ранее лишь дважды в истории наблюдений температуры в Великобритании, которые ведутся с середины XIX века, показатель превышал +38°C: 10 августа 2003 года и 25 июля 2019 года.
Установлению рекордных температур способствовал приход в регион “волны тепла”, ответственной за экстремальную жару по всей Европе. Новости перенасыщены сообщениями о лесных пожарах в большей части европейского континента и Африки. Сотни людей погибли в Испании и Португалии, поскольку сильная жара и пожары наносят ущерб сельской местности.
Очередная волна тепла оказалась беспрецедентной в контексте долгосрочных климатических данных. Особенно примечательно то, насколько широко распространилась жара по всей стране. В 2 предыдущих случаях, когда температура в Великобритании превышала 38 ° C, от экстремальной жары страдало гораздо меньше британских городов.
Если ранее локальные температурные рекорды фиксировались небольшим количеством метеостанций, то на этот раз рекорды зафиксировали сразу 46 станций, охватывающих обширную территорию страны: от Кента до Северного Йоркшира и от Саффолка до Уорикшира.
Пострадавшие субъекты индустрии ЦОД
Аномальная жара в Великобритании ожидаемо стала причиной перебоев в работе многих IT-систем. В число пострадавших, в частности вошел дата-центр фонда Guy’s and St Thomas’ NHS Foundation Trust, курируемого Национальной службой здравоохранения Англии.
Данный фонд контролирует ряд медицинских учреждений в Лондоне, включая больницу Гая на Лондонском мосту, больницу Святого Томаса в Ватерлоо, детскую больницу Эвелины в Лондоне, две специализированные больницы по лечению сердечных и легочных заболеваний и т.д.
Представители фонда подтвердили аварию в лондонской серверной ферме и заявили, что техники работают круглосуточно для восстановления различных IT-систем, которые пострадали от “значительного сбоя” в результате чрезвычайно высоких температур, фиксировавшихся в столице Великобритании. Для минимизации ущерба инженеры Guy’s and St Thomas’ NHS Foundation Trust были вынуждены установить дополнительные промышленные холодильные установки и навесные вентиляторы рядом с машзалами.
Технические трудности начались во вторник 19 июля, когда представители фонда опубликовали сообщение в социальной сети Twitter, чтобы проинформировать заинтересованные стороны о возникновении проблемы с серверами и телефонными системами. Ситуация привела к отмене назначений на медицинские процедуры и лишила многих пациентов возможности связаться с администрацией фонда и получить доступ к некоторым из его услуг.
Согласно сообщению газеты The Guardian об инциденте, данная ситуация является результатом перегрева двух центров обработки данных, что привело к отказу охлаждающего оборудования на этих объектах. Это, в свою очередь, лишило врачей возможности получения удаленного доступа к записям пациентов и результатам анализов, а также означало, что все записи о состоянии пациентов пришлось писать от руки.
Ранее с проблемами аналогичного плана столкнулись операторы ЦОД минимум двух крупных технологических корпораций. Речь о Google и Oracle. Так, рекордная жара в Великобритании привела к перебоям в охлаждении лондонских серверов Google Cloud, что обернулось даунтаймом и привело клиентов облачной платформы в замешательство, поскольку они никогда не сталкивались со сбоями такого масштаба.
Представители Google Cloud сообщили, что в одном из принадлежащих компании британских зданий ЦОД, произошел сбой, связанный с охлаждением, который удалось оперативно устранить. Авария произошла во вторник 19 июля в 18:13 по местному времени. Среди затронутых сервисов оказались Google Cloud, Persistent Disk и Autoscaling. Впоследствии команда Google сообщила, что работа по устранению последствий началась около 20:30 по местному времени. Восстановление системы охлаждения было завершено около полуночи.
Инцидент вызвал частичное снижение пропускной способности в соответствующей зоне обслуживания europewest2, что привело к отключению и потере виртуальных машин части клиентов. Даже после устранения первопричины инцидента небольшое количество виртуальных систем хранения, поддерживаемых жесткими дисками, продолжало демонстрировать ошибки ввода-вывода.
Корпорация Oracle также столкнулась с проблемами, вызванными аномально высокими температурами в Великобритании. Как и в случае с Google, проблемы с перегревом начались 19 июля примерно в 17:00 по местному времени.
Экстремальная жара привела к сбою в работе инфраструктуры охлаждения одного из центров обработки данных корпорации в Лондоне. Часть вспомогательной инфраструктуры пришлось отключить, чтобы предотвратить неконтролируемые сбои оборудования. Система была сравнительно быстро восстановлена, а температура в машзалах вернулась к нормальному рабочему уровню. Практически все сервисы и ресурсы клиентов также удалось восстановить без потерь. Однако часть ресурсов платформы Oracle Integration Cloud продолжала работать со сбоями.
После устранения технических проблем и восстановления систем охлаждения серверов в своих ЦОД обе компании сообщили, что работают над поддержанием теплохладотехники в рабочем состоянии и готовы к возможности повторного прихода “волны тепла”.
По мере того, как столбик термометра продолжал расти, стали поступать сообщения о перебоях в работе вычислительной инфраструктуры внутри лондонских ЦОД и от других технологических компаний, включая BigQuery, SQL и Kubernetes, предлагающих услуги хранения и вычислительные ресурсы.
Примечательно, что проблемы наблюдались за несколько недель до установления новых температурных рекордов. Так, 10 июля в дата-центре поставщика облачных сервисов Amazon Web Services в Лондоне произошел даунтайм вследствие инцидента, который представители компании впоследствии назвали «тепловым событием».
Британцы пошли на отчаянные меры для снижения температуры серверов
К сожалению для британцев инфраструктура Великобритании не приспособлена для борьбы с повышением температуры, вызванным изменением климата. Например, местные жилые дома в большинстве своем не оборудованы кондиционерами и построены так, чтобы сохранять тепло.
Местные ЦОД, в свою очередь, также не рассчитаны на экстремальную жару, с последствиями которой пришлось бороться их операторам. Помимо установки дополнительных вентиляторов и прочего охлаждающего оборудования, следуя примеру инженеров Guy’s and St Thomas’ NHS Foundation Trust, операторы британских дата-центров оказались вынуждены проявлять креативность и использовать нестандартные методы охлаждения серверов.
Так, некоторые операторы ЦОД решили поливать здания серверных ферм холодной водой, используя обычные шланги, чтобы добиться охлаждения центров обработки данных в период экстремальной жары. Согласно сообщениям Bloomberg, подобную картину, в частности, можно было наблюдать в лондонском Сити и в районе кольцевой автомобильной магистрали M25, ведущей, помимо прочего, к лондонскому аэропорту Хитроу. Сотрудники ЦОД в соответствующих районах направлялись наружу со шлангами для орошения кондиционеров водой и стен зданий.
С приходом экстремальной жары особому риску подвергаются небольшие центры обработки данных в густонаселенных городских районах, которые работают на полную мощность. В подобных ситуациях им может понадобиться экстренное охлаждение, а простое распыление воды снижает температуру окружающей среды вокруг кондиционеров. Как следствие, существенно возрастает нагрузка на водораспределительную инфраструктуру, которая и без того перегружена вследствие высокого потребления воды в центрах обработки данных во время жаркого периода.
Эксперты отмечают, что подобные меры действительно могут избавить от проблем в очень жаркий день, но также повышают вероятность сокращения срока службы оборудования. Запотевание кондиционеров может привести к образованию накипи в районах с жесткой водой.
Один сотрудник службы IT-поддержки в компании по визуальным эффектам в Лондоне, пожелавший остаться неназванным, сказал, что данная фирма ранее разработала план многоуровневого отключения оборудования в машзале в зависимости от максимальной температуры. В частности, чем выше температура, тем меньше машин используются для рендеринга и иных задач, что позволяет снизить нагрузку на систему кондиционирования воздуха.
Принять экстренные меры оказались вынуждены и операторы ЦОД за пределами Лондона. Так, команда Ливерпульского университета из-за жары отключила некоторые аппаратные системы, обслуживающие проект по развитию искусственного интеллекта. Хотя программное обеспечение, с которым взаимодействуют пользователи, размещено в другом месте через облако, оборудование в ЦОД на территории Ливерпуля контролирует обновления. Следовательно, обновления были временно приостановлены до момента, пока температура не станет достаточно безопасной для перезагрузки машин.
Также отмечается, что многие британские компании в настоящее время несут дополнительные расходы на охлаждение критически важного IT-оборудования, тратя значительные суммы на обеспечение функционирования теплохладотехники в период сильной жары. Причем расходы дополнительно выросли относительно прошлого лета из-за повышения цен на энергоносители на фоне ситуации в Украине.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать