Аварии в ЦОД и способы их избежать: новости из США, Ямайки, Мексики, Замбии и Бангладеш
Землетрясения, ураганы, техногенные катастрофы – одни из самых редких причин даунтаймов в ЦОД. Гораздо более распространены отключения электропитания, проблемы с охлаждением, IT-оборудованием или программным обеспечением, кибератаки, а также обрывы магистрального оптоволокна. Но, как показывает практика, операторам и владельцам ЦОД, нужно готовиться ко всему – с поправкой на климат и географическое расположение, конечно: вероятность ливня в пустыне не нулевая, но стремится к нему. Ниже собраны свежие новости об авариях в ЦОД и передовых подходах к их профилактике.
Oracle разрабатывает проприетарную систему машинного обучения для выявления сбоев в ЦОД
Корпорация Oracle представила фирменный программный инструмент для определения источника сбоев в работе дата-центров. Обещано выявление первопричин практически в режиме реального времени. Продукт использует технологию машинного обучения.
Компания получила патент на «сервис для обнаружения сбоев», который может «практически в реальном времени обрабатывать данные из различных источников в ЦОД с использованием модели для определения одного или нескольких предполагаемых источников обнаруженного сбоя».
Согласно патентной заявке, система использует ряд правил для интерпретации собранных данных и способна генерировать предупреждающие сообщения с подробным описанием предполагаемого источника сбоя. Необходимость внедрения такого продукта аргументируется постоянным ростом количества устройств и приложений в ЦОД, в результате чего эффективное определение источника становится все более сложным.
Решение Oracle, по-видимому, способно собирать информацию с серверов и сетевого оборудования, а также с элементов инфраструктуры электропитания и датчиков окружающей среды. В качестве изобретателей системы указаны Алекс Гамильтон (директор по разработке программного обеспечения Oracle), Амар Монга (старший менеджер по разработке программного обеспечения) и Бин Чен (инженер-программист из Сиэтлского подразделения корпорации).
Услуги ЦОД стали крупным бизнесом для Oracle. Корпорация получает сверхприбыль благодаря буму в сфере искусственного интеллекта (ИИ), сдавая свою цифровую инфраструктуру в аренду крупнейшим игрокам на рынке. В частности, она заключила соглашение с Microsoft, которая использует графические процессоры Oracle для поддержки ИИ-функций поисковой системы Bing.
Ураган «Берил» нарушил подключение ЦОД к интернету на Ямайке, в Мексике и США
Ураган «Берил» повлиял на работу интернета и мобильной связи на Ямайке, в Мексике и юго-восточной части Соединенных Штатов Америки. В частности, пострадали пользователи в Хьюстоне, штат Техас. Шторм оставил миллионы людей без электроэнергии и унес жизни, по меньшей мере, 11 человек в Карибском регионе и 8 человек в юго-восточном Техасе и Луизиане. Предполагается, что ураган усилился из-за повышения температуры океана. В ближайшие месяцы ожидается еще больше штормов.
Природный катаклизм также замедлил прием и передачу данных в ЦОД. По данным портала NetBlocks, отслеживающего сбои в работе глобальной сети, из-за урагана «Берил» на Ямайке связь упала до 42% от обычного уровня. Связь упала до аналогичного уровня в некоторых частях Мексики, включая Сан-Мигель-де-Косумель.
В Хьюстоне, четвертом по величине городе США, подключение к электросети упало до 61% от обычного уровня, в результате чего более 2,2 млн клиентов по всему городу остались без электроэнергии. Сильнее всего пострадал прибрежный пригород Лейк-Джексон, в котором связь упала до 5% от обычного уровня. В Галвестоне она упала до 10%, а в Пирленде — до 28%.
Катаклизм нарушил работу дата-центра Lumen Technologies в Техасе, заставив операторов ЦОД перейти на резервные дизель-генераторы. Пострадавший центр обработки данных площадью 4766 кв. м. расположен в хьюстонском районе Гринспойнт.
Отказ электропитания в ЦОД привел к отключению Архива Интернета
7 июля в работе Архива Интернета (Internet Archive) произошел сбой из-за неполадок в системе электропитания в одном из обслуживающих его дата-центров. Сообщается, что ситуация усугубилась под неблагоприятным воздействием окружающей среды. Местоположение ЦОД не уточняется. Проблемы удалось решить на следующий день.
Internet Archive позволяет пользователям бесплатно получать доступ к огромному объему цифрового контента. Он также обслуживает сервис Wayback Machine, который архивирует веб-страницы и позволяет отслеживать вносимые изменения.
В мае 2024 года Архив Интернета подверг DDoS-атаке, которая также вызвала проблемы у пользователей, хотя, как сообщается, не нанесла ущерба архиву веб-контента. В марте 2023 года Internet Archive столкнулся с многочасовым даунтаймом после отключения электроэнергии в одном из своих ЦОД в Калифорнии. Инцидент совпал с ураганом, оставившим без электричества более 180 тыс. потребителей, включая Стэнфордский университет.
Сбой в системе охлаждения вывел из строя ЦОД организации UNC Health в Северной Каролине
Выход из строя системы кондиционирования воздуха в удаленном дата-центре, обслуживающем медицинскую организацию UNC Health, привел к отказу электронных систем ряда больниц и клиник в американском штате Северная Каролина. Инцидент произошел вскоре после масштабных сбоев в работе IT-систем по всему миру, вызванных обновлением программного обеспечения CrowdStrike, которые также затронули UNC Health.
Несмотря на проблемы в ЦОД, медсестры и врачи UNC Health могли продолжать лечить пациентов. Но они лишились доступа к медицинским записям примерно на полтора часа. Это заставило персонал вернуться к использованию бумажных документов.
В феврале 2024 года в 15 больницах UNC Health произошел сбой в работе сети передачи данных после непредвиденных проблем, возникших в результате планового обслуживания. В результате другие местные больницы начали принимать машины скорой помощи, которые организация UNC Health не смогла принять. Проблемы длились около трех часов.
Ранее в 2024 году в двух больницах в Сассексе (Великобритания) произошли перебои из-за сбоя электропитания в серверной. Это привело к временному отключению всех IT-систем. Аналогичный сбой произошел в больнице Ноттингемского университета в октябре 2023 года. В 2023 году сбои в работе IT-систем также затронули больницы в Новой Зеландии и Западной Австралии/
В 2022 году лондонский фонд Guy’s and St Thomas’ NHS Foundation Trust пострадал от серьезного сбоя в работе цифровой инфраструктуры во время летней жары. В результате врачи долго не могли получить доступ к медицинским картам пациентов. Общий ущерб составил примерно 1,4 млн фунтов стерлингов.
Длительные блэкауты нанесли ущерб телекоммуникационным компаниям Замбии
Веерные отключения электроэнергии в Замбии наносят серьёзный ущерб местным операторам связи, услугами которых пользуются не только физлица, но и владельцы критически важных ЦОД в африканской стране. Об этом заявили представители отраслевой организации GSMAZ (Global System for Mobile Association of Zambia).
Ассоциация GSMAZ, представляющая интересны телекоммуникационных компаний MTN Zambia, Airtel Zambia и Zamtel, сообщает, что длительные отключения негативно влияют на качество услуг. Это мешает устойчивому росту цифрового бизнеса и социальному развитию Замбии.
Серьезные изменения климата в стране привели к тому, что государственная энергетическая компания ZESCO, которая обеспечивает электроэнергией более 80% местных потребителей, начала проводить веерные отключения. Такая практика существует с 2023 года. Продолжительность этих отключений увеличилась с 6 до 12 часов. Но системы резервного электропитание на объектах связи обычно рассчитаны максимум на 4 часа автономной работы.
Из-за действий ZESCO они вынуждены нести дополнительное финансовое бремя, обусловленное возросшей стоимостью топлива и обслуживания генераторов, а также логистики (доставка топлива). Из-за постоянной дозаправки требуются более частые циклы обслуживания.
Изменение климата привело к тому, что крупнейшее по объему искусственное озеро страны, озеро Кариба, потеряло более 98% воды. Ранее ГЭС на этом озере вырабатывали 1080 МВт электроэнергии для нужд Замбии и 1050 МВт для Зимбабве.
Проблема веерных отключений актуальна не только для Замбии. Южно-Африканская Республика также уже много лет сталкивается с дефицитом электричества. Властям страны регулярно приходилось принимать меры. В результате многие южноафриканцы вынуждены жить по 6 часов без электроэнергии в день. Происходящее заставило местные телекоммуникационные компании и операторов ЦОД вкладывать значительные средства в инфраструктуру для борьбы с отключениями электроэнергии. Инвестиции вносились в генераторы, аккумуляторные батареи и возобновляемые источники энергии.
Власти Бангладеш ограничили доступ в интернет
Во второй половине июля 2024 года власти Бангладеш ограничили доступ в интернет. С проблемами при получении доступа к сетевым ресурсам столкнулись как обычные пользователи, так и бизнес, включая владельцев ЦОД. Общенациональное частичное отключение связи началось 18 июля, когда местные власти объявили о блокировке мобильного доступа в интернет, прекращении новостных трансляций и ограничении доступа к социальным сетям в связи с антиправительственными протестами.
Широкополосный доступ был восстановлен в отдельных районах спустя 5 дней. При восстановлении доступа приоритет отдавался субъектам банковского и технологического секторов.
Протестующие требовали положить конец системе квот, которая резервирует 30 процентов государственных должностей для родственников ветеранов войны за независимость Бангладеш в 1971 году. 23 июля Верховный суд Бангладеш постановил провести масштабную реформу системы квот. В ходе протестов погибло не менее 160 человек.
Всего комментариев: 0