Аварии в ЦОД: новости из Манилы, Амстердама, Пуэрто-Рико, Мадрида и не только
Операторы серверных ферм уделяют повышенное внимание обеспечению надежности инфраструктуры ЦОД и максимизации времени безотказной работы дата-центров. Тем не менее, сбои периодически случаются. Причем страдают как сравнительно небольшие компании, так и крупные интернет-корпорации, тратящие значительные средства на повышение отказоустойчивости инфраструктуры собственных дата-центров. Чтобы подтвердить справедливость данного утверждения, предлагаем свежий дайджест аварий в ЦОД по всему миру.
Пожар в дата-центре парализовал работу Верховного суда Манилы
12 апреля 2022 года пожар, случившийся в дата-центре на территории филиппинской столицы, который обслуживает верховный суд страны, привел к тому, что веб-сайт учреждения ушел в офлайн, а объявление результатов недавно проводившихся экзаменов на адвоката, запланированное на тот же день, пришлось перенести.
Пожар, начавшийся около 6 утра по местному времени, был сравнительно быстро взят под контроль, локализован и потушен местными огнеборцами. Какое-то время движение рядом со зданием ЦОД было затруднено из-за перекрытых улиц. Причиной возгорания называется сбой в работе системы ИБП. Свидетели инцидента сообщили о звуке взрыва и запахе горелой проволоки, а также о возгорании ИБП.
Амстердамский узел межсетевого обмена трафиком AMS-IX сообщает о сбое
Администрация расположенного в Амстердаме узла межсетевого обмена трафиком AMS-IX (Amsterdam Internet Exchange) столкнулась с кратковременной проблемой, которая повлияла на подключение к интернету и привела к частичной потере пакетов.
Причина частичного отключения, которая уже устранена, не разглашается. Согласно неофициальной информации, авария случилась 6 апреля 2022 года в ходе теста линейной карты в рамках подготовки к штатному обслуживанию.
Пользователи AMS-IX, включая голландского хостера TransIP и нескольких местных поставщиков облачных услуг, оказались вынуждены перенаправить трафик через другие части сети, чтобы свести к минимуму негативное влияние инцидента на собственных клиентов.
Проблемы начались около 10 утра по местному времени, когда входящий и исходящий трафик упал с ожидаемых 7,3 Тбит/с до чуть более 3 Тбит/с. К целевым показателям удалось вернуться примерно в 11 утра.
Пожар на электростанции в Пуэрто-Рико привел к отключению интернета
Пожар на электростанции Costa Sur компании PREPA неподалеку от пуэрториканского города Понсе, случившийся 07 апреля 2022 года, привел к отключению интернета в островном государстве, затронув, помимо прочего, местные ЦОД. Инцидент обернулся обесточиванием большей части острова. Согласно официальной информации, причиной пожара стало возгорание автоматического выключателя.
Являясь одной из крупнейших и наиболее мощных электростанций на территории Пуэрто-Рико, Costa Sur ранее отключилась на длительный срок из-за землетрясения 2020 года и тропического шторма «Исайяс», случившегося в том же году.
Вероятная авария в британском ЦОД вывела из строя платежную систему American Express
Многочисленные клиенты поставщика платежных карт American Express 1 апреля 2022 года столкнулись с невозможностью выполнения платежей с использованием инфраструктуры финансовой компании. Инцидент коснулся только клиентов из Европы. Пользователи сообщали об отклонении транзакций и невозможности погасить задолженность.
Представители компании не назвали точную причину многочасового отключения, но независимые эксперты заявляют, что инцидент связан с аварией в одном из европейских дата-центров, используемых American Express. Вероятнее всего, авария произошла в дата-центре рядом с головным европейским офисом компании в Брайтоне, Великобритания.
Очередной сбой IT-систем British Airways привел к отмене авиарейсов
Днем ранее (30 марта 2022 года), британская авиакомпания British Airways вследствие сбоя в работе IT-инфраструктуры оказалась вынуждена отменить ряд рейсов, следующих через терминал номер 5 воздушной гавани Хитроу. Проблему удалось оперативно решить, и авиаперевозчик возобновил полеты, принося извинения клиентам, которые оказались затронуты инцидентом.
В 2017 году более 75 тыс. пассажиров столкнулись с аналогичным инцидентом, обусловленным сбоем в работе IT-инфраструктуры British Airways. Тогда один из центров обработки данных компании вышел из строя, и вычислительную нагрузку не удалось перенести на резервный объект. Несколько месяцев спустя еще один сбой в работе IT-инфраструктуры British Airways привел к серьезным задержкам рейсов.
В мадридском дата-центре Equinix случился пожар, пострадавших нет
В принадлежащем колокейшн-провайдеру Equinix коммерческом дата-центре на территории испанской столицы 30 января 2022 года случился пожар. Никто не пострадал. Клиенты компании также не сообщали о сбоях в работе собственных сервисов после пожара. Инцидент произошел в мадридском дата-центре общей площадью 5000 кв. м. с кодовым названием MD2, расположенном на улице Калле-де-Вальгранде-де-Алькобендас.
Согласно заявлению Equinix, в 4:15 утра по местному времени в воскресенье 30 января системы безопасности обнаружили дым, исходящий из машинного отделения. На объект сразу же были вызваны пожарные. На место возгорания прибыли семь пожарных расчетов. Пожар, произошедший в подвальном помещении, где расположены трансформаторы, вызвал лишь краткосрочное прекращение подачи электроэнергии. Колокейшн-провайдер обязался провести полное расследование причин инцидента.
Проблемы с электроснабжением ЦОД в Атланте обернулись перебоями в работе сервисов поставщика услуг связи Mediacom
Американский поставщик услуг связи Mediacom во второй половине февраля 2022 года столкнулся с серией аварий, которые, по словам представителей компании, были вызваны редким типом проблемы с электроснабжением в дата-центре. Инцидент случился в Атланте, штат Джорджия (США).
Компания трижды сталкивалась с перебоями в работе ЦОД в течение одной недели, в результате чего около 17 тыс. клиентов на северо-востоке Северной Каролины остались без интернет-сервиса Xtream. Представители Mediacom не уточнили, какой именно из ее центров обработки данных в Атланте пострадал от даунтайма. Также не сообщается о природе проблем с электричеством.
Пожар в иранском центре обработки данных привел к массовым перебоям в работе интернета
Возгорание в центре обработки данных иранской телекоммуникационной компании, случившееся в марте 2022 года, привело к массовым перебоям в работе интернета на территории ближневосточной страны.
Сообщается, что пожар случился в здании на территории Тегерана, который, по-видимому, больше всего пострадал от перебоев в работе инфраструктуры связи. Впоследствии представители иранского Министерства связи заявили, что причиной возгорания стало некорректное подключение «электрического соединения».
Причиной перебоев в экосистеме Apple могла стать авария ЦОД
Во второй половине марта 2022 года корпорация Apple столкнулась с тремя сбоями в работе собственной экосистемы. В понедельник 21 марта произошел крупный сбой, в результате которого были отключены Apple Music, Apple Maps, Календарь, Контакты и почта iCloud, iTunes Store, Подкасты, App Store, iMessage и AppleTV+. На следующий день перестали работать Apple Mac App Store, Apple Card, Apple Books, iCloud Web Apps и Weather. Еще через два дня (24 марта) перестал работать iMessage.
Компания не раскрыла причину трех инцидентов, но велика вероятность, что они стали следствием проблем в работе ЦОД. Apple управляет собственной инфраструктурой ЦОД и является крупнейшим клиентом облачной платформы Google Cloud, используя ее для хранения данных. В 2019 году стало известно о намерении Apple потратить на облачный сервис AWS не менее 1,5 млрд. долларов в течение пяти лет.
Обнародованы причины пожара в ЦОД OVHcloud SBG2: деревянные потолки, отсутствие огнетушителей и отключение электроэнергии
Чуть более года назад страсбургский дата-центр, принадлежащий компании OVHclound, оказался уничтожен пожаром. После инцидента, приведшего к безвозвратной потере данных многими клиентами, руководство OVHcloud пообещало профинансировать создание специальной лаборатории для расследования пожаров в дата-центрах, но пока еще не выполнило это обещание, а также не опубликовало результаты расследования причины пожара в ЦОД.
Но результатами собственного расследования поделились местные пожарные, обрушившись с резкой критикой на французского оператора ЦОД. Пожарная служба Бас-Рина сообщает, что в дата-центре SBG2, здание которого сгорело 10 марта 2021 года, не было автоматической системы пожаротушения и общего электрического выключателя. В ЦОД также был деревянный потолок, рассчитанный на сопротивление огню всего в течение одного часа, и конструкция с естественным охлаждением, которая создавала «дымоходы», увеличивающие силу огня.
Согласно отчету, пожарные на месте происшествия обнаружили электрические дуги длиной более одного метра, вспыхивающие вокруг двери в помещение с энергетическим оборудованием, и потребовалось три часа, чтобы отключить электроснабжение вследствие упомянутого выше отсутствия общего электрического выключателя.
Эксперты предупредили о возможности вывода систем ИБП из строя хакерами
По данным американского Агентства кибербезопасности и безопасности инфраструктуры (Cybersecurity and Infrastructure Security Agency; CISA), хакеры разработали специальные инструменты для получения полного доступа к ряду систем промышленного управления (ICS), а также устройств диспетчерского контроля и сбора данных (SCADA). Сообщается, в частности, что одной из целей злоумышленников являются подключенные к интернету системы ИБП, используемые для обеспечения резервного электропитания ЦОД.
Проблема обусловлена тем, что подобные устройства часто эксплуатируются без изменения заводских имен пользователей и паролей, установленных по умолчанию. В CISA не привели примеров недавних атак с использованием подобного эксплойта, рекомендовав операторам ЦОД в сжатые сроки установить более надежные логины и пароли, используемые для доступа к подключённым к интернету вспомогательным устройствам.
Всего комментариев: 0