Аварии в ЦОД: новости из Бельгии, Мексики, Ганы, Малайзии, Британии, США и не только

27 сентября 2019

Согласно данным Gartner, средняя сумма ущерба из-за аварий в ЦОД, ведущих к отключению IT-инфраструктуры, находится на уровне в 5.6 тыс. долларов США в минуту. По итогам летних месяцев во всем мире случилось множество подобных инцидентов, самые громкие из которых описаны ниже.

Авария ЦОД в Бельгии привела к перебоям в работе больниц

В первой половине августа периодические перебои в работе коммерческого дата-центра компании Proximus в городе Эвере недалеко от Брюсселя (Бельгии), готовый используется бельгийскими государственными учреждениями, привели к частичной недоступности службы электронного здравоохранения, применяемой местными врачами и фармацевтами.

Перебои наблюдались в период с 12 по 14 августа. Отмечается, что причиной продолжительной аварии стала неисправность сетевого коммутатора, возникшая после обновления программного обеспечения. Помимо бельгийского Минздрава проблемы наблюдали и другие клиенты Proximus, включая, в частности, клиентов, которые пользовались решениями vHosting и vContainer.

Клиенты мексиканских банков лишились доступа к счетам из-за даунтайма ЦОД

Примерно в это же время (10 августа 2019 года) из-за даунтайма обслуживающего банковские операции ЦОД на другом конце света (в Мексике) резко замедлилась торговля в Мехико-Сити. Кассовые аппараты в магазинах, кинотеатрах и других заведениях оказались неспособны обрабатывать платежи.

Банки, включая Grupo Financiero Banorte SAB, а также мексиканские подразделения HSBC Holdings Plc и Banco Santander SA, сообщили о проблеме в Twitter. Проблема была связана с компанией Prosa, занимающейся обработкой электронных платежей, специалисты которой столкнулись с перебоями в работе центра обработки данных. Инцидент затронул как терминалы в точках продаж, так и ряд банкоматов, которые оказались неспособны выдавать наличные.

Потребители выражали разочарование из-за отклонения транзакций, комментируя инцидент в социальных сетях, в то время как мексиканские СМИ сообщали о хаосе в супермаркетах, так как покупатели из-за невозможности провести платежи отказывались на кассах от тележек, полных продуктов. Впоследствии компания Prosa списала все на отключение электричества.

Этот инцидент может вызвать неудобные вопросы о банковской системе страны на фоне того, как мексиканское правительство обдумывает введение запрета на использование наличных для оплаты проезда и бензина в рамках усилий по борьбе с отмыванием денег и «теневой экономикой».

В аэропорту Куала-Лумпура возникли очереди из-за сбоя в сетевой инфраструктуре ЦОД

Клиенты Международного аэропорта Куала-Лумпура (KLIA) столкнулись с серьезными сложностями из-за аварии в ЦОД. Пассажиры, покидающие столицу Малайзии, были вынуждены использовать наличные деньги, а не карты, ожидая задержанных рейсов: торговые точки в обоих терминалах воздушной гавани не могли принимать транзакции по кредитным картам, из-за чего пассажирам пришлось брать с собой наличные или снимать ринггиты (местная валюта) в банкоматах аэропорта.

Наблюдались сложности при установлении соединения с интернетом через локальную сеть Wi-Fi, при получении информации о рейсе, а также при регистрации и обработке багажа. Инцидент произошел из-за сбоя в работе сетевой инфраструктуры ЦОД. Проблемы начались 21 августа и продлились 3 дня. Устранить перебои удалось только после замены сетевого оборудования.

Отказ IT-системы вызывает массовые отмены и задержки рейсов в аэропортах Лондона (Великобритания)

Гораздо более масштабным стал недавний инцидент, затронувший целый ряд лондонских воздушных гаваней. Пассажиры авиаперевозчика British Airways столкнулись с задержками и отменой рейсов из-за проблем с IT-оборудованием, обслуживающим систему онлайн-регистрации компании.

Инцидент случился 7 августа и затронул путешественников, пытавшихся совершить перелеты на короткие расстояния из аэропортов Хитроу, Гатвик и Лондон-Сити. 84 рейса были отменены, что затронуло по меньшей мере 15 тыс. пассажиров. Пассажиры еще 3 сотен рейсов столкнулись с задержками продолжительностью до часа. Об этом сообщается на сайте British Airways.

Представители авиакомпании заявили, что та позволила клиентам, рейсы которых были отменены, совершить перебронирование в период с 8 по 13 августа. Информация о причинах сбоя не разглашается.

Напомним, что в 2017 году перебои в работе IT-инфраструктуры British Airways затронули более 75 тыс. пассажиров. Тогда один из центров обработки данных компании вышел из строя. Компания British Airways подала в суд на оператора центра обработки данных CBRE, запросив компенсацию убытков в размере более 58 миллионов фунтов стерлингов, но в итоге стороны заключили досудебное соглашение.

Перебои в электроснабжении дата-центра в Денвере (США) привели к отключению сервисов Nissan North America

Североамериканское представительство автопроизводителя Nissan было вынуждено 17 августа приостановить работу ряда своих салонов и поставить на паузу взаимодействие со сторонними дилерами на несколько дней, поскольку отключение электропитания в дата-центре в городе Денвер привело к уходу в офлайн сервисов этого филиала.

Авария вывела из строя систему связи для дилеров, работающих с Nissan и Infiniti (люксовый бренд Nissan). Инцидент затронул автосалоны компании в США, Канаде и Мексике. Некоторые дилеры смогли продолжить работу, выполняя обработку запросов вручную, но при этом они оказались неспособны заказывать новые автомобили или запчасти.

Представители компании не назвали причину аварии. Но по данным СМИ, инцидент был вызван отключением подачи электричества в дата-центр. В Nissan также не сообщили, почему в ЦОД отсутствовало резервное оборудование для подобного случая. Работоспособность оборудования после отключения электропитания была быстро восстановлена, но бизнес-приложения не работали надлежащим образом.

Отмечается лишь, что данные клиентов не были скомпрометированы. Кроме того, филиал Nissan отменил штрафы за несвоевременную оплату для пользователей, которые не смогли использовать ее электронные бизнес-системы после инцидента.

Дата-центр Департамента организации кадровой работы США ушел в офлайн из-за «физического инцидента»

10 июля в дата-центре Департамента организации кадровой работы США произошел сбой, который привел к остановке работы ряда сервисов. Представители ведомства объяснили отключение «физическим инцидентом», а не «злонамеренной деятельностью».

Инцидент вызвал автоматический запуск систем аварийного восстановления, которые должны защищать определенные приложения, останавливая их и передавая для обработки на резервное оборудование. К сожалению, некоторые резервные системы не сработали, как задумано.

Как и в случае большинства других американских государственных агентств, наиболее важные сервисы Департамента организации кадровой работы США работают из облака, но некоторые приложения все еще поддерживаются с помощью локального оборудования.

В серверной комнате Минздрава Ганы случился пожар, двери были заблокированы биометрическими замками

Серверная комната в головном офисе Министерства здравоохранения Ганы в Аккре загорелась 6 июля 2019 года. Огонь полностью уничтожил все оборудование внутри серверной, а также перекинулся на другой офис.

Охранник попытался открыть дверь, когда увидел дым, выходящий из серверной комнаты, но не смог это сделать, так как все входы были заперты и открывались только после прохождения биометрического контроля через сканер отпечатков пальцев. Похоже, охранник не был в списке людей, которым разрешен доступ в помещение, и которые способны открыть двери.

Пожарная команда из шести человек прибыла на место и сломала дверь, чтобы попасть в помещение, после чего очаг возгорания был взят под контроль. Отмечается, что благодаря оперативности охранника удалось спасти весь головной офис Минздрава от уничтожения пожаром. Причина пожара пока неизвестна.

Сервисы Cloudflare и AWS уходят в офлайн, сбой вызван «проблемами с производительностью сети» в ЦОД Verizon

2 июля клиенты американского поставщик услуг CDN, DNS и анти-DDoS Cloudflare столкнулись с перебоями в работе сервисов компании. Впоследствии выяснилось, что причиной сбоя стала «проблема с производительностью сети» партнера Cloudflare: инцидент был связан с перебоями в работе сетевой инфраструктуры ЦОД Verizon.

Авария длилась примерно 2 часа, ненадолго отключив такие сервисы, как популярное чат-приложение Discord, а также Reddit и Twitch. Проблему удалось быстро решить, после чего ситуация вернулась в норму. Провайдер облачных решений Amazon Web Services также столкнулся с некоторыми проблемами, объяснив проблему перебоем в работе инфраструктуры своего партнера Cloudflare. Инцидент затронул сразу несколько регионов AWS.

Повреждение оптоволокна в дата-центре в Южной Каролине привело к перебоям в работе Google Cloud

В тот же день (2 июля) произошел «сбой» в облачной сети Google и системе балансировки нагрузки поискового гиганта. Авария была вызвана физическим повреждением оптоволоконных кабелей, обслуживающих дата-центр US-East 1 в Южной Каролине.

Инженеры Google попытались минимизировать ущерб, перенаправив трафик с поврежденных волоконно-оптических линий на неповрежденные, чтобы обеспечить надежную работу сервисов клиентов до тех пор, пока не будут завершены восстановительные работы.

Несмотря на эти меры, провайдер облачных услуг предупредил о том, что некоторые клиенты могут наблюдать задержки, превышающие обычные, до тех пор, пока инженеры не восстановят поврежденное оптоволокно.

Проблемы в дата-центре NCR помешали клиентам ритейлера Target оплачивать покупки

Кассовые аппараты в торговых центрах гиганта ритейла Target не работали в течение почти двух часов 16 июня из-за проблемы в центре обработки данных. В Target сообщили о том, что причиной инцидентам стала проблема с оборудованием, используемым поставщиком услуг ЦОД NCR.

Отмечается, что сбой был вызван ошибкой, допущенной во время регулярного технического обслуживания системы. Проблему удалось быстро устранить, после чего платежи стали проходить нормально. При этом отмечается, что информация о платежах не была скомпрометирована в ходе инцидента.

Пожар при строительстве ЦОД Facebook в Дании

И напоследок печальная новость об аварии с трагическими последствиями в недостроенном ЦОД. Британский мужчина, который участвовал в строительстве дата-центра соцсети Facebook в датском городе Оденсе, погиб в огне 20 мая. Возводимый ЦОД, где произошло выгорание, является частью кампуса, который должен полностью заработать в 2020 году. Одно из зданий на кампусе уже используется для обслуживания бизнеса Facebook.

Жертвой пожара стал 48-летний Джон Гор из Рочестера, графство Кент, Великобритания. Гор был нанят британской фирмой, работающей в качестве супервайзера по установке противопожарных материалов на кампусе Facebook в Оденсе. По сообщениям СМИ, перед началом пожара мужчина планировал вернуться домой.