Аварии ЦОД: новости от AWS, Easily, OVHcloud, Wells Fargo, Tesla и не только

18 марта 2022

Простои ЦОД случаются не только из-за неожиданных аварий. Но, как правило, именно аварии имеют самые серьезные негативные последствия финансового и репутационного плана. И подобные инциденты, к сожалению, случаются достаточно часто, о чем свидетельствует наш свежий дайджест.

Серия сбоев в инфраструктуре AWS

Декабрь 2021 года оказался крайне неудачным для пользователей облачной платформы Amazon Web Services (AWS), поскольку данный месяц отметился сразу 3 серьезными сбоями в работе инфраструктуры AWS, приведшими к огромному ущербу.

В частности, отключение электропитания в одном из дата-центров, обслуживающих облачную платформу, привело к перебоям в работе сервисов AWS на восточном побережье Соединенных Штатов Америки. Среди пострадавших оказались пользователи облачного региона US-East-1 (Вирджиния), включая Coinbase, Fortnite, Hulu, Instacart, Rocket League, Acadly, Peloton, Hinge, Quora, Epic Games Store, Slack, Bitbucket (конкурент GitHub), Samsung Smart Lights, Asana и Imgur.

В частности, из-за отключения электропитания ЦОД оказалась парализована работа системы проката велосипедов Citi Bike, принадлежащая Lyft и работающая, поимо прочего, в американских городах Нью-Йорк и Нью-Джерси. Причем, поскольку авария случилась в разгар утреннего часа пик, многие пользователи не смогли разблокировать велосипеды и добраться на работу, а также в иные пункты назначения.

Примечательно, что в 2019 году представители Lyft заявили о намерении компании целиком и полностью перевести интернет-инфраструктуру в облако AWS, обязавшись потратить не менее 300 миллионов долларов на Amazon Web Services в течение трехлетнего периода.

Авария в неназванной серверной ферме в Вирджинии случалась в 4:35 утра по тихоокеанскому времени. К 6:51 инженерам AWS удалось восстановить электропитание на объекте в полном объеме. При этом в пресс-службе поставщика облачных сервисов отметили, что конечным пользователям может потребоваться больше времени, чтобы восстановить свои собственные сервисы, пострадавшие из-за сбоя.

Данная авария произошла незадолго после значительного сбоя в работе облачной платформы AWS в Северной Вирджинии (US-East-1). Данный сбой случился в начале декабря и затронул многочисленных клиентов компании, включая Disney и Tinder, а также нарушил работу собственной сети складской логистики Amazon. Отключение произошло из-за «автоматизированной активности», которая вызвала «неожиданное поведение» во внутренней сети.

Затем последовало отключение в середине декабря, затронувшее регион US-West-2 в Орегоне и US-West-1 в Северной Калифорнии. Авария произошла из-за проблем с «подключением к интернету», более подробной информацией о которых представители компании делиться не стали.

Из-за сбоя в дата-центре SCC в офлайн ушли сервисы Оксфордского городского совета

11 декабря 2021 года из-за неудачного обновления прошивки брандмауэра внутри расположенного в Великобритании дата-центра, принадлежащего поставщику IT-услуг SCC, в офлайн ушли размещенные в ЦОД IT-системы, используемые Оксфордским городским советом.

Ликвидировать последствия аварии удалось лишь через два дня. В период простоя сотрудники городского совета Оксфорда и местные граждане не могли пользоваться электронной почтой и другими сервисами.

Представители SCC впоследствии заявили, что причиной простоя стал инцидент в ходе выполнения планового технического обслуживания в нерабочее время, предполагавшего обновление прошивки оборудования. Обновление пришлось откатить, чтобы восстановить доступ к сервисам. На системы или данные авария не повлияла.

В пресс-службе компании SCC, принадлежащей британской холдинговой группе Rigby Group, отметили, что инцидент случился в дата-центре, находящемся в городе Фархэм, мощность которого составляет 4,5 МВт, а площадь машзалов равна 2 800 кв. м. (30 000 кв. футов). Внутри ЦОД располагаются 15 машзалов, рассредоточенные по двум этажам.

Из-за сбоя сервера сотни водителей Tesla лишились возможности покинуть автомобили

Сотни водителей электромобилей Tesla оказались заблокированы внутри своих машин в субботу 20 ноября 2021 года из-за сбоя сервера внутри ЦОД, услугами которого пользуется компания. Проблема затронула пользователей в США, Канаде, Европе и Азии.

Сбой помешал водителям использовать телефонное приложение Tesla для разблокировки автомобиля или управления определенными функциями авто. Попасть внутрь машины и выбраться из нее могли лишь пользователи, у которых имелась карточка-ключ. Впоследствии Илон Маск извинился перед клиентами через пост в Twitter, ссылаясь на «последствия повышения уровня детализации сетевого трафика» как на причину инцидента.

Предыдущий серьезный сбой в интернет-инфраструктуре Tesla произошел в 2020 году. Авария привела к недоступности фирменных приложений, невозможности обработки онлайн-заказов, остановке работы службы поддержки клиентов и многих других сервисов.

Четырьмя годами ранее отключение инфраструктуры поставщика телекоммуникационных услуг AT&T привело к недоступности фирменного навигационного программного обеспечения Tesla Nav и ряда иных автомобильных сервисов, включая дистанционно активируемый кондиционер.

Из-за отключения интернет-инфраструктуры Wells Fargo клиенты лишились доступа к онлайн-банкингу

05 ноября 2021 года от клиентов американского банка Wells Fargo стали поступать сообщения о серьезном сборе в работе интернет-инфраструктуры финансового учреждения. В 10:00 по восточному времени США сервис DownDetector зафиксировал всплеск сообщений о перебоях в работе мобильного банкинга . Клиенты жаловались на исчезновение транзакций и невозможность войти в систему, используя собственные учетные записи. Пресс-служба банка пока не раскрыла причины инцидента.

В феврале 2019 года репутация Wells Fargo сильно пострадала из-за проблем в центре обработки данных в Шорвью, штат Миннесота (США), обернувшихся продолжительными сбоями в работе онлайн-сервисов финансового учреждения. По сообщениям профильных СМИ, причиной инцидента стал пожара или отказа в системе пожаротушения ЦОД.

Свыше 1 тыс. государственных серверов во Флориде ушли в офлайн

29 октября 2021 года произошла авария в ЦОД, используемом администрацией американского штата Флорида. Сбой, случившийся рано утром, затронул примерно 1.1 тыс. серверов и привел к отключению ряда государственных сайтов, включая домашнюю страницу губернатора и государственные порталы FLGov . com, MyFlorida . com.

Устранить большую часть последствий инцидента удалось лишь в следующий вторник, когда представители канцелярии губернатора сообщили, что только 86 серверов все еще отключены, и ожидается, что все сайты вернутся в онлайн к концу дня. Отмечается, что к устранению первопричины сбоя были привлечены поставщик IT-услуг Florida Digital Service и производитель серверов Dell EMC.

Из-за задержек в цепочках поставок быстро получить новое оборудование для замены вышедших из строя машин оказалось чрезвычайно сложно. Причем вместо использования облака для размещения и запуска затронутых инцидентом приложений было принято решение попытаться исправить оборудование Dell, которое изначально вышло из строя рано утром в пятницу, что привело к еще одному сбою в субботу утром.

Сервисы британского хостинг-провайдера Easily ушли в офлайн из-за утечки охлаждающей жидкости в ЦОД

15 октября 2021 года хостинговая компания Easily, работающая на рынке Великобритании, сообщила о выходе оборудования в ЦОД из строя из-за утечки охлаждающей жидкости. Инцидент произошел в стороннем центре обработки данных, помещения внутри которого хостинг-провайдер Easily арендует. Авария привела к отключению сервисов Speednames и Adicio, являющихся продуктами Easyily.

«Крупная утечка охлаждающей жидкости привела к полному отключению серверов и эвакуации персонала по соображениям защиты здоровья и поддержания безопасности», — говорится в официальном заявлении компании.

Последствия инцидента, случившегося днем, удалось ликвидировать лишь спустя примерно 12 часов. Проблема была решена путем восстановления систем охлаждения, после чего серверы Easily снова были подключены к сети и запущены.

Easyly — это британская компания, занимающаяся доменными именами и веб-хостингом, входящая в группу CSC. Компания не сообщает на своем сайте ни о местонахождении ее центров обработки данных, ни о колокейшн-провайдерах, услугами которых она пользуется. По неподтвержденным данным, один из ЦОД, помещения внутри которых арендует Easyly, располагается в Лондоне.

Инфраструктура ЦОД OVHcloud снова выходит из строя

12 октября 2021 года клиенты французского поставщика облачных услуг OVHcloud по всему миру столкнулись со сбоями. Отключение началось около 7:00 по всемирному координированному времени из-за ошибки реконфигурации обслуживания. Продолжительность простоя составила более часа.

К счастью, на этот раз причиной стал не пожар, а достаточно типичная «человеческая ошибка», совершенная во время перенастройки сети и повлиявшая на глобальную телекоммуникационную магистраль компании.

Напомним, что 10 марта 2021 года сгорел один из центров обработки данных OVHcloud, что привело к значительным сбоям в работе сервисов клиентов и потере данных. Пожар, случившийся на кампусе в Страсбурге, уничтожил центр обработки данных SBG2 и временно вывел из строя три других здания, одно из которых впоследствии было решено не вводить в эксплуатацию повторно.

Пожар в Страсбурге затронул около 65 тыс. клиентов, многие из которых потеряли данные и бизнес. Инцидент может помешать грядущему IPO. Компания планирует провести первичное публичное размещение акций на сумму 4,7 млрд долларов в ближайшее время. В OVHcloud заявили, что компания работает со страховщиками и другими органами, чтоб компенсировать клиентам потери. Ожидается, что пожар обойдется компании более чем в 105 миллионов евро (122 миллиона долларов). Причиной возгорания предположительно стала неисправность системы ИБП.

Серверы Roblox ушли в трехдневный ойланй

Популярная игровая платформа Roblox ушла в офлайн на трехдневный срок из-за проблем с серверной инфраструктурой. Точной информацией о причинах недоступности Roblox в пиковый уик-энд Хэллоуина представители компании не поделились, но, согласно неподтвержденным данным, сбой вызвала перегрузка инфраструктуры.

Сбой случился в пятницу 28 октября примерно в 7 вечера по восточному времени (часовой пояс Атлантического побережья США). Игровая платформа с более чем 43 миллионами пользователей вернулась в онлайн лишь поздно вечером в следующее воскресенье.

По данным The Verge, более половины американских детей в возрасте 16 лет и младше играют в Roblox. Платформа обслуживает 9,5 миллионов разработчиков и предлагает более 24 миллионов «впечатлений», включая игры, внутриигровые концерты, мероприятия и промо-акции.

Одна из подобных промо-акций могла послужить причиной масштабного сбоя. Сеть ресторанов быстрого питания Chipotle раздавала бесплатные буррито на 1 миллион долларов через Roblox в рамках мероприятия, которое началось за час до ухода серверов игры в офлайн. Представители Roblox отвергли версию о том, что причиной простоя стала именно данная промо-акция.