Аварии в ЦОД: новости из Гонконга, США и Великобритании

10 марта 2023

Если всего пару десятилетий назад бизнес решал лишь небольшую часть задач с помощью интернета, теперь целые бизнес-модели существуют исключительно за счет глобальной сети. Аналогичным образом дела обстоят в государственном секторе. Растущая зависимость человеческого общества от цифровой инфраструктуры соответствующим образом увеличивает акцент на отказоустойчивости центров обработки данных.

Но даже огромные инвестиции в повышение надежности инфраструктуры ЦОД не помогают технологическим гигантам полностью избавиться от аварий – не говоря уже про небольшие фирмы. Справедливость данного утверждения доказывает свежий дайджест об авариях в ЦОД по всему миру.

Ущерб от аварий в 2 лондонских ЦОД, приведших к сбоям в работе больниц, составил £1.4 млн.

Перебои в работе IT-инфраструктуры лондонских больниц во время сильной жары в конце июля 2022 года обернулись ущербом в размере 1,4 миллиона фунтов стерлингов (1,7 миллиона долларов). К такому выводу пришли специалисты Национальной службы здравоохранения Великобритании.

Два центра обработки данных, поддерживающие столичные больницы, ушли в офлайн из-за рекордно высоких температур. Вследствие этого персонал медучреждений оказался вынужден перейти к использованию бумаги. Приемы были отменены или отложены. Одна трансплантация органа оказалась перенесена. Было зафиксировано более 100 задержек. Проблемы также вызвали «усталость, стресс и негативное влияние на моральный дух» персонала. Полное восстановление услуг заняло шесть недель.

Расследование показало, что инцидент, вероятно, можно было предотвратить. Руководство вполне могло снизить риски, предусмотрев вероятность установления экстремальных погодных условий. Сломанный разъем для подключения шланга в одном из ЦОД задержал попытки охладить систему кондиционирования воздуха путем полива внешних блоков холодной водой. Неудачные попытки найти водопровод в другом ЦОД вызвали проблемы аналогичного плана.

Рекордные температуры минувшим летом также вызвали перегрев лондонских центров обработки данных Google и Oracle, что привело к массовым отключениям.

Alibaba компенсирует клиентам ущерб от продолжительного даунтайма облачной платформы

Alibaba Cloud компенсирует ущерб клиентам, пострадавшим от перебоев в обслуживании в гонконгском регионе, которые имели место 18 декабря 2022 года. Спустя неделю (25 декабря) корпорация опубликовало официальное заявление, объясняющее причины продолжительного сбоя в работе облачных сервисов.

Отмечается, что этот инцидент стал самым продолжительным крупномасштабным отключением за более чем десять лет работы Alibaba Cloud. Оказались затронуты многочисленные корпоративные клиенты разного размера в Гонконге и прилегающих регионах, включая Валютное управление Макао, платформу продажи еды на вынос mFood и криптовалютную биржу OKX.

Инцидент был вызван отказом охлаждающего оборудования в центре обработки данных Alibaba. Представители облачного подразделения китайского технологического гиганта заявили об усилении контроля над работой поставщиков инфраструктурных систем для дата-центров Alibaba Cloud. Отмечается, что всем пострадавшим клиентам в кратчайшие сроки будет выплачена компенсация.

В сбое на NYSE виноват «человеческий фактор», повлиявший на систему аварийного восстановления

В сбое на Нью-Йоркской фондовой бирже (NYSE), произошедшим во вторник 24 января 2023 года и сопровождавшемся резкими колебаниями стоимости ценных бумаг, виноват «человеческий фактор». Из-за ошибки сотрудника при обслуживании IT-инфраструктуры команда NYSE не смогла должным образом отключить систему аварийного восстановления.

Инцидент привел к отмене тысяч сделок и резкому колебанию акций «голубых фишек»: стоимость 84 популярных акций резко упала или выросла, достигнув лимитов, при которых активируется механизм предотвращения торговли ценными бумагами по экстремальным ценам. На следующий день после инцидента представители биржи заявили о необходимости отменить более 4.3 тыс. сделок с 251 разной акцией.

В NYSE обвинила в проблеме ошибку конфигурации механизма аварийного восстановления. Система, подключенная к резервному центру обработки данных в Чикаго, должна включаться и выключаться вручную, когда рынок закрывается. Но сотрудник не смог корректно ее отключить, оставив систему резервного копирования и аварийного восстановления включенной. На открытии следующих торгов в 9:30 система пропустила аукционы открытия дня, которые устанавливали цены, что вызвало суматоху.

Комиссия по ценным бумагам и биржам США уже начала расследование данного инцидента. В 2014 году этот регулятор ввел правила, которые дают ему право наказывать биржи за технологические сбои. Четыре года спустя NYSE стала первой биржей, которую американские чиновники оштрафовали по новым правилам.

Причиной очередной аварии облака Microsoft стало изменение IP-адреса WAN-маршрутизатора

25 января 2023 года произошел пятичасовой сбой в работе облачной платформы Microsoft Azure. Авария привела к отключению некоторых облачных сервисов, а также к перебоям в работе других продуктов, включая Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive для бизнеса, GitHub, Xbox и Microsoft Graph. Оказались затронуты пользователи по всему миру.

Расследование причин инцидента, проведенное командой Microsoft сразу после сбоя, показало, что он был вызван изменением IP-адреса WAN-маршрутизатора. В корпорации уже заявили, что были предприняты шаги для недопущения повторения подобного инцидента в будущем.

Внесенные в конфигурацию изменения повлияли на подключения клиентов к Azure, подключения между регионами, а также подключения через ExpressRoute. Эти изменения были запланированным шагом, необходимым для обновления IP-адреса на WAN-маршрутизаторе. Но «команда, данная маршрутизатору, заставляла его отправлять сообщения всем другим маршрутизаторам в глобальной сети, в результате чего все они начали проводить перерасчет своих таблиц смежности и переадресации». Во время процесса перерасчета «маршрутизаторы не могли корректно пересылать проходящие через них пакеты».

Аварии в ЦОД: новости из Гонконга, США и Великобритании

Ущерб от аварий в 2 лондонских ЦОД, приведших к сбоям в работе больниц, составил £1.4 млн.

Alibaba компенсирует клиентам ущерб от продолжительного даунтайма облачной платформы

В сбое на NYSE виноват «человеческий фактор», повлиявший на систему аварийного восстановления

Причиной очередной аварии облака Microsoft стало изменение IP-адреса WAN-маршрутизатора

Всего комментариев: 0

Оставить комментарий Отменить ответ