Аварии в ЦОД: новости от Google, Microsoft, IBM, AT&T и правительства Руанды
Одним из выводов, которые можно сделать после ознакомления с недавно опубликованным ежегодным отчетом Uptime Institute на тему аварий в ЦОД, является то, что подобные инциденты становятся все более серьезными и дорогостоящими. В этом нет ничего удивительного: отдельные физлица и компании становятся все более зависимыми от IT-инфраструктуры. При этом от аварий в ЦОД не застрахованы даже крупнейшие интернет-корпорации планеты, что подтверждают свежие новости от Google, Microsoft, IBM и AT&T.
Из-за разбитых колёс серверной стойки Google оборудование внутри нее перегрелось
13 марта 2020 года команда облачной платформы Google Cloud сообщила об успешном разрешении потенциально опасной ситуации. Ее специалисты были уведомлены о «ненормально большом количестве ошибок», генерируемых IT-оборудованием внутри неназванного центра обработки данных. По словам представителей Google, проблема была устранена до того, как она смогла оказать сколь-либо заметное влияние на пользователей.
Обнаруженная проблема была вызвана повреждением задних колес серверной стойки, что привело к смещению стойки вперед, нарушив поток жидкого хладагента и вызвав перегрев некоторых процессоров до точки троттлинга.
В Google не предоставили никакой информации о том, когда и где это произошло. Отмечается лишь, что неисправное оборудование было заменено, при этом на период замены рабочие нагрузки были перенесены на резервные мощности. После инцидента компания систематически заменяла все стойки похожими колесами, чтобы проблема не повторилась.
Проблемы в системе электроснабжения ЦОД нарушили работоспособность Microsoft Azure
В воскресенье 15 марта 2020 года произошел локальный сбой в работе вычислительной инфраструктуры, обслуживающей облачную платформу Microsoft Azure. Этот инцидент привел к нарушениям в работе облака Azure в западной и центральной части США. Кроме того, наблюдались перебои в работе Xbox Live и Microsoft Teams.
Проблемы наблюдались у некоторых клиентов с 23:30 (по Москве) 15 марта 2020 года до 03:30 (по Москве) 16 марта 2020 года. После предварительного расследования инженеры установили, что причиной аварии стали проблемы в системе электроснабжения одного из американских дата-центров корпорации Microsoft. По словам представителей корпорации, ее инженеры изолировали проблемное оборудование и восстановили инфраструктуру, чтобы смягчить воздействие на пострадавших клиентов Azure.
Облако IBM Cloud ушло в офлайн из-за проблем в далласском дата-центре
17 марта 2020 года сбой в работе облачного хранилища IBM Cloud привел к отключению сервиса на большую часть дня. Представители IBM отметили, что причиной инцидента стало нарушение работоспособности сетевого оборудования в дата-центре корпорации в Далласе (США).
Клиенты корпорации, использующие Watson AI, Compose, IBM Cloud и DB2, столкнулись с частичным либо полным нарушением работоспособности соответствующих сервисов. ЦОД в Далласе является одним из 15 дата-центров в США, поддерживающих облачные сервисы IBM.
В AT&T рассказали о причинах даунтайма дата-центра в Джорджии
Американская телекоммуникационная компания AT&T опубликовала информацию о причинах перебоев в работе общенациональной широкополосной сети для экстренных служб США FirstNet, наблюдавшихся 5 марта.
Отмечается, что проблема с программным обеспечением в дата-центре в американском штате Джорджия вызвала перерыв в обслуживании, что повлияло на некоторых пользователей FirstNet в юго-восточном регионе США.
Проблема возникла после запланированного перемещения трафика с первичного на резервный маршрутизатор в рамках планового обновления оборудования в дата-центре. Техники быстро отреагировали, и проблема была решена уже к утру следующего дня.
Правительственный дата-центр Руанды был отключен после кибератаки
В конце минувшего февраля правительственный центр обработки данных в Руанде, на котором размещены серверы как государственных организаций, так и предприятий частного секторов, был отключен после хакерского взлома.
Согласно сообщениям местных СМИ, атака имела место 18 февраля. Она сделало оборудование неспособным принимать входящий трафик в течение нескольких часов. Большинство правительственных веб-сайтов сразу же закрылись, включая веб-сайт президента и армии.
Хакеры не впервые атакуют центры обработки данных африканской страны. В 2016 году «хактивисты» из группировки World Hacker Team напали на ЦОД в нескольких странах, включая Руанду. Они взломали оборудование руандийской IT-компании Broadband Systems Corporation, которая предоставляет местному правительству программное обеспечение для проведения видеоконференций.
Всего комментариев: 0