Аварии в дата-центрах: новости от Cruise, Microsoft и не только
Беспрецедентная зависимость всего и вся от интернета делает последствия перебоев в работе физической инфраструктуры корпоративных ЦОД и облачных вычислительных платформ все более серьезными. Вот краткий обзор недавних аварий в дата-центрах по всему миру и их причин.
Иран лишился интернета вследствие пожара в ЦОД
Пожар в центре обработки данных телекоммуникационной компании успел дважды в 2022 году стать причиной серьезных перебоев в работе интернета в Иране. В марте возгорание в ЦОД компании Telecom Infrastructure Company (TIC) вызвало перебои в работе интернета в Тегеране и других иранских городах.
В начале августа ситуация повторилась. Причем огонь снова был локализован в центре обработки данных TIC в Тегеране. Хотя неизвестно, идет ли речь о том же самом ЦОД, что в марте. Местные государственные СМИ сообщают, что пожар произошел на улице Каргар, которая является одной из самых длинных улиц столичного города и известна как место расположения сразу нескольких зданий телекоммуникационных компаний, включая TIC.
На зернистых видеозаписях, попавших в сеть, видно, как клубы дыма вырываются из здания на улицу. Поскольку инфраструктура TIC используется для цензуры интернета и наблюдения за данными, поступающими в Иран и отправляемыми из него, она представляет собой колоссальную единую точку отказа.
Перебои в работе интернета для Ирана являются обычным явлением. Так, аналогичная картина наблюдалась месяцем ранее. Перебои оказались вызваны масштабным и внезапным наводнением, которое повредило телекоммуникационную инфраструктуру на севере и унесло жизни не менее 69 человек.
Еще один свежий сбой произошел после того, как в конце июня Иран обновил свою систему цензуры, «расправившись» с VPN и отфильтровав еще больше веб-сайтов. В качестве побочного эффекта скорость интернета резко упала, что сделало видеозвонки практически невозможными.
Авария в ЦОД в Вирджинии привела к перебоям в работе госструктур
Но аварии в ЦОД случаются и в странах, славящихся свободой слова. Так, в американском штате Западная Вирджиния 20 июля 2022 года произошел сбой в работе мейнфрейма, вызванный отказом вспомогательного оборудования в государственном центре обработки данных, принадлежащем администрации штата.
Авария стала причиной сбоев в работе компьютерных систем и сайтов госорганов, что, в свою очередь, повлияло на доступ жителей к услугам в нескольких государственных учреждениях, включая Департамент транспортных средств. Из-за аварии в ЦОД данное ведомство прекратило предоставление многих услуг, включая переоформление права собственности на автомобили и обновление сведений о водителях.
Комментируя ситуацию, чиновники отметили, что администрация штата уже несколько лет работает над переводом всех нагрузок с мэйнфреймов на внешние серверы, использование которых позволяет обеспечить больший уровень резервирования и более быстрое восстановление после сбоев.
Сбой оборудования в ЦОД привел к уходу в офлайн нескольких сервисов Microsoft
Во второй половине июля 2022 года пользователи сразу нескольких сервисов корпорации Microsoft столкнулись с многочасовыми сбоями. Сначала из строя вышли продукты Outlook и Exchange Online. Затем случился многочасовой простой Microsoft Teams, затронувший пользователей сервиса по всему миру.
Если в первом случае причиной аварии стала проблема с маршрутизатором в ЦОД, то во втором, согласно пресс-релизу корпорации, к аварии привело недавнее обновление программного обеспечения, обернувшееся «разрывом соединения со службой внутреннего хранилища».
Аудитория Outlook составляет около 400 миллионов пользователей. Платформа для видеоконференций Teams, в свою очередь, используется более чем 270 миллионами человек. И Teams, и Exchange также отключились в конце июня в результате еще одного сбоя.
Из-за сбоя сервера беспилотные автомобили Cruise заблокировали дороги в США
28 июня 2022 года около 60 беспилотных автомобилей начали вести себя хаотично и в конечном итоге заблокировали движение в американском мегаполисе Сан-Франциско. Инцидент, приведший к перебоям в движении по всему городу, затронул продукты компании по производству беспилотных авто Cruise, контрольный пакет акций которой принадлежит GM. Сотрудникам компании пришлось перемещать каждую машину вручную.
Согласно сообщениям сотрудников Cruise, попавшим в СМИ, инцидент произошел из-за того, что все автомобили потеряли связь с серверами управления, которые вышли из строя. В письме, отправленном анонимно сотрудником Cruise в Калифорнийскую комиссию по коммунальным предприятиям, говорится, что компания «регулярно» теряет связь с беспилотными транспортными средствами.
Аналогичное отключение, произошедшее 18 мая 2022 года и продлившееся около 20 минут, привело к тому, что автомобили остановились на улице, и персонал компании потерял возможность определить местонахождение авто или связаться с пассажирами. Резервная система, которая позволяет удаленным операторам взять на себя управление, также не сработала.
Точная природа сбоя и степень резервирования IT-систем Cruise на случай подобных аварий не разглашаются. После того как в прошлом году Cruise привлекла от Microsoft 2 миллиарда долларов в форме инвестиций, Azure стала основным поставщиком облачных вычислительных мощностей для транспортной компании. Компания Cruise также использует Amazon Web Services и Google Cloud.
Но ни одна из трех облачных платформ не сообщала о сбоях в период, когда компания Cruise сталкивалась с проблемами в части обеспечения надлежащего функционирования собственных беспилотных транспортных средств.
Известно, что большинство оплачиваемых Cruise вычислительных ресурсов расходуется на моделирование автономных поездок транспортных средств. Для обслуживания авто в режиме реального времени не используется инфраструктура публичного облака.
Всего комментариев: 0