Аварии ЦОД: новости из США, Австралии, Сингапура и Германии
Согласно результатам исследования консалтинговой компании S&P Global Market Intelligence и компании ThousandEyes, занимающейся мониторингом интернет-сервисов и принадлежащей Cisco Systems Inc., число глобальных перебоев в работе интернет-инфраструктуры в 2021 году стабильно растет (см. график выше).
Данное обстоятельство объясняется возросшей нагрузкой в период пандемии, обусловленной спросом на медиа-контент и ростом популярности удаленной работы. О сбоях рапортуют как малые компании, ведущие локальный бизнес, так и крупные транснациональные корпорации вроде Amazon. Предлагаем свежий дайджест, посвящённый авариям ЦОД, наглядно демонстрирующий данную тенденцию.
Пожар привел к отключению ЦОД при медучреждении в Калифорнии
Американскому поставщику медицинских услуг Washington Hospital Healthcare System (WHHS), базирующемуся в Фремонте, штат Калифорния (США), пришлось нанять стороннюю компанию для расследования двух возгораний электрического оборудования в ЦОД, которые нарушили доступ к внутренним системам WHHS.
Первый пожар начался около 2:15 утра по местному времени 28 июля 2021 года в одном из трех блоков системы ИБП дата-центра больницы. Хотя пожар нарушил нормальную работу врачей и привел к простою системы обработки электронных медицинских карт, никто не пострадал, и лечение пациентов продолжалось, в то время как персонал больницы перешел на аварийные протоколы.
В качестве меры предосторожности все три блока системы ИБП были отключены, в результате чего отключились серверы, поддерживающие электронную почту, IT-телефонию и систему обработки электронных медицинских карт. Продолжительность простоя различных систем оказалась разной, но работоспособность всех сервисов была полностью восстановлена 28 июля к 19:30 — примерно через 15 часов с момента поломки ИБП.
30 июля около 5:20 утра по местному времени сотрудники почувствовали запах дыма в том же месте, где случился первый пожар. Но на этот раз источником задымления оказался другой блок системы бесперебойного питания. Персонал потушил пожар, но больница потеряла доступ к электронным медицинским картам и «ограниченному количеству других систем» примерно до 9:40 утра.
Администрация больницы приняла решение о переводе центра обработки данных на альтернативный источник электропитания. Благодаря находчивости персонала и тщательно разработанным протоколам готовности к чрезвычайным ситуациям инциденты практически не повлияли на уход за пациентами.
Обрыв магистрального телекоммуникационного кабеля между Австралией и Сингапуром вызвал перебои в работе азиатских ЦОД
1 августа 2021 года в 08:39 по восточноевропейскому времени телекоммуникационная компания Vocus Communications зафиксировала обрыв магистрального телекоммуникационного кабеля, соединяющего Австралию и Сингапур. Из-за нарушения целостности кабеля протяженностью 4,6 тыс. км несколько региональных ЦОД временно лишились возможности передавать и получать крупные объемы данных. Трафик был оперативно перенаправлен по другим кабелям, что привело к увеличению задержек.
Предварительное расследование показало, что инцидент произошел недалеко от австралийского Перта. Определить причину обрыва пока не удалось, но эксперты отмечают, что подобные аварии часто происходят из-за того, что суда бросают якорь в закрытых зонах. Разрыв произошел примерно в 18 км от места выхода магистрального кабеля на сушу (станция Perth Landing) на материковой части Австралии. Остальная часть кабеля, проходящего через остров Рождества, Джакарту и Сингапур, сохранила целостность.
ЦОД AWS во Франкфурте отключился на три часа из-за отказа системы циркуляции воздуха
10 июня 2021 года дата-центр, обслуживающий облачную платформу Amazon Web Services (AWS) и находящийся в немецком Франкфурте, отключился на три часа из-за проблем в работе инфраструктуры циркуляции воздуха.
Рутинный, казалось бы, инцидент обострился, когда сработала система пожаротушения, откачавшая кислород из воздуха внутри машзалов, после чего персонал центра обработки данных пришлось эвакуировать. В течение примерно часа сотрудники ЦОД не могли войти в машзал для устранения неисправности, что увеличивало время простоя. Благодаря системе балансировки нагрузки негативное влияние на клиентов было ограниченным.
Авария произошла в 13 часов 18 минут по тихоокеанскому времени, когда стали поступать сообщения о проблемах с подключением к инстансам EC2 и высокой частоте ошибок. Первопричиной был сбой системы вентиляции, из-за которого вышли из строя кондиционеры, и повысилась температура воздуха.
Серверы и сетевое оборудование в затронутой инцидентом части ЦОД начали отключаться при достижении небезопасных температур. Ситуация обострилась, когда отключились несколько резервных коммутаторов, из-за чего большое количество инстансов EC2 потеряло подключение к сети.
Система подавления огня, усложнившая процесс вывода ЦОД из даунтайма, должна срабатывать при обнаружении дыма. Она не проектировалась с прицелом на активацию из-за повышения температуры в помещении. Из-за некорректного срабатывания данной системы центр обработки данных был «эвакуирован и опечатан». Кроме того, было выпущено химическое вещество, которое удаляет кислород из воздуха с целью ликвидации огня (при наличии такового).
Поскольку была поднята пожарная тревога, команда AWS какое-то время ничего не могла сделать. Пожарная служба должна была определить уровень безопасности объекта, а затем снова сделать его пригодным для нахождения людей. После того, как пожарная команда установила, что в центре обработки данных не было пожара и можно безопасно вернуться, здание пришлось повторно наполнить кислородом, прежде чем инженеры смогут безопасно войти и восстановить поврежденное сетевое оборудование и серверы.
Всего комментариев: 0