Аварии в ЦОД: новости от Uptime Institute, Equinix, Mimecast и не только
Максимизация времени безотказной работы всегда входила в перечень главных задач операторов дата-центров. Сегодня, когда мир восстанавливается после пандемии COVID-19, надежность вычислительной инфраструктуры, поддерживающей цифровую экономику, становится приоритетом №1.
Благо, количество аварий в ЦОД действительно не растет. Согласно результатам нового исследования, проведённого организацией Uptime Institute и озаглавленного “Анализ аварий 2022” (Outage Analysis 2022), частота инцидентов в дата-центрах существенно не изменилась в минувшем году. Но исследование показало, что простои становятся более длительными и дорогостоящими. Основные выводы, сделанные экспертами Uptime Institute, выглядят следующим образом:
- Информация о длительных даунтаймах ЦОД стала чаще предаваться огласке. Длительность устранения крупных аварий значительно увеличилась за последние пять лет. Почти 30% подобных даунтаймов в 2021 году длились более 24 часов. В 2017 году аналогичной продолжительностью характеризовались лишь 8% крупных аварий.
- Даунтаймы также становятся более “дорогим удовольствием”. Свыше 60% сбоев в 2021 году приводили к общим убыткам на сумму не менее 100 000 долларов США. Показатель вырос почти в 2 раза относительно допандемийного 2019 года, когда аналогичный ущерб возникал в 39% случаев. Доля простоев, стоимость которых превышает 1 миллион долларов США, увеличилась с 11% до 15% за тот же период.
- Проблемы с сетью за последние три года стали основной причиной инцидентов, связанных с простоями IT-систем, независимо от их серьезности. Это объясняется сложностями, связанными с растущим использованием облачных технологий, программно-определяемых архитектур и гибридных распределенных вычислительных платформ.
- Подавляющее большинство даунтаймов, обусловленных “человеческим фактором”, связано с игнорированием или неадекватностью процедур. За последние три года почти 40% организаций пострадали от серьезных сбоев, вызванных “человеческим фактором”. 85% соответствующих инцидентов произошли из-за несоблюдения персоналом процедур или из-за неэффективности самих процессов и процедур.
- Наиболее значительные аварии обычно связаны с электрооборудованием. Особенно часто причиной крупных сбоев становятся неисправности источников бесперебойного питания (ИБП). На перебои в подаче электроэнергии приходится 43% отключений, которые классифицируются как значительные (приводящие к длительным простоям и финансовым потерям).
Инциденты, приводящие к длительным и дорогостоящим простоям ЦОД, действительно все чаще попадают в заголовки СМИ. Справедливость данного утверждения доказывает свежий тематический дайджест, подготовленный командой TelecomBloger.
Названа возможная причина пожара в дата-центре OVHcloud SBG2: попадание воды в силовые инверторы
Согласно свежему отчету о пожаре в дата-центре SBG2, принадлежащем компании OVHcloud, рядом с силовым оборудованием внутри здания произошла протечка воды, вероятно, ставшая причиной короткого замыкания, за которым 10 марта 2021 года последовало возгорание. Данную версию подтверждают кадры, отснятые системой видеонаблюдения в момент начала пожара.
Согласно отчету о резонансном инциденте, опубликованному французской организацией BEA-RI (Bureau d’enquêtes et d’analyses sur les risques accidentels / Бюро расследования и анализа случайных рисков), катастрофический пожар, уничтоживший центр обработки данных OVHcloud SBG2 в Страсбурге, мог быть вызван влагой вокруг инверторов в машинном отделении.
Авторы документа не делали окончательных выводов относительно причины возгорания, но отметили, что в течение часа до начала пожара возле одного из инверторов в машинном отделении были зафиксированы высокие показатели влажности.
Компания OVHcloud ранее отказывалась комментировать причину пожара, пока не будут опубликованы официальные отчеты. Местные пожарные опубликовали свой отчет в марте, а отчет BEA-RI появился в начале июня 2022 года – вскоре после того, как от имени клиентов OVHcloud был подан коллективный иск о возмещении ущерба на сумму более 10 миллионов евро.
Вопрос о том, кто виноват в аварии, остается открытым. Весьма вероятно, что виновников определят уже в ближайшее время, поскольку представителям OVHcloud вскоре придется отвечать в суде на групповой иск, поданный юридической фирмой Ziegler & Associés от имени более 140 клиентов.
В тексте иска утверждается, что компания OVHcloud сделала недостаточно для предотвращения пожара и недостаточно хорошо защищала данные клиентов от возможной потери, а также не предлагала достаточную компенсацию потерпевшим после того, как произошел инцидент.
Пожар привел к перебоям в работе дата-центра Университета Южной Бретани
Справедливости ради следует отметить, что пожары в ЦОД происходят достаточно редко. Но информация о подобных инцидентах практически всегда предается огласке вследствие привлечения пожарных к устранению последствий. Так, в субботу 4 июня 2022 года СМИ сообщили о возгорании в дата-центре Университета Южной Бретани (Франция), приведшем к перебоям в работе вычислительной инфраструктуры учебного заведения.
Да, автоматические системы противопожарной защиты предотвратили серьезные повреждения или человеческие жертвы. Но системы хранения данных и вычислительные узлы оказались отключены на длительный период.
Инцидент в серверной ферме, расположенной в городе Ванн, произошел в вечернее время. По официальной версии, произошел пожар. Более детальная информация о причинах инцидента не разглашается. После обнаружения задымления система автоматической защиты начала распылять газообразный азот, способный погасить практически любое пламя.
ЦОД Equinix в Манчестере ненадолго отключился из-за «сбоя оборудования»
В серверной ферме MA1 колокейшн-провайдера Equinix, расположенной в британском Манчестере, в конце мая произошло кратковременное отключение. Представители компании объяснили инцидент «сбоем оборудования». Результатом даунтайма стала недоступность сервисов Internet Exchange, Metro Connect, Equinix Fabric и Equinix Connect, которыми пользуются многие клиенты колокейшн-провайдера.
Опубликованные позже результаты внутреннего расследования компании показали, что инцидент произошел после плановых работ по техническому обслуживанию системы бесперебойного питания (ИБП), предполагавших замену одной из коммуникационных плат. Возникшее в результате отключение электропитания было устранено достаточно быстро. Эксперты компании и соответствующие поставщики вспомогательного оборудования для ЦОД продолжают расследование аварии, чтобы избежать подобных инцидентов в будущем.
Соответствующий ЦОД в Манчестере открылся в 1998 году. В том же году была основана компания Equinix, купившая данную серверную ферму спустя 17 лет в рамках сделки по поглощению бизнеса Telecity. Дата-центр имеет рейтинг отказоустойчивости Uptime Institute N+1. Это означает, что каждый компонент систем электропитания и охлаждения имеет как минимум один независимый дублирующий блок.
Дата-центр MA1 является одним из пяти объектов Equinix, расположенных на территории Манчестера. Согласно информации с официального веб-сайта колокейшн-провайдера, этот дата-центр предлагает гибкую вспомогательную инфраструктуру, позволяющую масштабировать плотность мощности до 20 кВт на стойку.
Ранее в этом году представители Equinix заявили, что компания закроет соседний дата-центр MA2 в Манчестере в июне 2023 года, когда истечет срок аренды объекта. Колокейшн-провайдер также сообщил клиентам, что инфраструктура данного ЦОД более не соответствует корпоративным критериям качества, надежности и устойчивости. В настоящее время в распоряжении Equinix имеется более 2 сотен центров обработки данных в разных частях планеты.
Mimecast сообщает о серьезной аварии в американском дата-центре
Британский поставщик услуг по управлению электронной почтой, уделяющий особое внимание безопасности, сообщил 3 мая, что отключение электроэнергии в одном из дата-центров компании в США вызвало перебои в обслуживании клиентов по всему миру.
Представители компании отметили, что серьезное отключение электроэнергии затронуло все источники электропитания в ЦОД, включая резервные генераторы, что, в свою очередь, вызвало каскадное отключение IT-оборудования и привело к снижению производительности.
Компания Downdetector, которая отслеживает сбои веб-сайтов и сервисов по всему миру, сообщила о всплеске жалоб клиентов на перебои в работе Mimecast, начиная примерно с 8 часов утра по восточноевропейскому времени. К 15:50 проблему удалось в значительной степени решить. После поступления официальной информации о восстановлении работы сервисов многие клиенты продолжили сталкиваться с задержками в течение некоторого времени.
Яндексу пришлось перевести финский ЦОД на электричество с генераторов вследствие санкций
В конце апреля компания Яндекс оказалась вынуждена в экстренном порядке искать нового поставщика электроэнергии для своего дата-центра в городе Мянтсяля (Финляндия), который пришлось перевести на дизельные генераторы. Причиной стало расторжение соглашения о сотрудничестве с предыдущим партнером в лице Ilmatar Energy. Контракт был расторгнут финнами в одностороннем порядке.
После эскалации российско-украинского конфликта на рубеже февраля и марта представители финской компании заявляли о готовности остановить сотрудничество с российским поисковым гигантом после попадания последнего под санкции Запада. Яндекс под санкции не попал, но в санкционном списке оказался генеральный директор компании Тигран Худавердян, после чего финские партнеры расторгли договор об электроснабжении.
Ранее Яндекс пользовался услугами компании Nivos Energia через дочернюю фирму Nivos Verkot Oy (Nivos Network) для организации электроснабжения ЦОД, но срок действия соответствующего контракта истек в начале 2021 года. Незадолго до истечения контакта Яндекс заключил пятилетнее соглашение о покупке электроэнергии, генерируемой ВЭС финской компании Ilmatar Energy, специализирующейся на развитии возобновляемых источников энергии. Электричество с ВЭС, как ожидалось, будет поставлять еще одна “дочка” Nivos Energia: Nivost Verkot.
Повреждение магистрального телекоммуникационного канала привело к перебоям в работе дата-центров Google Cloud, OVHcloud, AWS и Azure
Обрыв магистрального телекоммуникационного кабеля, случившийся 7 июня, вызывал массовые перебои в работе ЦОД в Европе, Восточной Африке, на Ближнем Востоке и в Южной Азии. Инцидентом оказались затронуты платформы Google Cloud, OVHcloud, AWS, Azure и LinkedIn.
Проблема с подводным кабелем длиной в 25 тыс. километров возникла на суше в Египте. Данное обстоятельство позволило провести ремонтные работы намного быстрее, чем в случае гипотетического обрыва на дне океана. Восстановить соединение удалось через четыре часа, но проблемы с высокими задержками у некоторых провайдеров сохранялись в течение длительного времени после инцидента.
Инцидент повлиял на качество подключения к интернету в различных странах Восточной Африки, Ближнего Востока и Южной Азии, включая Пакистан, Сомали, Джибути и Саудовскую Аравию. Обрыв затронул, помимо прочего, и местные ЦОД.
Кабель, принадлежащий телекоммуникационному консорциуму AAE-1 стартует в Гонконге, двигаясь на запад через Вьетнам, Малайзию, Таиланд, Камбоджу, Мьянму, Индию, Пакистан, Оман, ОАЭ, Катар, Йемен, Джибути, Саудовскую Аравию, Египет, Грецию, Италию и завершаясь во Франции.
Повреждение магистральных оптоволоконных кабелей в разных частях Францию стало причиной сбоев местных серверных ферм
Еще один инцидент аналогичного плана случился 27 апреля во Франции. Волоконно-оптические кабели, соединяющие Париж с иными французскими городами, включая Лион, Страсбург, Лилль, Бордо, Реймс и Гренобль, оказались перерезаны в нескольких местах.
Первоначально кабели были перерезаны в столичном регионе Иль-де-Франс. Повреждения, по-видимому, были нанесены намеренно. Случившееся привело к перебоям в работе интернета, повлияв на проводную и мобильную сеть. Следствием инцидента также стало замедление ЦОД в городах по всей стране.
Впоследствии французский интернет-провайдер Free заявил о повреждении собственной оптоволоконной инфраструктуры в результате «нескольких злонамеренных действий» в Реймсе и Гравелине. Компания SFR также сообщила о «нескольких обрывах оптоволокна» в пригородах Парижа и в Лионе на юго-востоке Франции.
На данный момент неясно, кто может стоять за таким, казалось бы, масштабным и скоординированным актом вандализма. Следует отметить, что происшествия случились через несколько дней после президентских выборов.
Аналогичные инциденты участились по всему миру. В том же апреле предполагаемый поджог сетевой инфраструктуры Openreach в Стэплхерсте, Великобритания, привел к отключению от интернета тысяч домов и предприятий. В 2020 году британец поджег вышку Vodafone 4G, которая, по его мнению, была вышкой 5G, “заразившей” людей коронавирусом.
В марте 2022 года была подожжена вышка сотовой связи Telstra в Маллумбимби, Австралия, из-за опасений местных жителей о том, что электромагнитная энергия 5G якобы наносит вред детям и мешает местным пчелам, насекомым и птицам.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать