Проблемы с ИБП вывели из строя сразу два ЦОД в Нью-Йорке
Серия никак не связанных между собой отказов оборудования недавно обернулась уходом в офлайн сразу двух центров обработки данных оптового поставщика площадей ЦОД Internap на Манхэттене (Нью-Йорк, США). Три инцидента (однократный даунтайм одного дата-центра и двукратный даунтайм другого) произошли в течение всего одной недели.
16 мая даунтайм постиг ЦОД, расположенный по адресу 8th Avenue, 111. За этим инцидентом последовало двукратное отключение дата-центра компании по адресу Broad Street, 75. Все три даунтайма были вызваны сбоями в работе компонентов систем бесперебойного питания.
Первый сбой в ЦОД на Broad Street произошел 20 мая около в 10:30 утра по местному времени в результате выхода из строя электрических конденсаторов в одной из систем ИБП. Как отметил старший вице-президент Internap по услугам ЦОД Майк Хиггинс, подобную проблему можно назвать, по меньшей мере, нетипичной для дата-центров компании.
По словам эксперта, такие конденсаторы имеют средний срок полезной эксплуатации на уровне семи лет. При этом те компоненты, которые вышли из строя в дата-центре по адресу Broad Street, были заменены около трех лет назад. Заслуживает внимания и тот факт, что производители систем ИБП обслуживают свои продукты, размещенные в ЦОД Internap, примерно раз в год.
Старая инфраструктура
Следует отметить, что здание дата-центра Internap по адресу Broad Street, 75, возводилось достаточно давно и совсем для других целей. Это, по существу, означает, что телекоммуникационная и электросетевая инфраструктура внутри строения устарели морально и физически: ряд необходимых вспомогательных систем и механизмов на объекте попросту отсутствует.
В здании есть несколько резервных ИБП, но не все арендаторы горят желанием их использовать, потому что это влетает в копеечку. Когда в одной из систем ИБП отказали конденсаторы, IT-оборудование клиентов, которые платили немалые деньги за дополнительный уровень резервирования, было автоматически переведено на другие ИБП, подключенные к центральной электросети, но некоторые арендаторы зафиксировали при этом отключение электропитания. В число пострадавших вошли клиенты компании, которые не использовали ИБП. Причиной отключения подачи электроэнергии длительностью около трех секунд оказалась специфика разводки силовых кабелей.
После этого инцидента система аварийного восстановления автоматически переключила клиентов из этой группы на центральную электросеть. При этом арендаторам потребовалось дополнительное время, чтобы снова включить серверы и привести свои системы в нормальное состояние. Поврежденные конденсаторы в ИБП были заменены на следующее утро.
Хиггинс отказался отвечать на вопрос о том, сколько именно арендаторов оказались в группе пострадавших, но отметил, что пострадало чуть меньше половины клиентов колокейшн-провайдера, разместивших свое IT-оборудование в рассматриваемом ЦОД.
Неисправный выходной выключатель ИБП продлевает даунтайм
Клиенты Internap из этой же группы через два дня снова наблюдали за уходом своего IT-оборудования в офлайн. Инцидент произошел 22 мая примерно в 10:40 вечера. Второе отключение было вызвано выходом из строя выходного выключателя в системе ИБП.
Опять же, IT-оборудование клиентов, которые сделали выбор в пользу энергоснабжения с дополнительным уровнем резервирования, продолжило работу в нормальном режиме, в то время как IT-оборудование арендаторов, не использующих ИБП, осталось без электричества. На этот раз офлайн длился в течение примерно четырех часов. Столько времени потребовалось специалистам на замену поврежденного устройства.
Как отметил Хиггинс, поскольку неисправный выходной выключатель заблокировал передачу электроэнергии оборудованию, находящемуся в цепи после ИБП, серверы и сетевые системы пострадавших клиентов не могли быть оперативно переключены на центральную электросеть, как это произошло во время предыдущего инцидента.
На случай подобных ЧС инженеры Internap заранее приготовили запасные выключатели. Прибывшие поздно вечером того же дня технические специалисты использовали этот запас для замены вышедшего из строя компонента. Перед началом следующего рабочего дня все оборудование уже работало.
Даунтайм в ЦОД на 8th Avenue также случился из-за выходного выключателя
Проблемы в ЦОД по адресу Broad Street, 75, начались всего через несколько дней после того, как другой манхэттенский дата-центр Internap, который находится в принадлежащем Google здании на 8th Avenue, ушел в офлайн, нарушив работоспособность интернет-сервисов 20 клиентов колокейшн провайдера, в число которых среди прочего вошли известная платформы для потокового онлайн-вещания видеоконтента Livestream и сеть вебсайтов для работы с вопросами и ответами в различных областях StackExchange.
Кстати, отключение ЦОД на 8th Avenue также было вызвано отказом выходного выключателя в системе ИБП. Следует отметить, что этот ЦОД Internap характеризуется более высокой степенью избыточности вспомогательной инфраструктуры. Тем не менее, система автоматического управления присвоила инциденту с отказом выходного выключателя статус “крупной проблемы”, после чего автоматика отключила ИБП из цепи и прекратила электроснабжение из центральной электросети.
Примечательно, что система аварийного восстановления в ЦОД по адресу Broad Street, 75, во время обоих инцидентов работала в соответствии с заложенными в ее основу принципами. При этом аналогичная система в дата-центре на 8th Avenue повела себя довольно неожиданно для операторов ЦОД. По словам Хиггинса, даунтайм во втором дата-центре было очень странным. Топ-менеджер также отметил, что его компания при работе в этом здании пока еще не сталкивалась с отключением электроснабжения [в прошлом]. Ни разу.
Хиггинс отказался разглашать информацию о том, какие именно продавцы снабдили манхэттенские дата-центры Internap этими злополучными ИБП, но сказал, что речь идет о хорошо известных ведущих брендах. Пока не совсем понятно, собирается ли колокейшн-провайдер привлекать эти вендоров к ответственности за описанные выше инциденты. Тем не менее, очевидно, что специалистам компании предстоит проделать много работы, чтобы добраться до корня каждой проблемы и сделать так, чтобы подобное больше не повторилось.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать