Отказы инфраструктуры ЦОД – неизбежная реальность?

7 сентября 2015

К сожалению, инфраструктура дата-центров не обладает 100-процентной надежностью, что выливается в даунтаймы, нарушение непрерывности бизнес-процессов, финансовые и репутационные потери. Причины даунтаймов могут быть самыми разнообразными: от сбоев в работе тех или иных элементов системы электропитания и охлаждения ЦОД, до проблем с программным обеспечением и вычислительной инфраструктурой. Нельзя забывать и про пресловутый «человеческий фактор», наряду со стихийными бедствиями и активностью вредоносных программ.

Только за август и первую неделю сентября произошло огромное множество инцидентов подобного плана по всему миру. Так, 22 августа ЦОД Fujitsu в американском Саннивейле ушел в офлайн из-за отказа силового трансформатора на соседней подстанции, которая обеспечивает электропитание объекта.

В начале минувшего месяца досталось и операторам достаточно мощного ЦОД, принадлежащего Университету Куинс и расположенного в канадском городе Кингстон. Из-за утечки смазочного материала (минерального масла) из кондиционера в машзале сформировался туман, который был принят датчиками штатной системы пожарной сигнализации за дым, после чего автоматически началась ликвидация возгорания. К счастью, система не распыляет воду, но вместо нее она выделяет газ, который удаляет весь кислород из помещения. Как следствие, работоспособность ЦОД была нарушена на 10 часов.

Одна из крупнейших техногенных катастроф в истории Поднебесной (прогремевший 12 августа взрыв в городе Тяньцзинь) привела не только к огромным разрушениям и жертвам, но и к остановке расположенного неподалеку суперкомпьютера Tianhe-1. Зданию, внутри которого расположена вычислительная и вспомогательная инфраструктура суперкомпьютера, был нанесен серьезный ущерб. Сама машины повреждена не была, но в качестве меры предосторожности ее пришлось временно остановить.

По независящим от операторов ЦОД причинам в минувшем месяце временно ушла в офлайн и одна из серверных ферм поискового гиганта Google. Досталось бельгийскому дата-центру компании, который лишился электропитания после четырехкратного попадания молнии по соседним ЛЭП. Несмотря на то, что автоматические вспомогательные системы достаточно быстро восстановили электропитание с помощью резервных источников, инцидент привел к потере части данных на СХД. Поисковый гигант потерял 0.000001% пользовательских единиц и нулей, хранящийся в бельгийском ЦОД. Специалисты компании приняли на себя полную ответственность за ущерб и пообещали модернизировать оборудование, чтобы сделать его менее восприимчивым сбоям в системе электропитания.

Из-за «ошибки при конфигурировании» серверов недавно ушел в офлайн и один из ЦОД, поддерживающих облачную платформу Amazon Web Services (AWS). Простой длился около 6 часов и стал причиной перебоев в работе ряда клиентов AWS, включая GitHub и Heroku. Предыдущий крупный сбой в работе облачной платформы (даунтайм продолжительностью в 20 минут) имел место в 2014 году. Справедливости ради следует отметить, что платформа Amazon Web Services в последнее время работает гораздо стабильнее, чем ранее. К примеру, в 2011 и 2012 гг. она с пугающей периодичностью уходила в офлайн из-за проблем с инфраструктурой ЦОД.

И еще один крупный инцидент напоследок. В конце августа взрыв в офисном здании в американском Лос-Анджелесе вызвал перебои в работе сразу нескольких местных дата-центров, в число которых вошли ЦОД компаний CoreSite, Equinix и Internap. Взрыв генератора в одной из местных высоток привел к пожару, потушить который удалось лишь с привлечением 160 пожарных. Возгорание привело к отключению электричества в окрестностях Лос-Анджелеса, к которому оказались не готовы операторы ряда местных ЦОД.

Эксперты сходятся во мнении о том, что независимо от причин даунтаймов, защита бизнеса от простоев инфраструктуры ЦОД должна быть главным приоритетом владельцев корпоративных и коммерческих серверных ферм. Необходимо озаботиться покупкой и развертыванием самых надежных решений, а также подготовить план восстановления на случай возникновения чрезвычайной ситуации и периодически проводить соответствующие тренировки персонала. Очевидно, что мы пока еще далеки от достижения идеала, но следует делать все возможное, чтобы к нему приблизиться и создать безаварийный дата-центр.

Всего комментариев: 0

Оставить комментарий Отменить ответ

Вы должны быть зарегистрированы!