Аварии в ЦОД и как их избежать – изучаем опыт UniSuper и Amazon

1 июня 2017

Одна минута непредвиденного простоя центра обработки данных обходится его владельцам в десятки тысяч американских долларов. Причем этот показатель значительно увеличивается с каждым годом, о чем свидетельствуют результаты многочисленных исследований, проводимых такими организациями как Ponemon Institute и Emerson Network Power. Чтобы минимизировать вероятность даунтайма, эксперты рекомендуют владельцам и операторам ЦОД перенимать успешный опыт коллег и учиться на чужих ошибках. Помочь в этом может представленная ниже информация.

Пожар в дата-центре нарушил работоспособность сервисов австралийской компании UniSuper

Клиенты австралийской фонда пенсионного обеспечения UniSuper лишились возможности получить доступ к своим аккаунта в фирменном сервисе компании после пожара в мельбурнском дата-центре, где размещено ее IT-оборудование .

Во время пожара данные не были потеряны или скомпрометированы, но работоспособность IT-инфраструктуры была нарушена. Из соображений безопасности представители UniSuper отказались делиться сведениями о том, в каком именно ЦОД произошел инцидент. Сообщается лишь, что он затронул арендованную серверную ферму, которая расположена рядом с портом.

Учитывая тот факт, что инцидент произошел в портовой зоне Мельбурна, местные журналисты пришли к выводу, что он затронул коммерческий ЦОД одного из следующих колокейшн-провайдеров: Vocus, NextDC и Equinix. Интересно, что компания UniSuper является инвестором Vocus и NextDC.

Инцидент в одном из дата-центров компании обернулся отключением ее системы телефонной поддержки и портала для клиентов MemberOnline. Инженерам компании UniSuper, которая предоставляет услуги пенсионного страхования более чем 400 тыс. австралийцам и обладает активами общей стоимостью более 56,8 млрд. австралийских долларов, потребовалось около дня для возвращения IT-инфраструктуре пострадавшего ЦОД полной работоспособности.

Также заслуживает внимания и тот факт, что это далеко не первый случай, когда в австралийском дата-центре разгорается пожар. Так, ранее в этом году крупнейшая телекоммуникационная компания Австралии Telstra столкнулась с серьезным сбоем в работе своих сервисов по той же причине. Сбой произошел из-за пожара в серверной ферме, расположенной вблизи Сиднея.

В США инженеры Ford не так давно также стали свидетелями того, как корпоративный дата-центр автопроизводителя оказался объят пламенем. Но это «цветочки» по сравнению с тем, что произошло в Азербайджане в 2015 году — после того, как дата-центр компании Delta Telecom загорелся, 90 процентов интернет-сервисов страны ушли в офлайн.

Операторы и владельцы корпоративных и коммерческих дата-центров могут минимизировать воздействие пожаров, используя современные системы обнаружения и ликвидации возгораний. Тем не менее, ошибки при установке и эксплуатации соответствующего оборудования ведет к росту вероятности ухода дата-центров в офлайн. К тому же громкий шум, генерируемый во время работы систем пожаротушения, и используемые ими реагенты могут повредить IT-оборудование внутри дата-центра (например, жесткие диски).

Как Amazon предотвращает перебои в работе с дата-центров?

Владельцы и операторы гипермасштабных дата-центров вроде гиганта электронной коммерции Amazon часто создают свои собственные инфраструктурные технологии и решения на их основе, если они пока еще недоступны на рынке, или когда компании вроде Amazon приходят к выводу о наличии возможности своими силами существенно удешевить инфраструктуру.

Одна из технологий, разработанных специалистами корпорации Amazon, предназначена для того, чтобы обойти некорректную расстановку приоритетов. Как отметил вице-президент и один из ведущих инженеров Amazon Джон Гамильтон, эта технология помогла его компании избежать проблем, которые вызвали уход в офлайн многих ЦОД.

Так, дата-центр авиакомпании Delta Airlines прошлым летом именно по этой причине утратил работоспособность из-за поломки электрораспределительной системы, на починку которой потребовалось очень много времени. В конечном счете, этот даунтайм обошелся авиакомпании в 150 миллионов долларов США.

Технология, разработанная Amazon для предотвращения сбоев этого типа, представляет собой микрокод, который решает, что следует делать электрораспределительному устройству, когда дата-центр теряет первичный канал электроснабжения. По словам Хэмилтона, типичное микропрограммное обеспечение от обычного поставщика приоритизирует предотвращение повреждения дорогостоящих генераторов, допуская полное отключение дата-центра.

Вот только Amazon (и, вероятно, большинство других крупных операторов дата-центров) с готовностью рискнут потерей единицы оборудования стоимостью менее 1 млн. долларов США вместо того, чтобы рисковать уходом в офлайн всех своих сервисов и приложений с возможным последующим долговременным простоем. Ведь из-за даунтайма всего только один клиент такого владельца ЦОД может потерять десятки миллионов долларов США.

Аварии в ЦОД и как их избежать – изучаем опыт UniSuper и Amazon

Всего комментариев: 0

Оставить комментарий Отменить ответ