Территория ЦОД: факторы риска (продолжение)

14 декабря 2009

Уровень отказоустойчивости центра обработки данных зависит от множества факторов. О рисках, связанных с вариациями нагрузки, и способах решения этих проблем рассказывалось в первой части данной статьи, опубликованной в сентябрьском номере журнала «CIO». Ее окончание посвящено организационным методам, позволяющим даже при отсутствии схем резервирования инженерной инфраструктуры дата-центра обеспечить его бесперебойную работу на протяжении длительного срока.

На том берегу

Рейтинги Tier для спецификации уровня отказоустойчивости ЦОД, разработанные организацией Uptime Institute, позволяют с высокой степенью вероятности гарантировать время безотказной работы его инженерной инфраструктуры. Однако Пит Тернер, президент Uptime Institute, обращает внимание на одно важное обстоятельство. В конечном счете Uptime Institute всю конструкцию ЦОД сертифицирует «на берегу», ДО реальной эксплуатации. В дальнейшем функционирование и отказоустойчивость дата-центра во многом зависит от качества работы эксплуатационных служб. Пит Тернер рассказывает, что ему известны площадки, выстроенные в соответствии с Tier III, которые в реальной жизни благодаря хорошей работе службы эксплуатации функционируют без единого сбоя, без минуты простоя — так, как это заложено в стандартах Tier IV. Все нештатные ситуации на этом объекте отрабатываются так, что нагрузка этого «не замечает».

В России серьезную заявку на подобный уровень организации службы эксплуатации делает компания Stack Group. По информации компании, технические возможности центрального узла ее сети дата-центров Stack Data Network (SDN) позволяют обеспечить резервирование электропитания оборудования заказчика на уровне 2N, что исключает возможность выхода оборудования из строя из-за перебоев в электросети.

— Пока такой уровень сервисов востребован ограниченным числом наших корпоративных клиентов, — говорит Виктор Паршин. — Главным образом теми, для кого обеспечение непрерывности бизнеса является критичным.

Что касается организационной структуры нашей службы эксплуатации, то на сегодняшний день в ее состав входят несколько профессиональных команд, отвечающих за ИКТ-системы, климатику, электрику, СКС и каналы передачи данных, монтаж стоек и т. д. Отдельное подразделение несет ответственность за весь жизненный цикл проектов строительства новых узлов SDN и прокладки участков собственной опорной волоконно-оптической сети. К необходимости создать столь мощную внутреннюю структуру службы эксплуатации мы пришли после безуспешного поиска партнеров, готовых работать с нами по аутсорсинговой модели, широко практикуемой на Западе. Там для поддержания работоспособности технологической площадки с уровнем надежности Tier III и выше достаточно круглосуточного присутствия в составе дежурной службы штатного инженера, способного вовремя заметить и правильно диагностировать риск возникновения нештатной ситуации; все остальное решается благодаря отработанной схеме взаимодействия с аутсорсерами. У нас же пока об использовании подобных алгоритмов говорить рано. Во-первых, очень велико время ожидания ответа на запрос. Во-вторых, каждый отвечает только за то, что он знает и умеет, и не учитывает возможного влияния своей работы на зону ответственности других специалистов. В-третьих, ни одна из компаний, которую мы рассматривали в качестве аутсорсера по обслуживанию инженерных систем SDN, не готова отвечать финансово и юридически за качество своей работы после подписания акта об оказанных ею услугах в полном объеме. И самое главное: нам пока не удалось найти компанию, которая способна контролировать причинно-следственную связь между действиями специалистов разного профиля. Например, как отразится прокладка дополнительных кабелей на температуре в серверном зале, или насколько изменится энергопотребление в серверной после замены юнитовой стойки монолитным устройством.

Учитывая, что в коммерческом дата-центре постоянно происходит движение оборудования и клиентских стоек, правильное и оперативное решение этих и других задач приобретает большое значение для поддержания заявленного уровня надежности центра в целом и инфраструктуры каждого клиента в частности. И все же мы не считаем нужным и возможным брать на себя решение всех без исключения задач, связанных с обеспечением исправного функционирования многочисленных инженерных систем. Практически со всеми вендорами Stack Group заключила рамочные соглашения, позволяющие при необходимости привлекать их специалистов. «Тот уровень отказоустойчивости, который заложен в дизайне „на берегу“, в процессе эксплуатации можно как превзойти, так и свести на нет», — говорит Алексей Солодовников. Реальные метрики ЦОД достигаются в процессе эксплуатации. Некачественно выполненный ремонт узла, несвоевременный вывод на профилактику каких-то элементов инженерных систем либо даже самая минимальная ошибка персонала — все это может привести к потере нагрузки. Поэтому для обеспечения заявленного при проектировании уровня надежности ЦОД очень важно учитывать, насколько хорошо обучен персонал, в какой степени он тренирован на отработку нештатных ситуаций, как точно выполняется прописанный регламент. В этом — ключ к надежности, к уровню непрерывности бизнеса. Вот почему так важны обучающие мероприятия, постоянное тестирование готовности оборудования.

«Заказчиком любого ЦОД является ИТслужба, — говорит Алексей Солодовников. — А персоналу ИТслужбы проблемы инженерных систем зачастую просто незнакомы. Между тем инженерные системы — будь то ИБП, чиллер или дизель — требуют технического обслуживания в не меньшей степени, чем автомобиль, для которого приходится постоянно менять тормозную жидкость, масло в коробке передач, свечи и так далее».

С кондиционерами то же самое. Компрессор кондиционера требует периодически проводить замену масла, в замене же нуждаются и воздушные фильтры, хладоагент во внешнем контуре требует дозаправки. Чтобы не падал ресурс ДГУ, не возникала потребность в срочной замене поршневых колец, не росло потребление масла и не ухудшался состав выхлопа, необходимо периодически проводить «прожиг» — подключать дизель к нагрузке и эксплуатировать в течение установленного времени.

«Цикл эксплуатации ЦОД, — продолжает Алексей Солодовников, — должен быть точно рассчитан, в нем нужно предусмотреть вывод элементов на профилактическое обслуживание. И если на объекте не заложено резервирование, надо быть готовым к плановому отключению площадки».

«Организационными решениями можно решить серьезные проблемы», — считает Александр Мартынюк, директор консалтинговой компании «Ди Си квадрат». Он приводит пример: согласно 942-му стандарту, для Tier III на объекте для автономного источника электроснабжения должен находиться запас топлива на 72 часа. Что делать, если разместить его не получается? На этапе эксплуатации эта проблема решается организационными методами: заключается договор, в соответствии с которым топливная компания обеспечивает доставку топлива в определенных чрезвычайных ситуациях по заранее согласованному графику. Таким образом, стоимость согласований и хранения топлива вычитается из бюджета строительства дата-центра Tier III с сохранением уровня надежности. Конечно, есть нюансы: в зависимости от местоположения дата-центра скорость подъезда топливозаправщиков может варьироваться, даже в течение суток. Но экономия бюджета строительства окупает грамотно организованную логистику. При плохо организованной эксплуатации можно получить и первый уровень из третьего, если бесконтрольно подключать оборудование по фазам и добиваться критического перекоса фаз, если не тестировать регулярно ДГУ, не контролировать уровень и качество топлива, не следить за состоянием батарей и т. д. Понизить уровень надежности можно элементарным бездействием. Потом работники службы эксплуатации скажут: «Мы же ничего не делали…» — и будут АБСОЛЮТНО правы. А вот поддержание высоко поднятой на этапе создания планки надежности и качества — ежедневный тяжелый и кропотливый труд.

«Любой рейтинг Tier – это не только техника, но и люди, способные отвечать за качество своей работы и исправность функционирования вверенной им техники», – подчеркивает Виктор Паршин.

Система управления

Для обеспечения энергоэффективности и отказоустойчивости ЦОД важнейшая роль отводится системам мониторинга и диагностики состояния компонентов инженерных систем и управления питанием нагрузки. Например, все элементы инженерной системы APC InfraStruXure — АВР, ИБП, кондиционеры, блоки розеток в шкафах, блоки контроля параметров окружающей среды, видеокамеры — обладают средствами для сбора информации о себе и выдачи ее по сетевым протоколам. Данная информация собирается и обрабатывается централизованным контроллером InfraStruXure Central, который представляет собой систему управления всеми компонентами инженерной инфраструктуры. Помимо сбора информации с инженерных систем, контроллер может осуществлять сбор информации с ИТ-оборудования, включая периферию (принтеры, сканеры, ПК). Список этих устройств постоянно пополняется. Существует три версии контроллеров, рассчитанные на ЦОД разного размера.

Компания APC поставляет на рынок программные продукты, устанавливаемые на данные контроллеры, которые позволяют реализовать дополнительные возможности. Система APC Capacity Manager выполняет оценку ресурсов электропитания, охлаждения, места для размещения ИТ-оборудования в ЦОД и их эффективного использования. Заказчик может самостоятельно рассчитать последствия перемещения вычислительной нагрузки внутри стоек или увеличения ее объема и на основе прогнозов выполнить моделирование расширения ЦОД. «Мы облегчаем эту задачу для заказчика при поиске места для размещения новой нагрузки с заданным уровнем доступности в вычислительном центре», — говорит Алексей Солодовников.

Еще одна система, реализующая расширенные функции управления, — APC Change Management. Это надстройка, позволяющая организовать административный процесс, отвечающий изменениям, которые будут вноситься в ЦОД. К функциям данной системы относится автоматическое формирование нарядов на добавление и перестановку ИТ-оборудования, внесение изменений, отслеживание этих изменений и т. д. «Как только площадь ЦОД превышает 80–100 кв. м — возникает серьезная задача по отслеживанию состояния ИТ-оборудования, его добавлению и миграции; система Change Management помогает ее решить», — объясняет Алексей Солодовников.

Множественный доступ с различными правами позволяет одинаково эффективно использовать данный комплекс и ИТ-специалистами, и службами безопасности, и энергетиками, и специалистами по кондиционированию. Система оповещения очень гибкая, она может работать как по SNMP-протоколу, так и по электронной почте или в режиме отправки СМС на мобильный телефон.

В заключение

В Stack Group убеждены, что в России сегодня складывается благоприятная ситуация для развития рынка дата-центров по наиболее оптимистичному сценарию.

— Экономический кризис застал страну в тот момент, когда уже был получен первый опыт массовой реализации удачных и не очень удачных идей построения дата-центров; когда начала более четко прорисовываться истинная система ценностей, касающихся данного направления бизнеса; когда международное сообщество стало детально обсуждать пути преодоления другого кризиса – энергетического, — говорит Виктор Паршин. — Вынужденная пауза позволяет нам – и участникам проектов, и государству – спокойно проанализировать текущее состояние дел.

Хочется верить, что каждый из нас сумеет сделать правильные выводы и в стране уже в ближайшие год-полтора будут созданы условия для появления энергоэффективных дата-центров, которые не только облегчат выход отечественного реального сектора из кризиса, но и обеспечат рациональное использование энергоресурсов в длительной перспективе.

Автор: Жилкина Наталья
Опубликовано в журнале «CIO» №10 от 13 декабря 2009 года
Источник: www.computerra.ru

Территория ЦОД: факторы риска (продолжение)

Всего комментариев: 0

Оставить комментарий Отменить ответ