Выбираем ЦОД: на что обратить внимание
Все большее число отечественных компаний сталкивается сегодня с проблемой подбора отвечающих всем потребностям их бизнеса центров обработки данных — либо для аренды ИТ-инфраструктуры, либо для размещения и централизованного обслуживания собственного оборудования. Конечно, у каждой компании существуют свои критерии надежности ЦОД. В чем-то они схожи, в чем-то различаются, но есть одно общее требование: все составляющие ИТ-инфраструктуры должны работать стабильно, иначе в лучшем случае компания будет функционировать неэффективно, а в худшем — многие бизнес-процессы попросту остановятся.
В этой статье я хочу рассказать о том, на что нужно обратить особое внимание при выборе центра обработки данных и какие вопросы следует задавать, чтобы составить достаточно полное представление об уровне надежности ЦОД, не полагаясь на заявления оператора о соответствии стандартам Tier.
Непосредственно классификация Tier предполагает четыре уровня надежности ЦОД.
Уровни надежности ЦОД | Доступность ЦОД | Время простоя ЦОД за год |
Уровень I | 99,671 % | 28,8 часа |
Уровень II | 99,749 % | 22 часа |
Уровень III | 99,982 % | 1,6 часа |
Уровень IV | 99,995 % | 0,4 часа |
Конечно, правильнее всего при выборе ЦОД обратиться за помощью в компанию-консультант, которая проведет необходимый аудит выбранных вами площадок и сделает заключение о пригодности или непригодности для вашего бизнеса конкретного дата-центра. В России такой вид консалтинга становится все более популярным, но в подавляющем большинстве компании все же предпочитают экономить на столь важной для бизнеса услуге и проводят обследования ЦОД собственными силами.
Отказоустойчивость инфраструктуры
Как правило, большинство операторов ЦОД ограничиваются общей оценкой уровня отказоустойчивости своего объекта, хотя зачастую не все системы и подсистемы ЦОД имеют заявленную схему резервирования. Конечно, в центрах обработки данных, успешно прошедших сертификацию Uptime Institute, уровень надежности всех инженерных систем полностью соответствует установленному стандарту, но на момент написания статьи только два ЦОД в России официально сертифицировали проекты (оба по уровню отказоустойчивости Tier III) и реализованные инженерные решения: это ЦОД «Южный порт» Сбербанка и «ДатаСпейс». Хотя (и это важно понимать) в России даже сертификация столь уважаемого ныне американского Uptime Institute не гарантирует непрерывности оказания сервисов, тем более в случае аварии. Но это предмет отдельного разговора, а сегодня речь пойдет о сотнях российских ЦОД, не прошедших сертификацию, но лихо оперирующих терминами Tier, заявляя о высоком уровне надежности своей инфраструктуры.
Для того чтобы понять, насколько уровень надежности ЦОД соответствует заявленному оператором, составьте таблицу с перечнем ключевых компонентов инфраструктуры ЦОД и разошлите ее для заполнения отобранным вами кандидатам.
Ниже представлен краткий перечень вопросов, на которые я рекомендую получить ответы от оператора ЦОД.
Архитектурная часть:
- владелец здания (помещения), в котором находится ЦОД, срок аренды;
- нагрузочная способность на перекрытия;
- отделочные материалы, использованные при отделке стен и потолочных перекрытий;
- наличие грузового лифта и погрузочно-разгрузочной зоны;
- предел огнестойкости стен и дверей.
Система электроснабжения:
- количество вводов от трансформаторной подстанции, емкость и категорийность;
- количество вводов от разных трансформаторных подстанций и объем использования каждого;
- наличие ДГУ, мощность, время работы без дозаправки, время запуска и время до набора полной мощности, наличие договоров на поставку топлива, уровень резервирования;
- наличие ИБП, время автономной работы, уровень резервирования;
- схема подключения кондиционеров к электропитанию.
Системы кондиционирования:
- используемые кондиционеры, производитель, количество и уровень резервирования;
- температурный режим;
- наличие системы дымоудаления и клапанов сброса давления.
Система автоматического пожаротушения:
- наличие системы автоматического пожаротушения, вид огнетушащего вещества, наличие резервов;
- наличие системы охранно-пожарной сигнализации, кол-во и типы датчиков.
Охранные системы:
- наличие системы контроля учета доступом;
- наличие системы видеонаблюдения;
- доступ на площадку.
Техническая поддержка:
- количество специалистов и инженеров, присутствующих на площадке в рабочее и нерабочее время;
- режим работы сотрудников технической поддержки;
- время реакции на запрос;
- наличие многоканального телефона, тикет-системы, web-интерфейса.
План действий в случае чрезвычайной ситуации
После получения от всех интересующих вас операторов ЦОД заполненных таблиц с описанием инфраструктуры вам необходимо посетить объект и увидеть все своими глазами. Перед визитом заранее договоритесь о том, чтобы среди сопровождающих был компетентный представитель технической службы оператора, способный ответить на большую часть ваших вопросов.
В ходе экскурсии не стесняйтесь задавать вопросы о действиях дежурного персонала в штатной и нештатной ситуации. Смоделируйте различные аварийные ситуации и просите рассказать, что поминутно будут делать в этих случаях дежурные инженеры как в рабочее, так и в нерабочее время. Это поможет понять, насколько подготовлены и обучены технические специалисты данного оператора.
Важное условие для подтверждения заявленного класса надежности — наличие у оператора пошаговых инструкций для дежурного персонала по действиям в экстренных случаях. Обязательно ознакомьтесь с данными инструкциями: так вы поймете, в какие приблизительно сроки будут устраняться типовые и нестандартные аварийные ситуации.
Посетив многие ЦОД в качестве потенциального заказчика, с сожалением вынужден констатировать, что составлению подобных планов аварийных мероприятий операторы ЦОД уделяют крайне мало внимания. Очень немногие располагают соответствующей документацией, и еще меньше тех операторов, у которых они актуальна и соответствуют штатному расписанию.
Поинтересуйтесь, есть ли на объекте круглосуточная служба технической поддержки, сколько в ней специалистов и какие функциональные обязанности за ними закреплены. Чаще всего на площадке находятся инженеры, которые могут выполнить только элементарные действия: нажать кнопку для перезагрузки сервера, подключить КВМ, а для решения более серьезных задач в нерабочие часы вызываются из дома дежурные специалисты. Как вы понимаете, это увеличит срок устранения аварии как минимум на то время, пока в ЦОД будет ехать компетентный сотрудник.
Учения по ликвидации ЧС
Конечно, технологическая карта процедур, не подкрепленная практическим опытом, вряд ли будет полезна в случае возникновения чрезвычайной ситуации. Такие документы должны постоянно совершенствоваться и обновляться в соответствии с результатами комплексных учений и тренировок по предотвращению и ликвидации ЧС, которые желательно проводить не менее двух-трех раз в год.
Регулярные тренировки сотрудников и имитации различных аварийных ситуаций напрямую свидетельствуют об обученности персонала ЦОД и ответственном подходе оператора к эксплуатации объекта. Если операторы ЦОД, разработавшие реальные регламенты по действиям персонала в ЧС, встречаются не слишком часто, то еще труднее найти операторов, проводящих учения постоянно: многие ограничиваются тестовым запуском ДГУ раз в месяц.
В последние годы количество новых ЦОД растет в геометрической прогрессии, а грамотных специалистов, имеющих реальные практические знания в области эксплуатации ЦОД, у нас в стране пока немного. Поэтому владельцы новых площадок подчас пытаются приобрести необходимые знания в процессе эксплуатации, что неминуемо приводит к остановке работы ЦОД. В России почему-то принято справляться с большинством проблем своими силами, а профессионалов привлекать только тогда, когда экстренная ситуация уже произошла.
Профилактический ремонт и обслуживание
Регламентное профилактическое обслуживание инфраструктуры позволит минимизировать риски возникновения аварий.
Убедитесь, что оператор ЦОД проводит установленные регламентом профилактические работы. Для этого попросите ознакомить вас с журналами, в которых отмечаются все события, происходящие в ЦОД, а также фиксируются мероприятия по текущему обслуживанию оборудования. Таких журналов должно быть несколько:
- Журнал сдачи-приемки дежурств по ЦОД.
- Журнал учета посетителей ЦОД.
- Журнал вноса-выноса оборудования и материальных ценностей.
- Журнал ежедневных осмотров, включающий разделы:
а) внешний осмотр технологического оборудования ЦОД (двери, люки, турникеты, фальшпол, технологические площадки и коридоры, внешний вид ИТ-оборудования);
б) контроль параметров окружающей среды (температуры, влажности);
в) контроль энергопотребления (фиксация показаний счетчиков на вводе и амперметров на шинах по фазам);
г) контроль расхода воды (фиксация показаний счетчика на вводе).
- Журнал технического обслуживания ИТИС ЦОД, в который заносится информация о сбоях в работе оборудования, о проводимых проверках, обслуживании и ремонте всех систем инфраструктуры в соответствии с основными ее составляющими:
а) комплекс систем безопасности (КСБ):
– система охранной и тревожной сигнализации (СОТС) — сведения о плановой (ежемесячной) проверке работоспособности, фиксация ложных срабатываний в процессе эксплуатации, отметки о замене вышедших из строя элементов;
– система контроля и управления доступом (СКУД) — фиксация отказов в доступе и ложных срабатываний в процессе эксплуатации, отметки о замене вышедших из строя элементов;
– досмотровая техника (ДТ) — сведения о плановой (ежемесячной) проверке работоспособности, фиксация ложных срабатываний в процессе эксплуатации, отметки о замене вышедших из строя элементов;
– система телевизионного наблюдения (СТН) — отметки о замене вышедших из строя элементов;
– центральный диспетчерский пост (ЦДП) — фиксация отказов в обслуживании, отметки о замене вышедших из строя элементов;
б) комплекс систем противопожарной защиты (КСПЗ):
– система автоматической пожарной сигнализации (САПС) — сведения о плановой (ежемесячной) проверке работоспособности, фиксация ложных срабатываний в процессе эксплуатации, отметки о замене вышедших из строя элементов;
– система громкого оповещения о пожаре и управления эвакуацией (СГО) — сведения о плановой (ежемесячной) проверке работоспособности, отметки о замене вышедших из строя элементов;
– система автоматического газового пожаротушения (САГП) — сведения о плановой (ежемесячной) проверке работоспособности, данные контроля давления в системе, отметки о заправке МГП и о замене вышедших из строя элементов;
– система дымоудаления и подпора воздуха (СДП) — сведения о плановой (ежемесячной) проверке работоспособности, отметки о замене вышедших из строя элементов;
– средства индивидуальной защиты органов дыхания (СИЗОД) — сведения о проверке (ежемесячной) пломб изготовителя на самоспасателях, отметки о замене по истечении срока годности;
в) комплекс систем связи, телекоммуникаций (КССТС):
– структурированная кабельная система (СКС) — журнал кабельных соединений и сведения о ее изменениях;
– система электрочасофикации (СЧ) — отметки о замене вышедших из строя элементов;
г) комплекс систем электрооборудования (КСЭ):
– система защитного и технологического заземления (СЗ) — данные планового (ежегодного) измерения параметров, сведения о протяжке соединений (выполняется по мере необходимости, но не реже одного раза в год);
– система выделенного электропитания (СВЭ) — данные контроля температуры токопроводящих шин, измерения параметров электрических кабелей (изоляция), сведения о протяжке соединений (выполняется по мере необходимости, но не реже одного раза в год);
– система гарантированного электроснабжения (как часть системы СВЭ) — отметки о ППР, проводимых специализированной организацией (аутсорсинг) по собственному графику обслуживания;
– система резервного электроснабжения (как часть системы СВЭ) — отметки о ППР, проводимых специализированной организацией (аутсорсинг) по собственному графику обслуживания;
– система основного электрического освещения (СОО) — данные контроля параметров освещенности, отметки о замене вышедших из строя элементов;
– система аварийного (дежурного) электрического освещения (САО) — данные контроля параметров освещенности, отметки о замене вышедших из строя элементов;
д) комплекс инженерно-технических систем (КИТС):
– прецизионное кондиционирование (микроклимат) в ЦОД (СПМ) — данные контроля температуры, влажности, давления в системе, отметки о замене воздушных фильтров, профилактике парогенераторов;
– система вентиляции и кондиционирования в помещениях ЦОД с постоянными рабочими местами (СВК) — данные контроля температуры, скорости движения воздуха, давления в системе, отметки о замене воздушных фильтров, чистке воздуховодов;
– система подготовки технологической воды (СПВ) — данные контроля качества воды, отметки о заправке фильтров реагентами, замене фильтров.
Информирование
Какой бы высококлассной ни была дежурная смена, как бы хорошо ни были проработаны различные процедуры эксплуатации ЦОД, аварийных ситуаций все равно не избежать. Для вас как для заказчика важно быть вовремя оповещенным о тех авариях в ЦОД, которые могут негативно сказаться на функционировании вашего оборудования. Своевременное информирование позволит сократить время восстановления ИТ-инфраструктуры. Выясните, какие средства коммуникации (Интернет, телефоны) используются, по какому принципу осуществляется оповещение клиентов, какие информационные системы задействуются оператором ЦОД для этого, где они размещены и в какой срок вы будете уведомлены об аварийной ситуации.
Не лишним будет поинтересоваться, как зарезервированы системы, производящие информирование клиентов, и как будет реализовано оповещение, в случае если весь ЦОД окажется обесточен.
Конечно, все вышеперечисленные рекомендации по выбору ЦОД требуют серьезной проработки и временных затрат, зато, выяснив все нюансы, вы сможете с большой долей вероятности определить хорошую площадку для размещения своей ИТ-инфраструктуры.
Желаю успехов в этом нелегком поиске!
Автор: Алексей Дегтярев, журнал ЦОДы.РФ, выпуск №1
- Alexander: За R718 будущее )
- нет событий, чтобы показывать