ЦОД не будет существовать без технического обслуживания

15 ноября 2011

Вне зависимости от предполагаемого уровня надежности проекта центра обработки данных, он не будет соответствовать поставленным критериям при отсутствии должного технического обслуживания. Чтобы продолжать предоставлять услуги, операторы ЦОД должны принимать необходимые меры для поддержки инфраструктуры ЦОД.

Представьте, что Ваш автомобиль – это дата-центр, и возможность вашего автомобиля перевести Вас оттуда сюда определяет его пригодность. Теперь представьте, что Вы никогда не меняете масло и фильтр, совершенно не интересуетесь количеством протекторов на шинах и не обращаете никакого внимания на предупреждающие лампочки, мигающие на приборной панели. Скорее всего, Ваша машина весьма не долго сможет быть «пригодной». С другой стороны, если Вы должным образом поддерживаете его, заменяя масло и другие жидкости, регулярно проверяя шины на предмет износа и получая для профилактики все необходимые услуги, Ваш автомобиль будет служить дольше и меньше подвергаться случайным факторам, способным вывести его из строя в том случае, если он проходит регулярное техническое обслуживание. И конечно, отдавая периодически свой автомобиль в техцентр, Вы понимаете, что не сможете его использовать – он будет для Вас «непригоден». Но плановое техническое обслуживание очень сильно отличается от внепланового обслуживания: если у Вас есть график технического обслуживания, Вы можете выбрать время, в которое отсутствие автомобиля не так болезненно скажется на Ваших планах. Незапланированное же техническое обслуживание, то есть авария не обращает никакого внимания на ваше расписание, и она может повлечь за собой огромное количество дополнительных расходов, помимо тех, которые включает себя плановое ТО (например, буксировка автомобиля).

Ту же самую логику, которую можно применить к автомобилям (и почти ко всему остальному в жизни), также можно отнести к центрам обработки данных: если Вы хотите иметь возможность работать тогда, когда вам это нужно, то Вы должны приложить усилия, чтобы должным образом обслуживался ЦОД. Поскольку центры обработки данных являются сложными объектами с большим количеством межсетевого взаимодействия компонентов и систем, техническое обслуживание может стать непростой задачей. Но в трудной экономической ситуации «эксплуатация до отказа» может обойтись очень дорого как по отношению к дополнительным расходам, связанным с незапланированными простоями (отказ какого-то оборудования),так и в плане снижения уровня удовлетворенности клиентов или даже их потери. Вы хотите, чтобы Ваш ЦОД соответствовал своему потенциальному уровню возможностей и обещаний? Тогда обеспечьте ему должное ТО.

Что такое «доступность»?
Под словом «доступность» можно понимать много вещей. Один оператор ЦОД может определенными параметрами характеризовать его «доступность», в то время как для другого оператора такие характеристики являются непригодными. Однако очевидно, доступность дата-центра в какой-то мере «измеряется» в возможности пользователя получить доступ к услугам ЦОД. Конкретные детали того, что может входить в понятие «доступность» могут быть различны, но общая концепция «доступности» достаточно ясна. В официальном документе от Fujitsu («Frequently Asked Questions on High Availability » , Март 2011) говорится: «IEEE считает, что сеть пригодна в том случае если системы или компоненты являются доступными в любой момент времени, когда этого требуется зарегистрированным пользователям.» Простая формула для определения «доступности» представляет собой отношение безотказной работы к общему времени работ, где время безотказной работы представляет собой разницу между общим временем работы и временем простоя. Более того, в официальном документе Fujitsu отмечается, что «на практике различают плановые и внеплановые простои.»

Официальный документ Emerson Network Power, озаглавленный как «Максимизация эффективности, емкости и доступности центров обработки данных посредством комплексной инфраструктуры», цитируя 2011 Data Center, отражает мнения пользователей ЦОД о важности понятия «доступность». По данным этого опроса, 53% опрошенных ИТ-специалистов в список самых критичных проблем на первое место ставят вопрос «доступности», следом за ним идет мониторинг инфраструктуры ( 52% опрошенных) и тепловая плотность (47% опрошенных).

Но что же такое «доступность»?
«Доступность» должна быть конкретно определена в контексте взаимоотношений «провайдер — клиент». Например, рассмотрим, ЦОД, который предоставляет определенные услуги, и удаленный пользователь пытается получить доступ к этой услуге через сотовую сеть. Помимо оборудования и сооружений, расположенных на территории центра обработки данных, есть другой фактор, влияющий на доступность (с точки зрения пользователя) — это промежуточные сети. Они включает в себя: вышки сотовой связи, волокно для передачи сообщений на потенциально большие расстояния и любое другое оборудование, такое как, коммутаторы, процессоры, кондиционеры и другие устройства, создающие сигнал между ЦОД и клиентом. По определению IEEE, услуги дата-центра при таком раскладе будут недоступны, даже если со стороны ЦОД все работает прекрасно.

Таким образом, во многом «доступность», по крайней мере, на уровне понимания — это то, что клиент получает от поставщика услуг и зависит от соответствующего соглашения об уровне обслуживания. Но в современном контексте «доступность» для центра обработки данных ограничивается и чаще всего измеряется в «девятках»: например, 99,999% («пять девяток») доступности, что соответствует примерно пяти минутам простоя в год. В недавней статье Data Center Journal («Что означают все эти девятки?»), были сделаны заявления, которые, однако, могут ввести в заблуждение или вовсе оказаться неправильными. Например, один знак можно не принимать во внимание, когда происходит простой (плановые простои в нерабочее время гораздо благоприятнее, чем неплановые простои в том же и меньшем количестве, случающиеся в тот момент, когда пользователю необходимы услуги).

Но доступность не обязательно ограничивается только возможностью использования услуг. Например, если услуга предоставляется слишком медленно, она может быть оказаться бесполезной. Руди Милиан, менеджер по продукции Anue Systems, отмечает, что доступность может быть больше, чем основная определенная выше: «Наши клиенты определяют доступность центров обработки данных с точки зрения ключевых показателей эффективности, среди которых:

  • Простои – пребывание сети ЦОД в бездействии
  • Производительность – доступная сеть ЦОД предоставляется с требуемыми QoS и SLA,
  • Безопасность – сеть ЦОД – безопасная сеть
  • Соблюдение нормативных требований – доступная сеть дата-центра отвечает соответствующим нормативным требованиям, таким как SOX, HIPAA и PCI.»

Каждый компонент или система имеет некоторую вероятность выхода из строя, независимо от того, расположен ли этот компонент в вашей машине или дата-центре. Это означает, что система или компонент, в конечном счете, выходят из строя. Таким образом, даже самая надежная конструкция центра обработки данных, в конце концов, выйдет из строя, если ее оставить без внимания. Лучший способ смягчить вероятность отказа является обслуживание объекта: техническое обслуживание, замена, ремонт или настройки некоторых компонентов, что уменьшит вероятность выхода их из строя. Вероятность выхода из строя некоторых компонентов, однако, больше, чем других и операторы дата-центра выделяют порой полный рабочий состав на поддержание состояния объекта, но все еще испытывают неудачи. Правильное техническое обслуживание является селективным процессом и сосредотачивается на выборе таких процессов, которые являются наиболее важными или наиболее частыми в плане отказа оборудования, а также проведение периодической проверки и внедрения соответствующих средств защиты, чтобы минимизировать общую вероятность простоя. Милиан также отмечает, что «плохое техническое обслуживание сети приводит к скомпрометированным ЦОД и негативно сказывается на его доступности.

Время простоя будет более частым, а среднее время ремонта (MTTR) высоким, понятия QoS и SLA неуместны, цели не будут выполнены, неполадки остаются неисправленными и бизнес терпит неудачу».

Обратите внимание на то, что избыточность, хотя и является важной составляющей для поддержания центров обработки данных в пригодном состоянии, не является достаточной. Увеличение количества резервных систем оказывает благоприятное воздействие, но в реальных системах, после достижения определенного уровня избыточности, система начинает становиться менее надежной из-за переизбытка дополнительных систем. (Это является следствием таких факторов, как не совершенность в плане обнаружения и «прикрытия» сбоев в системе и, возможно, присущему низкому уровню надежности избыточных систем.) Таким образом, такая конструкция не является достаточно хорошей для того, чтобы сохранить пригодность дата-центра на долгий срок, не считая надлежащего технического обслуживания.

Такой тип профилактического обслуживания может обернуться огромной силой на длительный срок, так как стоимость незапланированных простоев может значительно превышать стоимость борьбы с ними (для профилактики). Хотя программы профилактики могут быть разработаны в любое время для любого ЦОД, тем не менее, наилучшим подходом будет разработать одну программу на этапе проектирования объекта. Пол Гудисон, генеральный директор Cormant, считает, что «мы должны рассматривать техническое обслуживание не как процесс проверки / обслуживания после какого-то события, а как встроенные в дата-центр с самого начала процессы. «Опять же, однако, никогда не поздно начать проводить техническое обслуживание ЦОД, но хорошая программа обслуживания требует первоначальных вложений времени и денег, но и даже эти инвестиции, не говоря уже о текущей работе технического обслуживания, могут обеспечить быструю отдачу.

Ключи к ТО дата-центра
Один из самых лучших способов оказать помощь ЦОД – это мониторинг. Если вы знаете, что происходит на вашем объекте и, в частности, что происходит не так, вы можете легко это исправить. Таким образом, мониторинг инфраструктуры может помочь избежать капитальных затрат за счет сокращения времени и усилий, потраченных на ТО, более того, способность принимать меры предосторожности для предотвращения сбоев (в некоторых случаях) окажет хорошую поддержку. «Лучшая практика наших клиентов – находиться за пределами технического обслуживания. Наши заказчики в основном полагаются на инструменты мониторинга, такие как мониторинг производительности сети и системы обнаружения вторжений, которые позволяют заблаговременно выявлять и решать потенциальные проблемы центра обработки данных. Коммутатор мониторинга сети Anue NTO является неотъемлемой частью таких решений. NTO позволяет заказчикам отделить ряд инструментов, разместив их на том количестве точек, которые им необходимы, таким образом устраняя дефицит точек доступа. Кроме того, она оптимизирует трафик отдельных инструментов, повышая их производительность и позволяя заказчикам контролировать больший объем с меньшими затратами. Результат проявляется в лучшем использовании инструмента, повышенной видимости и более высокой скорости передачи данных дата-центра», утверждает Милиан.

Например, Гудисон предполагает, что операторы центров обработки данных убеждены в том, что «в стойке / комнате / на участке / на объекте ведется наблюдение за потреблением энергии и температуры, и они контролируют достижение максимального значения. Так, например, стойка может иметь максимальный ток / мощность, и это должно быть а) обговорено заранее и б) контролироваться (поддерживаться). Если это не происходит, то будут постоянно происходить перегрузки и перегревы». Кроме того, «оборудование (сервера, сетевое оборудование и т.д.) требует правильной маркировки, двойного резервирования мощности и данных, что требует соответствующих документов и тестирования, прежде чем оно устанавливается на сети для дальнейшей работы». Гудисон отмечает несколько важных моментов, касающихся обслуживания: Во-первых, согласование процедуры должна произойти раньше, чем случится сбой. Во-вторых, процедура должна быть проверена, и, в-третьих, задокументирована, чтобы предоставить сотрудникам оперативно-справочную информацию о том, как реагировать в различных случаях.

«В зависимости от района, мониторинг можно либо дополнять правильным техническим обслуживанием (там, где возникает проблема), либо использовать его для поддержания уровня доступности, если мы посмотрим на вклад IT-IM в ЦОД. Для таких предметов, как двойные связи мы можем использовать уже используемый порт или текущее значение мощности, которые мониторят данные для планирования будущего расширения. Мы могли бы также использовать, к примеру, измерители мощности, чтобы увидеть максимумы и рассмотреть эти данные в общей картине», утверждает Гудисон.

«Опять же, отталкиваясь от точки зрения IT DCIM, мы хотим получать контроль мощности и температуры, а также размещать оборудование и использовать порты. Необходимо знать, что не так давно новое устройство было установлено и им можно управлять. (CableSolve имеет уникальный портативный компонент, который позволит инженерам записывать все, что делают, включая установку стоек, внесение исправлений, подключение и тестирования части оборудования — все, что является важным в будущем). Сервер данных и сетевого оборудования, также часто мониторится. Рассмотрим один пример: есть используемый порт коммутатора, если порт коммутатора отвечает, то он используется, но если система IT-IM не видит связи, то такие сообщения помечаются красным флажком, что говорит о необходимости разобраться в проблеме, так как есть риск возникновения сбоя в системе».

Время простоя гарантировано. В конце концов, так или иначе, объект ЦОД будет переведен в оффлайн-режим на некоторое время. Оператор центра обработки данных, может контролировать некоторые моменты до определенной степени, например, когда и как долго предположительно ЦОД будет находиться в оффлайн-режиме, предполагая, что все необходимые процедуры по ТО были проведены. Однако в конечном итоге, центр обработки данных должен быть введен в оффлайн-режим для того, чтобы реализовать определенные задачи по обслуживанию; в качестве альтернативы можно запустить их в оффлайн-режиме, если что-то идет не так.

Первые могут быть запланированы, но последние — происходят случайным образом. Лучший подход — это грамотно планировать требуемое техническое обслуживание, чтобы оказывать минимальное воздействие на клиентов. Клиенты, безусловно, выразят большую признательность за запланированные перерывы связи при низкой загрузки сети, чем за незапланированные простои во время пиковой нагрузки.

Меры, необходимые для повышения «доступности»
Милиан также публикует ряд других мер, которые могут применить операторы ЦОД для повышения «доступности» дата-центра. Одна из таких мер — это увеличенная видимость: «Большая видимость сети приводит к повышению доступности, так как это улучшает коммуникацию между командами при одновременном снижении операционных расходов. Решения с функциями самообслуживания укрепляет видимость всей ИТ-организации. «Кроме того, простота снижает затраты на техническое обслуживание и освобождает ресурсы, позволяя сосредоточиться на стоимости дополнительных ресурсов. Необходимо найти решение с интуитивно понятным и простым в использовании интерфейсом. Нижняя кривая обучения показывает, что администраторы все чаще используют эти решения и у них все меньше вероятности совершить ошибки». В-третьих, Милиан рекомендует внедрить процесс автоматизации и интеграции. «Комплексные и автоматизированные решения являются более ценными для организации, потому что они упрощают процесс управления и добавляют общую ценность предложения комплексных компонентов. Необходимо найти решение с общедоступной поддержкой SNMP API «.

Выводы
То, что будут происходить сбои в работе дата-центров – это очевидно. Менее очевидно то, насколько часто они будут происходить. За счет проведения необходимых процедур технического обслуживания, вы можете увеличить «доступность» вашего объекта. Милиан обобщает эффект от недостатка надлежащего ТО следующим образом: «Воздействие от слабого технического обслуживания оказывается столь же разнообразным, как и наша клиентская база. Но в общем случае для наших клиентов их сетевая инфраструктура имеет решающее значение для их бизнеса. От финансовых учреждений до государственных органов, любые простои, сбои в системе безопасности или пропущенный аудит оказывает существенное влияние как на ИТ-организации, так и на бизнес».

В свете потребности обеспечения «пригодности» ЦОД — даже если «клиент» является компанией, работающей в дата-центре — техническое обслуживание является абсолютным требованием. Такая тактика как «эксплуатация до отказа» является менее выгодной как в денежном плане, так и в плане экономии времени, чем последовательное внедрение политики постоянного технического обслуживания. Одним из главных ключей к хорошей политике технического обслуживания является система мониторинга, которая дает операторам центров обработки данных информацию, необходимую для выявления и устранения преждевременных проблем.
Ваш центр обработки данных подобен Вашему автомобилю: если вы будете предпринимать по отношению к нему небольшие усилия, он отвезет Вас куда Вам нужно. Если вы будете игнорировать его, он затормозит ваш прогресс.

По материалам: datacenterjournal.com
Автор: JEFFREY CLARK

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *