Как предотвратить отключения ЦОД из-за человеческой ошибки
Отказ в обслуживании Дата-Центра часто является результатом выхода из строя оборудования или цепной реакции неожиданных событий, основная причина, которых может оказаться человеческая ошибка.
Как можно спрогнозировать и предотвратить эту проблему? «Нет никаких сомнений в том, что ошибки персонала ЦОД приводят к длительным простоям ЦОД, некоторые из, которых можно избежать, соблюдая несколько простых правил», сказал Ахмад Мошири.
Предлагаю Вашему вниманию советы от Emerson Network Power, по снижению рисков простоя ЦОД в следствии человеческих ошибок.
1. Защита кнопки аварийного отключения электропитания ЦОД – Кнопки аварийного отключение электропитания (Emergency Power Off (EPO)), как правило, расположены вблизи дверей гермозоны ЦОД. Довольно часто эти кнопки не защищены от случайного нажатия и не промаркированы соответствующим образом — это приводит к ошибочному нажатию во время чрезвычайной ситуации и отключению электропитание всего ЦОД.
Маркировка и защита от случайного нажатия кнопки EPO может предотвратить случайное отключение всего Дата-Центра от электропитания.
2. Процедуры и Инструкции: документально зафиксированная последовательность действий при выполнении необходимых мероприятий поможет сократить риски, связанные с выполнением плановых и внеплановых работ.
Не ограничивайтесь одной процедурой от вендора, предусмотрите необходимый набор процедур на случай непредвиденных ситуации.
3. Правильная маркировка компонентов: Чтобы правильно и безопасно управлять и эксплуатировать энергосистемы ЦОД, все коммутационные устройства должен быть правильно промаркированы, также маркировке подлежат объекты однолинейных схем для обеспечения правильной последовательности выполняемых действий.
4. Последовательность в выполнении работ — Иногда инженеры ЦОД расслабляются и не соблюдают предписанную процедуры и инструкции, забывая или пропуская необходимые действия или выполняя процедуру по памяти, в следствие чего отключают нужное оборудованием.
Очень важно чтобы перед глазами инженеров всегда были рабочие процедуры и инструкции, которые должны выполняться последовательно, не допуская каких-либо отклонений.
5. Плановое обучение персонала — все лица, имеющие доступ в ЦОД, в том числе и ИТ специалисты в чрезвычайных ситуация, для собственной безопасности должны обладать базовыми знаниями в области эксплуатации ЦОД.
6. Организация политик безопасности — организация в ЦОД политик безопасности позволяет контролировать уровень доступа сотрудников, а так же клиентов, не только к жизненно важным инфраструктурным компонентам, но и клиентскому оборудованию — это позволит исключить внештатные ситуации, связанные с нарушением этих политик.
7. Организация питания персонала — Жидкости представляют наибольшую опасность для оборудования, приводя к короткому замыканию. Оптимальный вариант выделить отдельное помещение для приема пищи, за пределами которого запретить питание сотрудников.
8. Как избежать попадания загрязняющих веществ в гермозону — Плохое качество воздуха с частицами пыли и мусора, может привести к выходу из строя серверов и другой ИТ-инфраструктуры. Многие проблемы могут быть решены путем обязательного использования сменной атистатичной обуви (бахилы) при нахождении в гермозоне ЦОД.
Так же необходимо предусмотреть упаковку и распаковку оборудования за пределами гермозоны центра обработки данных.
Источник: datacenterknowledge
Всего комментариев: 0