Добавить в избранное
Новости ЦОД и Дата-Центров
Все, что Вам нужно знать о ЦОД

Теория вероятностей: резервирование и время безотказной работы ЦОД

Данная статья — первая в своём роде и посвящена применению теории вероятностей для сравнения различных схем резервирования оборудования в ЦОД, вычислению достигаемого времени безотказной работы, а также финансовым рискам.

Известно, что каждое оборудование имеет такие характеристики, как ресурс, время безотказной работы и средняя длительность простоя за год использования. Также заметим, что уровни надежности ЦОД (Tier), являясь одной из основных характеристик ЦОД, зависят от времени простоя за год. Это неспроста: именно от длительности простоя зависит успешность бизнеса компании и её непредвиденные убытки.

Итак, при построении ЦОД вкладывают деньги для реализации той или иной схемы резервирования с целью сократить время простоя и, следовательно, сократить и убытки от простоев. Всегда ли оправдываются эти вложения? Всё зависит от схемы резервирования. Именно по этому критерию будет разделен последующий материал.

Схема резервирования отсутствует: N

В данном случае ни одна система не  резервируется (Tier I) и  простой каждой единицы оборудования означает простой всего ЦОД. Общий простой ЦОД за год составляет 28.8ч (Коэффициент отказоустойчивости 99,671%). Эта схема была характерна для ЦОД 60-70х годов прошлого века и полностью изжила себя к настоящему моменту по причине предельной убыточности: сегодня убытки компании от пары часов простоя если и не превышают стоимость дополнительной (резервной) единицы оборудования, то как минимум равны ей.

Схема резервирования N+1

Схема резервирования N+1 наиболее распространена на сегодняшний день. Согласно ей, к N рабочим единицам добавляется одна резервная. Здесь всегда важно правильно определить значение N. Рассмотрим этот аспект, условно приняв, что штатный простой одной единицы оборудования составляет S0 часов в год (вероятность отказа равна P0=S/(24ч/дн*365дн)=S/8760).

Очевидно, если N=0, то время простоя в год S(N=0)=S0, а вероятность отказа P(N=0)=S/8760= P0.

Если N=1, то вероятность отказа соответствует случаю, когда одновременно не работают обе единицы оборудования. P(N=1)=P1=P0*P0, S(N=1)=S1=P0*P0*8760.

При N≥2 система неработоспособна, если одновременно отключилось не менее двух любых единиц оборудования. Таким образом, в случае N=2 должны отключиться (1 и 2), (2 и 3), (1 и 3) единицы оборудования (вероятность каждого события равна P1=P0*P0) при условии работоспособности третьей единицы (вероятность 1-P0) или все три (1, 2 и 3) вместе (вероятность равна P0*P0*P0). Получаем следующую вероятность отказа системы: P2=3*P0*P0*(1-P0)+P0*P0*P0.

Для N=3 имеем три случая отказа:

  • вышли из строя любые две единицы оборудования (шесть вариантов с вероятностью P1=P0*P0 каждый) при условии работоспособности оставшихся двух единиц (вероятность (1-P0)*(1-P0)),
  • вышли из строя  любые три единицы оборудования (четыре варианта вероятностью P0*P0*P0 каждый) при условии работоспособности оставшейся единицы (вероятность 1-P0),
  • вышли из строя все четыре единицы оборудования (вероятность P0*P0*P0*P0).

Итоговая вероятность P3=6*P0*P0*(1-P0)*(1-P0)+4*P0*P0*P0*(1-P0)+ P0*P0*P0*P0.

Существует и общая формула для любого N, состоящая из N слагаемых. Однако, заметим, что, ввиду малости P0, первое слагаемое наиболее велико, а остальные практически не дают вклада в итоговую вероятность. Таким образом, немного потеряв в точности можно сократить число слагаемых до одного — первого. Тогда:

P1=P0*P0,

P2=3*P0*P0*(1-P0),

P3=6*P0*P0*(1-P0)*(1-P0),

…………

P(N)≈С(N+1,2)*P0^2*(1-P0)^(N-1), где B(2,N+1) — количество вариантов выборки 2 элементов из N+1 (на языке комбинаторики: сочетание из N+1 по 2), С(N+1,2) = (N+1)! / (2!·(N+1-2)!) = (N+1)! / (2·(N-1)!) = N*(N+1)/2. Итак,

P(N)≈N*(N+1)*P0^2*(1-P0)^(N-1)/2; S(N)=P(N)*8760.

Рассмотрим применение полученных формул на примере.

Пример №1. Штатный простой оборудования в год составляет 100 часов. Каков будет простой оборудования без резервирования и при схеме резервирования N+1 с различными N?В данном случае S0=100, P0=100/8760=0.0114=1.14%. Используя формулу для P(N) заполняем таблицу 1:

Конфигурация Вероятность отказа, % Время простоя за год, ч
1 1.14% 100
1+1 0.0130% 1.14
2+1 0.0335% 2.93
3+1 0.0764% 6.69
4+1 0.1260% 11.03
5+1 0.1867% 16.35

Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования N+1, чем при отсутствии резерва вовсе. Однако, вероятность отказа и время простоя растет с ростом N, т.е. с ростом общего числа элементов в системе. Тем самым выполняется принцип “чем сложнее система, тем она менее надежна”. Интересно, что в этом примере вероятность отказа при N=14 сравняется с конфигурацией без резерва.

Данные, приведенные в примере, характерны, например, для ИБП. Если учесть, что простой системы бесперебойного питания означает отсутствие питания как такового, а, значит, и простой всего ЦОД. По данным Berkeley Internet Week 2000 Contingency Planning Research, приблизительные потери, которые могут быть вызваны простоем продолжительностью в 1ч на предприятиях различных типов в США составляют (таблица 2):

Тип предприятия Стоимость часа простоя
Биржевые транзакции Несколько млн. долл.
Авторизация кредитных карт (банки) $2 000 000
Amazon $180 000
Бронирование билетов на самолеты $89 000
Резервирование (отелей, автомобилей и т.п.) $41 000
Банкоматы $14 000

Поэтому разница между конфигурациями 1+1 и 3+1 для компании по бронированию билетов может обойтись в __________$45 000.

Схема резервирования 2N

Согласно схеме резервирования 2N каждый элемент системы дублируется аналогичным.

Вероятность отказа ИБП и российские электросети

Большинство ИТ-оборудования, устанавливаемого в ЦОД требует высокого качества питания. Именно такое электропитание призваны обеспечить источники бесперебойного питания. При расчете рисков, связанных с обесточиванием ЦОД, огромное значение имеет доступность ИБП. В интернете можно найти следующие данные по доступности ИБП при различных конфигурациях системы бесперебойного питания (таблица 3 (Журнал сетевых решений “LAN”, №10 за 2008г.)):

Конфигурация ИБП Доступность (с байпасом), % MTBF
1+1 99.99999932 2182.9
2+1 99.99999899 1455.3
3+1 99.99999865 1091.5
4+1 99.99999831 873.2
5+1 99.99999797 728.4
6+1 99.99999763 624.3
7+1 99.99999730 545.3
8+1 99.99999696 485.6
9+1 99.99999662 437.0
10+1 99.99999628 397.3

Как видно, доступность системы весьма велика, а время простоя для случая “1+1″ составит всего 0.2 секунды в год. Означает ли это, что Заказчик может рассчитывать на простой ЦОД в течение 200 миллисекунд в год?

Конечно, ответ “нет”! Но он скрыт в словах “с байпасом” во второй колонке таблицы. Оказывается, что в течение 0.2с ЦОД будет просто без питания, а всё остальное время он хоть грязное питание из сети (по линии байпаса), но получит. Обратимся к первоисточнику: что нам обещают предоставить электросети?

Согласно ГОСТ 13109-87 п.6.2, качество электрической энергии не должно выходить за рамки допустимого диапазона в течение 95% времени (438 часов в год). А длительность подачи электроэнергии пониженного качества не должна превысить 90 часов за год.

Таким образом, порядка 90 часов в год ЦОД будет запитан низкокачественной электроэнергией, что по сути можно приравнять к его простою (если ещё не выходу из строя некоторого (наиболее чувствительного и, как правило, наиболее дорогого) серверного оборудования). Следовательно, вместо доступности 99.99999932% получаем доступность 99.99999932%*95%=94.999999354%≈95%.

Вывод: в течение 438 часов ежегодно ЦОД будет лишен требуемого качества электропитания, а убытки компании по резервированию отелей, согласно таблице 2, составят $17.5 млн.

Автор: Хомутский Юрий / alldc.ru

Тэги:
|
Источник:
|
RSS 2.0
|
|
ОСТАВИТЬ ОТЗЫВ



Последние комментарии
События и мероприятия