Теория вероятностей: резервирование и время безотказной работы ЦОД
Данная статья — первая в своём роде и посвящена применению теории вероятностей для сравнения различных схем резервирования оборудования в ЦОД, вычислению достигаемого времени безотказной работы, а также финансовым рискам.
Известно, что каждое оборудование имеет такие характеристики, как ресурс, время безотказной работы и средняя длительность простоя за год использования. Также заметим, что уровни надежности ЦОД (Tier), являясь одной из основных характеристик ЦОД, зависят от времени простоя за год. Это неспроста: именно от длительности простоя зависит успешность бизнеса компании и её непредвиденные убытки.
Итак, при построении ЦОД вкладывают деньги для реализации той или иной схемы резервирования с целью сократить время простоя и, следовательно, сократить и убытки от простоев. Всегда ли оправдываются эти вложения? Всё зависит от схемы резервирования. Именно по этому критерию будет разделен последующий материал.
Схема резервирования отсутствует: N
В данном случае ни одна система не резервируется (Tier I) и простой каждой единицы оборудования означает простой всего ЦОД. Общий простой ЦОД за год составляет 28.8ч (Коэффициент отказоустойчивости 99,671%). Эта схема была характерна для ЦОД 60-70х годов прошлого века и полностью изжила себя к настоящему моменту по причине предельной убыточности: сегодня убытки компании от пары часов простоя если и не превышают стоимость дополнительной (резервной) единицы оборудования, то как минимум равны ей.
Схема резервирования N+1
Схема резервирования N+1 наиболее распространена на сегодняшний день. Согласно ей, к N рабочим единицам добавляется одна резервная. Здесь всегда важно правильно определить значение N. Рассмотрим этот аспект, условно приняв, что штатный простой одной единицы оборудования составляет S0 часов в год (вероятность отказа равна P0=S/(24ч/дн*365дн)=S/8760).
Очевидно, если N=0, то время простоя в год S(N=0)=S0, а вероятность отказа P(N=0)=S/8760= P0.
Если N=1, то вероятность отказа соответствует случаю, когда одновременно не работают обе единицы оборудования. P(N=1)=P1=P0*P0, S(N=1)=S1=P0*P0*8760.
При N≥2 система неработоспособна, если одновременно отключилось не менее двух любых единиц оборудования. Таким образом, в случае N=2 должны отключиться (1 и 2), (2 и 3), (1 и 3) единицы оборудования (вероятность каждого события равна P1=P0*P0) при условии работоспособности третьей единицы (вероятность 1-P0) или все три (1, 2 и 3) вместе (вероятность равна P0*P0*P0). Получаем следующую вероятность отказа системы: P2=3*P0*P0*(1-P0)+P0*P0*P0.
Для N=3 имеем три случая отказа:
- вышли из строя любые две единицы оборудования (шесть вариантов с вероятностью P1=P0*P0 каждый) при условии работоспособности оставшихся двух единиц (вероятность (1-P0)*(1-P0)),
- вышли из строя любые три единицы оборудования (четыре варианта вероятностью P0*P0*P0 каждый) при условии работоспособности оставшейся единицы (вероятность 1-P0),
- вышли из строя все четыре единицы оборудования (вероятность P0*P0*P0*P0).
Итоговая вероятность P3=6*P0*P0*(1-P0)*(1-P0)+4*P0*P0*P0*(1-P0)+ P0*P0*P0*P0.
Существует и общая формула для любого N, состоящая из N слагаемых. Однако, заметим, что, ввиду малости P0, первое слагаемое наиболее велико, а остальные практически не дают вклада в итоговую вероятность. Таким образом, немного потеряв в точности можно сократить число слагаемых до одного — первого. Тогда:
P1=P0*P0,
P2=3*P0*P0*(1-P0),
P3=6*P0*P0*(1-P0)*(1-P0),
…………
P(N)≈С(N+1,2)*P0^2*(1-P0)^(N-1), где B(2,N+1) — количество вариантов выборки 2 элементов из N+1 (на языке комбинаторики: сочетание из N+1 по 2), С(N+1,2) = (N+1)! / (2!·(N+1-2)!) = (N+1)! / (2·(N-1)!) = N*(N+1)/2. Итак,
P(N)≈N*(N+1)*P0^2*(1-P0)^(N-1)/2; S(N)=P(N)*8760.
Рассмотрим применение полученных формул на примере.
Конфигурация | Вероятность отказа, % | Время простоя за год, ч |
---|---|---|
1 | 1.14% | 100 |
1+1 | 0.0130% | 1.14 |
2+1 | 0.0335% | 2.93 |
3+1 | 0.0764% | 6.69 |
4+1 | 0.1260% | 11.03 |
5+1 | 0.1867% | 16.35 |
Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования N+1, чем при отсутствии резерва вовсе. Однако, вероятность отказа и время простоя растет с ростом N, т.е. с ростом общего числа элементов в системе. Тем самым выполняется принцип “чем сложнее система, тем она менее надежна”. Интересно, что в этом примере вероятность отказа при N=14 сравняется с конфигурацией без резерва.
Данные, приведенные в примере, характерны, например, для ИБП. Если учесть, что простой системы бесперебойного питания означает отсутствие питания как такового, а, значит, и простой всего ЦОД. По данным Berkeley Internet Week 2000 Contingency Planning Research, приблизительные потери, которые могут быть вызваны простоем продолжительностью в 1ч на предприятиях различных типов в США составляют (таблица 2):
Тип предприятия | Стоимость часа простоя |
---|---|
Биржевые транзакции | Несколько млн. долл. |
Авторизация кредитных карт (банки) | $2 000 000 |
Amazon | $180 000 |
Бронирование билетов на самолеты | $89 000 |
Резервирование (отелей, автомобилей и т.п.) | $41 000 |
Банкоматы | $14 000 |
Поэтому разница между конфигурациями 1+1 и 3+1 для компании по бронированию билетов может обойтись в __________$45 000.
Схема резервирования 2N
Согласно схеме резервирования 2N каждый элемент системы дублируется аналогичным.
Вероятность отказа ИБП и российские электросети
Большинство ИТ-оборудования, устанавливаемого в ЦОД требует высокого качества питания. Именно такое электропитание призваны обеспечить источники бесперебойного питания. При расчете рисков, связанных с обесточиванием ЦОД, огромное значение имеет доступность ИБП. В интернете можно найти следующие данные по доступности ИБП при различных конфигурациях системы бесперебойного питания (таблица 3 (Журнал сетевых решений “LAN”, №10 за 2008г.)):
Конфигурация ИБП | Доступность (с байпасом), % | MTBF |
---|---|---|
1+1 | 99.99999932 | 2182.9 |
2+1 | 99.99999899 | 1455.3 |
3+1 | 99.99999865 | 1091.5 |
4+1 | 99.99999831 | 873.2 |
5+1 | 99.99999797 | 728.4 |
6+1 | 99.99999763 | 624.3 |
7+1 | 99.99999730 | 545.3 |
8+1 | 99.99999696 | 485.6 |
9+1 | 99.99999662 | 437.0 |
10+1 | 99.99999628 | 397.3 |
Как видно, доступность системы весьма велика, а время простоя для случая “1+1″ составит всего 0.2 секунды в год. Означает ли это, что Заказчик может рассчитывать на простой ЦОД в течение 200 миллисекунд в год?
Конечно, ответ “нет”! Но он скрыт в словах “с байпасом” во второй колонке таблицы. Оказывается, что в течение 0.2с ЦОД будет просто без питания, а всё остальное время он хоть грязное питание из сети (по линии байпаса), но получит. Обратимся к первоисточнику: что нам обещают предоставить электросети?
Согласно ГОСТ 13109-87 п.6.2, качество электрической энергии не должно выходить за рамки допустимого диапазона в течение 95% времени (438 часов в год). А длительность подачи электроэнергии пониженного качества не должна превысить 90 часов за год.
Таким образом, порядка 90 часов в год ЦОД будет запитан низкокачественной электроэнергией, что по сути можно приравнять к его простою (если ещё не выходу из строя некоторого (наиболее чувствительного и, как правило, наиболее дорогого) серверного оборудования). Следовательно, вместо доступности 99.99999932% получаем доступность 99.99999932%*95%=94.999999354%≈95%.
Вывод: в течение 438 часов ежегодно ЦОД будет лишен требуемого качества электропитания, а убытки компании по резервированию отелей, согласно таблице 2, составят $17.5 млн.
Автор: Хомутский Юрий / alldc.ru
Всего комментариев: 0