Катастрофа в отрасли ЦОД неизбежна? Уроки ядерной энергетики

11 ноября 2019

Катастрофа в индустрии ЦОД неизбежна? Уроки ядерной энергетикиСубъектам отрасли ЦОД необходимо пересмотреть свой подход к управлению рисками. В противном случае будет расти вероятность крупной техногенной катастрофы, из-за которой возникнет чрезмерное и нежелательное внимание в адрес этого сектора со стороны СМИ, общественности и регулирующих органов.

Такой вывод можно сделать после ознакомления с тематическим докладом, который подготовили ведущие эксперты по надежности инфраструктуры из консалтинговой компании MTechnology, представив его на конференции 7×24 Exchange Fall Conference в Фениксе (США).

Наше общество больше, чем когда-либо прежде, зависит от центров обработки данных. Они помогают работать службам быстрого реагирования на чрезвычайные ситуации и больничным системам. Ввиду этого операторам, строителям и проектировщикам ЦОД следует всячески стремиться к минимизации рисков даунтайма – в том числе путем изучения уроков, которые можно извлечь из катастроф в атомной отрасли.

Ведь многие ошибки, которые привели к трем крупнейшим катастрофам, вызванным авариями на АЭС, также актуальны и для центров обработки данных. Именно поэтому упомянутый выше документ получил следующее название: «Три-Майл-Айленд, Чернобыль и Фукусима — уроки для индустрии центров обработки данных» (Three Mile Island, Chernobyl and Fukushima — Lessons for the Data Center Industry).

Нежелательное внимание регуляторов

Авторы доклада призвали субъектов индустрии центров обработки данных серьезно отнестись к этим рискам и приложить больше усилий для устранения недостатков на этапе планирования и эксплуатации ЦОД, которые могут привести к серьезным инцидентам в области безопасности.

Ведь одним из следствий громкой катастрофы может стать реакция регулирующих органов, которая повлияет на всю индустрию ЦОД, а не только на отдельных поставщиков услуг дата-центров.

Для простых обывателей дата-центры являются в значительной степени незаметным элементом инфраструктуры. Но когда широкая публика узнает, что из-за аварии в ЦОД пострадали или были убиты люди, это вызовет негодование и критику.

Когда возникнет общественное недовольство, и в процесс обсуждения проблемы будут вовлечены политики, стремящиеся заработать пресловутые «политические баллы», может случиться самое неожиданное. Индустрия ЦОД — это слабо регулируемая отрасль. Если произойдет громкая катастрофа, регулирование может резко усилиться.

Критически важная инфраструктура ЦОД

Центры обработки данных всегда были критически важными объектами, в которых размещались IT-системы, поддерживающие инфраструктуру полицейских и пожарных, используемые для хранения и обработки информации о пациентах больниц, а также поддерживающие важные инфраструктурные системы государственного значения, включая электроэнергетические системы. И, нравится нам это или нет, но социальные платформы, такие как Facebook и Twitter, стали важными инструментами для публичного общения актуального положения вещей в случае чрезвычайных ситуаций.

По словам экспертов, высокая географическая концентрация вычислительных мощностей внутри отдельных IT-кластеров, которыми являются ЦОД, также генерирует разного рода риски. В частности, это создает дополненное давление на инфраструктуру электрораспределительной системы, которая и без того подвержена чрезмерной нагрузке ввиду наличия множества потребителей.

Вот почему эксперты MTechnology провели важные параллели между атомной энергетикой и центрами обработки данных. В своем докладе они представили подробности ядерных катастроф на АЭС Три-Майл-Айленд, в Чернобыле и Фукусиме и сравнили их с тремя реальными, но «анонимными» сбоями в центрах обработки данных.

Факторы риска, ведущие к авариям: профилактическое обслуживание

Ряд случаев отказа оборудования в ЦОД связан с профилактическим обслуживанием. Ввиду этого эксперты раскритиковали контракты на профилактическое обслуживание центров обработки данных, которые, по их словам, часто строятся вокруг возможностей поставщика соответствующих услуг, а не фактических потребностей оборудования.

Компания MTechnology провела обширные исследования графиков обслуживания и утверждает, что слишком активное обслуживание может помешать достижению оптимальных конфигураций для надежной эксплуатации ЦОД и других критически важных объектов.

Пример: во время аварии на АЭС Три-Майл-Айленд в 1979 году задвижки аварийных насосов оказались ошибочно закрыты во время профилактического обслуживания, что усугубило ситуацию.

Эксперты отмечают, что каждое «окно обслуживания» создает три возможности для введения нестабильности: на этапе, когда система выводится из эксплуатации, во время обслуживания, и когда система снова вводится в эксплуатацию.

Как показывает практика, обслуживание инфраструктуры центров обработки данных позволяет заработать много денег. Поэтому у поставщиков соответствующих услуг есть мощный стимул работать слишком много. При этом растет число корпоративных клиентов, которые осознают проблему, сокращая частоту и объем профилактического обслуживания.

Факторы риска, ведущие к авариям: плохое планирование

Ядерные катастрофы также продемонстрировали важность эффективной проработки различных сценариев и соответствующего планирования. Именно эта проблема стала ключевой причиной ядерной катастрофы на Фукусиме. Эта АЭС на береговой линии была разрушена цунами высотой 14 метров из-за землетрясения магнитудой 9.

Огромная волна затопила аварийные резервные генераторы, мешая АЭС обеспечивать охлаждение сердечников ядерных реакторов. В результате выброса радиации была инициирована экстренная эвакуация 154 тыс. местных жителей.

Все знали о риске землетрясения и цунами. И все же владельцы АЭС и ее операторы не подготовились должным образом. Комиссия, назначенная парламентом Японии, в 2012 году пришла к выводу о том, что авария на АЭС в Фукусиме «была глубоко антропогенной катастрофой, которую можно и нужно было предвидеть и предотвратить».

Также важно отметить, что при проектировании АЭС в Фукусиме оператор Tokyo Electric Power (TEPCO) учитывал только воздействие землетрясения и цунами на свои собственные объекты, не учитывая риски для здоровья населения.

Это неправильный подход. И субъектам индустрии центров обработки данных следует учитывать данную ошибку. В случае индустрии ЦОД планирование также, как правило, фокусируется только лишь на рисках для самого центра обработки данных. Поэтому нужно стремиться к снижению рисков и для других сторон. Ведь риск это не просто вероятность. Это следствие наступления вероятности.

Факторы риска, ведущие к авариям: непонимание состояния системы

Еще одной проблемой, с которой сталкиваются как АЭС, так и центры обработки данных, является отсутствие четкого представления об истинном состоянии системы. Это проблема проявилась в Чернобыле, где во время испытания, имитирующего отключение электроэнергии, произошла авария. Тест был отложен, и ночная смена не была полностью подготовлена для испытаний. Соответствующие процедуры не были соблюдены, создавая нестабильные условия работы.

Тестирование продолжалось, несмотря на неожиданные показания и импровизированные процедуры для увеличения мощности с использованием различных конфигураций управляющих стержней.

В результате взрыва на АЭС мгновенно погибли два работника, и еще 28 человек умерли от острого радиационного отравления за несколько недель. При этом общее число жертв катастрофы на Чернобыльской АЭС, по мнению экспертов, может составлять до 4 млн. человек. Работы по очистке территорий объекта и прилегающих от загрязнения обошлись в 68 миллиардов долларов.

Аналогичная ситуация имела места в одном из крупных ЦОД, где произошло аварийное отключение электропитания по причине сбоя в работе автоматических выключателей. Электропитание было восстановлено через 11 минут, но потребовалось больше времени, чтобы восстановить работоспособность пользовательских систем.

Операторы ЦОД под давлением разгневанных клиентов, которые угрожали расторжением контрактов и требовали немедленного восстановления системы до «нормальной» конфигурации, пытались включить все снова и снова пять раз, получив пять неожиданных результатов.

Операторы ЦОД не знали об истинном состоянии системы. И их действия способствовали усугублению последствий аварии. В подобных обстоятельствах шансы улучшить ситуацию близки к нулю, тогда как вероятность сделать все еще хуже – почти 100 процентов.

Минимизация рисков

Несмотря на то, что к некоторым из этих отказов привели ошибки персонала, наиболее важные сбои были системными. Каждое из этих бедствий могло бы быть предотвращено при надлежащем планировании, достаточной подготовке персонала и обеспечении глубокого понимания текущего состояния системы. Причем речь идет не об отдельных людях, совершающих ошибки, а о системах, которые не позволяют им правильно выполнять свою работу.

Эксперты предложили несколько путей для улучшения ситуации. Одним из них является разработка технологии моделирования ЦОД. Несмотря на достижения в сферах виртуальной реальности и 3D-моделирования, до сих пор не существует эффективного «полноценного симулятора центра обработки данных».

Разработка такой системы может сыграть ключевую роль в создании более безопасных систем ЦОД, привнося новую глубину в анализ сценариев отказов, межсистемных зависимостей и каскадных эффектов.

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *