Проблемы с охлаждением в ЦОД Microsoft — головная боль для пользователей Hotmail
На минувшей неделе серверы в одном из ЦОД Microsoft оказались в незавидной ситуации: машины сильно перегрелись, что вызвало сбой в работе веб-сервисов рэдмондовцев. Это в свою очередь обернулось множеством нареканий на качество продуктов Microsoft со стороны пользователей электронной почты компании. Hotmail и Outlook были офлайн около 16 часов после неудачного обновления программного обеспечения, вызвавшего резкий всплеск тепловыделений в одном из машзалов центра обработки данных компании Microsoft, который используется для обеспечения работоспособности этих сервисов. Проблемы в ЦОД также затронули пользователей облачного сервиса Skydrive, который служит для хранения медиа-контента и данных.
Температура поднялась так быстро, что специалисты Microsoft не успели задействовать механизм автоматического перехода на резервную схему в случае отказа, который предназначен для экстренного перераспределения вычислительной нагрузки в разрезе свободной IT-инфраструктуры. Об этом представители компании сообщили через официальный блог Outlook.com.
Представители Microsoft отметили, что проблемы возникли только в одном дата-центре, где было решено провести обновление программного обеспечения, которое контролировало физическую инфраструктуру объекта. По словам Артура де Хаана из Microsoft, до того злополучного момента все обновления проходили гладко, но на этот раз все обернулось «большой неожиданностью».
«Неудачный апдейт стал причиной быстрого и существенного температурного всплеска в дата-центре», написал де Хаан в блоге Outlook.com. «Этот всплеск был настолько значительным, что на множестве серверов были в автоматическом режиме задействованы специальные защитные механизмы. Данные механизмы не позволяли пользователям получить доступ к почтовым ящикам, размещенным на этих серверах, а также мешали операторам ЦОД перераспределить нагрузку на другие элементы нашей IT-инфраструктуры. Потребовалось много времени, чтобы устранить все последствия этого инцидента».
Преимущества и риски эксплуатации оборудования при повышенной температуре
В официальном сообщении рэдмондовцев не содержится какой-либо конкретной информации касательно вовлеченного в инцидент программного обеспечения или оборудования. Ясно одно: пострадала система охлаждения дата-центра, в результате чего температура в машзалах очень быстро выросла.
Нужно отметить, что инженеры компании Microsoft одними из первых стали эксплуатировать серверное оборудование в своих ЦОД при повышенных температурах. Подобная стратегия может обеспечить значительную экономию электроэнергии, так как в данном случае можно уменьшить интенсивность использования жадных до электроэнергии чиллеров и холодильного оборудования.
Оборотной стороной медали (читай: повышения температуры в дата-центре) является то, что уменьшается “тепловой резерв”, поэтому у инженеров остается меньше времени, чтобы отреагировать на сбой в системе охлаждения. Это особенно актуально в условиях высокоплотного размещения оборудования, как в случае ЦОД Microsoft. По каким-то причинам, автоматизированные системы перехвата управления при отказе оказались не в состоянии справиться с ситуацией.
Рост IT-инфраструктуры и увеличение числа компаний, в чьем ведении находятся целые группы огромных дата-центров, позволили ключевым игрокам индустрии ЦОД переосмыслить понятие дублирование. В прошлом дублирование предполагало наличие резервного оборудования в самом ЦОД. Это требовало приобретения дополнительных дизельных электрогенераторов и источников бесперебойного питания (ИБП). Но с помощью группы облачных дата-центров необходимого уровня дублирования ключевых систем можно добиться путем перемещения рабочих нагрузок с одного дата-центра на другой, чтобы обойти возникшие проблемы.
В некоторых случаях рабочие нагрузки могут перемещаться с одного массива серверов на другой в пределах одного объекта. В других случаях они могут перемещаться на весьма отдаленный с географической точки зрения ЦОД. Специалисты Microsoft активно работают над усовершенствованием своего программного обеспечения для автоматизации систем контроля за последствиями отказов и перевода нагрузки на доступную IT-инфраструктуру. Но недавний инцидент показал, что работы в данном направлении рэдмондовцам еще хватает. Управление дата-центром – достаточно сложный процесс, и инженерам непросто спрогнозировать все возможные сценарии отказа.
Всего комментариев: 0