Использование ИИ для эксплуатации ЦОД: проекты Microsoft, Meta и Google

13 июля 2022

Использование ИИ для эксплуатации ЦОД: проекты Microsoft, Meta и GoogleИнфраструктура дата-центров, обеспечивающих вычислительные ресурсы для функционирования многочисленных веб-сайтов, приложений и сервисов, ежедневно используемых миллиардами людей, иногда оказывается источником опасности для жизни и здоровья обслуживающего персонала.

Риски исходят со стороны находящегося под напряжением электрического оборудования, периодически нуждающегося в техобслуживании. Иногда работники подвергаются воздействию опасных химических веществ, включая хлор, используемый в качестве стерилизующего агента при обработке воды, циркулирующей в системах жидкостного охлаждения серверов.

Чтобы не быть голословными отметим, что в июне 2015 пять человек были доставлены в больницу после утечки газообразного хлора в дата-центре Apple в городе Мейден, штат Северная Каролина (Соединенные Штаты Америки).

Финансовый ущерб также никто не отменял. Аварии ЦОД обходятся дорого, и их становится все больше. Согласно исследованию, проведенному в 2020 году консалтинговой фирмой Uptime Institute, треть владельцев и операторов дата-центров столкнулась с крупными сбоями в работе ЦОД за 12-месячный отчетный период. Причем каждый шестой участник исследования заявил, что авария ЦОД обошлась более чем в 1 миллион $ (в 2019 году о подобном ущербе сообщал лишь каждый десятый респондент).

Да, после инцидента в Мейдене семилетней давности дата-центры стали безопаснее, чем раньше. Но совершенству нет предела. В поисках перспективных решений некоторые технологические гиганты начали изучать возможности для применения искусственного интеллекта (ИИ) ради предотвращения проблем с безопасностью.

Новые проекты Microsoft

Например, Microsoft разрабатывает систему на базе ИИ, занимающуюся анализом данных из ряда источников и генерирующую предупреждения для специалистов по строительству и эксплуатации дата-центров, позволяя «предотвратить инциденты, связанные с безопасностью, / смягчить последствия подобных инцидентов».

Инженеры Microsoft также ведут разработку дополнительной системы для обнаружения различных инцидентов на стройплощадках ЦОД и прогнозирования их влияния на графики строительства дата-центров.

Как отметили представители корпорации Microsoft, данные инициативы находятся на ранних этапах тестирования. Ожидается, что новые инструменты начнут применяться в реальных дата-центрах в конце 2022 года.

Свежие инициативы Meta

Корпорация Meta исследует способы использования ИИ для прогнозирования рисков при эксплуатации дата-центров в «экстремальных условиях окружающей среды», что также может привести к формированию небезопасных рабочих условий для персонала.

Представители корпорации заявляют о разработке физических моделей для имитации экстремальных условий. Собранные в рамках моделей данные передаются в системы обучения ИИ, отвечающие за оптимизацию энергопотребления, охлаждения и воздушных потоков внутри серверных ферм. ИИ также получает важные эксплуатационные данные, поступающие непосредственно из уже функционирующих дата-центров, включая информацию со встроенных датчиков внутри серверов, стоек и машзалов.

Отмечается, что каждый сервер и сетевое устройство, выполняя разные рабочие нагрузки, потребляют разное количество электроэнергии, выделяют разное количество тепла и создают разнообразные потоки воздуха внутри дата-центра.

Команда специалистов по инфраструктуре корпорации собирает все данные с каждого сервера, а затем разрабатывает модели ИИ, способные перераспределять серверы и стойки в дата-центрах и балансировать / оптимизировать рабочие нагрузки на уровне отдельных серверов для максимизации производительности и эффективности. Такой подход позволяет, вдобавок к повышению безопасности, добиваться максимальной отдачи от инфраструктуры дата-центра без чрезмерных эксплуатационных расходов.

Наработки DeepMind на службе Google

Инженеры других интернет-корпораций также используют ИИ для решения различных задач, связанных с инфраструктурой ЦОД. Например, при поиске возможностей для экономии электроэнергии и, следовательно, сокращения затрат на эксплуатацию дата-центра.

В 2018 году представители Google заявили, что система искусственного интеллекта, разработанная «докой» поискового гиганта под названием DeepMind, смогла обеспечить экономию электроэнергии в среднем на 30% относительно исторического среднего уровня энергопотребления ЦОД. Впоследствии ни Google, ни DeepMind не публиковали дополнительных сведений о данном проекте.

Другие корпорации, располагающие значительными вычислительными мощностями и множеством ЦОД, включая IBM и Amazon, согласно инсайдерской информации, также ведут работу в данном направлении. При этом и Meta, и Microsoft уже используют ИИ для достижения аналогичных целей в части оптимизации энергопотребления инфраструктуры ЦОД.

Инженеры Microsoft и Meta уже используют возможности ИИ

В распоряжении Meta более 20 действующих кампусов ЦОД по всему миру, включая новые проекты в американских штатах Техас и Миссури, общая стоимость которых оценивается в 1,6 миллиарда $. Одновременно Microsoft управляет более чем 200 дата-центрами и заявляет: в обозримом будущем планирует строить от 50 до 100 новых ЦОД ежегодно. Обе корпорации уже используют ряд инструментов на базе ИИ в своих серверных фермах.

В конце 2021 года Microsoft запустила «методы обнаружения аномалий» на базе ИИ для оценки и смягчения последствий необычных событий, касающихся использования электроэнергии и воды в дата-центре. Данный инструмент использует информацию с датчиков внутри электрических и механических устройств.

Корпорация дополнительно использует инструменты на основе ИИ для выявления и устранения проблем с измерителями мощности в дата-центре, а также для определения идеальных мест размещения серверов внутри машзалов, чтобы свести к минимуму потребление электроэнергии системами охлаждения.

Meta, в свою очередь, использует самообучающийся ИИ, чтобы уменьшить количество воздуха, нагнетаемого в дата-центры для целей охлаждения. Применяется алгоритм обучения с подкреплением сигналами только от среды взаимодействия. Данная система искусственного интеллекта учится решать проблемы методом проб и ошибок.

В большинстве дата-центров корпорации Meta используются системы испарительного охлаждения серверов и охлаждения с применением наружного воздуха, что делает оптимизацию воздушного потока первоочередной задачей.

Уменьшение воздействия инфраструктуры ЦОД на окружающую среду также является одной из задач, решаемых с использованием систем на базе искусственного интеллекта, регулирующих энергопотребление. Согласно ряду оценок, на долю дата-центров в 2020 году приходилось около 1% мирового спроса на электроэнергию и 0,3% всех выбросов углекислого газа.

Типичный центр обработки данных использует от 11 до 19 миллионов литров воды в день. Столько же воды ежедневно требуется городу с населением от 30 тыс. до 50 тыс. человек. Ранее представители Microsoft заявляли, что к 2025 году корпорация планирует перевести все дата-центры на возобновляемую энергию. Команда Meta добилась подобного в 2020 году.

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *