Опыт владельцев гипермасштабных ЦОД, внедривших ИИ

16 августа 2021

Лишь немногие аспекты современной человеческой инфраструктуры не затрагиваются искусственным интеллектом (ИИ) и машинным обучением (МО). Автоматизированные системы на базе ИИ используются для прогнозирования неисправностей и реагирования на потребности в дополнительных производственных мощностях / электроэнергии. ИИ также прокладывает путь к эпохе дата-центров без операторов-людей.

Да, на рынке продуктов для ЦОД появляется все больше готовых к использованию «из коробки» решений на базе ИИ и МО. Но часто для организации совместной работы нескольких подобных систем (за пределами решения отдельных «точечных» задач) требуется значительная интеграционная работа. Кроме того, требуются вложения в датчики для сбора данных и привлечение опытных инженеров для преобразования собираемых данных во что-то полезное, используя готовые / кастомные решения на базе ИИ и МО.

Владельцы гипермасштабных ЦОД занимаются подобными проектами уже несколько лет, опираясь на огромные финансовые и технологические ресурсы. Но большинство компаний, представленных на рынке дата-центров, не располагает подобными ресурсами. Насколько доступными являются ИИ и машинное обучение для владельцев и операторов малых и средних дата-центров? Попробуем разобраться, попутно отвечая на ряд важных вопросов.

Ценность применения ИИ в дата-центре

Для поставщиков публичных облачных сервисов и прочих интернет-компаний, располагающих гипермасштабными ЦОД, искусственный интеллект и машинное обучение уже являются неотъемлемой частью процесса эксплуатации дата-центров. Специалисты соответствующих компаний отлично осведомлены о преимуществах данных инструментов.

Инженеры Google ранее в подробностях описали использование ИИ от приобретенного поисковым гигантом стартапа DeepMind при оптимизации охлаждения серверов. Данный инструмент помог снизить PUE на 15 процентов за счет автоматического управления вентиляторами и прочими элементами инфраструктуры охлаждения. Компания дополнительно использовала DeepMind при прогнозировании количества электроэнергии, генерируемой ветряными турбинами, на 36 часов вперед, стремясь минимизировать негативные эффекты прерывистой работы ВЭС, обслуживающих дата-центры.

Поставщик облачных сервисов Alibaba Cloud развернул системы оповещения о температурных аномалиях на основе машинного обучения в одном из своих ЦОД. Используя показания сотен датчиков температуры и прогнозную модель, компания стремилась быстро и точно идентифицировать инциденты, вызываемые неисправностями холодильного оборудования. Система позволила заблаговременно информировать операторов ЦОД о возможных проблемах, обеспечивая специалистам драгоценное время для реагирования на сбой.

Как показывает практика, на данном этапе ИИ в дата-центре наиболее часто используется для оптимизации охлаждения и профилактического обслуживания оборудования. Управление электропитанием, балансирование рабочих нагрузок, безопасность (бесконтактная авторизация, мониторинг трафика) и минимизация расходов без сокращения срока полезной эксплуатации (ИИ позволяет оценить возможность экономии на капитальных затратах при модернизации и замене деталей) также рассматриваются в качестве потенциальных вариантов использования ИИ, но соответствующие инструменты пока не получили широкого распространения.

По мнению экспертов, ИИ дополнительно способен приносить огромную пользу в кризисные периоды. Например, во время пандемии, позволяя минимизировать количество персонала на месте и обеспечить безопасность тех, кто там находится.

Машинное обучение может развертываться в дополнение к ИИ для автоматического распознавания моделей нагрузки и прогнозирования колебаний, а также для проведения различных операций с инфраструктурой (например, при интеллектуальном перемещении нагрузки с основного оборудования на резервное). Подобный подход высвобождает человеческие ресурсы, позволяя сосредоточиться на техническом обслуживании и ремонте, а не на рабочих циклах установки.

Широкому распространению ИИ в индустрии ЦОД мешает «закрытость» вендоров

Поставщики решений для ЦОД начинают интегрировать машинное обучение и искусственный интеллект в предлагаемые продукты, но часто речь идет об узконаправленных механизмах для точечного применения. Иными словами, «Siri для ЦОД», способная управлять всеми аспектами центра обработки данных, все еще не появилась.

Из-за разнородного пула оборудования и мультисенсорной инфраструктуры, которые можно наблюдать в среднестатистическом ЦОД, управление оборудованием существенно усложняется и децентрализуется.

Операторы гипермасштабных ЦОД, разрабатывающие системы централизованного управления инфраструктурой на базе ИИ / МО, борются с данной проблемой, создавая собственное аппаратное обеспечение, закупая решения на базе собственных спецификаций и применяя стандартизированную инфраструктуру.

Очевидно, что переход индустрии ЦОД к открытым протоколам ускоряет прогресс внедрения ИИ. Пока многие системы использовали закрытые протоколы, извлечение данных для последующего применения в более широкой системе искусственного интеллекта / управления затруднялось. Сегодня проблема постепенно уходит на второй план благодаря активному внедрению и использованию открытых интерфейсов связи и протоколов.

Удешевление и усовершенствование датчиков также играет определенную роль в данном процессе. По мере того как сенсорная технология становится дешевле, а коммуникационные сети, стоящие за массивами датчиков, и сбор данных — более надежными, можно наблюдать рост популярности продуктов на базе искусственного интеллекта.

Разработка ИИ-решений собственными силами возможна, если стоит задача «попробовать»

Да, практическая реализация максимально продвинутых моделей и вариантов использования ИИ потребует специальных знаний и опыта в области анализа данных, операторы небольших ЦОД могут начать разработку собственных систем с помощью инструментов машинного обучения, распространяемых по модели «самообслуживания». Например, AWS SageMaker. Залогом успеха в данном случае выступает способность операторов ЦОД собирать нужные данные.

Среднестатистической интернет-компании, не располагающей гипермасштабными ЦОД и огромными финансовыми ресурсами, вполне по силам нанять команду экспертов по обработке данных, способных использовать готовые модели машинного обучения . Например, продукты из каталога NVIDIA NGC.

Специалисты способны настроить готовый «конвейер», адаптируя его с учетом особенностей конкретного центра обработки данных. Благо, некоторое оборудование уже предоставляет структурированные данные для мониторинга.

Модернизация старого ЦОД с применением искусственного интеллекта остается проблемным проектом

Как отмечалось выше, управление температурным режимом серверного оборудования считается одним из наиболее многообещающих способов применения искусственного интеллекта в индустрии ЦОД. Тем не менее, использование ИИ при охлаждении серверов остается несбыточной мечтой для многих операторов ЦОД. Речь о специалистах, обслуживающих старые дата-центры.

Внедрение ИИ и МО в новой серверной ферме, построенной с «нуля» и укомплектованной первоклассным новейшим оборудованием, является вполне реализуемой задачей, если заказчик того пожелает.

Но многим центрам обработки данных уже несколько десятилетий, и внутри них содержится оборудование, не поддерживающее последние инновации в рассматриваемой области. Чтобы сделать подобное оборудование более «умным», потребуется провести большую работу и потратить много денег.

Благо, и в данной области наблюдается определенный прогресс. Как отмечают эксперты, модернизация даже наиболее старого ЦОД в мире с переводом на управление искусственным интеллектом вполне возможна с помощью внешних устройств на базе технологии IoT (интернет вещей). Речь идет, преимущественно, об автономных датчиках. Исследователи уже проверили осуществимость подобных проектов на некоторых объектах Alibaba Cloud.

Что если искусственный интеллект – проблема, а не решение?

Искусственный интеллект рассматривается многими как разновидность современной алхимии, обещающей «вложить искру человечества» в неодушевленные предметы и превратить «мусор в золото» (трансформация массивов данных в новые идеи). Но что если искусственный интеллект – проблема, а не решение?

В качестве примера можно привести наиболее громкий ИИ-проект: IBM Watson. Данная система, вопреки радужным прогнозам, сегодня публично признана неактуальной и некомпетентной. Система выиграла телешоу Jeopardy в 2011, после чего многие захотели использовать ее для решения всех мировых проблем, включая засуху, голод и рак.

Но проект по лечению рака запущенный совместно с американским Мемориальным институтом им. Слоуна Кеттеринга, провалился. Спустя семь лет выяснилось, что система давала небезопасные советы. В защиту Watson сотрудники института заявили, что советы рассматривались лишь как гипотетические, и врачи никогда не доверяли ИИ настоящих пациентов.

Эксперты отмечают, что фундаментальной проблемой Watson и иных систем ИИ в текущем виде является тот факт, что ИИ является не столько «инструментом алхимии», сколько «джином», действительно способным исполнять желания, но только отвечая на корректно заданные вопросы. Если можете четко задать вопрос и, желательно, превратить процесс поиска ответа в игру вроде го / шахмат (как недавно сделала команда Google с дизайном микросхем), ИИ способен добиться результатов. Если есть какие-то нюансы, приготовьтесь к разочарованию.