ИИ и дата-центры с автономным управлением

20 августа 2020

Большая часть шумихи в СМИ вокруг искусственного интеллекта (ИИ) связана с беспилотными транспортными средствами, чат-ботами, технологиями создания цифровых двойников (Deepfake), робототехникой и использованием «умных» систем на основе ИИ для извлечения релевантных для бизнеса фактов из больших наборов данных. Но однажды искусственный интеллект и машинное обучение (МО) также начнут играть важную роль в управлении инфраструктурой корпоративных и коммерческих дата-центров.

Потенциал использования искусственного интеллекта с точки зрения повышения эффективности инфраструктуры ЦОД и, как следствие, оптимизации бизнеса их владельцев огромен. При этом способы применения ИИ в дата-центрах можно разделить на четыре основные категории:

Управление электропитанием: Управление электропитанием на основе ИИ может помочь оптимизировать работу системы охлаждения серверов, что, в свою очередь, приведет к сокращению расходов на электроэнергию, снижению численности персонала в ЦОД и повышению его общей эффективности. Решения с соответствующим функционалом уже предлагают, помимо прочего, Schneider Electric, Siemens, Vertiv и Eaton.
Управление IT-оборудованием: Решения на базе искусственного интеллекта могут отслеживать состояние серверов, систем хранения данных и сетевого оборудования, проверять корректность конфигураций IT-систем и прогнозировать, когда такое оборудование выйдет из строя. Поставками соответствующих продуктов занимаются OpsRamp, Datadog, Virtana, ScienceLogic и Zenoss.
Безопасность: Инструменты на базе искусственного интеллекта могут «понимать», как «выглядит» обычный сетевой трафик, выявлять аномалии, ранжировать выявленные аномалии и определять приоритеты, а также высылать предупреждения о самых опасных из них специалистам по безопасности. Они способны упрощать анализ того, что пошло не так, после инцидентов и предоставлять рекомендации по устранению «дыр» в системе безопасности предприятия. В перечень поставщики программного и аппаратного обеспечения для ЦОД, предлагающих решения с поддержкой таких возможностей, входят, помимо прочего, VectraAI, Darktrace, ExtraHop и Cisco.
Управление рабочими нагрузками: Системы ИИ могут автоматизировать перемещение рабочих нагрузок на наиболее эффективную инфраструктуру в режиме реального времени как внутри центра обработки данных, так и в гибридной облачной среде (перемещая нагрузки между локальной, облачной и периферийной инфраструктурой). Соответствующие продукты предлагают такие «тяжеловесы» как Cisco, IBM и VMware. Также растет число более мелких игроков, предлагающих инструменты для управления и оптимизации рабочих нагрузок на основе ИИ, включая Redwood, Tidal Automation и Ignio.

Сложите все вместе, и увидите, что с помощью ИИ действительно можно создавать высокоавтоматизированные, безопасные, самовосстанавливающиеся дата-центры, которые работают с высоким уровнем эффективности и отказоустойчивости, требуя минимального человеческого вмешательства.

Комментируя перспективы автоматизации инфраструктуры ЦОД с применением искусственного интеллекта, представители Dell Technologies отметили, что соответствующие решения могут гибко масштабироваться для интерпретации данных на уровнях, превышающих человеческие возможности, собирая важные идеи, необходимые для оптимизации энергопотребления, максимально возможного использования активов центра обработки данных, балансирования рабочих нагрузок и максимизации эффективности ЦОД в целом.

Да, ни одного полностью автономного центра обработки данных пока еще не существует. Точно также, несмотря на озвученные ранее прогнозы, пока не существует ни одного полноценного беспилотного автомобиля. На пути к прорывам в области искусственного интеллекта в центрах обработки данных стоят значительные технические, операционные и кадровые барьеры. Сегодня процесс внедрения ИИ в ЦОД только начинается, но потенциальные выгоды заставят предприятия искать возможности для того, чтобы «сдвинуть все с мертвой точки» как можно скорее.

Управление электропитанием с учетом текущей загруженности серверов

На долю дата-центров, согласно оценкам ряда экспертов, приходится 3% мирового потребления электроэнергии и около 2% выбросов парниковых газов. Поэтому нет ничего удивительного в том, что управлению энергопотреблением ЦОД повышенное внимание уделяют их операторы и владельцы. Оптимизация энергопотребления необходима как для экономии денег, так и для обеспечения экологической устойчивости.

Аналитики исследовательской компании 451 Research отмечают, что системы на основе искусственного интеллекта могут помочь операторам дата-центров понять текущие или потенциальные проблемы с охлаждением. Речь идет, помимо прочего, про недостаточную подачу холодного воздуха из-за, например, чрезмерно высокой плотности размещения внутри серверных стоек IT-оборудования, которое блокирует воздушные потоки. Или про недостаточную герметизацию «горячих коридоров» и «холодных коридоров».

По словам экспертов 451 Research, системы на базе искусственного интеллекта могут быстро проанализировать ЦОД на предмет наличия тепловых аномалий, сопоставив данные с теплохладотехники и показания датчиков окружающей среды в машзалах центра обработки данных.

Аналитики из консалтинговой компании StorageIO, в свою очередь, полагают, что управление электропитанием ЦОД с помощью решений на базе ИИ — «низко висящий плод». По их мнению, работа в данном направлении позволит заставить оборудование работать эффективнее, выполняя больше полезных операций на 1 ватт затраченной электроэнергии.

По их мнению, в дополнение к поиску температурных аномалий системы на базе искусственного интеллекта помогут операторам ЦОД гарантировать соответствие энергопотребления размеру пула физических серверов, а также наличие возможностей для развертывания новых физических серверов в случае временного всплеска спроса или перманентного повышения нагрузки на ЦОД.

В StorageIO отмечают, что многие инструменты управления электропитанием могут взаимодействовать со сторонними системами, управляющими оборудованием и рабочими нагрузками.

Например, если датчики обнаруживают, что сервер работает слишком интенсивно, и процессоры машины перегреваются, система может автоматически и предельно быстро переместить рабочие нагрузки на недостаточно загруженный сервер, чтобы избежать потенциального сбоя, который может повлиять на критически важные приложения.

Затем система проанализирует возможные причины перегрева сервера. Такой причиной может быть отказ вентилятора, сбой физического компонента машины, который вот-вот выйдет из строя (проблема с оборудованием), или, возможно, простая перегрузка сервера (всплеск запросов).

Мониторинг работоспособности IT-оборудования на основе ИИ и контроль конфигураций

Дата-центры заполнены физическим IT-оборудованием, которое требует регулярного обслуживания. Системы на базе искусственного интеллекта способны помочь операторам ЦОД выходить за рамки планового обслуживания инфраструктуры время от времени, постоянно собирая и анализируя данных со всевозможных датчиков для выявления конкретных проблемных областей, требующих немедленного внимания.

Как отмечают в 451 Research, мониторинг работоспособности начинается с проверки того, правильно ли настроено оборудование и соответствует ли оно ожиданиям операторов. При размещении в ЦОД сотен или даже тысяч серверных стоек с десятками тысяч компонентов такие рутинные задачи могут быть трудоемкими и, следовательно, не всегда выполняться своевременно и тщательно. Инструменты на базе искусственного интеллекта способны автоматически анализировать данные с соответствующих датчиков, выявляя закономерности и обнаруживая аномалии.

Подчеркивается, что прогнозирующее моделирование отказов, основанное на огромном количестве данных с логов сенсоров, поможет операторам ЦОД обнаруживать надвигающиеся отказы оборудования или его компонентов и оценивать, есть ли необходимость в немедленном обслуживании. Это позволит избежать потери вычислительной мощности, которая может вызвать перерыв в обслуживании критически важных приложений.

Специалисты компании Juniper Networks, занимающейся производством телекоммуникационного оборудования, утверждают, что операторам корпоративных дата-центров следует игнорировать некоторые излишние обещания и шумиху, связанные с ИИ, и сосредоточиться на том, что в Juniper Networks называют «скучными инновациями».

Да, системы искусственного интеллекта могут однажды научиться «сообщать операторам ЦОД, что не так, и как все исправить». Но на данный момент они способны лишь на уведомление операторов дата-центров о проблемах и о том, где им (операторам) следует самостоятельно искать причины выявляемых проблем.

Отображение зависимостей и связей между отдельными элементами инфраструктуры ЦОД также является важной, но не особенно интересной областью, в которой ИИ может быть полезен. Если операторы центра обработки данных вносят изменения в политику брандмауэров или других устройств, ИИ поможет им, прогнозируя непредвиденные последствия.

Еще один важный аспект обеспечения бесперебойной и безопасной работы оборудования – контроль так называемого дрейфа конфигурации. Этот термин операторы ЦОД используют в ситуациях, когда произвольные изменения конфигурации с течением времени могут приводить к возникновению проблем.

По словам специалистов Juniper Networks, системы на базе ИИ можно использовать в качестве «дополнительной проверки безопасности» для выявления надвигающихся проблем с конфигурацией центра обработки данных.

ИИ и безопасность

Как отмечают аналитики 451 Research, ИИ и машинное обучение «могут упростить обработку информации о событиях (реагирование на инциденты), выполняя быструю классификацию и кластеризацию событий для выявления самых важных и отделения их от информационного шума. Более быстрый анализ первопричин поможет операторам ЦОД оперативно принимать обоснованные решения и действовать в соответствии с ними.

В StorageIO, в свою очередь, отмечают, что ИИ может быть особенно полезен при обнаружении вторжений и атак в режиме реального времени. Системы на основе ИИ способны обнаруживать, изолировать и блокировать угрозы, а затем проводить глубокий анализ всех сведений об инцидентах, чтобы точно определить, что произошло, а также выявить уязвимости, использованные конкретными хакерами для проведения атаки.

Специалисты по безопасности, работающие в ЦОД, часто перегружены предупреждениями. Системы на основе искусственного интеллекта могут сканировать огромные объемы данных и логи, предотвращая ложные срабатывания и выполняя рутинные задачи. Благодаря этому профессионалы в области безопасности смогут тратить свое время на более глубокие исследования и решение других задач, с которыми (пока) не способен справиться ИИ.

Оптимизация рабочих нагрузок на основе ИИ

На уровне приложений искусственный интеллект может автоматизировать перемещение рабочих нагрузок. Это позволит оперативно задействовать простаивающее в данный момент и/или более стабильное IT-оборудование. Нагрузки можно перемещать между локальным дата-центром, периферийными серверными комнатами и облаком.

По мнению специалистов Juniper Networks, системы на базе искусственного интеллекта и машинного обучения в будущем смогут в режиме реального времени принимать решения о том, где именно следует разместить рабочие нагрузки с учетом множества параметров: от производительности и стоимости до методов управления, безопасности, рисков, надежности и даже экологической устойчивости.

Например, рабочие нагрузки могут автоматически перемещаться ИИ на наиболее энергоэффективные серверы, при этом гарантируя, что такие серверы будут работать с максимальной эффективностью (70-80% загрузки), тогда как простаивающие машины будут отключаться. Чувствительные ко времени приложения могут работать на высокоэффективных серверах, при этом ИИ будет следить за тем, чтобы излишняя электроэнергия не расходовалась на приложения, которые не требуют быстрого выполнения.

Оптимизация рабочих нагрузок на основе искусственного интеллекта привлекла внимание исследователей Массачусетского технологического института, которые в прошлом году объявили о разработке системы ИИ, способной автоматически учиться планированию эксплуатации ЦОД с тысячами серверов.

Но, как указывают аналитики 451 Research, реальность такова, что оптимизация рабочих нагрузок сегодня является прерогативой интернет-корпораций с гипермасштабными ЦОД вроде Amazon, Google и Microsoft. Операторам среднестатистического корпоративного центра обработки данных такие инструменты пока не доступны. И тому есть ряд причин.

Проблемы при внедрении ИИ-решений на уровне ЦОД

Оптимизация и автоматизация центра обработки данных — неотъемлемая часть текущих инициатив по цифровой трансформации. При этом, как подчеркивают в Dell Technologies, из-за пандемии COVID-19 многие компании теперь рассматривают возможность дальнейшей автоматизации, продвигая идеи дата-центров без людей, которые управляются ИИ и способны к самовосстановлению.

В 2018 году поисковый гигант Google объявил о передаче контроля над системами охлаждения в нескольких гипермасштабных центрах обработки данных программе с ИИ. Также сообщалось, что рекомендации, предоставленные алгоритмом ИИ, позволили сократить потребление электроэнергии на 40%.

Но у малых компаний нет ресурсов и возможностей интернет-корпорации Google, что затрудняет внедрение систем на базе искусственного интеллекта в их центрах обработки данных. Да, им доступны некоторые инструменты (например, DCIM-решения) для оценки работоспособности инфраструктуры и оптимизации охлаждения, наделенные поддержкой ИИ и МО.

Но пройдут еще годы, прежде чем разработчики моделей ИИ и МО достигнут более заметных прорывов, а также смогут создать инструменты, качественно превосходящие современные DCIM-решения. Как и в случае с разработкой беспилотных транспортных средств, ранние этапы могут быть интересными, но результаты будут далеки от прорывных экономических показателей, которые обещают футуристы.

Некоторые из препятствий, по словам экспертов, состоят в необходимости стандартизации механизмов агрегирования и обработки данных, а также соответствующих архитектур. Также потребуется люди со специальными навыками для настройки и эксплуатации систем на базе ИИ. Для многих предприятий поиск таких специалистов – серьезная проблема, равно как и профильное обучение уже существующих сотрудников.

Кроме того, на протяжении долгого времени многие операторы ЦОД сопротивлялись внедрению прогрессивных технологий, которые лишают их контроля над инфраструктурой. Так, программно-определяемые сети (SDN) существуют уже десять лет, однако более ¾ трех IT-операций по-прежнему управляются с помощью интерфейса командной строки.

Остается лишь верить и надеяться на то, что операторам ЦОД хватит смелости и благоразумия передать контроль над инфраструктурой системам на базе ИИ. Людей, занявших консервативную позицию, следует обучать и просвещать, убеждая их в том, что переход на ИИ не лишит их работы.

Минимизация конфликтов с консервативно настроенными операторами ЦОД является еще одной причиной делать лишь небольшие и «скучные» шаги в сторону ИИ и не увлекаться ажиотажем, который так часто окружает новые технологии.

Внедрить или погибнуть

По мнению экспертов Gartner, компании, которым не удастся реализовать революционный потенциал технологии искусственного интеллекта в своих центрах обработки данных, вскоре могут оказаться далеко позади конкурентов.

В Gartner ожидают, что эксплуатация более 30% дата-центров, в которых не используются ИИ и машинное обучение, в ближайшем будущем окажется нецелесообразной с операционной и экономической точки зрения.

Ввиду этого любому предприятию, бизнес которого основан на эксплуатации ЦОД, следует внедрять ИИ и машинное обучение в своих центрах обработки данных, тем самым увеличивая их надежность, оптимизируя использование электроэнергии и других ресурсов на основе результатов анализа данных в режиме реального времени, а также повышая уровень физической безопасности ЦОД.