Мониторинг и управление инфраструктурой ЦОД: дайджест за 4 квартал 2025 года
Инструменты мониторинга и управления инфраструктурой дата-центров стремительно эволюционируют, обеспечивая все более высокие уровни надёжности, эффективности и масштабируемости. «Цифровые двойники», предиктивная аналитика, ИИ-оптимизация энергопотребления и робототехника прямо сейчас меняют подходы к эксплуатации ЦОД. Свежие анонсы NVIDIA и других вендоров показывают, что речь идёт не о точечных улучшениях, а о системном сдвиге. Детали в дайджесте.
NVIDIA анонсировала подписочное ПО для мониторинга GPU-кластеров в ЦОД

Корпорация NVIDIA разрабатывает программный сервис для мониторинга кластеров графических ускорителей для ИИ-задач, размещаемых в дата-центрах. Внедрение инструмента сулит повышение надёжности, энергоэффективности и срока службы GPU-инфраструктуры. Ключевые факты:
- ПО устанавливается по инициативе клиента и работает в режиме только чтения.
- Используется программный агент с открытым исходным кодом (open-source), обеспечивающий прозрачность и возможность аудита.
- Собранные данные агрегируются в едином дашборде на платформе NVIDIA NGC.
- Поддерживается анализ тысяч GPU, включенных в распределённую инфраструктуру.
- ПО не изменяет конфигурации и не влияет на работу ускорителей – NVIDIA подчёркивает отсутствие удалённого управления: в GPU нет аппаратных трекеров, системы экстренного аварийного отключения (kill switch) или бэкдоров.
Возможности сервиса:
- отслеживание потребления электроэнергии, включая кратковременные пики, для оптимизации энергобюджетов;
- мониторинг загрузки GPU, пропускной способности памяти и состояния межсоединений;
- выявление локальных перегревов и проблем с воздушным потоком до появления троттлинга;
- проверка единообразия ПО, драйверов и конфигураций в разрезе всего кластера;
- обнаружение ошибок и аномалий;
- предиктивное обнаружение предпосылок для деградации компонентов;
- генерация отчётов по инвентарю и состоянию GPU.

Незадолго до анонса NVIDIA также опубликовала результаты исследования на тему мониторинга GPU с использованием системного фреймворка DCGM (Data Center GPU Manager). Инструмент собирает точную телеметрию (загрузка, температура, энергопотребление, ошибки, состояние межсоединений), позволяет выявлять деградацию и простои, а также интегрируется с Kubernetes, Slurm и сторонними системами мониторинга.
В исследовании отмечается, что при масштабировании GPU-кластеров неэффективное использование ресурсов приводит к серьёзным потерям:
- росту эксплуатационных расходов;
- дефициту доступных GPU для новых задач;
- снижению пропускной способности и производительности разработчиков.
Исследователи выделили основные типы проблем:
- аппаратные отказы (редко);
- увеличение числа исправных, но незадействованных GPU (редко);
- задачи, которые закрепляются за GPU, но используют их неэффективно (часто);
- задачи, которые закрепляются за GPU, но фактически не выполняются (умеренно часто).
Наиболее распространённые причины:
- выполнение заточенных под CPU задач на GPU-узлах;
- некорректная конфигурация задач с акцентом на резервирование (over-provisioning);
- «зависшие» проекты;
- задержки из-за загрузки контейнеров и данных.
В качестве решения предлагается комбинация сбора телеметрии через DCGM, сопоставление загрузки GPU с параметрами заданий и введение показателя потерь из-за простоя ускорителей. В ходе исследования мониторинг был доведён до уровня конкретных пользователей и задач, после чего были внедрены меры автоматизированной оптимизации, включая:
- завершение длительно простаивающих заданий;
- выявление ошибочных конфигураций;
- удаление некорректных задач из очереди.
В результате в тестовой среде объем неэффективно используемых ресурсов сократился с 5,5% до 1%, обеспечив позитивный экономический эффект.
FNT Software и Paessler разработали новое решение для мониторинга инфраструктуры ЦОД
Софтверная компания FNT Software расширила функционал фирменной программной платформы для управления инфраструктурой ЦОД (Data Center Infrastructure Management; DCIM), известной как FNT Command. Состоялся релиз нового модуля FNT Infrastructure Health & Monitoring. Он был разработан в партнёрстве с компанией Paessler, которая ранее вывела на рынок собственную систему мониторинга инфраструктуры дата-центров Paessler PRTG.


Новое решение объединяет инструменты для организации документооборота, мониторинга и управления жизненным циклом инфраструктуры в рамках единой платформы. Разработчики интегрировали механизм создания «цифровых двойников» (digital twin) ЦОД с мониторингом инфраструктуры в реальном времени. Ключевые возможности:
- мониторинг CPU, сетевой активности, хранилищ, температуры, влажности и энергопотребления;
- контроль электропитания — суммарно и по каждому разъёму;
- анализ загрузки и пропускной способности;
- раннее выявление инфраструктурных рисков;
- историческая аналитика и определение трендов.
- автоматическое выявление расхождений между документацией и фактическим состоянием;
- постепенное повышение точности «цифрового двойника» для целей аудита, обеспечения соответствия требованиям и управления жизненным циклом.
Продукт соответствует требованиям стандартов ISO 2700x, KRITIS, NIS2, DORA. Заявляется, что его внедрение будет способствовать снижению энергозатрат, повышению киберустойчивости и надёжности инфраструктуры в целом.
AMI DCM интегрировала свое DCIM-решение с продуктами Cupola360 и NetZoom
Софтверная компания AMI DCM укрепляет позиции на мировом рынке DCIM-решения, интегрируя свой фирменный продукт с программными пакетами конкурентов для восполнения пробелов в функционале. Вендор объявил сразу о двух партнерствах в этой сфере. Компания начала сотрудничать с поставщиками эксплуатационного софта для дата-центров NetZoom и Cupola360 (дочерняя структура ASPEED Technology).
Интеграция NetZoom Enterprise с AMI DCM
Компания NetZoom интегрировала с AMI DCM свой продукт NetZoom Enterprise, создав вендоронезависимое DCIM-решение со следующими возможностями:
- доступ к единой платформе для моделирования, мониторинга и управления инфраструктурой ЦОД;
- оценка энергопотребления в режиме реального времени;
- контроль помещений, стоек, силовых цепей и сетевых подключений;
- поддержка безагентного обнаружения (agentless discovery), оповещений и мобильного доступа.
Ранее пользователям NetZoom Enterprise был доступен только следующий функционал:
- визуализация инфраструктуры на базе Microsoft Visio;
- облачная библиотека с сотнями тысяч моделей оборудования;
- управление жизненным циклом;
- повышение уровня загрузки ресурсов;
- упрощение обновления и модернизации инфраструктуры.
Интеграция с AMI DCM добавила:
- мониторинг энергопотребления в реальном времени;
- выявление рисков, связанных с электропитанием;
- раннее обнаружение проблем (до появления рисков для SLA);
- управленческую аналитику для принятия решений на уровне руководства.
Объединение инструментов AMI DCM и Cupola360
Компания Cupola360 объявила о стратегическом партнёрстве с AMI с целью создания новой модели управления дата-центрами на основе «виртуально-физической интеграции». Решение объединяет платформу AMI Data Center Manager (DCM) с платформой Reality Remote Management (RRM), ключевой особенностью которой выступает 360-градусная визуализация инфраструктуры (в основе – панорамные камеры без «слепых зон» для обнаружения аномалий, движения персонала и инцидентов). Партнеры обещают клиентам:
- интеграцию аппаратного мониторинга с визуальным контролем физической инфраструктуры для эксплуатации оборудования с учётом реального физического состояния ЦОД;
- единый интерфейс (single pane of glass) для просмотра:
- данных о состоянии серверов;
- информации об энергопотреблении и тепловых параметрах;
- панорамного видео из машзалов;
- уведомлений о наступлении критических событий, сигналов тревоги и отчётов;
- мониторинг от уровня отдельной платы и стойки до всего ЦОД;
- поддержку гетерогенных и мультивендорных инфраструктур, включая GPU-кластеры.
Ожидаемые результаты интеграции продуктов:
- сокращение физических обходов и эксплуатационных расходов;
- повышение точности обнаружения аномалий;
- рост уровня безопасности и предотвращение несанкционированного доступа;
- переход от реактивного обслуживания к предиктивному;
- оптимизация энергопотребления и охлаждения.
Колибри-ЦОД – инструмент управления распределённой IT-инфраструктурой, созданный в РФ
Российский системный интегратор ICL Services вывел на рынок систему управления конфигурациями и автоматизации процессов корпоративной IT-инфраструктуры, охватывающую периферийные (edge) вычислительные узлы и стандартные дата-центры. Продукт получил название «Колибри-ЦОД». Ключевые особенности и функции:
- управление инфраструктурой любого масштаба — от десятков серверов до крупных ЦОД;
- поддержка распределённых сред, охватывающих корпоративные серверы, виртуальные машины и периферийные устройства;
- ориентация на задачи импортозамещения и технологической независимости;
- автоматизация обслуживания серверов, рабочих станций и ВМ;
- развёртывание ПО, обновлений и сложный патчинг;
- управление конфигурациями и автоматическое устранение инцидентов;
- быстрое восстановление устройств за счёт автоматического развёртывания образов ОС;
- снижение влияния человеческого фактора и повышение уровня кибербезопасности;
- стабильная работа даже при росте нагрузки и числа узлов.
По заявлениям разработчиков, «Колибри-ЦОД» может стать базовым инструментом управления современной IT-инфраструктурой самых разных компаний — от ритейла и логистики до промышленности и корпоративных ЦОД.
Российская система мониторинга ЦОД Datcheck получила ИИ-модули предиктивного анализа

Компания «Датарк» совместно с научной командой Уральского федерального университета (УрФУ) завершила разработку ИИ-модулей для системы мониторинга ЦОД Datcheck. Новые компоненты используют машинное обучение и нейросети для прогнозирования отказов инженерной инфраструктуры. Ключевые возможности:
- прогнозирование сбоев и аварий за 6–10 суток до их возникновения;
- переход от реактивного мониторинга к проактивному управлению рисками;
- снижение вероятности простоев и финансовых потерь.
Datcheck — это программно-аппаратный комплекс для:
- сбора, хранения и анализа данных о вычислительной среде и инженерных системах ЦОД;
- мониторинга оборудования разных производителей;
- раннего оповещения об аварийных ситуациях.
Поддерживаемые протоколы и оборудование:
- промышленные протоколы: OPC UA/DA/HDA, Modbus RTU/TCP, BACnet, Profinet, Omron FINS, Mitsubishi SLMP, IEC 61850, IEC 60870-5-104;
- сетевые протоколы: SNMP, MQTT, HTTP, JSON, Syslog;
- оборудование: промышленные ПК на Linux, ПЛК-120, модули ввода-вывода МВ210, МУ210, КИП и интерфейсные преобразователи российского производства.
Обновлённая версия Datcheck находится на финальной стадии закрытого тестирования. По заявлениям разработчиков, ИИ-модули были внедрены, поскольку классического мониторинга инфраструктуры уже недостаточно. Текущий приоритет — предотвращение аварий, а не фиксирование их постфактум.
SoftBank и Yaskawa готовят роботов с ИИ для обслуживания инфраструктуры дата-центров
Японский оператор телекоммуникационной инфраструктуры SoftBank и производитель промышленной робототехники Yaskawa Electric объявили о партнёрстве в рамках проекта по разработке роботов, способных одновременно выполнять несколько задач. Компании подписали меморандум о взаимопонимании (MoU). Ключевые детали проекта:
- интеграция экспертизы Yaskawa в области промышленной робототехники и инициативы AI-RAN от SoftBank (концепция «радиодоступа, усиленного ИИ», где радиосеть / RAN и вычисления для ИИ запускаются на одной общей вычислительной платформе);
- использование ИИ на базе архитектуры MEC или Multi-access Edge Computing (архитектура вычислений, при которой обработка данных и выполнение приложений переносятся как можно ближе к источнику данных и пользователю), что ускоряет анализ разнородных данных и позволяет принимать решения без задержек, характерных для облака;
- акцент на многофункциональных роботах, а не на выполнении одной изолированной задачи;
- интеграция с системами управления зданиями (Building Management System; BMS).
Помимо развертывания в ЦОД, потенциальные сценарии применения охватывают офисные здания, больницы и учебные учреждения, торговые центры и общественные пространства с высокой плотностью людей. Такие среды требуют гибкого принятия решений и работы с непредсказуемыми ситуациями, что ранее сдерживало автоматизацию. Проект призван компенсировать дефицит рабочей силы в Японии на фоне старения населения и снижения рождаемости.
Решение Data Center Autopilot от BluWave-ai снизит нагрузку ЦОД на электросети
Компания BluWave-ai анонсировала облачное SaaS-решение Data Center Autopilot для оптимизации энергопотребления дата-центров и их интеграции с локальными электросетями. Продукт войдет в линейку Smart Grid Optimizer. Он ориентирован на колокейшн-провайдеров и операторов гипермасштабных ЦОД. Ключевые возможности продукта:
- превращает ЦОД из пассивных потребителей электроэнергии в активных партнёров энергосети;
- помогает управлять нагрузкой и избегать нарушений SLA;
- сокращает энергопотребление при эксплуатации инфраструктуры ЦОД.
Ключевая технология – запатентованная ИИ-платформа, анализирующая текущую стоимость электроэнергии, размер «углеродного следа», нагрузку на электросеть. Система может автоматически ограничивать и приостанавливать энергопотребление или переносить некритичные нагрузки (обучение ИИ, пакетные вычисления и др.) на периоды с повышенной долей электричества из возобновляемых источников (ВИЭ) в энергобалансе.
IOTech представила сервис мониторинга сигналов тревоги для периферийных ЦОД
Компания IOTech Systems анонсировала новый сервис управления сигналами тревоги для периферийных ЦОД и промышленных сред. Продукт предназначен для унификации, нормализации и обработки сигналов о наступлении триггерных событий в реальном времени в гетерогенных распределённых вычислительных инфраструктурах. Заявлен вендор- и технологически нейтральный подход с акцентом на масштабируемость. Ключевые особенности:
- продукт основан на платформе OPC UA Alarms & Conditions и соответствует стандарту IEC 62682;
- поддерживаемые источники уведомлений:
- PLC и OT-устройства, включая решения с поддержкой протоколов BACnet, Modbus;
- аналитические движки;
- сторонние системы обработки событий.

Сервис может интегрироваться с другими продуктами IOTech Systems, включая IOTech Edge Central и EdgeX Foundry. Функционал охватывает обработку сигналов тревоги в реальном времени, анализ текущих состояний и статистики, аутентификацию персонала и контроль доступа, удаленную работу через Web-интерфейс или REST API. Сообщения о триггерных событиях могут рассылаться через email, SMS, MQTT, Webhooks и Telegram.
Engie Refrigeration обновила облачный сервис мониторинга чиллеров CoolCare до версии 4.0

Компания Engie Refrigeration представила обновленное облачное решение для мониторинга и удалённого управления чиллерами и тепловыми насосами CoolCare 4.0. Заявлена поддержка «из коробки» большинства актуальных моделей из ассортимента вендора, включая Quantum Water, Quantum Air и Spectrum Water. Более старые установки могут быть дооснащены специальными модулями для обеспечения совместимости. Функционал сервиса охватывает:
- мониторинг данных (сбор всех рабочих параметров, статусов и сведений об авариях; визуализация в облаке в реальном времени; автоматические уведомления при отклонениях);
- удалённый доступ (для заказчиков и подрядчиков; при необходимости возможно подключение службы Engie ExpertSupport для удалённой диагностики и помощи).
Сбору подлежат:
- данные о наработке и режимах работы;
- показатели энергоэффективности;
- параметры компрессоров;
- аварийные и предупредительные сообщения.
Передача информации в облако осуществляется непрерывно и автоматически по защищённому каналу. Заявлены поддержка централизованного управления пользователями и группами и многоуровневая система безопасности, соответствующая стандарту IEC 62443, а также продвинутая защита от несанкционированного доступа и утечек данных.
EcoStruxure Foresight Operation от Schneider Electric объединит силовые контуры и BMS в ЦОД

Компания Schneider Electric анонсировала платформу EcoStruxure Foresight Operation для централизованного управления энергоснабжением, инженерными системами и BMS критически важных зданий, включая дата-центры. Целевая аудитория – колокейшн-провайдеры и владельцы гипермасштабных дата-центров, в случае которых отсутствие централизованного управления всеми подсистемами приводит к:
- незамеченным перекосам напряжения и повреждению оборудования;
- неэффективному использованию ВИЭ (например, массивов солнечных батарей);
- росту пиковых нагрузок на электросеть и штрафов за превышение выделенной мощности;
- отсутствию координации между командами специалистов по эксплуатации и силовому оборудованию.
Ключевые преимущества EcoStruxure Foresight Operation:
- повышение эксплуатационной эффективности;
- ускорение ввода в эксплуатацию инженерного оборудования;
- ИИ-диагностика;
- ускоренное устранение проблем, связанных с силовым и механическим оборудованием.
OmniOn Power представила контроллер Pulsar 200 для управления электропитанием в ЦОД

Компания OmniOn Power анонсировала Pulsar 200 — модульную программно-аппаратную платформу для мониторинга и управления системами электропитания постоянного тока (DC), ориентированную на операторов телеком-сетей, дата-центров и промышленных объектов.
Доступны интеллектуальное распределение нагрузки и мониторинг состояния аккумуляторов. Пользовательский интерфейс отображается через 5-дюймовый цветной сенсорный экран, предлагая обновляемые в реальном времени дашборды для эксплуатации и обслуживания. Прочие особенности платформы:
- модульная конструкция с «горячей заменой» компонентов;
- подключение модулей напрямую или через CAN-шину;
- поддержка масштабируемых распределенных кластеров, состоящих из географически удаленных элементов;
- интеллектуальная оптимизация энергопотребления;
- постоянная связь через двойной Gigabit WAN, Wi-Fi, Bluetooth и 4G/5G (опционально);
- продвинутые механизмы обеспечения безопасности:
- соответствие стандартам IEC 62443-4-2 и FIPS 140-3;
- Secure Boot;
- аппаратная поддержка шифрования;
- управление доступом на основе ролей (Role-Based Access Control; RBAC).
Опциональный модуль мониторинга агрегирует данные с теплохладотехники, дизель-генераторов, счётчиков и датчиков. Вся информация доступна через единый интерфейс, что снижает число выездов и ускоряет диагностику.
Crystal Image Technologies представила 4K-мониторы нового поколения для ЦОД
Компания Crystal Image Technologies объявила о запуске следующего поколения монтируемых на стойки 4K-мониторов. Продукт ориентирован на дата-центры, командные пункты и другие критически важные объекты, где требуется высокая плотность отображаемых данных и надёжность при эксплуатации в режиме 24/7/365. Ключевые особенности:
- разрешение 4K (UHD) для одновременного отображения большего числа потоков данных и сложных интерфейсов;
- форм-фактор, оптимизированный под ограниченное пространство машзалов;
- улучшенное тепловое управление;
- оптимизация конструкции для непрерывной эксплуатации;
- удобные интерфейсы подключения для быстрой установки и обслуживания;
- соответствие строгим стандартам надёжности (включая MIL-STD для части продуктовой линейки).
Danfoss выпустила панели управления испарителями Cool Ctrl
Компания Danfoss выпустила линейку панелей управления испарителями Cool Ctrl, ориентированную на упрощение проектирования, монтажа и пусконаладки промышленных холодильных систем. Решение предназначено для систем на аммиаке, CO₂ и HFC/HCFC. Заявлена поддержка DX- и затопленных (flooded) испарителей.

Для дата-центров Cool Ctrl актуален в нишевых сценариях — прежде всего на объектах, где используется промышленная холодильная инфраструктура (CO₂ или аммиак), а также в периферийных ЦОД (edge) и на площадках с нестандартными системами охлаждения, выходящими за рамки классических чиллеров и CRAC/CRAH.
Базовая панель может обслуживать до двух испарителей. Расширенные версии рассчитаны на четыре испарителя, оснащены сенсорным экраном и встроенным web-сервером. Заявлена поддержка Modbus RTU/TCP и Ethernet/IP, что упрощает интеграцию с BMS и инженерными системами ЦОД.
ASSA ABLOY купила немецкого разработчика решений для мониторинга ЦОД Kentix
Группа компаний ASSA ABLOY объявила о приобретении немецкого разработчика и производителя решений для мониторинга и контроля доступа в дата-центрах Kentix GmbH, основанного в 2008 году и базирующегося в Идар-Оберштайне. Выручка вендора за 2024 год составила €8 млн. Показатель стабильно рос на протяжении последних лет.
Kentix войдёт в европейское подразделение ASSA ABLOY и усилит направления Digital & Access Solutions. Покупатель ожидает, что технологии немецкой фирмы помогут расширить присутствие в быстрорастущем сегменте дата-центров. Текущий ассортимент продуктов ASSA ABLOY для ЦОД включает:
- системы контроля доступа (электронные и механические);
- высокозащищённые двери и замки, включая решения для серверных стоек;
- услуги по интеграции своих продуктов с BMS/DCIM и системами безопасности.
Инженеры РТК-ЦОД поделились опытом в сфере мониторинга инфраструктуры дата-центров
Инженеры компании РТК-ЦОД опубликовали принципы комплексного мониторинга инфраструктуры ЦОД для оперативного обнаружения первопричин сбоев. Авторы руководства разделили мониторинг на три уровня:
- Инженерная инфраструктура (базовый уровень для ЦОД). Температура/влажность, электропитание (ИБП, АВР, генераторы), кондиционеры/чиллеры, давление в фальшполе, СКУД, видеонаблюдение, пожаробезопасность. На этом уровне обычно используются DCIM или SCADA.
- IT-инфраструктура. Серверное «железо», ОС, виртуализация, сеть. Для сбора метрик компания применяет Zabbix, Prometheus, Grafana.
- Мониторинг приложений и анализ логов. Поиск узких мест на уровне запросов и компонентов конкретного приложения.
Для получения общей картины предлагается использовать «зонтичную» систему, которая собирает сведения из разных источников и помогает автоматизировать ввод инцидентов в ITSM (с заполнением контекста: объект, ответственный, приоритет и т.д.).
Отдельно подчёркивается, что эффективность мониторинга упирается в отлаженность процессов и актуальность данных (учёт активов, правила именования, режим обслуживания). Отсутствие проблем в этой сфере позволяет обнаруживать аномалии с учётом сезонности/цикличности, а также выполнять предиктивную аналитику (например, прогноз исчерпания диска и потребности в ресурсах).
Ключевой механизм — «модель здоровья»: правила и метрики, которые переводят сырую телеметрию (например, «загрузка CPU на 98%») в приоритизированное оповещение с влиянием на сервис и рекомендациями.
Эксперты рекомендовали внедрять соответствующие инструменты поэтапно: сначала инфраструктурный слой, затем приложения, потом аномалии и предиктивная аналитика. В противном случае высок риск получить «кашу из инструментов» и лавину ложных срабатываний.
Всего комментариев: 0