Мониторинг и управление инфраструктурой ЦОД: дайджест за 4 квартал 2025 года

12 января 2026

Инструменты мониторинга и управления инфраструктурой дата-центров стремительно эволюционируют, обеспечивая все более высокие уровни надёжности, эффективности и масштабируемости. «Цифровые двойники», предиктивная аналитика, ИИ-оптимизация энергопотребления и робототехника прямо сейчас меняют подходы к эксплуатации ЦОД. Свежие анонсы NVIDIA и других вендоров показывают, что речь идёт не о точечных улучшениях, а о системном сдвиге. Детали в дайджесте.

NVIDIA анонсировала подписочное ПО для мониторинга GPU-кластеров в ЦОД

Корпорация NVIDIA разрабатывает программный сервис для мониторинга кластеров графических ускорителей для ИИ-задач, размещаемых в дата-центрах. Внедрение инструмента сулит повышение надёжности, энергоэффективности и срока службы GPU-инфраструктуры. Ключевые факты:

ПО устанавливается по инициативе клиента и работает в режиме только чтения.
Используется программный агент с открытым исходным кодом (open-source), обеспечивающий прозрачность и возможность аудита.
Собранные данные агрегируются в едином дашборде на платформе NVIDIA NGC.
Поддерживается анализ тысяч GPU, включенных в распределённую инфраструктуру.
ПО не изменяет конфигурации и не влияет на работу ускорителей – NVIDIA подчёркивает отсутствие удалённого управления: в GPU нет аппаратных трекеров, системы экстренного аварийного отключения (kill switch) или бэкдоров.

Возможности сервиса:

отслеживание потребления электроэнергии, включая кратковременные пики, для оптимизации энергобюджетов;
мониторинг загрузки GPU, пропускной способности памяти и состояния межсоединений;
выявление локальных перегревов и проблем с воздушным потоком до появления троттлинга;
проверка единообразия ПО, драйверов и конфигураций в разрезе всего кластера;
обнаружение ошибок и аномалий;
предиктивное обнаружение предпосылок для деградации компонентов;
генерация отчётов по инвентарю и состоянию GPU.

Незадолго до анонса NVIDIA также опубликовала результаты исследования на тему мониторинга GPU с использованием системного фреймворка DCGM (Data Center GPU Manager). Инструмент собирает точную телеметрию (загрузка, температура, энергопотребление, ошибки, состояние межсоединений), позволяет выявлять деградацию и простои, а также интегрируется с Kubernetes, Slurm и сторонними системами мониторинга.

В исследовании отмечается, что при масштабировании GPU-кластеров неэффективное использование ресурсов приводит к серьёзным потерям:

росту эксплуатационных расходов;
дефициту доступных GPU для новых задач;
снижению пропускной способности и производительности разработчиков.

Исследователи выделили основные типы проблем:

аппаратные отказы (редко);
увеличение числа исправных, но незадействованных GPU (редко);
задачи, которые закрепляются за GPU, но используют их неэффективно (часто);
задачи, которые закрепляются за GPU, но фактически не выполняются (умеренно часто).

Наиболее распространённые причины:

выполнение заточенных под CPU задач на GPU-узлах;
некорректная конфигурация задач с акцентом на резервирование (over-provisioning);
«зависшие» проекты;
задержки из-за загрузки контейнеров и данных.

В качестве решения предлагается комбинация сбора телеметрии через DCGM, сопоставление загрузки GPU с параметрами заданий и введение показателя потерь из-за простоя ускорителей. В ходе исследования мониторинг был доведён до уровня конкретных пользователей и задач, после чего были внедрены меры автоматизированной оптимизации, включая:

завершение длительно простаивающих заданий;
выявление ошибочных конфигураций;
удаление некорректных задач из очереди.

В результате в тестовой среде объем неэффективно используемых ресурсов сократился с 5,5% до 1%, обеспечив позитивный экономический эффект.

FNT Software и Paessler разработали новое решение для мониторинга инфраструктуры ЦОД

Софтверная компания FNT Software расширила функционал фирменной программной платформы для управления инфраструктурой ЦОД (Data Center Infrastructure Management; DCIM), известной как FNT Command. Состоялся релиз нового модуля FNT Infrastructure Health & Monitoring. Он был разработан в партнёрстве с компанией Paessler, которая ранее вывела на рынок собственную систему мониторинга инфраструктуры дата-центров Paessler PRTG.

Новое решение объединяет инструменты для организации документооборота, мониторинга и управления жизненным циклом инфраструктуры в рамках единой платформы. Разработчики интегрировали механизм создания «цифровых двойников» (digital twin) ЦОД с мониторингом инфраструктуры в реальном времени. Ключевые возможности:

мониторинг CPU, сетевой активности, хранилищ, температуры, влажности и энергопотребления;
контроль электропитания — суммарно и по каждому разъёму;
анализ загрузки и пропускной способности;
раннее выявление инфраструктурных рисков;
историческая аналитика и определение трендов.
автоматическое выявление расхождений между документацией и фактическим состоянием;
постепенное повышение точности «цифрового двойника» для целей аудита, обеспечения соответствия требованиям и управления жизненным циклом.

Продукт соответствует требованиям стандартов ISO 2700x, KRITIS, NIS2, DORA. Заявляется, что его внедрение будет способствовать снижению энергозатрат, повышению киберустойчивости и надёжности инфраструктуры в целом.

AMI DCM интегрировала свое DCIM-решение с продуктами Cupola360 и NetZoom

Софтверная компания AMI DCM укрепляет позиции на мировом рынке DCIM-решения, интегрируя свой фирменный продукт с программными пакетами конкурентов для восполнения пробелов в функционале. Вендор объявил сразу о двух партнерствах в этой сфере. Компания начала сотрудничать с поставщиками эксплуатационного софта для дата-центров NetZoom и Cupola360 (дочерняя структура ASPEED Technology).

Интеграция NetZoom Enterprise с AMI DCM

Компания NetZoom интегрировала с AMI DCM свой продукт NetZoom Enterprise, создав вендоронезависимое DCIM-решение со следующими возможностями:

доступ к единой платформе для моделирования, мониторинга и управления инфраструктурой ЦОД;
оценка энергопотребления в режиме реального времени;
контроль помещений, стоек, силовых цепей и сетевых подключений;
поддержка безагентного обнаружения (agentless discovery), оповещений и мобильного доступа.

Ранее пользователям NetZoom Enterprise был доступен только следующий функционал:

визуализация инфраструктуры на базе Microsoft Visio;
облачная библиотека с сотнями тысяч моделей оборудования;
управление жизненным циклом;
повышение уровня загрузки ресурсов;
упрощение обновления и модернизации инфраструктуры.

Интеграция с AMI DCM добавила:

мониторинг энергопотребления в реальном времени;
выявление рисков, связанных с электропитанием;
раннее обнаружение проблем (до появления рисков для SLA);
управленческую аналитику для принятия решений на уровне руководства.

Объединение инструментов AMI DCM и Cupola360

Компания Cupola360 объявила о стратегическом партнёрстве с AMI с целью создания новой модели управления дата-центрами на основе «виртуально-физической интеграции». Решение объединяет платформу AMI Data Center Manager (DCM) с платформой Reality Remote Management (RRM), ключевой особенностью которой выступает 360-градусная визуализация инфраструктуры (в основе – панорамные камеры без «слепых зон» для обнаружения аномалий, движения персонала и инцидентов). Партнеры обещают клиентам:

интеграцию аппаратного мониторинга с визуальным контролем физической инфраструктуры для эксплуатации оборудования с учётом реального физического состояния ЦОД;
единый интерфейс (single pane of glass) для просмотра:
- данных о состоянии серверов;
- информации об энергопотреблении и тепловых параметрах;
- панорамного видео из машзалов;
- уведомлений о наступлении критических событий, сигналов тревоги и отчётов;
мониторинг от уровня отдельной платы и стойки до всего ЦОД;
поддержку гетерогенных и мультивендорных инфраструктур, включая GPU-кластеры.

Ожидаемые результаты интеграции продуктов:

сокращение физических обходов и эксплуатационных расходов;
повышение точности обнаружения аномалий;
рост уровня безопасности и предотвращение несанкционированного доступа;
переход от реактивного обслуживания к предиктивному;
оптимизация энергопотребления и охлаждения.

Колибри-ЦОД – инструмент управления распределённой IT-инфраструктурой, созданный в РФ

Российский системный интегратор ICL Services вывел на рынок систему управления конфигурациями и автоматизации процессов корпоративной IT-инфраструктуры, охватывающую периферийные (edge) вычислительные узлы и стандартные дата-центры. Продукт получил название «Колибри-ЦОД». Ключевые особенности и функции:

управление инфраструктурой любого масштаба — от десятков серверов до крупных ЦОД;
поддержка распределённых сред, охватывающих корпоративные серверы, виртуальные машины и периферийные устройства;
ориентация на задачи импортозамещения и технологической независимости;
автоматизация обслуживания серверов, рабочих станций и ВМ;
развёртывание ПО, обновлений и сложный патчинг;
управление конфигурациями и автоматическое устранение инцидентов;
быстрое восстановление устройств за счёт автоматического развёртывания образов ОС;
снижение влияния человеческого фактора и повышение уровня кибербезопасности;
стабильная работа даже при росте нагрузки и числа узлов.

По заявлениям разработчиков, «Колибри-ЦОД» может стать базовым инструментом управления современной IT-инфраструктурой самых разных компаний — от ритейла и логистики до промышленности и корпоративных ЦОД.

Российская система мониторинга ЦОД Datcheck получила ИИ-модули предиктивного анализа

Компания «Датарк» совместно с научной командой Уральского федерального университета (УрФУ) завершила разработку ИИ-модулей для системы мониторинга ЦОД Datcheck. Новые компоненты используют машинное обучение и нейросети для прогнозирования отказов инженерной инфраструктуры. Ключевые возможности:

прогнозирование сбоев и аварий за 6–10 суток до их возникновения;
переход от реактивного мониторинга к проактивному управлению рисками;
снижение вероятности простоев и финансовых потерь.

Datcheck — это программно-аппаратный комплекс для:

сбора, хранения и анализа данных о вычислительной среде и инженерных системах ЦОД;
мониторинга оборудования разных производителей;
раннего оповещения об аварийных ситуациях.

Поддерживаемые протоколы и оборудование:

промышленные протоколы: OPC UA/DA/HDA, Modbus RTU/TCP, BACnet, Profinet, Omron FINS, Mitsubishi SLMP, IEC 61850, IEC 60870-5-104;
сетевые протоколы: SNMP, MQTT, HTTP, JSON, Syslog;
оборудование: промышленные ПК на Linux, ПЛК-120, модули ввода-вывода МВ210, МУ210, КИП и интерфейсные преобразователи российского производства.

Обновлённая версия Datcheck находится на финальной стадии закрытого тестирования. По заявлениям разработчиков, ИИ-модули были внедрены, поскольку классического мониторинга инфраструктуры уже недостаточно. Текущий приоритет — предотвращение аварий, а не фиксирование их постфактум.

SoftBank и Yaskawa готовят роботов с ИИ для обслуживания инфраструктуры дата-центров

Японский оператор телекоммуникационной инфраструктуры SoftBank и производитель промышленной робототехники Yaskawa Electric объявили о партнёрстве в рамках проекта по разработке роботов, способных одновременно выполнять несколько задач. Компании подписали меморандум о взаимопонимании (MoU). Ключевые детали проекта:

интеграция экспертизы Yaskawa в области промышленной робототехники и инициативы AI-RAN от SoftBank (концепция «радиодоступа, усиленного ИИ», где радиосеть / RAN и вычисления для ИИ запускаются на одной общей вычислительной платформе);
использование ИИ на базе архитектуры MEC или Multi-access Edge Computing (архитектура вычислений, при которой обработка данных и выполнение приложений переносятся как можно ближе к источнику данных и пользователю), что ускоряет анализ разнородных данных и позволяет принимать решения без задержек, характерных для облака;
акцент на многофункциональных роботах, а не на выполнении одной изолированной задачи;
интеграция с системами управления зданиями (Building Management System; BMS).

Помимо развертывания в ЦОД, потенциальные сценарии применения охватывают офисные здания, больницы и учебные учреждения, торговые центры и общественные пространства с высокой плотностью людей. Такие среды требуют гибкого принятия решений и работы с непредсказуемыми ситуациями, что ранее сдерживало автоматизацию. Проект призван компенсировать дефицит рабочей силы в Японии на фоне старения населения и снижения рождаемости.

Решение Data Center Autopilot от BluWave-ai снизит нагрузку ЦОД на электросети

Компания BluWave-ai анонсировала облачное SaaS-решение Data Center Autopilot для оптимизации энергопотребления дата-центров и их интеграции с локальными электросетями. Продукт войдет в линейку Smart Grid Optimizer. Он ориентирован на колокейшн-провайдеров и операторов гипермасштабных ЦОД. Ключевые возможности продукта:

превращает ЦОД из пассивных потребителей электроэнергии в активных партнёров энергосети;
помогает управлять нагрузкой и избегать нарушений SLA;
сокращает энергопотребление при эксплуатации инфраструктуры ЦОД.

Ключевая технология – запатентованная ИИ-платформа, анализирующая текущую стоимость электроэнергии, размер «углеродного следа», нагрузку на электросеть. Система может автоматически ограничивать и приостанавливать энергопотребление или переносить некритичные нагрузки (обучение ИИ, пакетные вычисления и др.) на периоды с повышенной долей электричества из возобновляемых источников (ВИЭ) в энергобалансе.

IOTech представила сервис мониторинга сигналов тревоги для периферийных ЦОД

Компания IOTech Systems анонсировала новый сервис управления сигналами тревоги для периферийных ЦОД и промышленных сред. Продукт предназначен для унификации, нормализации и обработки сигналов о наступлении триггерных событий в реальном времени в гетерогенных распределённых вычислительных инфраструктурах. Заявлен вендор- и технологически нейтральный подход с акцентом на масштабируемость. Ключевые особенности:

продукт основан на платформе OPC UA Alarms & Conditions и соответствует стандарту IEC 62682;
поддерживаемые источники уведомлений:
- PLC и OT-устройства, включая решения с поддержкой протоколов BACnet, Modbus;
- аналитические движки;
- сторонние системы обработки событий.

Сервис может интегрироваться с другими продуктами IOTech Systems, включая IOTech Edge Central и EdgeX Foundry. Функционал охватывает обработку сигналов тревоги в реальном времени, анализ текущих состояний и статистики, аутентификацию персонала и контроль доступа, удаленную работу через Web-интерфейс или REST API. Сообщения о триггерных событиях могут рассылаться через email, SMS, MQTT, Webhooks и Telegram.

Engie Refrigeration обновила облачный сервис мониторинга чиллеров CoolCare до версии 4.0

Компания Engie Refrigeration представила обновленное облачное решение для мониторинга и удалённого управления чиллерами и тепловыми насосами CoolCare 4.0. Заявлена поддержка «из коробки» большинства актуальных моделей из ассортимента вендора, включая Quantum Water, Quantum Air и Spectrum Water. Более старые установки могут быть дооснащены специальными модулями для обеспечения совместимости. Функционал сервиса охватывает:

мониторинг данных (сбор всех рабочих параметров, статусов и сведений об авариях; визуализация в облаке в реальном времени; автоматические уведомления при отклонениях);
удалённый доступ (для заказчиков и подрядчиков; при необходимости возможно подключение службы Engie ExpertSupport для удалённой диагностики и помощи).

Сбору подлежат:

данные о наработке и режимах работы;
показатели энергоэффективности;
параметры компрессоров;
аварийные и предупредительные сообщения.

Передача информации в облако осуществляется непрерывно и автоматически по защищённому каналу. Заявлены поддержка централизованного управления пользователями и группами и многоуровневая система безопасности, соответствующая стандарту IEC 62443, а также продвинутая защита от несанкционированного доступа и утечек данных.

EcoStruxure Foresight Operation от Schneider Electric объединит силовые контуры и BMS в ЦОД

Компания Schneider Electric анонсировала платформу EcoStruxure Foresight Operation для централизованного управления энергоснабжением, инженерными системами и BMS критически важных зданий, включая дата-центры. Целевая аудитория – колокейшн-провайдеры и владельцы гипермасштабных дата-центров, в случае которых отсутствие централизованного управления всеми подсистемами приводит к:

незамеченным перекосам напряжения и повреждению оборудования;
неэффективному использованию ВИЭ (например, массивов солнечных батарей);
росту пиковых нагрузок на электросеть и штрафов за превышение выделенной мощности;
отсутствию координации между командами специалистов по эксплуатации и силовому оборудованию.

Ключевые преимущества EcoStruxure Foresight Operation:

повышение эксплуатационной эффективности;
ускорение ввода в эксплуатацию инженерного оборудования;
ИИ-диагностика;
ускоренное устранение проблем, связанных с силовым и механическим оборудованием.

OmniOn Power представила контроллер Pulsar 200 для управления электропитанием в ЦОД

Компания OmniOn Power анонсировала Pulsar 200 — модульную программно-аппаратную платформу для мониторинга и управления системами электропитания постоянного тока (DC), ориентированную на операторов телеком-сетей, дата-центров и промышленных объектов.

Доступны интеллектуальное распределение нагрузки и мониторинг состояния аккумуляторов. Пользовательский интерфейс отображается через 5-дюймовый цветной сенсорный экран, предлагая обновляемые в реальном времени дашборды для эксплуатации и обслуживания. Прочие особенности платформы:

модульная конструкция с «горячей заменой» компонентов;
подключение модулей напрямую или через CAN-шину;
поддержка масштабируемых распределенных кластеров, состоящих из географически удаленных элементов;
интеллектуальная оптимизация энергопотребления;
постоянная связь через двойной Gigabit WAN, Wi-Fi, Bluetooth и 4G/5G (опционально);
продвинутые механизмы обеспечения безопасности:
- соответствие стандартам IEC 62443-4-2 и FIPS 140-3;
- Secure Boot;
- аппаратная поддержка шифрования;
- управление доступом на основе ролей (Role-Based Access Control; RBAC).

Опциональный модуль мониторинга агрегирует данные с теплохладотехники, дизель-генераторов, счётчиков и датчиков. Вся информация доступна через единый интерфейс, что снижает число выездов и ускоряет диагностику.

Crystal Image Technologies представила 4K-мониторы нового поколения для ЦОД

Компания Crystal Image Technologies объявила о запуске следующего поколения монтируемых на стойки 4K-мониторов. Продукт ориентирован на дата-центры, командные пункты и другие критически важные объекты, где требуется высокая плотность отображаемых данных и надёжность при эксплуатации в режиме 24/7/365. Ключевые особенности:

разрешение 4K (UHD) для одновременного отображения большего числа потоков данных и сложных интерфейсов;
форм-фактор, оптимизированный под ограниченное пространство машзалов;
улучшенное тепловое управление;
оптимизация конструкции для непрерывной эксплуатации;
удобные интерфейсы подключения для быстрой установки и обслуживания;
соответствие строгим стандартам надёжности (включая MIL-STD для части продуктовой линейки).

Danfoss выпустила панели управления испарителями Cool Ctrl

Компания Danfoss выпустила линейку панелей управления испарителями Cool Ctrl, ориентированную на упрощение проектирования, монтажа и пусконаладки промышленных холодильных систем. Решение предназначено для систем на аммиаке, CO₂ и HFC/HCFC. Заявлена поддержка DX- и затопленных (flooded) испарителей.

Для дата-центров Cool Ctrl актуален в нишевых сценариях — прежде всего на объектах, где используется промышленная холодильная инфраструктура (CO₂ или аммиак), а также в периферийных ЦОД (edge) и на площадках с нестандартными системами охлаждения, выходящими за рамки классических чиллеров и CRAC/CRAH.

Базовая панель может обслуживать до двух испарителей. Расширенные версии рассчитаны на четыре испарителя, оснащены сенсорным экраном и встроенным web-сервером. Заявлена поддержка Modbus RTU/TCP и Ethernet/IP, что упрощает интеграцию с BMS и инженерными системами ЦОД.

ASSA ABLOY купила немецкого разработчика решений для мониторинга ЦОД Kentix

Группа компаний ASSA ABLOY объявила о приобретении немецкого разработчика и производителя решений для мониторинга и контроля доступа в дата-центрах Kentix GmbH, основанного в 2008 году и базирующегося в Идар-Оберштайне. Выручка вендора за 2024 год составила €8 млн. Показатель стабильно рос на протяжении последних лет.

Kentix войдёт в европейское подразделение ASSA ABLOY и усилит направления Digital & Access Solutions. Покупатель ожидает, что технологии немецкой фирмы помогут расширить присутствие в быстрорастущем сегменте дата-центров. Текущий ассортимент продуктов ASSA ABLOY для ЦОД включает:

системы контроля доступа (электронные и механические);
высокозащищённые двери и замки, включая решения для серверных стоек;
услуги по интеграции своих продуктов с BMS/DCIM и системами безопасности.

Инженеры РТК-ЦОД поделились опытом в сфере мониторинга инфраструктуры дата-центров

Инженеры компании РТК-ЦОД опубликовали принципы комплексного мониторинга инфраструктуры ЦОД для оперативного обнаружения первопричин сбоев. Авторы руководства разделили мониторинг на три уровня:

Инженерная инфраструктура (базовый уровень для ЦОД). Температура/влажность, электропитание (ИБП, АВР, генераторы), кондиционеры/чиллеры, давление в фальшполе, СКУД, видеонаблюдение, пожаробезопасность. На этом уровне обычно используются DCIM или SCADA.
IT-инфраструктура. Серверное «железо», ОС, виртуализация, сеть. Для сбора метрик компания применяет Zabbix, Prometheus, Grafana.
Мониторинг приложений и анализ логов. Поиск узких мест на уровне запросов и компонентов конкретного приложения.

Для получения общей картины предлагается использовать «зонтичную» систему, которая собирает сведения из разных источников и помогает автоматизировать ввод инцидентов в ITSM (с заполнением контекста: объект, ответственный, приоритет и т.д.).

Отдельно подчёркивается, что эффективность мониторинга упирается в отлаженность процессов и актуальность данных (учёт активов, правила именования, режим обслуживания). Отсутствие проблем в этой сфере позволяет обнаруживать аномалии с учётом сезонности/цикличности, а также выполнять предиктивную аналитику (например, прогноз исчерпания диска и потребности в ресурсах).

Ключевой механизм — «модель здоровья»: правила и метрики, которые переводят сырую телеметрию (например, «загрузка CPU на 98%») в приоритизированное оповещение с влиянием на сервис и рекомендациями.

Эксперты рекомендовали внедрять соответствующие инструменты поэтапно: сначала инфраструктурный слой, затем приложения, потом аномалии и предиктивная аналитика. В противном случае высок риск получить «кашу из инструментов» и лавину ложных срабатываний.