Мониторинг и управление инфраструктурой ЦОД: новости от NVIDIA, Vertiv и других компаний

8 июня 2026

От проектирования и строительства до эксплуатации и расширения – автоматизация охватывает все больше аспектов ЦОД. Искусственный интеллект уже научился анализировать миллионы событий и предсказывать отказы оборудования. ИИ также контролирует строительство новых ЦОД с помощью дронов и LiDAR, а цифровые двойники позволяют тестировать инженерные решения еще до начала работ на площадке. В этом дайджесте собраны самые важные анонсы последних месяцев от NVIDIA, Vertiv, ABB, Proxmox, Kyndryl и других вендоров.

ZenaTech разрабатывает систему мониторинга строительства ЦОД с помощью дронов и LiDAR

Канадская ZenaTech анонсировала программную платформу ZenaWorx для мониторинга строительства ИИ-ЦОД на основе данных с дронов и LiDAR-сканеров. Решение будет создавать трехмерные цифровые модели строительных площадок и отслеживать ход работ, выявляя отклонения от проектной документации. Уже найден потенциальный заказчик / бета-тестер, который планирует строительство ИИ-ЦОД на участке площадью несколько сотен гектаров.

Платформа разрабатывается для нужд строителей крупных дата-центров и будет распространяться с использованием моделей SaaS (Software as a Service) и DaaS (Drone as a Service). ZenaWorx будет использовать данные, собранные беспилотниками с LiDAR-датчиками, для:

  • контроля земляных работ и изменения рельефа;
  • сравнения фактического состояния объекта с проектом;
  • анализа сроков и прогресса строительства;
  • автоматизированной подготовки отчетности.

Proxmox упростила управление распределенной инфраструктурой ЦОД

Компания Proxmox выпустила новую версию платформы для централизованного управления распределенной IT-инфраструктурой Proxmox Datacenter Manager. Продукт ориентирован на владельцев кластеров корпоративных ЦОД, провайдеров облачных платформ и организации, управляющие несколькими площадками с вычислительным оборудованием.

При обновлении до версии 1.1 добавлена поддержка автоматизированного развертывания серверов. Администраторы могут централизованно хранить конфигурации для безоператорной установки узлов и контролировать процесс через единый веб-интерфейс.

Появился централизованный мониторинг Ceph-кластеров. Теперь вся информация о производительности, емкости и состоянии хранилищ отображается в центральной панели управления, независимо от местоположения площадок.

Для управления распределенной инфраструктурой добавлены новые инструменты визуализации, включая карту с отображением подключенных площадок и виджеты загрузки процессоров, памяти и систем хранения данных. Также внедрено централизованное управление подписками, позволяющее распределять лицензионные ключи между серверами из общего реестра.

NVIDIA представила Fleet Intelligence для мониторинга ИИ-кластеров и GPU-инфраструктуры

Корпорация NVIDIA представила платформу Fleet Intelligence для мониторинга крупных кластеров графических ускорителей. Решение предназначено для обслуживания инфраструктуры на базе GPU Hopper, Blackwell и Vera Rubin и уже доступно клиентам бесплатно.

Fleet Intelligence позиционируется как независимый слой мониторинга. Платформа использует агент, установленный на хост-системе, который передаёт данные в облако NVIDIA NGC. В работе сервиса применяются:

  • NVIDIA DCGM;
  • GPUd;
  • NVIDIA Attestation SDK;
  • сервис удалённой аттестации NRAS.

Система собирает данные о:

  • загрузке GPU;
  • использовании видеопамяти;
  • энергопотреблении;
  • температуре;
  • состоянии NVLink;
  • ошибках ECC;
  • работоспособности оборудования.

Fleet Intelligence также умеет проверять прошивки ускорителей и среду выполнения с использованием технологий NVIDIA Confidential Computing. Корпорация уже открыла исходный код новинки на GitHub, чтобы операторы ЦОД и другие заинтересованные стороны могли самостоятельно проанализировать механизмы телеметрии и интеграции.

ServerSitter – инструмент AIoT-мониторинга серверов по звуку и вибрациям

Команда проекта NatureGuard IoT представила прототип инновационной системы мониторинга серверов и другого оборудования внутри ЦОД. Система с кодовым именем ServerSitter отслеживает физическое состояние критически важных агрегатов по шуму вентиляторов, вибрациям и изменениям воздушных потоков.

Разработчики использовали технологию AIoT (Artificial Intelligence of Things или искусственный интеллект вещей), предполагающую интеграцию ИИ-моделей и инфраструктуры интернета вещей (IoT). В то время как классический IoT только собирает и передает данные с устройств, AIoT наделяет эти устройства способностью обучаться, анализировать информацию и принимать автономные решения в реальном времени без вмешательства человека.

В основе новой системы мониторинга лежит локальная ИИ-модель, работающая на устройстве с микрофоном и акселерометром. Для обработки сигналов используется платформа Edge Impulse.
Система способна определять:

  • периоды работы серверов в нормальном и нестандартном режимах;
  • моменты запуска и выключения серверов;
  • возможные неисправности.

После локального анализа система может передавать на удаленный терминал (через LoRaWAN) краткие данные о состоянии оборудования и вероятности аномалий. Такой подход позволяет выявлять ранние признаки деградации оборудования. Например, износ вентиляторов или проблемы с охлаждением. При этом системе не требуются агенты внутри серверов или доступ к IT-инфраструктуре.

Платформа Kyndryl Bridge получила ИИ-механизм предотвращения сбоев в IT-инфраструктуре

Софтверная компания Kyndryl добавила в платформу Kyndryl Bridge новую систему на базе агентного искусственного интеллекта, способную выявлять риски для IT-инфраструктуры и предотвращать сбои до их возникновения. Платформа Bridge изначально разрабатывалась для централизованного управления корпоративными вычислительными мощностями. Она объединяет разрозненные облачные сервисы, мейнфреймы и локальные сети ЦОД в единую экосистему.

Обновленное решение уже протестировали многочисленные клиенты Kyndryl. По данным компании, платформа ежемесячно генерирует свыше 16 млн ИИ-рекомендаций для анализа инфраструктуры и приложений. Система анализирует сигналы от подключенных устройств и выявляет комбинации событий, которые обычно предшествуют авариям, включая:

  • замедление приложений;
  • конфликты инфраструктурных ресурсов;
  • ошибки конфигурации;
  • аномалии в работе сервисов.

После анализа ИИ-агенты предлагают или запускают меры по предотвращению инцидентов. Утверждается, что внедрение технологии в ЦОД ряда клиентов позволило:

  • сократить количество IT-инцидентов на 50%;
  • уменьшить критические сбои отдельных систем на 90%;
  • сэкономить около $3 млрд в год за счет предотвращения простоев и снижения затрат на поддержку.

Kyndryl подчеркивает, что рекомендации ИИ проходят проверку инженерами компании перед принятием критически важных решений, поскольку многие организации пока не готовы полностью передавать управление инфраструктурой автоматизированным системам.

KAYTUS обновила платформу KSManage для управления ИИ-дата-центрами

Компания KAYTUS объявила о масштабном обновлении платформы KSManage. Главное изменение — добавлена интеллектуальная система мониторинга с четырьмя уровнями детализации и полным охватом инфраструктуры дата-центров: от серверов и их компонентов до кластеров ЦОД и запущенных ИИ-задач. Цель — повысить отказоустойчивость и упростить эксплуатацию современных ЦОД с высокой нагрузкой. Общий список нововведений:

  • Сквозная визуализация и диагностика. Улучшен сбор первичных данных для расчета метрик в реальном времени (нагрузка, энергопотребление, сеть, хранилище). Добавлен механизм агрегации метрик, журналов и трассировок. Доступна трёхмерная визуализация ресурсов. Удалось добиться ускорения поиска причин сбоев (до 90% в ряде кейсов).
  • Прогнозирование отказов. Улучшен анализ состояния оборудования и трендов, контроль температуры и нагрузки. Теперь возможно выявление рисков за 7 дней до сбоя.
  • Тандем инфраструктуры и ИИ-задач. Доработан мониторинг задержек, потерь пакетов и пропускной способности. Появился механизм привязки сбоев к конкретным вычислительным задачам. Добавлен модуль предотвращения откатов процесса обучения ИИ-моделей и потерь ресурсов.
  • Автоматизация эксплуатации. Заявляется о кратном росте эффективности эксплуатационных процедур. Успешность резервного копирования достигла 99,8%. Совокупные затраты удалось сократить до 40%.

Endress+Hauser представила безопасный расходомер для жидкостного охлаждения ЦОД

Компания Endress+Hauser объявила о выпуске новой версии электромагнитного расходомера Picomag, адаптированной для систем охлаждения дата-центров. Клиентам предложена версия без беспроводной связи (Bluetooth отключён на заводе). Продукт ориентирован на ЦОД с жёсткими требованиями к кибербезопасности. Расходомер поставляется как готовое OEM-решение для производителей систем охлаждения.

Устройство выполняет измерение расхода, температуры и проводимости. Возможна работа с проводящими жидкостями в трубах малого диаметра. Реализована интеграция с внешними системами мониторинга с использованием интерфейса IO-Link, аналогового передатчика сигнала (4–20 мА), импульсного и дискретного выходов.

Switch интегрирует свои системы управления ИИ-ЦОД с решениями Nvidia

Поставщик услуг ЦОД Switch интегрировал платформу Nvidia Omniverse DSX Blueprint в свою архитектуру EVO AI Factory и операционную систему LDC EVO. Решение ориентировано на проектирование и эксплуатацию ЦОД, заточенных под высокоплотные ИИ-нагрузки, включая дата-центры с системами Nvidia DGX. Конечная цель – ускорение проектирования и эксплуатации ЦОД с акцентом на инфраструктуру для так называемых ИИ-фабрик (AI Factories) с поддержкой повышенной плотности IT-нагрузки (до 2 МВт на стойку).

LDC EVO — операционная система ЦОД (аналог DCIM-решений), обеспечивающая автоматизацию всех систем дата-центра почти в реальном времени, управление архитектурой кампуса ЦОД, поддержку гибридного охлаждения. Интеграция с Omniverse DSX Blueprint упростит:

  • создание «цифрового двойника» (Digital Twin) инфраструктуры ЦОД;
  • объединение 3D-моделей, телеметрии и симуляций в единую среду;
  • использование стандарта OpenUSD для моделирования ЦОД с экстремальной плотностью и энергонагрузкой;
  • оптимизацию размещения оборудования из линейки Nvidia DGX;
  • тестирование различных сценариев реализации охлаждения и энергопотребления до строительства;
  • переход к автономным ЦОД, где эксплуатация инфраструктуры осуществляется практически без участия людей.

Vertiv обновила платформу «цифровых двойников» и запустила сервис предиктивного обслуживания

Компания Vertiv обновила платформу Digital Twin, используемую для создания «цифровых двойников» инфраструктуры дата-центров. В новой версии:

  • выполнен переход от статического BIM-моделирования к динамической цифровой среде;
  • используются SimReady-активы;
  • реализован экспорт в формате OpenUSD;
  • добавлены инструменты, позволяющие ускорить внедрение модульных дата-центров Vertiv OneCore.

Среди первых пользователей обновленной версии инструмента заявлен оператор инфраструктуры ИИ-облаков и криптомайнинга Hut 8, который применяет архитектуру Vertiv OneCore в ряде проектов ЦОД.

Инженеры Vertiv также представили инструмент предиктивного обслуживания инфраструктуры «ИИ-фабрик» и традиционных дата-центров Next Predict, ориентированный на повышение отказоустойчивости. Решение упрощает переход от календарного и реактивного обслуживания к постоянному мониторингу и анализу данных в условиях роста плотности вычислительного оборудования и усложнения инфраструктуры. Ключевые возможности:

  • непрерывный анализ состояния систем электропитания, охлаждения и IT-оборудования;
  • выявление аномалий на ранней стадии с использованием машинного обучения;
  • оценка рисков и приоритизация возможных инцидентов по критичности;
  • анализ первопричин (Root Cause Analysis);
  • формирование очереди профилактических процедур с последующим выполнением специалистами Vertiv Services.

Алгоритм определяет базовую модель нормального поведения оборудования и фиксирует отклонения до того, как они начнут оказывать негативное влияние на доступность инфраструктуры ЦОД. Это позволяет сократить время восстановления и избежать лишних вмешательств. Next Predict поддерживает широкий спектр решений Vertiv, включая:

  • аккумуляторные системы хранения энергии (BESS);
  • компоненты инфраструктуры жидкостного охлаждения;
  • платформы электропитания.

Сервис интегрирован в стратегию Vertiv «grid-to-chip» и рассчитан на масштабирование по мере внедрения новых архитектур — от высокоплотных стоек до распределённых ИИ-кластеров.

CTC Global упростила мониторинг ЛЭП до ЦОД и углубила партнёрство с Google Cloud

Американская CTC Global представила платформу мониторинга линий электропередачи в реальном времени GridVista, которая позволяет энергетическим компаниям, обслуживающим ЦОД:

  • оптимизировать пропускную способность сети;
  • предотвращать аварии и пожары;
  • снижать эксплуатационные расходы;
  • переходить от реактивного обслуживания клиентов к предиктивной модели эксплуатации.

Система использует оптические волокна, встроенные в провод ACCC (Aluminum Conductor Composite Core) разработки CTC Global. Это обеспечивает непрерывный контроль основных параметров по всей длине линии, включая:

  • напряжение;
  • температуру;
  • вибрацию.

По оценкам CTC Global, провод ACCC обеспечивает вдвое большую пропускную способность, снижает потери при любой нагрузке и отличается повышенной прочностью по сравнению с традиционными аналогами.

Платформа GridVista крайне актуальна для владельцев и операторов ЦОД в контексте дефицита пропускной способности электросетей, поскольку позволяет оперативно оценивать состояние ЛЭП и выявлять «скрытый» резерв без строительства новых линий. Это ускоряет техприсоединение, снижает риск отказа в подключении и сокращает сроки ввода дата-центров.

Система также повышает надёжность электропитания ЦОД: мониторинг температуры, нагрузки и механического состояния линий снижает риск аварий и вынужденного перехода на резервную генерацию. Неудивительно, что разработкой уже заинтересовалась корпорация Google, располагающая большим числом гипермасштабных ЦОД.

Вскоре после релиза GridVista компания CTC Global объявила об интеграции с облачной платформой Google Cloud и проектом Tapestry (Google X), направленным на модернизацию электрических сетей с помощью искусственного интеллекта. В рамках партнерства:

  • GridVista будет работать на инфраструктуре Google Cloud;
  • данные будут анализироваться с использованием Vertex AI, BigQuery, Earth Engine, аналитики изображений Google Maps и системы прогнозирования WeatherNext;
  • Tapestry интегрирует данные GridVista в свою виртуальную модель энергосистемы.

Vaisala представила измерительную платформу Origo для снижения затрат на охлаждение ЦОД

Компания Vaisala запустила модульную измерительную платформу Origo, предназначенную для повышения точности контроля температуры и влажности в дата-центрах. Origo имеет модульную архитектуру и поддерживает сменные сенсоры, включая датчики CO₂ и точки росы. Платформа предназначена не только для ЦОД, но и для чистых помещений, полупроводникового производства, больниц и промышленных объектов.

Разработчики отмечают, что погрешность датчика температуры на уровне всего 0,5°C может привести к избыточному охлаждению и росту энергозатрат. В частности, такая погрешность в случае ЦОД мощностью 10 МВт увеличивает энергопотребление системы охлаждения на 700 000 кВтв год. При цене $0,12 за 1 кВт*ч это влечет рост эксплуатационных расходов на $83 800 за 1 год и на $800 000 за 10 лет.

Технология Vaisala особенно актуальна для ЦОД с гибридным охлаждением (воздух на уровне машзала + жидкость для наиболее горячих стоек). Более точные измерения (±0,1°C) позволяют удерживать параметры ближе к реальным пределам, снижать энергозатраты без риска перегрева и поддерживать стабильную работу смешанных архитектур.

ABB приобретает IPEC, укрепляя позиции на рынке мониторинга электросетей в ЦОД

Шведско-швейцарская транснациональная корпорация ABB объявила о приобретении британской компании IPEC, специализирующейся на диагностике силовой инфраструктуры, включая решения для ЦОД. Сделка должна быть закрыта в первой половине 2026 года. Финансовые условия не раскрываются. Продукты IPEC будут интегрированы в ассортимент решений ABB Electrification Service.

IPEC, основанная в 1995 году и базирующаяся в Манчестере, насчитывает около 70 сотрудников в Великобритании, США, Швеции, Саудовской Аравии, ОАЭ. Изначально ее бизнес был ориентирован на коммунальный сектор, но сегодня компания называет сегмент дата-центров крупнейшим и самым быстрорастущим – особенно в США.

Ключевая сфера компетенций IPEC — непрерывный мониторинг частичных разрядов (Partial Discharge), которые являются основной причиной деградации изоляции и более 80% внеплановых отказов оборудования. Решения компании обеспечивают:

  • круглосуточный мониторинг средне- и высоковольтной инфраструктуры;
  • одновременный контроль до 128 точек подключения;
  • анализ данных с помощью алгоритма DeCIFer, ИИ и продвинутой аналитики;
  • раннее выявление дефектов до перехода в аварийную стадию.

По оценке ABB, переход от реактивного к предиктивному обслуживанию с применением решений IPEC позволяет операторам ЦОД:

  • сократить вероятность простоя;
  • снизить затраты на обслуживание;
  • продлить срок службы критической инфраструктуры на десятилетия.

Покупка IPEC продолжает активную экспансию ABB в секторе ЦОД. В декабре 2025 года компания приобрела долю в британском ИИ-стартапе OctaiPipe (оптимизация систем серверного охлаждения), а в ноябре подписала соглашения с американским разработчиком микросетевой силовой инфраструктуры VoltaGrid на поставку оборудования для энергоснабжения проектов ЦОД под ИИ-нагрузки.

Всего комментариев: 0

Оставить комментарий