PowerDAM – комплексный инструмент для энергомониторинга ЦОД
По мнению ученых из Центра суперкомпьютерных вычислений им. Лейбница на базе Баварской академии естественных и гуманитарных наук в Мюнхене (Германия), при анализе энергоэффективности центров обработки данных для высокопроизводительных вычислений (HPC) необходимо учитывать сотни и даже тысячи различных факторов.
Исследователи отметили, что на данном этапе отсутствуют доступные инструменты, которые «позволяют проводить сбор и сопоставление комплексных данных по энергетической эффективности ЦОД в разрезе IT-систем, вспомогательного оборудования и элементов инфраструктуры самого здания, чтобы получить максимально полную картину происходящего».
Чтобы решить эту проблему, немцы в настоящее время разрабатывают новый инструмент для измерения и анализа энергоэффективности, получивший название Power Data Aggregation Monitor (PowerDAM). Этот инструмент будет использоваться для мониторинга и сопоставления данных, поступающих непосредственно из HPC-систем, а также систем электропитания / охлаждения и элементов инфраструктуры здания. Инструмент PowerDAM будет контролировать как физические датчики, так и «виртуальные сенсоры», обеспечивая визуализацию таких показателей, как энергопотребление, уровень загрузки вычислительных узлов и средняя температура процессоров. Кроме того, пользователи смогут быстро рассчитать ключевые показатели эффективности дата-центров: PUE, ERE, DCiE и WUE.
Одним из важнейших элементов PowerDAM будет метрика EtS (Energy-to-Solution), которая характеризует уровень агрегированного потребления электроэнергии приложением, состоящего из потребления электроэнергии вычислительными узлами и компонентами других подсистем (например, сетевым оборудованием и системой охлаждения серверов). На рисунке 1 представлен отчет по метрике EtS для приложения, выполняемого на кластере CoolMUC MPP Linux. Первая часть отчета (часть I) демонстрирует показатели датчиков, которые использовались для анализа состояния всех компонентов кластера с указанием времени, названия датчика, значения и единицы измерения.
Рисунок 1: Отчет по метрике EtS для приложения, выполняемого на кластере CoolMUC MPP Linux
Во второй части отчета (часть II) показаны все данные, которые считаются недействительными (отсутствие результатов измерений, превышение лимита и т.д.). В третьей части (часть III) показано общее потребление электроэнергии (EtS) обрабатываемого приложения, а также представлена информация об энергопотреблении вычислительной подсистемы, сетевого оборудования и системы охлаждения (приводится процентное соотношение).
Возможность расчета показателя EtS для отдельного приложения позволяет провести в дальнейшем дополнительную настройку ПО (через изменение алгоритмов, моделей доступа к памяти и т.д.) и аппаратного обеспечения (например, оптимизировать механизм динамического изменения напряжения питания процессорных ядер).
Еще одной полезной опцией является так называемая «карта узлов». Она отображает динамическое изменение состояния вычислительных узлов, на которых присутствуют датчики определенного типа. Эта карта обновления автоматически по прошествии заранее заданного количество времени. Цветовое выделение используется, чтобы классифицировать состояние отдельных вычислительных узлов (Рисунок 2).
Рисунок 2: Использование карты вычислительных узлов для кластера CoolMUC Linux. Зеленый цвет показывает уровень загрузки в диапазоне от 96% до 100%. Белый цвет иллюстрирует уровень загрузки в диапазоне от 90% до 95%, красный цвет – от 1% до 89%. (в таблице приведены не все вычислительные узлы кластера)
Изучение «карты узлов» может быть крайне полезным для понимания взаимосвязи между различными типами датчиков. Например, коррелирование коэффициента использования вычислительных мощностей (Рисунок 2) с температурой процессора (Рисунок 3) позволяет исследовать взаимозависимость коэффициента загрузки и температур процессоров в определенных вычислительных узлах (узлы lxa130 andlxa17).
Рисунок 3: Температурная карта вычислительных узлов для кластера CoolMUC Linux. В серверах используются по 2 восьмиядерных процессора AMD. (в таблице приведены не все вычислительные узлы кластера)
Более подробная информация о проекте PowerDAM доступна в статье c материалами Первой Международной конференции по информационным и коммуникационным технологиям в интересах устойчивого развития в разделе «Towards a Unified Energy Efficiency Evaluation Toolset: An Approach and Its Implementation at Leibniz Supercomputing Centre (LRZ)» (стр. 276 и далее; текст на английском).
Создание инструмента PowerDAM стало возможным благодаря финансовой поддержке со стороны ЕС (в рамках проекта PRACE- 2IP) и Федерального министерства образования и научных исследований Германии (в рамках проекта SIMOPEK).
Всего комментариев: 0