По стопам Google: как машинное обучение сегодня используется для электроснабжения и охлаждения ЦОД
Многие предприятия многократно дублируют вспомогательное оборудование в своих серверных фермах с целью предотвращения сбоев. Этот подход не только неэффективен, но и не гарантирует, что ни один из элементов ИТ-оборудования фактически не выйдет из строя из-за перегрева или по иной причине.
Ситуацию усложняет тот факт, что центры обработки данных становятся все более сложными. Появляется все больше типов аппаратного и программного обеспечения. Растет спрос на инфраструктуру для «краевых вычислений», то есть на распределенные ЦОД, состоящие из множества небольших узлов.
Аналитики ожидают, что машинное обучение облегчит жизнь операторам дата-центров на фоне всех этих сложностей. Несколько компаний уже продают программное обеспечение для управления центрами обработки данных, которое использует алгоритмы машинного обучения. Некоторые разработчики подобных продуктов рассматривают ЦОД в комплексе как компьютер, в то время как другие предпочитают сосредотачиваться только на охлаждении или электропитании.
Программное обеспечение для управления охлаждением и электропитанием серверов в ЦОД, которое использует алгоритмы машинного обучения, существует уже много лет. Вот, как решения, которые уже сегодня доступны на рынке, используют алгоритмы машинного обучения для повышения производительности и эффективности дата-центров.
Машинное обучение и охлаждение ЦОД
Ранее в этом году инженер Джо Кава, отвечающий за инфраструктуру дата-центров Google / Alphabet, показал, как поисковый гигант использует алгоритмы машинного обучения для автоматической настройки своих систем охлаждения ЦОД, что позволяет экономить до 30 процентов электроэнергии для нужд системы охлаждения.
Инженеры Google рассматривают возможность использования данной технологии в качестве основы для коммерческого решения, которое можно было бы предложить другим компаниям, управляющим ЦОД. Может быть, что-то подобное в будущем действительно появится. Но вам не нужно надеяться и ждать. Ведь такого рода продукты уже есть на рынке. Например, решения стартапа AdeptDC.
Инженеры компании AdeptDC считают, что столкнуться с «горячими точками» можно даже в том ЦОД, где компоненты инфраструктуры охлаждения многократно дублируются, и средняя температура ниже необходимой.
По их словам, одной из самых сложных задач в охлаждении дата-центров является распределение давления и воздушных потоков, и машинное обучение может быть особенно эффективным при решении данной задачи. Стартап AdeptDC уже создал программное обеспечение, использующее машинное обучение для управления инфраструктурой охлаждения дата-центра, которое находит все более широкое примирение в ЦОД по всему миру.
Концепция применения машинного обучения для управления охлаждением дата-центра не нова. Компания под названием Vigilent предлагает соответствующий программный продукт в течение вот уже примерно десятилетия. Продукт этой компании используется в более чем 6 сотнях дата-центров общей площадью около 2 миллионов квадратных метров.
Одним из клиентов компании Vigilent является телекоммуникационный гигант Verizon, который экономит около 55 миллионов киловатт*часов электроэнергии в год в 24 дата-центрах. Еще один клиент в лице NTT снизил благодаря этому продукту затраты на охлаждение серверов на 2 процента.
Программное обеспечение компании Vigilent встроено в системы управления инфраструктурой дата-центров Hitachi Vintara, Siemens и Schneider Electric (включая Schneider EcoStruxure Data Center Management as a Service).
Хотя компании AdeptDC и Vigilent и используют машинное обучение, они подходят к решению ключевых задач по-разному. Ключевое различие заключается в том, как они собирают эксплуатационные данные, которые используются для машинного обучения.
Решение AdeptDC полагается на показания температуры от серверных процессоров, в то время как Vigilent использует датчики, расположенные в машзале дата-центра, чтобы оценить не только температурный профиль, но также конкретное воздействие отдельных охлаждающих устройств и результаты их взаимодействия.
Продукты обеих компаний позволяют выяснить, какие холодильные агрегаты очень важны. И если один из таких агрегатов выйдет из строя, это будет иметь большее влияние на температуру в машзале, чем выход из строя другого менее важного агрегата.
Анализ данных может показать, что для большей части машзала охлаждения является избыточным, в то время как одна зона охлаждается только одним устройством, выход которого из строя неминуемо приведет к перегреву серверов.
Анализ данных может выявить и более фундаментальные проблемы, связанные с воздушными потоками, такие как неэффективное расположение перфорированной плитки на фальшполе. Такие проблемы более распространены, чем можно было бы предположить, из-за чего доставка охлажденного воздуха в серверы в действительности осуществляется не очень эффективно.
Рост использования фрикулинга также создает проблемы – особенно если летние температуры требуют комбинации фрикулинга и механического охлаждения, которую трудно настроить правильным образом.
Система Vigilent также использует машинное обучение, чтобы сделать ежедневную эксплуатацию ЦОД более эффективной, запуская сценарии «что-если», а также включая и выключая блоки охлаждения, чтобы обнаружить возможности для оптимизации.
Если программное обеспечение указывает на значительную избыточность, операторы дата-центров могут добавлять больше серверов и стоек, не добавляя охлаждение, или снижать нагрузку на существующее охлаждающее оборудование. Продукт Vigilent также можно использовать для перемещения рабочих нагрузок внутри дата-центра, чтобы можно было в полной мере использовать доступную холодопроизводительность.
Поставщики оборудования для охлаждения серверов в ЦОД продвигают внедрение машинного обучения по-своему, включая добавление фирменных программных инструментов в комплект поставки своего оборудования.
Например, решение iCOM, которым комплектуются кондиционеры Vertiv, использует машинное обучение для комплексного управления настройками всех компонентов охлаждения ЦОД, таких как компрессоры и вентиляторы, как единого механизма. Инженеры компании утверждают, что этот подход делает всю систему охлаждения на 15 процентов более эффективной и повышает срок службы оборудования за счет снижения износа.
Машинное обучение и электроснабжение ЦОД
В то время как инфраструктура охлаждения — это то, где сегодня теряется большая часть электроэнергии в неэффективно функционирующих ЦОД, многое можно достичь за счет применения интеллектуальных программных инструментов для управления электрической инфраструктурой дата-центра .
Стартап под названием Virtual Power Systems использует машинное обучение для борьбы с избыточным дублированием силового оборудования. Как отмечают представители Virtual Power Systems, в современных дата-центрах электрическая инфраструктура обычно предназначена для поддержки IT-нагрузки большей мощности, чем фактическая.
Иногда такой дисбаланс возникает на стадии проектирования, когда необходимо обеспечить избыточность, а иногда это происходит потому, что проектировщики и строители ЦОД не могут спрогнозировать, как он будет использоваться в будущем.
Решение Virtual Power Systems «с программным управлением», которое называется ICE, использует интеллектуальное электрическое оборудование (в том числе оборудование от таких партнеров как Schneider Electric) со встроенными батареями для эффективного и более рационально распределения мощности во всем центре обработки данных.
Программное обеспечение использует машинное обучение, которое делает прогнозы энергопотребления (включая вероятность всплесков спроса на электроэнергию) централизованно и генерирует рекомендации по машзалам ЦОД. Умное оборудование затем настраивает силовые системы, подключённые к каждой стойке, в соответствии с реальными потребностями.
Модель машинного обучения, созданная программным обеспечением, также может использоваться в качестве эмулятора, чтобы понять, как на инфраструктуру электропитания повлияет добавление большего числа серверов или стоек.
Конкуренцию Virtual Power Systems составляет разработчик программного обеспечения Nlyte Software, который создал DCIM-решение, способное использовать когнитивный компьютер IBM Watson для машинного обучения.
Этот подход помогает создавать модель, основанную на данных с датчиков, оборудования и информации о рабочей нагрузке. Доступ к таким данным практически с любого современного оборудования, будь то ИБП или PDU, можно получить очень легко. Система машинного обучения может находить неочевидные паттерны и правила взаимодействия между различными элементами вспомогательной инфраструктуры ЦОД, генерируя рекомендации в части возможной оптимизации инфраструктуры.
Этот продукт также позволяет прогнозировать всплески энергопотребления и готовиться к ним, перемещая рабочие нагрузки, отключая серверы или проводя профилактическое обслуживание батарей ИБП.
Большинство клиентов Nlyte Software используют систему машинного обучения для получения предупреждений и понимания потенциальных проблемных областей. Компания-разработчик программного обеспечения также создает инструменты для профилактического обслуживания.
В дополнение к обнаружению аномалий и обнаружению их быстрее, чем обычные операторы ЦОД, машинное обучение от Nlyte Software может помочь операторам получить более четкое представление об избыточности электрической инфраструктуры. Это позволяет изменить тип стратегии обеспечения бесперебойной работы ЦОД, переходя от устранения последствий к профилактике.
Всего комментариев: 0