Машинное обучение и оптимизация инфраструктуры ЦОД на примере Google
Около года назад поисковый гигант Google рассказал о том, как операторы ЦОД американской корпорации изучают возможности оптимизации инфраструктуры ряда своих дата-центров и повышения энергоэффективности ЦОД с помощью концепции машинного обучения. Теперь инженеры поискового гиганта объявили, что система оптимизации инфраструктуры ЦОД на базе машинного обучения покинула стадию бета-текста и развертывается во всех принадлежащих корпорации дата-центрах.
Как создавался новый инструмент?
Непрерывная работа по улучшению инфраструктуры ЦОД без применения специализированных инструментов в конечном итоге рано или поздно застопорится. Ведь есть физические пределы уменьшения коэффициента PUE дата-центра с применением стандартных методов. И в один прекрасный момент специалисты Google заметили, что данный коэффициент практически перестал снижаться, как вы можете видеть на диаграмме ниже:
Как отметил вице-президент Google по развитию ЦОД Джо Кава, само по себе достижение коэффициента PUE на уровне 1.12 единицы, которое произошло в середине 2013 года, уже является удивительным результатом, но после выхода на данную отметку динамика практически исчезла. Такая ситуация наблюдалась в течение нескольких кварталов. В итоге Кава собрал команду инженеров и спросил их, что можно с этим поделать.
Один из инженеров по имени Джим Гао предложил идею использовать машинное обучение, чтобы более эффективно применять агрегируемых данные по инфраструктуре ЦОД. Другие специалисты поддержали предложение коллеги, и решено было начать работу над передовым инструментом.
Разработанная специалистами Google платформа, равно как и некоторые другие инструменты для оптимизации инфраструктуры ЦОД предполагает постоянную агрегацию данных, касающихся различных параметров работы оборудования и окружающей среды в ЦОД. Затем эта информация анализируется, и результаты такого анализа используются для повышения отдачи от инфраструктуры при одновременном уменьшении эксплуатационных затрат. Ключевым отличием разработки Google от аналогов выступает умение системы самообучаться, что делает ее значительно полезнее.
Инструмент способен анализировать самые разнообразные данные о различных элементах инфраструктуры дата-центров Google: от состояния градирен и скорости вращения вентиляторов, до скорости работы насосов и погодных условий. Принцип работы такой системы отражен на изображении ниже:
Разработчики назвали продукт Boy Genius (гениальный парень) по причине того, что система может самостоятельно учиться, создавать алгоритмы и оценивать данные с миллиардов сенсоров. По словам Кава, практика показала, что для минимизации PUE эксплуатируемого дата-центра действительно важны лишь девятнадцать переменных, анализом которых теперь и занимается Boy Genius. Эти переменные представлены ниже:
• Общая IT-нагрузка со стороны серверов (кВт)
• Общая IT-нагрузка со стороны кампусной сети (кВт)
• Общее количество работающих насосов для отработанной воды
• Средняя скорость частотно-регулируемых приводов насосов для отработанной воды
• Общее количество работающих насосов для охлажденной воды
• Средняя скорость частотно-регулируемых приводов насосов для охлаждённой воды
• Общее количество работающих градирен
• Среднее заданное значение температуры воды на выходе из градирен (F)
• Общее количество работающих чиллеров
• Общее количество работающих сухих охладителей (сухая градирня)
• Общее количество работающих инжекционных насосов для охлажденной воды
• Среднее заданное значение охлажденной температуры воды в инжекционных насосах (F)
• Средняя температура на входе в теплообменники (F)
• Температура наружного воздуха по влажному термометру (F)
• Температура наружного воздуха по сухому термометру (F)
• Энтальпия наружного воздуха (кДж / кг)
• Относительной влажности наружного воздуха (%)
• Скорость ветра за пределами ЦОД (миль / ч)
• Направление ветра за пределами ЦОД (град)
Гао и его коллеги создали модель машинного обучения на основе этих переменных. После этого специалисты Google решили оценить ее реальную полезность с точки зрения минимизации PUE дата-центров.
Благодаря многократной доработке сейчас модель работает с точностью больше 99,6 процента с точки зрения прогнозирования фактического коэффициента PUE дата-центра на основе этих девятнадцати переменных.
Каковы результаты?
Созданный Гао и его коллегами инструмент для оптимизации инфраструктуры дата-центров на базе концепции машинного обучения превратился из экспериментального научного проекта Google в полноценный и довольно перспективный инструмент, который в настоящее время помогает операторам подавляющего большинства дата-центров поискового гиганта более эффективно эксплуатировать свои ЦОД.
“Теперь у нас есть реальный инструмент, которому мы можем доверять. Это очень точный инструмент. Наши операторы дата-центров используют его для получения максимальной отдачи от инфраструктуры в каждый конкретный период времени, основываясь на данных касательно внешних погодных условий, уровня нагрузки на дата-центр и других параметров. За последние девять месяцев мы развернули этот инструмент в пяти кампусах ЦОД (прим. всего у корпорации 13 кампусов). Было зафиксировано снижение PUE в среднем на 15 процентов. При этом в одном ЦОД данный показатель уменьшился сразу на 25 процентов. Когда вы уже вышли на коэффициент PUE в 1.12 единицы, дальнейшее снижение может показаться не таким уж и важным, но в масштабе Google это позволяет экономить огромные деньги, снижая нагрузку на сеть на миллионы и миллионы киловатт*часов в год, “сказал Кава.
По словам Кава, после появления первых известий о новом проекте Google несколько операторов дата-центров обратились к поисковому гиганту, сообщив о том, что находятся в процессе разработки своих собственных моделей машинного обучения и хотели бы объединить усилия в рамках таких проектов. Но Google не собирается делиться наработками, а также переводить инструмент и свои алгоритмы в категорию софта с открытым исходным кодом. Как выразился Кава, американская корпорация “не намерена обнародовать информацию о принципах работы всех своих ноу-хау, потому что это конкурентное преимущество для Google. ”
- Alexander: За R718 будущее )
- нет событий, чтобы показывать