Facebook Autoscale повысит энергоэффективность ЦОД на 15%
Каждый раз, когда операторы центров обработки данных Facebook находят способ сократить энергопотребление своих серверов на пару-тройку ватт из расчета на одну машину, реализация соответствующих улучшений в масштабе всей компании в перспективе позволяет соцсети увеличить чистую прибыль на миллионы долларов США. Продукты компании состоят из битов и байтов, и ее дата-центры являются своего рода производственными мощностями. Чем эффективнее серверы Facebook могут конвертировать электричество в текст, фотографии и видео, тем выше становится прибыль соцсети. Вот почему команда специалистов Facebook по улучшению вычислительной и вспомогательной инфраструктуры никогда не перестает искать новые пути для повышения энергоэффективности ЦОД.
К настоящему моменту специалисты компании оптимизировали IT-оборудование и вспомогательную инфраструктуру своих дата-центров практически по всем направлениям, поэтому следующим шагом в направлении повышения энергоэффективности ЦОД стало использование специального программного обеспечения для более эффективного управления вычислительной инфраструктурой. Недавно соцсеть поделилась с общественностью данными об одном из таких инструментов, который получил название Autoscale. Он был разработан, чтобы функционировать в тандеме с механизмами балансировки нагрузки, которые перераспределяют рабочие нагрузки между серверами в каждом вычислительном кластере. С помощью Autoscale операторы ЦОД могут убедиться в том, что механизмы балансировки нагрузки функционируют с учетом необходимости максимизации энергоэффективности.
Инженер-программист Facebook и специалист по IT-инфраструктуре Цян Ву отметил, что система Autoscale уже используется для управления вычислительными кластерами в дата-центрах соцсети, значительно снижая потребление электроэнергии.
“Циклическая” балансировка нагрузки неэффективна
Интенсивность обслуживаемых серверами Facebook рабочих нагрузок в течение дня существенно варьируется, достигая максимума около полудня и существенно падая около полуночи. До сих пор используемые соцсетью механизмы балансировки нагрузки равномерно распределяли задачи между серверами в кластере, которыми они управляли, – независимо от размера конкретных рабочих нагрузок. Таким образом, загрузка процессоров серверных систем падала до очень низкого уровня в периоды низкого спроса на сервисы соцсети и увеличивалась, когда спрос возрастал. Команда инженеров пришла к выводу, что этот “циклическая” подход к балансировке нагрузки на самом деле не самый эффективный.
В дата-центрах Facebook размещено множество специальных серверов для обслуживания веб-сервисов, которые используют 60 ватт в режиме ожидания, 130 ватт при низкой нагрузке на процессор и 150 ватт при нагрузке среднего уровня. Разница в энергопотреблении между нагрузками низкого уровня и среднего уровня мала, в то время как разница в количестве запросов, обрабатываемых при двух разных уровнях нагрузки, довольно существенная. Поэтому, чтобы увеличить общий коэффициент производительности из расчета на один ватт потребляемого электричества, лучше всего избегать низкого уровня нагрузки на CPU серверов, отдавая приоритет либо переводу машин в режим ожидания, либо среднему уровню нагрузки на CPU.
Решение проблемы низкой загрузки процессоров
Проблема была решена при помощи Autoscale. Система собирает данные по запросам и уровню использования CPU серверов кластера, после чего оптимизирует механизм балансировки нагрузки, ответственный за этот кластер, с целью повышения эффективности серверов при обработке трафика. В данном случае часть машин переводится в режим ожидания, тогда как нагрузка на остальные достигает оптимального уровня. Изменяя количество активных серверов в кластере, программное обеспечение повышает эффективность использования каждого активного сервера. Кроме того, система Autoscale регулирует размер пула активных серверов динамически.
Чтобы определить оптимальный размер пула активных серверов, инженеры Facebook моделируют корреляцию между загрузкой процессоров и числом запросов в секунду, а также используют ряд других факторов. В то время как достижение повышенной энергоэффективности является приоритетной задачей, также важно не перегружать аппаратное обеспечение до уровня, когда производительность начинает падать. По словам Ву, инженеры компании проводят эксперименты, чтобы понять, как соотносятся рассматриваемые факторы, а затем оценивают модель, основанную на экспериментальных данных.
Autoscale работает как положено
Результаты внедрения Autoscale впечатляют. Команда инженеров соцсети представила данные о потреблении электроэнергии одним из своих серверных кластеров, контролируемых AutoScale в течение 24-часового периода. Было зафиксировано 27-процентный снижение энергопотребления около полуночи:
Данные по энергопотреблению одного из серверных кластеров Facebook при использовании Autoscale (синяя кривая) и без применения этой системы (красная кривая)
Экономия постепенно уменьшаться по мере роста рабочей нагрузки и в конечном итоге достигает «нуля» при пиковом уровне спроса на веб-сервисы соцсети. Экономия электроэнергии за период в 24 часа при изучении ряда различных серверных кластеров варьируется в пределах от 10 до 15 процентов.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать