Леонид Шишлов: Главная цель — минимизировать капитальные вложений в ЦОД’ы

28 июля 2011

Леонид Шишлов рассказал о таких аспектах ЦОД как охлаждение, консолидация, рекуперация и многом многом другом

— Леонид, здравствуйте! Давайте начнем с вопроса о том, чем вы занимаетесь в Intel?

— На самом деле я занимаю сразу две должности, у нас такое возможно. Первая и основная моя работа — операционная поддержка центров обработки данных. По-русски эта должность называется «менеджер центра обработки данных». Под моей юрисдикцией находятся три центра обработки данных — в России и Восточной Европе. Вторая часть моей работы посвящена стратегическому планированию ЦОД, по-английски эта должность называется Data Center Planner, что адекватно перевести на русский сложно. Я занимаюсь такими, например, вещами, как планирование охлаждения для шести центров обработки данных в России и Восточной Европе.

— Мы знаем, что Intel является не только ведущим поставщиком IT-решений, но и крупным их потребителем. Какие направления развития серверного парка корпорации, ее ЦОД на сегодня зарекомендовали себя как наиболее эффективные?

— Компания Intel прошла долгий путь, прежде чем выработать стратегию в области центров обработки данных. Исторически было так, что в тех местах, где компания покупала или строила здания, размещались и дата-центры для нужд находящихся там подразделений разработчиков. Опыт показал, что это не очень эффективно. При таком подходе количество дата-центров Intel превысило 150 и, соответственно, они стали очень дорогой частью ресурсов корпорации. Поэтому был принят ряд решений, направленных на уменьшение общей стоимости владения дата-центрами. Одним из основных направлений стала их консолидация с целью уменьшения количества ЦОД’ов и серверных комнат, а также повышение утилизации вычислительных самих ресурсов. Понятно, что несколько маленьких серверных комнат с загрузкой порядка 40% в обслуживании обходятся дороже, чем одна большая комната с загрузкой 60-70%. Этот этап проходил в Intel несколько лет назад, была большая программа мероприятий направленных на консолидацию, оказавшаяся очень успешной.

Следующая серьезная вещь — своевременная, проактивная замена серверного парка. В компании действует четырехгодичный цикл обновления серверов. Эта методика тоже доказала свою эффективность. В зависимости от поколений процессоров соотношения числа новых и заменяемых серверов изменяется, бывает, например 1 к 10 или 1 к 15. В результате обновления, с одной стороны, достигается серьезная экономия электричества, поскольку новые системы энергоэффективнее, с другой стороны, увеличивается производительность.

Далее, я бы отметил сравнительно новое направление — виртуализация ресурсов. Особенно это касается той части оборудования, которая обеспечивает офисную деятельность. Простой пример — имеются Web-сервер, почтовый сервер, DNS-сервер. Каждый из них загружает ресурсы выделенного физического сервера, скажем, на 10%. Это неэффективно, конечно, и если их посредством виртуализации разместить на одном компьютере, получится дешевле и проще в обслуживании. Виртуализация является первым серьезным шагом на пути к ГРИД-вычислениям и в итоге к внедрению облачных вычислений. Intel очень активно сейчас занимается строительством своих собственных внутренних облаков.

Четвертый важный момент — внедрение энергоэффективных технологий непосредственно в самих серверных комнатах и дата-центрах. При строительстве новых комнат и ЦОД’ов, как и при модернизации существующих, огромное значение приобретает энергоэффективность новых технологий. Например, Intel придерживается в своих дата-центрах воздушного охлаждения и существует ряд методик, чтобы снизить операционные затраты при таком подходе. Это и внедрение стоек с вытяжкой, и свободное охлаждение (free cooling), и системы рекуперации… Даже такие элементарные вещи, как использование заглушек в стойках, снижает нагрузку на системы охлаждения и уменьшает затраты.

— Стратегия Intel в данном случае не является программой, которая была заранее в деталях и до самого конца расписана? Те шаги, о которых вы говорили — консолидация, виртуализация, облачные вычислений — они нащупываются по мере реализации программы, по мере возникновения новых идей и технологий?

— Естественно, это не догма, и даже не единственно верный для всех путь. Это просто опыт компании Intel, результат проб и ошибок, накопленный на протяжении многих лет. Если в самом начале, скажем, глобальной целью являлось максимальное сокращение количества дата-центров, чуть ли не до 18-20 штук, то с течением времени стало понятно, что это невозможно физически и все равно какой-то объем оборудования должен находиться в удаленных местах, а не только на больших хабах. Потому что и WAN-каналы на сегодняшний момент не позволяют консолидировать все в такой высокой степени, и еще масса вещей препятствует или делает нецелесообразной такую концентрацию серверных ресурсов. Поэтому было решено вместо столь глобальной консолидации перейти к повышению утилизации дата-центров. Ведь главная цель — минимизировать капитальные вложений в ЦОД’ы, то есть не строить новые, а эффективно использовать уже имеющиеся. Строительство нового ЦОД’а — это колоссальные деньги, миллионы и миллионы долларов в зависимости от его размера. И вот тут появился ряд методик, как добиться наилучшего использования существующих ресурсов, включая цикл обновления серверов, виртуализацию, облака и т.д.

— Если экстраполировать опыт Intel на тот путь, который может пройти другая компания, располагающая сравнимый по масштабам, географическому распределению и другим показателям серверный парк, можно ли сказать, что ей предстоит пройти все те же шаги? Может, стоит сразу переходить к облакам?

— Я бы не отделял какую-либо из упоминавшихся методик Intel от других. Это совокупность решений, дополняющих друг друга и невозможных друг без друга. Не стоит зацикливаться лишь на каких-то одних аспектах повышения эффективности и снижения операционных издержек, упуская из вида другие вопросы.

— Что является основным критерием, по которому можно судить об эффективности ЦОД’а?

— Тут тоже не стоит выделять что-то одно. Если говорить о таком критерии, как общая стоимость владения, то это на самом деле очень сложный вопрос. Очень непросто подсчитать, сколько реально стоит владение дата-центром для всей компании или для подразделения, которое им пользуется. Там настолько гигантское количество различных факторов, включая средства, вложенные в капитальное строительство, зарплаты персонала, затраты электричество, на покупку серверов, на стойки на всю «начинку», на программное обеспечение и т.д. и т.п. К тому же все это может быть очень сильно распределено, так как у нас не один и не два ЦОД’а, а больше девяноста по всему миру, и есть, например, лицензии на какое-то распределенное ПО… Очень сложно вычислить, сколько для компании стоит отдельно взятый ЦОД.

Здесь, видимо, лучше говорить о внедрении каких-то конкретных технологий. Мы можем, например, рассматривать эффективность технологий энергосбережения, высчитывая, сколько киловатт электричества расходуется в год в отдельном ЦОД’е — сколько уходит на питание серверов, на охлаждение, на освещение и другие вещи. В результате подобного анализа можно начинать внедрять технологии, посмотрев, какую они приносят экономию, — free cooling, стойки с вытяжкой. Мы можем подсчитать и знаем, какую экономию обеспечивает замена серверов. Нет больших проблем с тем, чтобы выяснить и показать, насколько эффективным будет внедрение той или иной технологии. Хотя в разных ЦОД’ах, в разных странах эффективность может быть разной — в зависимости от стоимости электричества, климатических условий, стоимости лицензий на ПО и т.п. вещей.

— Вопрос о стратегии обновления серверов, как о том решении, на которое во многом завязаны возможности внедрения других технологий. Когда появляется желание поменять одно «железо» на другое, часто возникает вопрос, а надо ли это делать? Ведь все работает, не так давно куплено, с задачами справляется…

— Не надо к опыту компании Intel, к нашим рекомендациям, основанным на имеющемся опыте развития IT-инфраструктуры в глобальной компании, относиться как к вещам, требующим абсолютно точного копирования. Цикличность замены серверов — почему 4 года, а не 3 или 2 -не на пустом месте определена. Этот срок рассчитан нами на основании того, какие серверы покупает Intel, с кем она сотрудничает из производителей серверов, систем хранения данных, ПО и других решений, какие между Intel и этими компаниями существуют договоренности. А также с учетом того, какие линейки процессоров мы выпускаем (ведь именно они устанавливаются в наших серверах), как часто меняются архитектуры и технологические нормы.

Замена серверов раз в 4 года — это для нас общее правило, но из каждого правила существуют исключения, в том числе и в компании Intel. У нас есть проекты, которым иногда нужно старое «железо» для каких-то узкоспециализированных задач. Например, для тестирования разрабатываемого софта. В этих случаях компьютеры у нас могут работать и 5, и 6 лет — столько, сколько требуется. Потом, 4 года — это, как говорится, по-хорошему. Из практики могу сказать, что замены происходят иногда чуть раньше этого срока, иногда — чуть позже. С учетом закупки, поставки техники, миграции на нее процесс может иногда затянуться до 5 лет, скажем. Но наше «золотое правило» — это 4 года, оно показало свою эффективность.

— А на чем эта эффективность в основном базируется, какой фактор тут играет решающую роль?

— Как обычно, тут нельзя что-то одно назвать единственным фактором. Во-первых, новый сервер явно будет потреблять меньше электричества, чем старый, четырехлетней давности. При этом у него будет в десять раз выше производительность. Соответственно на нем можно будет разместить с помощью виртуализации 10 старых серверов. И если каждый из них потреблял (условно) по 500 ватт, то в результате мы из дата-центра убираем почти 5 киловатт, поставив сервер с потреблением, скажем, в 400 ватт. Это прямая экономия на электричестве, плюс снижение косвенных затрат на охлаждение. Во-вторых, что опять же зависит от специфики компании, на эти 10 серверов могут потребоваться 10 лицензий на софт. А после замены будет куплена уже 1 лицензия — получается экономия на лицензиях. В-третьих, если идет речь о необходимости расширения серверного парка компании, то замена на новые серверы может снять необходимость в постройке нового ЦОД’а, что, конечно, значительно дороже.

— Срок в 4 года можно считать оптимальным во всех случаях, или лучше ориентироваться по ситуации?

— Естественно, всегда лучше анализировать ситуацию, держать руку на пульсе, и для нужд и условий конкретной компании выработать свой жизненный цикл серверов. Во-первых, на них рано или поздно заканчивается гарантия, в зависимости от того, покупается какое-то дополнительное гарантийное обслуживание «железа» или нет. После этого станет тяжелее и дороже восстанавливать, ремонтировать старые серверы, нежели установить новые с гарантией, по которой в случае чего приедут сервисные инженеры от поставщика и сделают все необходимое — поменяют платы, починят диски и т.п. Второй вопрос в том, что любое старое «железо» в принципе начинает чаще ломаться. Что влечет увеличение издержек, связанных с ремонтом, простоем оборудования. Цикл замены серверов в том числе значительно зависит и от продолжительности гарантийного обслуживания.

— Больной вопрос при замене оборудования — утилизация старого «железа». Сделать это не всегда просто. Может, разумно заменяемые серверы еще некоторое время использовать в другой роли, на менее ответственных и загруженных местах, делая процесс вывода из эксплуатации более плавным?

— А зачем, это ведь нерентабельно. На примере с 10 серверами мы уже говорили об этом. Да и вообще, задача IT заключается в обеспечении деятельности других подразделений компании. Представим себе, что существует некая группа разработчиков, у которой начинается новый большой проект. Они определяют, что для его реализации им потребуется столько-то терафлопс вычислительной мощности, чтобы обсчитывать такие-то и такие-то задачи, что в секунду будет запускаться столько-то заданий и т.п. Принимается решение, что необходимо закупить, условно говоря, 15 блейд-центров, чтобы выполнить данный проект в установленный срок. Соответственно, старое оборудование, скажем, 40 стоек 1-юнитовых серверов, обслуживавшее эту группу, им больше не нужно будет. Его использование и нерентабельно, и просто не востребовано, поэтому старое «железо» списывают. Как правило, это системы 4- или 5-летней давности.

— Исходя из опыта Intel, на каких статьях расходов, связанных с ЦОД’ами, следует сосредоточить внимание в первую очередь?

— Сложно сказать, какая из составляющих в структуре затрат является наиболее, так сказать, «деньгосберегающей». Думаю, что это зависит от конкретных условий, какой ЦОД, для чего он используется. Например, у нас в Intel есть программа по охране окружающей среды, то что принято называть Green IT. В ее рамках ставятся для каждой IT-группы задачи на следующий год, чтобы сэкономить определенное количество киловатт-часов за счет тех или иных методик. У тех, кто занимается дата-центрами, это может быть внедрение эффективных систем охлаждения. Если речь идет о группах, отвечающих за оборудование Office и Enterprise, то, как правило, эффект дает внедрение виртуализации. У групп поддержки больших вычислительных пулов для инженерных расчетов основное направление — замена серверов. Могу сказать, что самая большая часть экономии приходится именно на регулярное обновление серверного парка.

— Что касается повышения степени загрузки оборудования, т.е. утилизации ресурсов серверов и в итоге ЦОД’ов в целом, на какие моменты стоит обратить внимание в первую очередь?

— У нас весь серверный парк компании разделен на 4 части по направлениям использования — Design, Office, Manufacturing, Enterprise (что сокращенно называется DOME). Сегмент Manufacturing в этом процессе практически не задействован, поскольку обеспечивает поддержку работы фабрик, очень критичного оборудования, и я не очень владею информацией о том, на чем концентрирует внимание IT-команда, отвечающая за поддержку фабрик. Что касается остальных классов серверов, то, как правило, Office и Enterprise объединяют вместе, потому что по задачам и оборудованию они очень похожи, и отдельно существует Design-ресурсы, т.е. поддержка конструирования и разработок.

Повышение утилизации самих серверов достигается в первую очередь за счет внедрения виртуализации. В Intel есть две основные программы по виртуализации — DCU (виртуализация дизайнерского ПО, больших серверных пулов) и DCV (виртуализация в сегментах Office и Enterprise). Наибольший интерес для других компаний, видимо, представляет наш опыт в виртуализации по программе DCV. Здесь речь идет об обычной практике, когда на одну физическую машину ставится от 4 до 8 виртуальных машин, и утилизация ее ресурсов повышается. Растет эффективность использования таких серверов, быстрее отрабатываются затраченные средства.

— Обычно офисные системы, включая серверы, значительную часть суток простаивают, ведется ли поиск дополнительных возможностей в этом направлении?

— Intel — компания глобальная, поэтому в любой момент времени какие-то из наших подразделений работают. Особенно это заметно, когда идет речь об оборудовании на наших крупных вычислительных хабах, таких как в Израиле, в Ирландии. Доступ к размещенному там оборудованию, как правило, осуществляется из разных точек планеты, и оно практически всегда находится под нагрузкой. Есть, конечно, специализированное оборудование, как мы его называем, лабораторное, которое чаще работает в режиме 8х5. Для таких случаев существуют методики, предусматривающие его своевременное включение и выключение в целях экономии. Но это отдельные конкретные случаи, для них нет глобальной программы повышения утилизации ресурсов.

Продолжение следует.

По материалам: ЭлектроВести

Леонид Шишлов: Главная цель — минимизировать капитальные вложений в ЦОД’ы

Всего комментариев: 0

Оставить комментарий Отменить ответ