Интервью с основателем Uptime Institute Кеннетом Бриллом (Kenneth Brill)
Человек, придумавший многоуровневую систему оценки дата-центров.
Кеннет Брилл, приехавший в Сидней для участия в конференции DC Strategics, беседует об отказоустойчивости дата-центров с редактором iTnews Бреттом Уинтерфордом.
Предлагаю Вам перевод данного интервью.
Что подтолкнуло вас к разработке этой многоуровневой системы?
KB: Все началось примерно 18 лет назад. Мы работали консультантами в United Postal Service. До 1989 года UPS была компанией по доставке посылок. Вычисления были всего лишь вспомогательной функцией.
Однако все изменилось с введением экспресс-доставки. Внезапно расчеты стали критически важными для работы компании.
Новый недавно построенный дата-центр UPS оказался устаревшим на следующий же день. Он был предназначен для выполнения вспомогательных функций для почтовой компании и абсолютно не соответствовал требованиям авиапочты.
Важно помнить, что наихудшее время сбоя при авиадоставке – ночь. Ночью вся IT-инфраструктура должна работать бесперебойно в обязательном порядке. Почти на всех авиалиниях есть мейнфреймы, чтобы компания не понесла серьезные убытки из-за каких-либо сбоев.
Если рассматривать UPS, то ночной сбой IT приведет к тому, что два миллиона посылок не будут доставлены на следующий день. С учетом того, что UPS платит компенсацию в 10$ за каждую не доставленную на следующий день посылку, то потенциальный ущерб от каждого отказа оборудования составляет 20 миллионов долларов. Пара таких сбоев – и на упущенные деньги можно было бы построить новый дата-центр.
Вернемся в конец 80-х, когда дела велись совсем по-другому. Весь сектор IT сводился только к обслуживанию. Просто удивительно, что всего двадцать лет назад дела обстояли таким образом.
Нас наняли в качестве консультантов. Мы делали то же самое, что и все остальные при анализе проблемы – пытались взглянуть на нее с новой стороны. В итоге мы разработали стандарт, который стал применяться во всей отрасли.
Наша работа привела к тому, что энергопотребление и охлаждение перестали быть единственным мерилом в отрасли.
Что заставило вас опубликовать стандарт и защитить его авторским правом?
KB: Мы опубликовали первый стандарт в 1996 году. Одним из наших клиентов был представитель Hewlett Packard. Ему надо было доступно объяснить руководству, почему ему нужно 50 миллионов долларов на строительство дата-центра.
Вот что действительно интересно в этом стандарте. Он действительно нацелен на пользователя. Большинство стандартов предназначено для тех, кто что-то продает. Этот же стандарт предназначен для покупателей.
Как часто используется стандарт?
KB: Этот стандарт используют и применяют довольно много людей.
Любое собственное заявление о соответствии какому-либо уровню должно быть тщательно проверено.
Все сертифицированные нами датацентры перечислены на сайте института.
Мы разработали процесс оценки того, какому уровню соответствует дата-центр. При анализе дата-центров, заявивших о каком-либо уровне, мы часто обнаруживаем, что их реальный уровень ниже на одну, если не на две позиции. Это может сильно расстроить владельца, потратившего немалые деньги, но не получившего должный результат.
Зачастую ситуацию можно было бы исправить, получив консультации на начальных этапах – обычно в итоге дешевле все сделать по-правильному.
Не приведете пример распространенной ошибки?
KB: В дата-центре 3 уровня должна быть реализована возможность обслуживания любого элемента механической или электрической инфраструктуры без отключения IT. Необходимо иметь возможность указать на любой компонент дата-центра и сказать, что дальнейшая работа возможна и без него – вот и все. Однако во многих дата-центрах, причисляющих себя к 3 уровню, необходимо отключать IT-инфраструктуру для проведения технического обслуживания. Это означает, что большую часть времени это оборудование не обслуживается. При его сбое последствия могут быть катастрофическими.
Или другой случай – недавно я исследовал один дата-центр. Желаемая оператором мощность составляла 10 МВт. Объект реализован таким образом, что при одновременном обслуживании они могут использовать только 6 МВт из 10 – т.е. затраты на лишние 4 МВт оказались напрасными. Сейчас я даже не уверен, что большинство клиентов могут просто обнаружить подобную проблему. Персонал нашей компании исследует 50-100 проетов в год.
Почему другие дата-центры не обращаются к Uptime Institute за официальной сертификацией? Это дорого?
KB: Цена составляет меньше процента от стоимости проекта. Мы не зарабатываем деньги, а осуществляем сертификацию.
Следует отметить, что крайне немногим предприятиям действительно нужен дата-центр максимального четвертого уровня, предполагающего абсолютную отказоустойчивость. Мы не верим даже в то, что последствия сбоя большинства дата-центров оправдают соответствие 4 уровню. Убытки должны составлять сумму в размере квартальной прибыли.
Однако, многим компаниям нужен 3 уровень. Google использует 1 уровень – и это абсолютно верное решение. Наша собственная небольшая серверная соответсвует первому уровню, и нам этого достаточно.
Мы скептически относимся к необходимому вам уровню. Если вы нацелились на 4 уровень, то вы должны понять, что он под собой подразумевает. Будет дешевле заплатить за это небольшую сумму.
Вы сертифицируйте только объект? Или рабочий процесс тоже?
KB: 70% сбоев приходятся не на оборудование, а на человеческий фактор. Если на объекте нет хорошего управления, это чревато неприятностями. Одна из наиболее распространенных совершаемых человеком ошибок в дата-центрах 4 уровня – ошибка в подключении двух наборов резервного оборудования. То есть, сервер A подключают к системе B, а не к A. Или такая ситуация – арендатор работает в дата-центре, не соблюдая правила, и непреднамеренно отключает оборудование.
Сертифицированы ли основные дата-центры Австралии?
KB: Австралия, и вообще тихоокеанский регион, очень перспективны. У нас есть здесь текущие проекты.
У вас есть персонал в этом регионе, который может инспектировать и консультировать местные дата-центры?
KB: Мы являемся частью системы сертификации LEED (Leadership in Energy Efficient Design – Лидерство в энергоэффективном дизайне), название которой могут использовать консультанты. Консультант становится сертифицированным конструктором уровней по определенному стандарту. В течение последних 12 месяцев мы сертифицировали 184 инженера, и следующий курс собираемся читать на Тайване. В Азии есть только один сертифицированный специалист на Тайване, так что на следующей неделе мы проведем там свой курс. Мы рассчитываем получить из этого 15-20 специалистов.
Множество австралийских дата-центров являются контейнерными…
KB: Извините, сразу вас перебью. Контенйерный дата-центр – изначально некорректный термин. По сути, это контейнерные серверные. Дата-центр же состоит из двух-трех разных систем – механической и электрической, которые обеспечивают его работу, компьютерного этажа и кабельной инфраструктуры, передающей информацию. На серверную приходится 20 и менее процентов от общей стоимости дата-центра. 80% уходят на другое.
Так вот, контейнерная серверная недорога. Однако для ее работы нужны механическая и электрическая системы. Минимизация объема серверной не сэкономит много денег.
О чем вы будете рассказывать в Сиднее?
KB: Я буду говорить о сокращении преимуществ, обусловленных законом Мура. Согласно закону Мура, все должно постоянно дешеветь, однако при этом не учтено, что энергопотребление не падает с той же скоростью, с которой растет производительсность. Мы тратим все больше и больше на энергию – это основная причина сильного роста стоимости дата-центров. Причина роста стоимости IT-инфраструктры заключается в стоимости дата-центров.
Каковы основные затраты? Операционные расходы вроде оплаты электроэнергии или капитальные расходы на объект?
KB: Обращать внимание на операционные расходы весьма важно, но не настолько, как для капитальных затрат. К ним относится место под серверную, стойка для сервера. Серверная стойка в среднем стоит $1300 — $2000 за сервер. Кроме того, к капитальным расходам относятся здание и земля под объект, системы питания и охлаждения – это $16,000 на сервер – то есть больше в 8 раз. Электроэнергия для питания сервера обойдется в $500 в год. Таким образом, капитальные издержки на стойку за $16,000 при сроке эксплуатации в 15 лет составят $1000 в год. Это стоимость коммунальных услуг.
Среднюю общую стоимость сложно определить, так как она зависит от очень многих факторов.
То есть вы будете говорить об эффективности дата-центров?
KB: Я собираюсь рассказать про систему из пяти шагов, которая сэкономит $120,000 на стойку в течение четырех лет. Я называю ее стратегией NNDC – No New Data Centre (нет новым дата-центрам). Она подразумевает отсутствие необходимости в строительстве новых дата-центров.
И эти шаги вполне безболезненны и не предполагают больших затрат.
Почему же ее не используют уже сейчас?
KB: У эффективности мало сторонников. При среднем сроке работы директора по IT в 30 месяцев, у него попросту нет времени на построение действительно эффективной IT-инфраструктуры, так как это занимает 3-4 года. Повышение эффективности за счет сокращения издержек может даже огорчить владельцев.
Вполне реально сократить энергопотребление каждого компонента дата-центра вдвое. Однако способы могут быть болезненными.
Болезненными, но простыми. Настолько простыми, что вы немало удивитесь, услышав их.
Не приведете один пример?
KB: OK, только один. Например, отключить простаивающие сервера. Некоторые из них предполагают потреблять энергию вхолостую. Будьте внимательнее, и вы сможете снизить потребление на 10-30%.
Пол серверной устлан золотыми самородками – надо всего лишь иметь желание нагнуться и поднять их.
Источник: itnews.com.au
Сегодня с ним лично познакомился. Любопытный дедушка. Он сидит у нас в классе на Uptime certified designer course в Тайпей в качестве наблюдателя, так как это первый курс подобного рода за пределами США…
Сергей, ждем Ваших впечатлений от просушенного курса.