Facebook создает универсальный инструмент для управления IT-инфраструктурой
Помните прошлогодний инцидент с дополнительной секундой, из-за которого прошлым летом большая часть интернета оказалась в офлайне? В ночь с 30 июня на 1 июля 2012 года после добавления “високосной секунды” многие веб-сайты перестали корректно функционировать. Среди пострадавших оказались соцсети LinkedIn и Reddit, система бронирования авиабилетов Amadeus, портал Gawker, сервисы Mozilla, FourSquare, Yelp и StumbleUpon, а также многие другие ресурсы. Так вот руководство соцсети Facebook прекрасно помнит об этом. В тот раз многие серверы в дата-центрах компании резко перезагрузились, на множестве машин наблюдалась 100-процентная загрузка процессоров, а в арендуемом Facebook дата-центре в штате Вирджиния (США) оборудование более чем в 300 серверных стойках ушло в офлайн.
Прошлогоднее происшествие не обернулось даунтаймом во всех дата-центрах Facebook, но этот инцидент заставил инженеров и программистов соцсети задуматься о целесообразности разработки софта, который позволил бы упростить интеграцию сторонних автоматизированных систем управления зданием (Building Management System, BMS) и комплектов программного обеспечения для управления инфраструктурой центра обработки данных (Data Center Infrastructure Management; DCIM) с уже имеющимися наработками Facebook в этой области (речь об инструментах для мониторинга производительности серверов и проприетарном DCIM-решении). Об этом в минувшую пятницу заявил вице-президент Facebook по операционной деятельности Том Ферлонг, выступая на конференции Datacenter Dynamics Converged в Сан-Франциско.
Комбинированная система сможет учитывать информацию о физическом состоянии IT- и вспомогательной инфраструктуры, такую как температура и влажность, расход электроэнергии в разрезе всего здания, а также сведения о серверах (загрузка процессора и памяти) и системах хранения данных внутри ЦОД. Ферлонг также отметил, что на протяжении последних нескольких месяцев специалисты Facebook проводили отладку и локальное развертывание своего DCIM-решения и тестировали новую систему планирования кластеров, которая будет использоваться для визуализации всех данных соцсети. Специалисты планируют начать более активное внедрение этих программ уже во второй половине этого года.
Новая стратегия консолидированного управления ЦОД, которую взяла на вооружение Facebook, может оказаться полезной в самых разнообразных областях. К примеру, внедрение универсального программного обеспечения для выполнения вышеперечисленных целей может обернуться уменьшением количество времени, которое инженеры соцсети тратят на разработку механизмов реструктуризации и модернизации отдельного оборудования для повышения производительности вычислительных мощностей. На вопрос о том, насколько существенными будут изменения, Ферлонг ответил, что вместо 12 часов на решение таких задач будет тратиться всего тридцать минут.
Новая технология также поможет Facebook выжимать максимум эффективности из существующих дата-центров, и, как следствие, избавит соцсеть от необходимости возведения новых ЦОД. Все это обернется минимизацией затрат и повышением экологичности вычислительной инфраструктуры американской компании.
Ферлонг сообщил, что более подробной информацией о новой системе представители соцсети поделятся со всеми желающими на следующей конференции Open Compute Summit, которая пройдет в январе 2014 года. Топ-менеджер не уверен, сделает ли его компания новый инструмент открытым и доступным для свободного распространения, как это было в случае с разрабатываемыми собственными силами соцсети аппаратными решениями (в рамках инициативы Open Compute Project). Загвоздка в том, что комбинированная программная платформа включает в себя уже используемые специалистами Facebook инструменты мониторинга инфраструктуры ЦОД для внутреннего пользования, которые компания не хотела бы показывать конкурентам.
Вне зависимости от того, каким будет окончательно решение топ-менеджеров соцсети, общественное обсуждение данной инициативы даст IT-специалистам более полное представление о том, каким должен быть следующий логический шаг на пути к повышению эффективности существующих аппаратных платформ (по крайней мере, исходя из опыта Facebook). Вооружившись опытом американцев, операторы ЦОД со всего мира смогут эффективнее принимать решения о том, когда и как следует внедрять новое оборудование, которое наилучшим образом соответствует рабочей нагрузке.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать