Как машинное обучение поможет управлять инфраструктурой ЦОД?

23 апреля 2015

Authors

В июне прошлого года представители Google заявили, что инженерам поискового гиганта удалось с помощью искусственной нейронной сети создать систему машинного обучения, помогающую более эффективно управлять инфраструктурой многочисленных дата-центров Корпорации добра. Эксперты американской корпорации утверждают, что эта система помогла сделать дата-центры Google, которые и до ее внедрения считались одними из наиболее экономичных и экологичных в мире, еще эффективнее.

К сожалению, эта запатентованная система предназначена для собственных нужд Google. Однако вскоре похожая технология может стать доступнее и для простых смертных: несколько крупных поставщиков IT-решений уже готовят соответствующие продукты. Так, корпорация Amazon в середине апреля добавила в ассортимент своих облачных сервисов, распространяемых с помощью платформы Amazon Web Services, соответствующий продукт под названием Amazon Machine Learning.

В основе этого коммерческого облачного сервиса, которым теперь могут за умеренную плату пользоваться операторы ЦОД со всего мира, лежат технологические наработки инженеров Amazon, использовавших концепцию машинного обучения для управления инфраструктурой своих корпоративных дата-центров. Инструментарий способен обрабатывать неструктурированные данные различных типов для последующего построения собственной модели ЦОД, а также формирования прогнозов и рекомендаций по оптимизации инфраструктуры дата-центров в режиме реального времени.

Как отметил генеральный менеджер Amazon по обработке и анализу данных Мэтт Вуд, при использовании нового сервиса из ассортимента Amazon Web Services на корпоративных клиентов и обычных пользователей не будут накладываться никакие ограничения. Вуд почеркнул, что инструментарий Amazon Machine Learning создавался в качестве сервиса общего назначения.

В случае управления инфраструктурой дата-центра с использованием Machine Learning операторы ЦОД могут организовать агрегацию в облачном репозитории самых разнообразных данных для последующей обработки. Это могут быть данные с датчиками температуры, влажности, давления, направления воздушных потоков в машзале. Это может быть информация об уровне загрузки центральных процессоров и иных компонентов серверных систем. Это может быть информация об энергопотреблении серверов, данные по погодным условиях за пределами здания ЦОД или же любой другой из множества показателей , мониторинг которых может осуществляться в дата-центре. Система Amazon Machine Learning построит модель ЦОД, начнет изучать ее и использовать для того, чтобы делать полезные прогнозы.

Как отметил представитель Amazon, пользователь может получить от системы ответы на самые разнообразные вопросы в духе следующих: «Можно ли спрогнозировать, когда необходимо будет заменить конкретный компонент? Можно ли спрогнозировать время замены того или иного жесткого диска, исходя из незначительных изменений в его работе? Как отразится на вспомогательной инфраструктуре ЦОД увеличение IT-нагрузки?»

Для использования Amazon Machine Learning вовсе не нужно быть гением

Новый продукт создавался среди прочего с прицелом на максимизацию удобства работы конечных пользователей. Интерфейс Amazon Machine Learning был разработан с целью обеспечения чрезвычайной простоты в использовании. Достигается это не только с помощью продуманности расположения инструментов управления и панелей (то есть эргономичности), но и благодаря обилию мастеров на все случае жизни, а также удобному API для интеграции со сторонними продуктами. Вуд почеркнул, что использовать Amazon Machine Learning без дополнительной подготовки могут даже люди с нулевым опытом работы с системами машинного обучения.

Все начинается с автоматического сбора множества данных из указанных пользователем источников. Затем система создает сводные статистические данные по исходной неструктурированной информации, чтобы попытаться угадать, какой наилучший возможный формат придать этим данным, чтобы определить характеристики будущей модели. При желании пользователь может принять участие в процессе, погрузившись в пучину тонких настроек системы, но сама система справляется довольно хорошо и весьма точно делает предположение о том, как обрабатывать исходные данные. Затем оператор ЦОД может принять участие в «обучении» модели. Эта процедура предполагает субъективную оценку пользователем ее (модели) эффективности и внесение необходимых корректив для повышения точности прогнозирования.

После того, как модель будет создана и готова к использованию, оператор ЦОД может просто задавать вопросы, на которые он желает получить ответы. В контексте управления инфраструктурой дата-центра, вопросы могут быть как базовыми (например, о том, какой завтра будет температура в дата-центре, если исходить из свежих метеосводок и статистических данных о температуре по предыдущим периодам), так и более конкретными (например, о том, когда конкретный сервер, скорее всего, выйдет из строя).

Изначально Amazon берет деньги за время, необходимое для того, чтобы собственная вычислительная инфраструктура американской корпорации обработала данные пользователя для построения модели. Затем, когда модель по конкретному ЦОД успешно создана, пользователь платит в расчете на количество прогнозов, сделанных системой Amazon Machine Learning. Текущая стоимость составляет всего $ 1 за 1 млн. прогнозов, что довольно дешево.

Рынок инструментов машинного обучения на подъеме

Другим примером крупного поставщика систем машинного обучения общего назначения является корпорация Microsoft, которая представила соответствующий сервис в рамках своей облачной платформы Azure в минувшем феврале. Корпорация IBM также продвигает подобные сервисы, используя функционал своей когнитивной суперкомпьютерной системы Watson и возможности облачных сервисов SoftLayer.

Существует также несколько поставщиков программного обеспечения для управления инфраструктура дата-центра (DCIM), которые продают программные решения, использующие сложные механизмы моделирования / прогнозного анализа и создаваемые специально для владельцев и операторов дата-центров. В число таких компаний среди прочего входят Romonet, Future Facilities и Vigilent.

Существует большая вероятность того, что модели ЦОД, создаваемые с помощью систем машинного обучения общего назначения не будут столь же продвинутыми и сложными, так как модели, которые генерируется специализированными инструментами вроде DCIM-решений. Тем не менее, сервисы Amazon и Microsoft имеют преимущество в том плане, что они могут предложить высокую гибкость и масштабируемость. При этом благодаря использованию облачной модели распространения нет необходимости устанавливать и настраивать софт на корпоративных серверах пользователя. Кроме того, пользователь платит не авансом как в случае с DCIM-решениями, а по факту – за объем выполненных работ / предоставляемых услуг.

«Создание инструмента, способного строить подобные модели и оптимизировать инфраструктуру ЦОД, лежащую в основе глобальной распределенной вычислительной системы, представляет собой значительное достижение. Правда заключается в том, что мы делали это раньше. Мы делали это с Redshift. Вы можете думать о ней как о стандартном хранилище данных, но на самом деле новая система оптимизирована именно под обработку информации с использованием алгоритмов, заточенных под высокий параллелизм вычислений. Для эффективной эксплуатации подобного инструментария необходимо мощное и специализированное IT- оборудование. У нас такое имеется. Мы проделали это с Redshift, Elastic MapReduce и EC2. Теперь настал черед сервиса машинного обучения, доступного обычным клиентам «, сказал Вуд.

Как машинное обучение поможет управлять инфраструктурой ЦОД?

Всего комментариев: 0

Оставить комментарий Отменить ответ