Аварии в ЦОД – почему в офлайн ушли дата-центры Nielsen и Microsoft Azure
Современный бизнес практически всецело полагаются на центры обработки данных и облачные сервисы, которые должны всегда быть доступны. Надежность и эффективность работы дата-центра зависят от широкого спектра жестко контролируемых факторов окружающей среды, включая помимо прочего температуру, влажность, направление и интенсивность воздушных потоков, освещение, звукоизоляцию и состояние вспомогательного оборудования. Например, если техническая ошибка в системе мониторинга дата-центра не будет обнаружена вовремя, это может привести к перегреву серверов и потере ценных данных.
Для справки: средний объем ущерба из-за отключения дата-центра в 2016 году увеличился на семь процентов по сравнению с 2013 годом (с 690 204 долларов США до 740 357 долларов США). А с 2010 года данный показатель врос и вовсе на 38 процентов.
Чтобы минимизировать затраты на восстановление репутации и компенсацию ущерба заказчикам после возможного офлайна ЦОД, операторы и владельцы дата-центров активно улучшают инфраструктуру и внедряют передовой опыт. Но как показывает практика, от проблем не застрахован никто – даже крупные компании вроде Nielsen Media Research и Microsoft.
Облачное хранилище Microsoft Azure начало сбоить из-за двух инцидентов в ЦОД
Софтверный гигант Microsoft огорчил своих клиентов, использующих сервисы облачной платформы Azure. Из-за двух инцидентов в ЦОД американской корпорации, восстановление после которых длилось достаточно долго, партнеры Microsoft начали испытывать сложности при получении доступа к облачному хранилищу. С подобными проблемами столкнулись пользователи Azure из 26 регионов (и это притом, что данное публичное облако доступно в общей сложности в 28 регионах).
Команда Azure отмечает, что имели место два отдельных инцидента: глобальный и, чуть позже, региональный (он охватил восточную часть США). Глобальный инцидент мог быть вызван программной ошибкой, которая помешала предоставлять клиентам новые ресурсы и доступ к различным инструментам, включая среди прочего Azure Monitor и Visual Studio Team Services Build. На устранение проблемы ушло около 3 часов.
Инцидент в США длился более восьми часов, и во время даунтайма были затронуты многие сервисы Azure, включая виртуальные машины, Azure Media, приложения Insights, Data Factory, Site Recovery, SQL Database и многое другое. Региональный инцидент произошел из-за перебоев в работе системы электропитания в дата-центре софтверного гиганта в восточном штате США. По предварительным данным первопричиной стала ошибка инженера, которая повлекла за собой недоступность одного из кластеров облачного хранилища Azure Storage. В пресс-службе Microsoft заявили о том, что софтверный гигант планирует опубликовать подробный отчет с результатами анализа первопричины инцидента в ближайшее время.
Уход в офлайн дата-центра Nielsen Media Research помешал опубликовать ТВ-рейтинги вовремя
В отличие от того же софтверного гиганта Microsoft, компания Nielsen Media Research известна лишь относительно небольшой группе специалистов. И это несмотря на то, что данный поставщик маркетинговой информации со штаб-квартирой в США может похвастаться штатом свыше 44 тыс. сотрудников и представительствами в более чем сотне стран.
В течение многих лет эта исследовательская компания публиковала рейтинги различных телевизионных передач. Не так давно она попыталась адаптироваться к цифровой эпохе и создала дата-центра в Олдсмаре, штат Флорида (США). При возведении серверной фермы акцент делался на надежность, но это не уберегло дата-центр от ухода в офлайн.
Утром воскресенья 12 марта там была отключена подача электричества из центральной сети. Несмотря на то, что электропитание было восстановлено в течение нескольких часов, серверные системы внутри дата-центра пришлось перезагрузить. Это обернулось задержками в подготовке рейтингов аудитории для таких популярных телешоу как American Crime, NCIS: LA и Saturday Night Live с участием таких звезд как Скарлетт Йоханссон и Алек Болдуин.
Пока не совсем понятно, что именно послужило причиной сбоя в работе системы электропитания, и почему резервные энергосистемы дата-центра не включились. В пресс-службе Nielsen не спешат отвечать на запросы журналистов о представлении комментариев по поводу случившегося.
Рейтинги появились через несколько дней, но веб-сервисы компании и главный ее сайт все еще работают медленно и с перебоями. Этот инцидент не сулит ничего хорошего компании, которая ранее часто подвергалась критике за неспособность адаптироваться к современным реалиям цифровой эпохи.
По данным The New York Times, только в Соединенных Штатах Америки бренды тратят 70 млрд. долларов на рекламу каждый год, основываясь исключительно на рейтингах Nielsen. Но партнеры, похоже, готовы отказаться от услуг компании, если ей не удастся адаптироваться к новым реалиям.
Всего комментариев: 0