Аварии ЦОД: новости от Google, Microsoft Azure, Zoom и Cloudflare

4 июня 2020

Работая в условиях рекордно высокого спроса на вычислительные мощности и отложенного техобслуживания во время пандемии, вызванной локдауном нехватки персонала и остановленных цепочек поставок, владельцы ЦОД вынуждены мириться с необходимостью интенсивной конкуренции за ограниченные ресурсы и делать все возможное для поддержания работоспособности своих дата-центров.

Балансировать на грани удается не всем, о чем свидетельствуют свежие новости на тему аварий в ЦОД по всему миру. Справедливости ради следует отметить, что причиной свежих даунтаймов не всегда является коронавирус COVID-19 и последствия его распространения.

Ешь говядину, спасай интернет: коровы вывели из строя оптоволоконную сеть Google

Даунтаймы ЦОД часто вызываются относительно тривиальными причинами вроде перебоев в подаче электроэнергии, неправильного подключения кабеля или неблагоприятных погодных условий. Иногда, однако, они вызываются коровами.

В серии твитов о проблемах при эксплуатации мультитерабитной оптоволоконной магистрали, идущей через американский штат Орегон, старший вице-президент по технической инфраструктуре Google Урс Хёльцле описал довольно необычный инцидент.

«Хорошо, вот еще одна история: знаете ли вы, что коровы могут вызвать перебои в работе сети? Не смейтесь, это случилось с нами. Недавно мы заметили частые короткие перебои на мультитерабитной оптоволоконной магистрали через Орегон. Эта магистраль представляет собой воздушную оптоволоконную линию (волокно натягивается вдоль пути следования высоковольтной линии электропередачи). Такие магистрали характеризуются пониженной надежностью, потому что штормы, деревья, лед и случайный охотник могут повредить их», — отметил сотрудник Google, описывая инцидент с участием крупного рогатого скота.

«Но на этот раз мы столкнулись с чем-то новым: линия оптоволокна упала на землю, но продолжала очень хорошо функционировать. Но потом один фермер начал выпас стада коров поблизости. И всякий раз, когда они наступали на оптоволоконный канал, эти животные сгибали его достаточно сильно, чтобы вызвать перебой», написал Хельцле, поделившись фото линии электропередачи с оптоволокном на земле под ЛЭП и коровами на заднем плане.

Подобное происходит довольно редко, но животные действительно ответственны за ряд отключений ЦОД. Сотни отключений электроэнергии связаны с невезучими белками, змеями и другими живыми существами, которые случайно задевают электрооборудование, что приводит к замыканию.

Ранее инженерам Google пришлось хорошо потрудиться, чтобы защитить свою оптоволоконную инфраструктуру от атак другого вида животных: акул. Еще в 2014 году поисковому гиганту пришлось отправить водолазов, чтобы укрепить тысячи километров подводных кабелей, поскольку акулы, как оказалось, не прочь погрызть такие магистрали, проложенные под водой. В настоящее время большинство подводных кабелей усилены и изолированы для снижения соответствующих рисков.

Пользователи из Индии лишились доступа к облаку Microsoft Azure

О гораздо более тривиальном инциденте недавно сообщили в пресс-службе Microsoft. Индийские пользователи облака Microsoft Azure (регион Центральная Индия / Central India) пострадали в результате ночного простоя, нарушившего работу сервисов софтверного гиганта по всей стране.

Причиной инцидента, произошедшего в 12:41 UTC 18 мая и продлившегося примерно до 08:30 UTC 19 мая 2020 года, стал, как сообщается, перебой в работе электросети, за которым последовали проблемы с кондиционерами в ЦОД, поддерживающем соответствующую часть облака Microsoft Azure.

«Из-за проблемы с подачей электропитания в сети регионального поставщика электроэнергии центр обработки данных, обслуживающий регион Центральная Индия, перешел на генераторы. При переходе на генераторы все прошло в соответствии с планом для всех инфраструктурных систем, за исключением ряда кондиционеров в двух внутренних зонах центра обработки данных. В результате внутренние температуры в этих двух зонах поднялись выше эксплуатационных порогов. Были сгенерированы оповещения, и автоматика начала отключать ресурсы сети и хранилища для защиты данных», — говорится в сообщении Microsoft.

«Технические специалисты сразу же изолировали проблемные кондиционеры и восстановили электропитание, вернув температуру к рабочему уровню. Как только температура опустилась ниже порогового значения, технические специалисты начали физически восстанавливать работоспособность хранилища. После восстановления хранилища и сети начали восстанавливаться зависимые вычислительные узлы, а также виртуальные машины и другие сервисы Azure», отметили в пресс-службе софтверного гиганта.

Затронутый инцидентом центр обработки данных Azure расположен в городе Пуна на территории западного индийского штата Махараштра. В компании пообещали в течение ближайших дней предоставить более подробную информацию по результатам углубленного анализа инцидента.

Zoom ушел в офлайн

В воскресенье 17 мая популярная платформа для проведения видеоконференций Zoom была частично отключена и оказалась недоступна многим пользователям в США, Европе и на Ближнем Востоке. Неясно, насколько широко эта проблема была распространена, но неофициальные данные на основе жалоб в социальных сетях указывают на значительное число пострадавших пользователей.

«Мы получили сообщения о том, что некоторые пользователи Zoom могут испытывать сложности с созданием конференций и присоединением к ним. Наша команда работает над выявлением основной причины и масштаба этой проблемы», отметили в пресс-службе Zoom.

Пик даунтайма, по-видимому, совпал с запуском воскресных церковных служб в странах Запада, поскольку религиозные деятели переходят в онлайн на фоне продолжающейся пандемии Covid-19 и связанного с ней локдауна. Из-за ухода Zoom в офлайн некоторые церковные службы были полностью отменены, в то время как другие были быстро перенесены на YouTube.

В эту странную эпоху пандемии, когда многие люди оказались запертыми в своих домах, продолжая при этом работать, сервис Zoom продолжает процветать. Число его пользователей и интенсивность использования платформы существенно выросли.

Компания Zoom расширила свою IT-инфраструктуру, чтобы удовлетворить растущий спрос и справиться с нагрузкой. Большая часть пользователей платформы обслуживаются с использованием физической инфраструктуры облака Amazon Web Services. Но Zoom также использует ресурсы других облачных провайдеров, включая Oracle.

Кроме того, компания размещает свои серверы в разных коммерческих центрах обработки данных. В частности, в Zoom публично подтвердили, что компания является клиентом колокейшн-провайдера Equinix. Также есть информация, что серверы Zoom размещены в ЦОД еще одного колокейшн-провайдера Digital Realty.

Уход Cloudflare в офлайн вызван ошибкой техников при работе в дата-центре

Американский поставщик услуг в области доставки контента и защиты от DDoS-атак Cloudflare в минувшем месяце (15 апреля) столкнулся со значительным сбоем в ЦОД. Даунтайм произошел после того, как технический специалист отключил несколько избыточных оптоволоконных соединений во время планового технического обслуживания объекта. По итогам расследования, представители компании заявили, что причиной инцидента стали недостаточно четкие инструкции и отсутствие маркировки кабелей, а не оплошность технического специалиста.

«В рамках планового технического обслуживания в одном из наших основных центров обработки данных мы дали указание техническим специалистам демонтировать все оборудование из одной из наших стоек. Эта стойка содержала старое неактивное оборудование, которое мы собирались удалить. Ни один из серверов внутри стойки не был активен, обрабатывая трафик или храня актуальные данные», отметили в пресс-службе компании.

«Стойка также содержала коммутационную панель (коммутатор кабелей), обеспечивающую все внешние подключения к другим центрам обработки данных Cloudflare. В течение нескольких минут техник, выводящий из эксплуатации наше неиспользуемое оборудование, также отсоединил кабели от этой коммутационной панели. Из-за этого дашборд и API Cloudflare были недоступны с 15:31 UTC до 19:52 UTC, в то время как сеть Cloudflare продолжала работать в обычном режиме», говорится в пресс-релизе по итогам расследования инцидента. В документе также отмечается, что в будущем компания планирует улучшить маркировку кабелей, а также четко информировать технических специалистов о том, какие кабели не следует трогать.

Аварии ЦОД: новости от Google, Microsoft Azure, Zoom и Cloudflare

Ешь говядину, спасай интернет: коровы вывели из строя оптоволоконную сеть Google

Пользователи из Индии лишились доступа к облаку Microsoft Azure

Zoom ушел в офлайн

Уход Cloudflare в офлайн вызван ошибкой техников при работе в дата-центре

Всего комментариев: 0

Оставить комментарий Отменить ответ