Instagram,Netflix и многие другие были недоступны из-за отключения питания в ЦОД Amazon

2 июля 2012

Дата-Центр Amazon в северной Вирджинии остался без электричества  в пятницу вечером, что привело к длительному отключению  сервисов Netflix, Heroku, Pinterest, Instagram и многих других. Отключение энергии связано с мощным ураганом, ударившим по Вашингтону округ Колумбия и оставившим без электричества  до 1,5 миллиона жителей.

Перерыв в энергоснабжении ЦОДа в Ashburn, Вирджиния составил примерно 30 минут, но на восстановительные работы всех сервисов в ЦОД ушло гораздо больше времени, сотрудники  Amazon работали над восстановлением экземпляров виртуальных машин. «Мы можем подтвердить, что значительное количество инцидентов приведших к отключению сервисов, в одной из наших зон связанны с отключением электроэнергии из-за грозы», сообщили в Amazon в 8:30 вечера по тихоокеанскому времени.  Через 20 минут прошла информация: «подача электроэнергии в ЦОД была  восстановлена и мы работаем, над восстановлением сервисов».

К 1:42 по тихоокеанскому времени, Amazon сообщила, что «вернула большинство EC2 инстансов и продолжает работать по восстановлению оставшихся EBS».

Хотя работоспособность большинства клиентов Amazon была восстановлена в течение нескольких часов, ряд крупных клиентов лежал гораздо дольше. Фото-сервис Instagram был недоступен примерно до полудня по тихоокеанскому времени субботы, это более 15 часов с момента отключения. Облачный  поставщик инфраструктуры  Heroku, сообщил о 8 часах простоя по некоторым услугам.

Это уже второе отключение электропитания в этом ЦОД Amazon за месяц, хотя он оборудован всеми необходимыми система резервного питания.

Данная авария еще примечательна тем, что она затронула сервис Netflix, который  как известно использует географически распределенное облако и при выходе из строя одной зоны, должен продолжать предоставлять свои сервисы.

Адриан Кокрофт, директор по архитектуре Netflix, сказал, что проблема была в балансировщиках нагрузки Amazon. «Мы потеряли оборудования в одной зоне, а данные реплицируются в три», твитнул Адриан. «Проблема была в маршрутизации трафика, которая была нарушена во всех зонах».

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *