Instagram,Netflix и многие другие были недоступны из-за отключения питания в ЦОД Amazon
Дата-Центр Amazon в северной Вирджинии остался без электричества в пятницу вечером, что привело к длительному отключению сервисов Netflix, Heroku, Pinterest, Instagram и многих других. Отключение энергии связано с мощным ураганом, ударившим по Вашингтону округ Колумбия и оставившим без электричества до 1,5 миллиона жителей.
Перерыв в энергоснабжении ЦОДа в Ashburn, Вирджиния составил примерно 30 минут, но на восстановительные работы всех сервисов в ЦОД ушло гораздо больше времени, сотрудники Amazon работали над восстановлением экземпляров виртуальных машин. “Мы можем подтвердить, что значительное количество инцидентов приведших к отключению сервисов, в одной из наших зон связанны с отключением электроэнергии из-за грозы”, сообщили в Amazon в 8:30 вечера по тихоокеанскому времени. Через 20 минут прошла информация: “подача электроэнергии в ЦОД была восстановлена и мы работаем, над восстановлением сервисов”.
К 1:42 по тихоокеанскому времени, Amazon сообщила, что «вернула большинство EC2 инстансов и продолжает работать по восстановлению оставшихся EBS”.
Хотя работоспособность большинства клиентов Amazon была восстановлена в течение нескольких часов, ряд крупных клиентов лежал гораздо дольше. Фото-сервис Instagram был недоступен примерно до полудня по тихоокеанскому времени субботы, это более 15 часов с момента отключения. Облачный поставщик инфраструктуры Heroku, сообщил о 8 часах простоя по некоторым услугам.
Это уже второе отключение электропитания в этом ЦОД Amazon за месяц, хотя он оборудован всеми необходимыми система резервного питания.
Данная авария еще примечательна тем, что она затронула сервис Netflix, который как известно использует географически распределенное облако и при выходе из строя одной зоны, должен продолжать предоставлять свои сервисы.
Адриан Кокрофт, директор по архитектуре Netflix, сказал, что проблема была в балансировщиках нагрузки Amazon. «Мы потеряли оборудования в одной зоне, а данные реплицируются в три”, твитнул Адриан. “Проблема была в маршрутизации трафика, которая была нарушена во всех зонах”.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать