Добавить в избранное
Новости ЦОД и Дата-Центров
Все, что Вам нужно знать о ЦОД

Анатомия аварии в ЦОД Amazon – из-за человеческой ошибки облако AWS ушло в офлайн

14.03.2017
|
Authors
|
Раздел: Аварии, Инфраструктура ЦОД, Новости, Сlouding
|

Анатомия аварии в ЦОД AmazonЧтобы вывести из строя облачную платформу Amazon Web Services (AWS) требуется всего лишь одна неверная команда. Примерно такой вывод можно сделать после ознакомления с увидевшим свет на днях публичным письмом за авторством инженеров гиганта электронной коммерции Amazon. Компания поделилась подробной информацией о том, что вызвало масштабный даунтайм облачного хранилища AWS S3, который имел место в начале прошлой недели.

Что именно случилось с облаком Amazon Web Services, и как операторы ЦОД компании планируют избежать повторения инцидента в будущем?

Во вторник около 9 часов утра по тихоокеанскому времени (9 вечера по Москве), член команды Amazon Web Services в одном из дата-центров гиганта электронной коммерции допустил ошибку при наборе символов при вводе команды во время отладки процесса биллинга клиентов AWS S3 (выставление счетов клиентам). Он случайно удалил ключевые подсистемы, вызывая хаос в ЦОД и проблемы клиентов.

“В 9:37 утра по тихоокеанскому стандартному времени (AM PST) уполномоченный член команды AWS S3, используя стандартный сборник рабочих схем, выполнил команду, которая была предназначена для удаления небольшого количества серверов из одной из подсистем AWS S3, которая используется в процессе выставления счетов AWS S3. К сожалению, при подготовке команды один из блоков данных был введен неправильно, и удалена была более крупная группа серверов, чем изначально предполагалось. Серверы, которые были удалены непреднамеренно, поддерживали две другие подсистемы AWS S3,” говорится в открытом письме Amazon.

Одной из подсистем была индексная подсистема, которая управляет информацией о метаданных и расположении всех объектов AWS S3 в регионе US-EAST-1 (обслуживает клиентов из США). В сообщении компании говорится, что эта подсистема необходима для обслуживания всех запросов на извлечение данных (GET), создание списков (LIST), размещение данных (PUT) и удаление данных (DELETE). Другая подсистема, затронутая инцидентом, предназначается для размещения данных и управлением распределения места в хранилище.

Как отмечается в сообщении Amazon, удаление значительной части серверов вызвало необходимость полного перезапуска каждой из этих подсистем. Когда эти подсистемы перезапускались, хранилище AWS S3 более не могло обслуживать запросы. Другие сервисы облака AWS в регионе US-EAST-1, которые полагаются на AWS S3 для хранения информации (включая консоль S3, запуск новых инстансов в Amazon Elastic Compute Cloud (EC2), Amazon Elastic Block Store (EBS) и AWS Lambda) были также затронуты, в то время как API-интерфейсы AWS S3 были недоступны.

Представители Amazon отметили, что инженеры AWS не осуществляли полный перезапуск подсистемы индексирования или подсистемы размещения в своих основных регионах в течение вот уже нескольких лет. Облачное хранилище AWS S3 демонстрировало значительный рост в течение последних лет, поэтому процесс перезапуска вышеназванных подсистем (с учетом проведения необходимых проверок безопасности для обеспечения целостности метаданных) стал занимать больше времени, чем ожидалось.

В связи со случившимся команда AWS планирует внести несколько изменений в свои технологические процессы – включая создание ограничения по объему ресурсов, которые могут быть удалены, а также предотвращение возможности удаления ресурсов, если это обернется снижением ресурсов, находящихся в распоряжении любой подсистемы, ниже минимально требуемого уровня. Также планируется внести изменения, нацеленные на сокращение времени восстановления ключевых подсистем AWS S3.

Каков размер ущерба из-за ухода в офлайн облака AWS, и кто именно пострадал?

Из-за перебоев в работе облака Amazon по причине ошибки инженера Amazon Web Services проблемы появились у многих популярных сайтов и не только у них – начались перебои в работе физической инфраструктуры. Люди в буквальном смысле оказались в темноте из-за этого инцидента. Но обо всем по порядку.

Эксперты уже оценивают совокупный размер ущерба, причиненного данным инцидентом. По предварительным данным, только в случае партнеров Amazon, числящихся в списке S&P 500, он составляет от 150 до 160 миллионов долларов США. Эта цифра не включает в себя бесчисленное множество других предприятий, которые полагаются на AWS S3, а также на сторонних поставщиков интернет-сервисов, которые построили свои бизнес-модели на инфраструктуре облака Amazon.

Многочисленные клиенты AWS, сайты которых оказались недоступны для пользователей или стали загружаться очень медленно (что обернулось резким снижением коэффициента конверсии), потеряли огромные деньги. Недоступны оказались такие интернет-сервисы как Trello, Coursera, IFTTT и Quora.

Отключение Amazon Web Services также привело к проблемам в работе умных домов. Многие владельцы подобных зданий сообщили о потере контроля над своими домами после того, как системы, которые используются для управления подключенными к интернету устройствами, стали недоступны. Как следствие, инцидент обернулся невозможностью управлять умными дверными замками, лампочками и прочими гаджетами.

Аварии в ЦОД из-за человеческой ошибки? Что ж, такое бывает, и достаточно часто

Пресловутые человеческие ошибки при обслуживании оборудования или решении других задач уже давно являются одной из основных причин даунтаймов и перебоев в функционировании инфраструктуры дата-центров, которые лежат в основе интернета.

Из-за случайных инцидентов, случившихся по вине сотрудников ЦОД, проблемы репутационного и финансового плана появились у многих коммерческих компаний и некоммерческих организаций, которые являются гордыми владельцами своих собственных корпоративных дата-центров, или арендуют помещения в машзалах коммерческих ЦОД сторонних колокейшн-провайдеров.

Например, именно из-за человеческой ошибки в свое время в офлайн ушла биржа Nasdaq, произошел сбой в работе популярной облачной платформы Microsoft Azure, тогда как большая часть европейских интернет-трафика была перенаправлена в Гонконг.



Тэги:
|
Источник:
|
RSS 2.1
|
|
ОСТАВИТЬ ОТЗЫВ



События и мероприятия
    нет событий, чтобы показывать
Партнеры