Анатомия свежих аварий в ЦОД и новых способ их избежать

5 сентября 2016

Когда сервер выходит из строя, независимо от причин, негативное влияние подобного инцидента на бизнес может быть просто огромным. Причем зачастую его практически невозможно точно оценить в деньгах. В то время как финансовые потери могут доходить до десятков тысяч долларов в минуту (в случае крупных банков), ущерб репутации компании вполне может быть гораздо более серьезным. Так почему же мы продолжаем слышать об авариях в ЦОД самых разных размеров? Все дело в том, что даже при огромном желании проектировщиков, строителей и операторов ЦОД предусмотреть все возможные негативные сценарии сделать это не удается – независимо от уровня профессионализма таких специалистов.

Представленная ниже информация служит красноречивым тому доказательством. Читайте дальше, и вы узнаете полезные сведения о свежих авариях в ЦОД по всему миру, которые можно использовать, чтобы не повторять чужие ошибки. Полезной будет и информация о новом способе избежать аварий в ЦОД.

В Google объяснили, что вызвало уход в офлайн облачной платформы Google App Engine

Поисковый гигант Google опубликовал подробную информацию о том, что стало причиной ухода в офлайн облачной платформы Google App Engineу, который случился в начале этого месяца. Напомним, что 11 августа из-за перебоев в работе сервиса, длившихся чуть менее двух часов, стали сбоить 37 процентов приложений, размещенных в облачном кластере в центральном регионе США.

По информации американской корпорации, причиной проблем стала сетевая инфраструктура ЦОД. Инженеры Google обвинили в случившемся свои маршрутизаторы, которые начали работать с ошибками после обновления программного обеспечения во время стандартного периодического технического обслуживания. Некорректный апдейт софта вызвал перезапуск машин. Ситуацию усугубила ошибка при конфигурировании оборудования.

Авария в дата-центре срывает планы клиентов авиакомпании Delta Air Lines

Из-за отключения оборудования в центре обработки данных, используемом компанией Delta Air Lines, огромное множество клиентов авиаперевозчика столкнулись с серьезными неудобствами. Сообщается, что даунтайм ЦОД, который находится в Атланте (США), был вызван «небольшим пожаром». Потеря работоспособности дата-центра привела к тому, что авиакомпания была вынуждена приземлить все свои самолеты по всему миру и приостановить новые вылеты на несколько часов, что привело к задержкам при транспортировке пассажиров и грузов. Сообщается, что пострадали десятки тысяч пассажиров перевозчика.

Комментируя инцидент, представители Delta Air Lines отметили, что во время пожара был поврежден важный компонент электрораспределительной инфраструктуры, что привело к отключению трансформатора, обеспечивающего электропитание дата-центра авиакомпании. Система была оперативно переведена на резервное питание, но не все серверы были подключены к этому источнику. Это привело к каскадному отключению. 400 из 500 серверов сразу же перезагрузились. Представители авиакомпания отказались делиться подробностями о масштабах пожара в ЦОД и ущербе, причиненном им. Они лишь завили, что небольшой пожар был потушен сразу, и не было никакой необходимости вызвать пожарную команду.

Интересно, что это уже вторая серьезная авария в ЦОД американских авиакомпаний, случившаяся за последний месяц. 20 июля в дата-центре компании Southwest Airlines, который расположен в Далласе, вышел из строя маршрутизатор, в результате чего перевозчику пришлось отменить 2,3 тыс. рейсов, а также задержать более 7000 рейсов в течение трех последующих дней.

Отказ оптической плата вывел из строя одну из крупнейших сетей Бельгии

Бельгийская национальная сеть Belnet ушла в офлайн из-за перебоев в работе аппаратного обеспечения. Причиной сбоя оказался отказ оптической платы в одном из государственных ЦОД. Даунтайм длился около четырех часов. Пострадавшими оказались около 2 сотен правительственных учреждений, университетов и научно-исследовательских институтов в Бельгии.

Дефектная карта вызвала возникновение эффекта «Ethernet loop», который поставил под угрозу всю сеть и помешал ее надлежащему функционированию. Механизм защиты, предназначенный для предотвращения таких инцидентов, не активировался опять же из-за неисправности карты.

Оператор сети сообщил, что неисправная карта была заменена и отправлена обратно поставщику для дальнейшего расследования. Инженеры Belnet также подчеркнули, что это отключение было самым серьезным сбоем в работе сети в течение минувших 20 лет.

CompuCom снизит вероятность отказа дата-центра с помощью облачного сервиса на базе искусственного интеллекта

К счастью, последние недели ознаменовались не только громкими новостями о даунтаймах ЦОД по всему миру. Чтобы снизить вероятность отказов корпоративных и коммерческих дата-центров, компания CompuCom разработала новый облачный сервис на базе искусственного интеллекта, обладающий соответствующим функционалом.

Новый сервис, который работает на базе облака Amazon Web Services (AWS), использует машинное обучение и когнитивные вычисления, чтобы заблаговременно обнаружить проблемы ЦОД и быстро их устранять, минимизируя и даже полностью устраняя вероятность простоя дата-центра.

Тесты показали, что внедрение этого решения позволяет добиться снижения числа внеплановых ситуаций в дата-центре на целых 70 процентов. Кроме того, сервис позволяет сократить затраты на управление инфраструктурой на 30 — 40 процентов, предлагая таким образом серьезную экономию.

Анатомия свежих аварий в ЦОД и новых способ их избежать

Всего комментариев: 0

Оставить комментарий Отменить ответ