Аварии в ЦОД, и как их избежать – Изучаем опыт OVH и Microsoft
Основной задачей операторов любого ЦОД является обеспечение бесперебойной работы критически важных приложений, обслуживаемых серверами и СХД в этом дата-центре. Тем не менее, незапланированные отключения могут произойти в любых дата-центрах. И они происходят.
Ввиду этого операторам серверных ферм следует проявлять инициативу и заниматься поиском способов профилактики даунтаймов. И никто не запрещает им использовать опыт коллег, а также учиться на их ошибках. Тем более что в открытом доступе периодически появляется соответствующая информация. Так, недавно своим опытом в данной сфере поделились операторы дата-центров OVH и Microsoft.
OVH отказывается от контейнерных дата-центров после масштабного даунтайма в Европе
Быстрорастущий французский поставщик облачных сервисов OVH, который агрессивно отвоевывает европейский рынок у таких гигантов как Amazon и Microsoft, планирует закрыть и разобрать два из трех дата-центров на территории своего кампуса ЦОД в Страсбурге (Франция). Причиной является тот факт, что перебои в подаче электроэнергии привели к отключению всего кампуса ЦОД и вызвали длительное нарушение работоспособности клиентских приложений.
Комментируя этот инцидент, представители компании признали, что причиной даунтайма стали просчеты при проектировании инфраструктуры. Весь кампуса ЦОД запитывается от одной силовой линии 20 кВ. При возведении ЦОД облачный провайдер решил отказаться от стандартной практики и не обеспечил наличия двух избыточных силовых каналов (часто из двух отдельных электрических сетей). Это произошло ввиду того, что ЦОД создавались в спешке (каждый объект возводился за 2 месяца из контейнеров для перевозки грузов). Поэтому после инцидента было решено переоборудовать кампус, отказавшись от контейнерных решений.
Примерно через 40 минут после ухода в офлайн дата-центра в Страсбурге, крупнейший кампус ЦОД этой компании в Рубе, расположенный примерно в 5 сотнях километров от страсбургского, лишился подключения к шести важным точкам присутствия в сети (POP). . В офлайн ушла оптоволоконная сеть, которая соединяет кампус в Рубе с PoP в Париже, Франкфурте, Амстердаме, Лондоне и Брюсселе. Этот инцидент не был связан с отключением ЦОД в Страсбурге – он был вызван ошибкой программного обеспечения, отвечающего за поддержание работоспособности сетевого оборудования.
Данные инциденты могут стать серьезным препятствием для развития компании, рыночная капитализация которой составляет более 1 миллиарда долларов, а также для ее дальнейшего расширения на новые рынки Европы и Северной Америки. Отметим, что ранее в этом году эта компания приобрела облачный бизнес VMware и объявила о строительстве дата-центров в американских штатах Вирджиния и Орегон.
Microsoft запускает симуляцию всей сети Azure для предотвращения сбоев
Софтверный гигант Microsoft для предотвращения подобных сбоев периодически запускает симуляцию всей сети своей облачной платформы Azure. С помощью такого инструмента для оценки потенциального воздействия изменений до их внедрения американская корпорация может более эффективно управлять сетевой инфраструктурой.
По понятным причинам специалисты Microsoft не могут физически реплицировать всю свою сеть для тестирования. Поэтому наилучшим способом обеспечения надлежащего уровня надежности, по их мнению, является симуляция сети. Созданная для решения этой задачи виртуальная копия всей сетевой инфраструктуры Azure была названа в честь хрустального шара, который гадалки могут использовать для своих предсказаний: CrystalNet.
Если верить команде Microsoft Azure, сеть этой облачной платформы состоит из десятков тысяч устройств, которые были получены от многочисленных поставщиков и развернуты по всему миру. На этих устройствах запускается сложное (и, следовательно, подверженное ошибкам) программное обеспечение. Кроме того, инженеры используют сложные конфигурации и постоянно чинят/добавляют/обновляют оборудование и программное обеспечение. Поэтому актуальность разработки инструмента CrystalNet назрела уже давно.
Команда Azure использует CrystalNet в течение шести месяцев, и этот инструмент уже помог предотвратить сразу несколько потенциальных инцидентов. В частности, было обнаружено более 5 десятков ошибок. И некоторые из них могли бы вызвать отключение сетей, которые соединяют дата-центры Microsoft внутри регионов.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать