Аварии в ЦОД: новости от Google, OVH и Колледжа Саутуэстерн
Март 2020 года оказался очень сложным месяцем для всех, включая субъектов индустрии центров обработки данных. Поскольку из-за пандемии работа и учеба переходят в спальни, гостиные и кухни частных домов и квартир, люди сейчас пользуются интернет-сервисами более активно, чем когда-либо прежде.
Этот стресс-тест выдерживают далеко не все субъекты индустрии центров обработки данных. В последнее время участились новости об авариях в ЦОД, фигурантами которых выступают даже такие гранды как поисковый гигант Google и один из крупнейших в мире поставщиков облачных услуг OVH. Чтобы минимизировать соответствующие риски, нужно помимо прочего изучать опыт прошлый лет. Недавно таким опытом поделалась команда Колледжа Саутуэстерн в США.
Облако Google снова работает с ошибками
31 марта пользователи облака Google Cloud столкнулись с периодическими перебоями в работе продуктов Cloud SQL, Cloud Data Fusion и Cloud Composer. Ошибки, которые наблюдались без малого десять часов, возникли примерно через две недели после того, как инженеры Google сообщили об обнаружении и устранений потенциально опасной ситуации в одном из своих ЦОД
Недавний инцидент, как сообщается, был обусловлен значительным сбоем в работе маршрутизатора в одном из центров обработки данных поискового гиганта, который расположен на юго-востоке США. Этот сбой привел к перегрузке сети.
В результате сервисы Google, обслуживаемые серверами внутри соответствующего центра обработки данных, оказались недоступны. Перебои в работе затронутых инцидентом облачных сервисов наблюдались до тех пор, пока инженеры не перенаправили трафик и не перевели соответствующие нагрузки на альтернативные ЦОД.
Сбой оборудования ЦОД компании OVH затронул многих ее французских клиентов
Французская компания OVH, располагающая рядом ЦОД в Европе и занимающаяся предоставлением облачных и хостинговых услуг, выделенных серверов, регистрацией доменов и организацией VoIP-телефонии, в понедельник 30 марта столкнулась с 40-минутным перерывом в работе своей IT-инфраструктуры.
Даунтаймом были затронуты многие французские клиенты OVH. Согласно официальной информации, причиной инцидента была проблема с сетевым оборудованием во флагманском дата-центре компании, который находится в городе Рубе на севере Франции. Если точнее, сбоить начали коммутаторы типа “top-of-rack”.
Инженеры зафиксировали сбой в 17:01 по местному времени (летнее время в Центральной Европе). Проблемы с сетевой инфраструктурой были устранены к 17:40 по местному времени. Тем не менее, пользователи наблюдали перебои до 7 вечера.
В OVH также отметили, что персонал компании в большинстве своем перешел на уделенную работу и полностью готов к пандемии Covid-19. Все офисы и ЦОД компании по всему миру перешли на удаленную работу еще три недели назад.
Помимо ЦОД во Франции в распоряжении OVH имеются дата-центры в Сиднее, Сингапуре, Варшаве и Франкфурте, а также в американских штатах Вирджиния и Орегон. В своих ЦОД компания использует проприетарную систему жидкостного охлаждения и стоечную инфраструктуру собственной разработки.
Виновным в даунтайме ЦОД при Колледже Саутуэстерн не удалось замять следы
Бывшие и нынешние сотрудники Колледжа Саутуэстерн (США) в интервью американским СМИ заявили, что трудившиеся в ВУЗе IT-специалисты несут полную ответственность за катастрофический даунтайм мини-дата-центра при учебном заведении, случившийся в 2015 году.
При этом отмечается, что соответствующие IT-специалисты попытались отвлечь от себя внимание и для этого подали в суд на компанию-подрядчика Paradigm Mechanical Corporation (PMC), обустраивавшую систему кондиционирования в реконструированном здании ЦОД, пытаясь свалить на нее всю вину.
Отмечается, что халатность IT-персонала выступила триггером череды событий, кульминацией которых стал перегрев наиболее важных серверов колледжа, из-за которого ВУЗ потерял большой объем ценных данных, сгенерированных исследователями и студентами.
Сотрудники финансового отдела колледжа потратили почти год, повторно вводя данные из бумажных документов, извлеченных из хранилища, после того как информация в электронной форме (счета-фактуры и данные о кредиторской задолженности) была потеряна.
Вечером 14 июля 2015 года в серверной комнате произошло временное отключение кондиционера. Серверы колледжа начали перегреваться до температуры, превышающей 130 градусов по Цельсию, что приводило к физическому плавлению основных частей оборудования.
При этом, как было обнаружено в ходе изучения документов и фотографий, а также электронной переписки между бывшим IT-директором Колледжа Саутуэстерн и IT-персоналом, реальной причиной инцидента стало то, что специалисты забыли подключить датчики, предназначенные для предупреждения персонала о небезопасных температурах.
Перед инцидентом блок кондиционирования воздуха, охлаждающий здание с серверами, вышел из строя из-за перебоев в подаче из центрального чиллера охлажденной воды, необходимой для процесса охлаждения.
Виновными было решено сделать сотрудников компании-подрядчика PMC, на которую колледж подал в суд. Судебное разбирательство завершилось лишь 31 сентября прошлого года мировым соглашением.
После этого ряд сотрудников колледжа, имевших доступ к информации на серверах, которые пожелали сохранить анонимность из-за страха возмездия со стороны администрации колледжа, сообщили СМИ, что бывший IT-директор приказал уничтожить как минимум трехмесячную электронную переписку на серверах, которая могла выступать в качестве потенциальных доказательств в судебном процессе.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать