Аварии в ЦОД: новости из Южной Кореи, Гаити, Ирландии и США
Центры обработки данных играют все более важную роль в мировой экономике, поддерживая критически важную инфраструктуру и обеспечивая продуктивную работы множества смежных отраслей. К сожалению, аварии в ЦОД периодически случаются, несмотря на огромные инвестиции в обеспечение надежности IT-систем и вспомогательного оборудования внутри серверных ферм. Справедливость данного утверждения доказывает наш свежий тематический дайджест, охватывающий известия из Южной Кореи, Гаити, Ирландии и США.
Пожар в сеульском ЦОД, обслуживающем мессенджер Kakao, вызвал громкое разбирательство
15 октября в 15:30 по местному времени в южном пригороде Сеула загорелся ЦОД. Соответствующая серверная ферма, состоящая из двух зданий общей площадью 6,7 тыс. квадратных метров в городке Пангё недалеко от центра столицы Южной Кореи, принадлежит компании SK Group.
Пожар, как сообщается, начался в помещении с аккумуляторным оборудованием на третьем этаже здания по адресу 46 Pangyo-ro. Инцидент привел к длительным перебоям в обслуживании пользователей крупнейшего интернет-портала и наиболее популярной южнокорейской поисковой системы Naver, а также популярного во всем азиатском регионе мессенджера Kakao, затронув все слои корейского общества.
Огонь внутри введенного в эксплуатацию в 2016 году ЦОД, который был построен совместными усилиями инженеров IBM и SK Group, был потушен поздно вечером в тот же день. Но перебои в работе сети Kakao продолжались в течение всего следующего дня, затрагивая многочисленные сервисы компании, включая систему мобильных платежей Kakao Pay, транспортное приложение Kakao T, Kakao Games, портал веб-сайта Daum, музыкальный сервис Melon и, что важнее всего, непосредственно платформу обмена сообщениями KakaoTalk.
Последней пользуется подавляющее большинство населения Южной Кореи. По разным подсчетам, постоянная аудитория сервиса в 51-миллионной стране составляет от 43 до 47 миллионов. Данный инструмент считается «практически частью национальной коммуникационной инфраструктуры», со слов местных политиков. Как следствие, отключение сервисов Kakao затронуло финансы и транспорт в Южной Корее.
Неудивительно, что в связи со случившимся южнокорейское правительство объявило о намерении допросить глав двух соответствующих интернет-компаний, а также руководство владеющей центром обработки данных SK Group.
В частности, президент Южной Кореи Юн призвал провести детальное расследование причин аварии, а также сделать все возможное для предотвращения повторного даунтайма. Политик дополнительно поручил правительственным ведомствам помочь в ликвидации последствий катастрофического сбоя и призвал руководителей Kakao, Naver и SK Group объясниться.
Две основные политические партии Южной Кореи – правящая Партия народной власти (ПНП) и основная оппозиционная Демократическая партия Кореи (ДПК), выступая совместно, призвали к встрече с лидерами трех компаний, затронутых инцидентом. Как сообщает The Korea Times, лидеры обеих партий назвали действия Kakao «халатностью» и пригрозили принять законы, регулирующие деятельность интернет-корпорации.
Как показало предварительное расследование, после обнаружения огня подача электроэнергии в здании была немедленно отключена. Пожар удалось потушить примерно через восемь часов. О пострадавших не сообщается.
Несколько экспертов раскритиковали команду Kakao, апеллируя к отсутствию процедур аварийного восстановления на случай возможного даунтайма ЦОД. Критики дополнительно отмечают, что за последние несколько лет пользователи сервиса KakaoTalk также столкнулись с несколькими другими сбоями.
Комментируя ситуацию, представители Kakao отметили, что команда компании попыталась осуществить восстановление данных, но не смогла завершить данную процедуру, поскольку инженеры не ожидали, что власти примут меры предосторожности и отключат электричество в горящем здании ЦОД: «Мы начали процесс репликации данных после пожара, но нам помешало неожиданное отключение электропитания. Все наши данные реплицируются, но это занимает много времени, поскольку данных очень много».
Вице-президент Kakao Ян Хён-Сео признал, что компания не была готова: «Мы оказались недостаточно подготовлены к сбою всей серверной инфраструктуры из-за пожара. Возникли экстраординарные сложности, так как впервые в истории было отключено 32 000 серверов. Перемещение трафика на дополнительные серверы заняло много времени».
Поскольку Kakao заявляет, что пострадали 32 тыс. серверов, данный инцидент вполне может стать крупнейшим пожаром в ЦОД за всю историю. Предыдущий анти-рекорд установил колокейшн-провайдер OVHcloud, принадлежащий которому дата-центр SBG2 в Страсбурге, Франция, оказался охвачен огнем в начале 2021 года, в результате чего пострадало около 30 тыс. серверов.
Впоследствии генеральные директора Kakao Намкуна Вона и Хон Ын-Тэка сделали совместное заявление по поводу инцидента, отметив, что у компании все же имеется резервная инфраструктура на случай чрезвычайных ситуаций, а данные распределены между несколькими ЦОД.
Топ-менеджеры заявили о создании «комитета экстренного реагирования», состоящего из трех подгрупп, которые займутся расследованием причин, мерами противодействия авариям и компенсацией. Комитет будет консультироваться с внешними экспертами. Учитывая, что пожар произошел в стороннем ЦОД, требования о компенсации, скорее всего, будут предъявлены SK Group.
Известно, что серверы Kakao сегодня размещены внутри дата-центра SK Group, где произошел пожар, и еще одного ЦОД, принадлежащего KT (Korea Telecom), в Мок-донге, Сеул. Компания строит собственный дата-центр в Ансане, в 30 км к югу от Сеула, и надеется открыть его в следующем году (2023). За выходные, на которые пришелся инцидент, цена акций Kakao упала с 51 до 48 южнокорейских вон.
Интернет-компания Naver, кажется, пострадала не настолько сильно, так как оперативно переместила нагрузку в собственный дата-центр в Чунчоне . Компания сообщила о сбое в работе сервиса покупок Shopping Live и восстановила услуги за несколько часов из резервной копии за пределами ЦОД, охваченного огнем. Цена ее акций не изменилась.
Aer Lingus требует компенсации за хаос в ирландском ЦОД, приведший к отменам авиарейсов
Ирландский авиаперевозчик Aer Lingus потребовал компенсации от своего провайдера IT-услуг Kyndrl, за хаос в дата-центре, из-за которого в начале осени были отменены многочисленные рейсы авиакомпании.
Отмена рейсов произошла 10 сентября и была вызвана строительными работами, в результате которых оказался поврежден оптоволоконный кабель, что привело к сбою систем регистрации пассажиров и контроля посадки. Сообщается об отмене более 6 десятков рейсов, чем воспользовался главный конкурент Aer Lingus в лице регионального лоукостера Ryanair.
Расследование инцидента в ЦОД компании Kyndrl, являющейся бывшим подразделением IBM, показало, что причиной стала неисправность резервного сетевого оборудования. После ухода инфраструктуры ЦОД в офлайн у авиакомпании не было доступа к информации о пассажирах в течение десяти часов.
Чтобы еще больше усложнить ситуацию, конкурирующая авиакомпания Ryanair предложила рейсы по эксклюзивной цене в 100 евро (98 долларов) пассажирам Aer Lingus, застрявшим в Дублине, Корке и Шенноне.
Директор по корпоративным вопросам Aer Lingus Донал Мориарти подтвердил, что перевозчик требует от Kyndryl компенсации как для себя, так и для своих клиентов, затронутых данным инцидентом. В Aer Lingus не раскрыли информацию о размере финансового ущерба, но сообщается, что речь идет о «миллионах евро».
Kyndryl была создана как дочерняя компания IBM для развития инфраструктуры ЦОД в 2021 году. В ноябре того же года компания завершила отделение от IBM. Согласно ее официальному веб-сайту, в число партнеров Kyndryl входят AWS, Cisco, Dell Technologies, Google Cloud, Lenovo, Microsoft, Nokia и Oracle.
Twitter теряет ключевой дата-центр из-за сильной жары в Калифорнии
5 сентября арендованный Twitter центр обработки данных в Сакраменто, штат Калифорния (США), ушел в офлайн из-за сильной жары в регионе. Компании удалось избежать простоя своей платформы, перенеся рабочие нагрузки в центры обработки данных, находящиеся в Атланте и Портленде. В Twitter отметили, что если бы один из резервных дата-центров вышел из строя, веб-сайт социальной сети тоже бы ушел в офлайн.
Во внутреннем отчете отмечается, что беспрецедентная жара привела к полному отключению физического оборудования в ЦОД. Комментируя ситуацию, бывший глава службы безопасности компании Пейтер Затко заявил, что у Twitter «недостаточное резервирование IT-инфраструктуры”, добавив, что «даже временное отключение сразу нескольких ЦОД, используемых Twitter, вероятно, приведет к уходу сервиса в офлайн на недели, месяцы или навсегда».
В конце лета и начале осени 2022 года Калифорния переживала рекордную жару, которая перегружала энергосистему, создает опасность для жизней местных бездомных и делая леса более подверженными пожарам. Многие операторы ЦОД, работающие в данном регионе, где в течение трехлетнего периода наблюдалась засуха, включая Verizon, оказались вынуждены полагаться на резервное электропитание.
Гаитянские ЦОД ушли в офлайн из-за протестов против повышения стоимости топлива
15 сентября пропускная способность интернет-инфраструктуры Гаити существенно сократилась из-за повреждения нескольких магистральных оптоволоконных кабелей на фоне народных протестов против рекордной инфляции и резкого роста цен на топливо. Перебои в работе сетевой инфраструктуры привели к уходу в офлайн нескольких местных ЦОД. Интенсивность трафика по всей стране снизилась на 66 процентов относительно обычного уровня, по данным службы отслеживания сбоев в интернете NetBlocks.
Расследование инцидента показало прямую связь между народными волнениями и повреждением магистрального оптоволокна. Телекоммуникационные компании возложили ответственность на протестующих.
«В некоторых районах многие из наших линий оптоволокна оказались сильно повреждены деревьями, срубленными для строительства баррикад. Кабели рядом с дорогами, где протестующие рыли канавы по тем же причинам, также оказались затронуты. […]Выявлено минимум семь обрывов оптического волокна, влияющих на качество обслуживания, ремонт которых оказался затруднен из-за баррикад», — заявили представители компании Digicel, обслуживающей гаитянский рынок.
«Напоминаем населению, что компания продолжит делать все возможное, чтобы ее клиенты могли оставаться на связи в этой сложной ситуации, и пользуемся случаем, чтобы попросить население внести свой вклад в защиту инфраструктуры», — добавили в Digicel.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать