Аварии ЦОД – Новости из Японии, Великобритании и США
Согласно результатам восьмого ежегодного опроса операторов и владельцев центров обработки данных (Data Center Survey), проводимого организацией Uptime Institute, индустрия ЦОД сталкивается со снижением уровня надежности инфраструктуры ввиду того, что операторы, проектировщики и строители серверных ферм жертвуют надежностью ради эффективности. Свежий опрос Uptime Institute охватил 9 сотен операторов центров обработки данных и других IT-специалистов из 50 стран.
Опрос показал, что среднее значение коэффициента эффективности использования энергии (PUE) сейчас находится на рекордно низком уровне в 1,58 единицы, в то же время число сбоев в работе ЦОД увеличилась на четверть (на этот раз 31 процент респондентов столкнулись с такими инцидентами по сравнению с 25 процентами годом ранее). При этом серьезность каждого отключения также увеличилась по сравнению с результатами за минувший год.
Более 80 процентов респондентов заявили, что случившиеся в их ЦОД даунтаймы были предотвратимы. При этом ведущими причинами простоев стали «человеческие ошибки», перебои в подаче электроэнергии, отказы сети и ошибки при конфигурировании. И свежие новости Японии, Великобритании и США показывают, что подобные инциденты случаются даже в ЦОД крупных корпораций.
Авария дата-центра Microsoft в США
Софтверный гигант Microsoft опубликовал предварительные результаты расследования инцидента, приведшего к продолжительным перебоям в работе облачных сервисов Azure, которые начались 4 сентября и продолжались несколько дней.
Отключение, первоначально вызванное ударами молнии вблизи центров обработки данных в Техасе, затронуло пользователей во всем мире, а также повлияло на другие сервисы Microsoft, такие как Skype и Office 365.
Утром 4 сентября 2018 года во время урагана в южном Техасе в нескольких местных дата-центрах Azure наблюдались провалы напряжения и перебои в подачи электричества посредством центральной сети. В 08:42 по местному времени молния вызвала значительные скачки напряжения. Это привело к тому, что один дата-центр Azure перешел с центральной электросети на резервный источник электропитания (генераторы), при этом механические системы охлаждения отключились, «несмотря на наличие ограничителей перенапряжений».
Первоначально центр обработки данных смог поддерживать рабочие температуры благодаря аккумулятору холода, который был интегрирован в систему охлаждения. Однако, как только этот ресурс был исчерпан, температура в центре обработки данных превысила безопасные эксплуатационные пороги, и было инициировано автоматическое отключение серверных устройств.
Но температура в ЦОД увеличивалась настолько быстро, что некоторые аппаратные устройства были повреждены, прежде чем их удалось отключить. Значительное количество серверов хранения данных было повреждено, равно как и небольшое количество сетевых устройств и блоков питания. Из-за большого количества поврежденных серверов для восстановления потребовалось много времени. При этом рост нагрузки на другие ЦОД в США из-за неправильной конфигурации автомасштабирования привел к замедлению их работы.
Авария в сетевой инфраструктуре аэропорта Гатвик в Великобритании
Перебои в работе сетевой инфраструктуры телекоммуникационной компании Vodafone привели к хаосу в одном из самых загруженных аэропортов Великобритании, обслужившем 45,6 млн. пассажиров в 2017 году. Речь о воздушной гавани Гатвик, которая является второй по размеру в Лондоне и второй по загруженности в Великобритании после аэропорта Хитроу.
Инцидент произошел 22 августа 2018 года в 8 утра по Гринвичу. Отказ IT-инфраструктуры вынудил сотрудников аэропорта делиться информацией о рейсах с использованием табличек с надписями, раций и мегафонов. Веб-сайт аэропорта оказался недоступен.
В результате отключения тысячи пассажиров не смогли проверить время вылета и узнать номера своих гейтов через интернет. Около 2 сотен человек не попали на самолеты. Но при этом администрации воздушной гавани удалось избежать отмены рейсов. Проблема была ликвидирована лишь спустя восемь часов.
Пожар в строящемся дата-центре AWS в Токио
Этим летом загорелось строящееся здание в токийском пригороде Тама. Местом возгорания стал будущий центр обработки данных AWS, который должен быть запущен в конце этого года. Пожар на строительной площадке AWS продолжался в течение восьми часов. В результате погибло пятеро человек, травмы получили еще 50 человек.
Огонь возник в четырехуровневом подвале здания с тремя этажами над землей и общей площадью в 17,7 тысячи квадратных метров, строящегося в западном пригороде Токио. Строительство здания с кодовым названием «Tama Technology Building» началось в 2016 году и должно было завершиться в октябре года текущего, согласно планам девелопера. Реализация девелоперского проекта осуществлялся строительной фирмой Hazama Ando по заказу компании Mitsui Fudosan, на сайте которой здание упоминается как «офисный центр».
Когда вспыхнул пожар, на месте находилось около 3 сотен рабочих. Четверо мужчин погибли в подвале, тело еще одного строителя впоследствии было найдено на третьем этаже. По словам представителей Токийского пожарного департамента, было повреждено около 5 000 квадратных метров площади здания.
Расследование показало, что возгорание началось после того, как уретановый изоляционный материал воспламенился под воздействием искр, падающих с ацетиленовых газовых горелок, которые использовались для резки стальных каркасов на третьем уровне подвала. Специалисты говорят о том, что пожар был вызван профессиональной халатностью.
Всего комментариев: 0