Какую компенсацию за аварии ЦОД предложили Google и Telstra?
Согласно результатам исследований консалтинговой компании 451 Group, в среднем около 70 процентов инцидентов, ведущих к снижению безопасности и надежности ЦОД, а также к даунтайму дата-центров, вызваны человеческими ошибками. Это же подтверждают и результаты опроса, проведенного компанией WinMagic. Ее специалисты изучили мнение примерно 1 тысячи операторов ЦОД и выяснили, что большинство респондентов (31%) называют персонал с доступом к серверным фермам самой большой угрозой логической безопасности ЦОД, тогда как хакеры в списке угроз заняли лишь второе место (30%).
Справедливости ради следует отметить, что даунтаймы ЦОД случаются не только из-за пресловутого “человеческого фактора”. Их причинами также могут выступать неспособность критически важных элементов инфраструктуры справиться с нагрузкой из-за заводских дефектов, разул стихии (ураганы, наводнения, землетрясения), перебои в работе центральной электросети и многие другие факторы.
Но в любом случае даунтаймы ЦОД наносят серьезный ущерб не только финансовой составляющей бизнеса той или иной компании. Они вредят бренду. А репутационные потери зачастую восполнить куда сложнее, чем финансовые. Их прямым следствием может выступать серьезное сокращение клиентской базы. Чтобы избежать оттока текущих клиентов и снижения интереса со стороны потенциальных партнеров многие компании предлагают ту или иную компенсацию даунтаймов. Предлагаем вашему вниманию свежие примеры использования такого подхода из практики Google и Telstra.
Google назвал причину 18-минутного простоя своего облака Compute Engine и предложил компенсацию
Чтобы загладить вину перед пользователями за сбой в работе облачной платформы Google Compute Engine, американский поисковый гигант взял на себя обязательство возместить клиентам до 25 процентов их месячных затрат. Глобальный сбой, который длился 18 минут, затронул пользователей облака Google Compute Engine во всех регионах. Это значит, что клиенты не могли переключиться на другой регион в целях смягчения последствий даунтайма. К счастью, Google App Engine, Google Cloud Storage или другие продукты, являющиеся частью платформы Google Cloud, затронуты не были.
В соответствии с официальным пресс-релизом поискового гиганта, который был опубликован на странице сервиса Google Cloud Platform, проблемы начались, когда операторы ЦОД изменили конфигурацию сети. Ранее подобные изменения не сопровождались каким-либо серьезными инцидентами, но на этот раз программное обеспечение для управления конфигурацией сети обнаружило конфликт в недавно установленной конфигурации. В попытке разрешить этот конфликт система попыталась вернуться к предыдущей конфигурации. Тем не менее, возникла ранее не встречавшаяся ошибка, помешавшая сделать это.
Создать заплатку на скорую руку удалось за без малого 20 минут. Но устранить проблему полностью это не помогло. Инженерная команда Google в течение следующих нескольких недель продолжит работать над оптимизацией своих систем, а также обнаружением возможных багов.
«Аттракцион невиданной щедрости» обернулся очередными проблемами для Telstra
В минувшем феврале в дата-центре крупнейшей австралийской телекоммуникационной компании Telstra случился даунтайм, обусловленный вышеупомянутым “человеческим фактором”. Проблемы в ЦОД, на устранение которых ушло около четырех часов, были вызваны действиями неумелого инженера, который перевел неисправный сетевой узел в автономный режим без предварительной активации резервного узла. Из-за этого инцидента мобильная сеть австралийской компании начала работать с перебоями: миллионы клиентов Telstra лишились возможности совершать звонки и оказались не в состоянии получить доступ к услугам передачи данных.
За этим инцидентом последовали еще несколько менее продолжительных. В итоге общее количество отключений мобильной сети Telstra за последние два месяца достигло четырех штук. Чтобы загладить вину перед абонентами на фоне растущего числа жалоб со стороны последних, руководство Telstra решило устроить день бесплатного безлимитного мобильного интернета (Free Data Day). Австралийская телекоммуникационная компания предложила всем абонентом скачивать и загружать данные в течение 24 часов совершенно бесплатно. В итоге клиенты Telstra скачали 2,686 терабайт данных и перегрузили сеть. Это обернулось жалобами на низкую скорость загрузки.
После очередного инцидента представители Telstra поспешили заявить, что инженеры телекоммуникационной компании уже занялись определением узких мест в сетевой инфраструктуре для последующего устранения.
Вместо заключения
Очевидно, что лучше не учиться на собственных ошибках, а извлекать уроки из печального опыта потенциальных конкурентов. Причем ошибки, на которых следует учиться, могут возникать не только на этапе обеспечения близкого к 100 процентам аптайма ЦОД. Они могут появляться и после даунтайма – на этапе предоставления клиентам компенсации за недостаточно высокое качество сервиса. Это наглядно показывает последний пример: даже, казалось бы, безобидное желание выставить себя в лучшем свете перед клиентами вполне может сыграть с “проштрафившейся” компанией злую шутку.
- Alexander: За R718 будущее )
- нет событий, чтобы показывать