Дождь внутри дата-центра Facebook

20 июня 2013

FacebookМожет показаться, что операторам дата-центров Facebook, построенных собственными силами компании, не приходится ломать голову, устраняя последствия многочисленных внештатных ситуаций, так как они работают с самой продуманной и высокотехнологичной IT-инфраструктурой современности. Но на самом деле все не так безоблачно (в буквальном смысле), как кажется на первый взгляд. Согласно данным The Register, внутри машзала ЦОД в Прайнвилле, штат Орегон (США), в недалеком прошлом сформировалось самое настоящее облако, после чего на серверные стойки полился дождь.

Инцидент имел место в летом 2011 года. Дождь лил в течение нескольких минут. Справедливости ради отметим, что представители Facebook ранее уже намекали на этот инцидент, сообщив о проблемах с «регулированием уровня влажности» в своем первом центре обработки данных. Однако вице-президент социальной сети по развитию инфраструктуры Джей Парик в ходе недавнего интервью The Register признался, что пару лет назад внутри дата-центра появились два облака: одно обслуживало социальную сеть, а из другого лилась вода.

«Мне позвонили и говорят: «Джей, в центре обработки данных появилось облако, » заявил Парик. «Я спросил, что они имели в виду: «Какое облако? Снаружи?» А в ответ: «Нет, внутри!» Началась паника. В нашем дата-центре шел дождь».

Проблема возникла из-за амбициозной безчиллерной системы кондиционирования воздуха внутри дата-центра. В отличие от традиционных аналогов, которые интенсивно используют электроэнергию, холодильные агрегаты на базе технологии прямого испарения (которые, собственно и используются в ЦОД Facebook) позволяют добиться заметного снижения эксплуатационных расходов, постоянно поддерживая низкий уровень температуры. Данная технология применяется в дата-центров многих интернет-гигантов, таких как Google, Facebook и Microsoft.

Уже в течение первых летних месяцев после ввода в эксплуатацию дата-центра в Прайнвилле у его операторов возникла проблема: баг в системе управления зданием (Building-Management System; BMS) обернулся тем, что воздух с высокой температурой и низкой влажностью из “горячих” коридоров непрерывно рециркулировал через систему испарительного охлаждения на базе воды, которая использовалась для его охлаждения, — это означало, что когда воздух возвращался в “холодный” коридор, который направлял его к серверам, он был настолько влажным, что возникал эффект конденсации.

Вот как в 2011 году представители Facebook описали проблему (довольно «сухо», нужно сказать):

…В результате этого температура внутри “холодного” коридора превысила уровень в 27 градусов по Цельсию (80 °F), а относительная влажность превышала 95%. Серверы, созданные в рамках инициативы Open Compute, которые были развернуты в этом дата-центре, мгновенно отреагировали на эти экстремальные изменения. Мы наблюдали многочисленные перезагрузки серверов, несколько машин автоматически отключились из-за отказа блоков питания…

Некоторые серверы полностью вышли из строя из-за короткого замыкания в блоках питания. По словам Парика, в течение нескольких минут операторы ЦОД могли слышать шипение машин Facebook, микросхемы внутри которых повиновались бескомпромиссным законам физики. Но операторы дата-центра и инженеры соцсети извлекли уроки из ошибок. В настоящее время серверы компании содержат дополнительный изоляционный материал рядом с компонентами системы электропитания (Парик называет эту доработку «резиновым дождевиком»).

Компания также улучшила свою систему управления зданием, чтобы баг не мог проявить себя вновь. Сейчас дата-центры Facebook являются одними из наиболее эффективных в индустрии, иногда обходя аналоги от Google.

Всего комментариев: 0

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *