Эксплуатация ЦОД. Практическое руководство
Шрифт:
3. Влажность
Влажности уделяется традиционно меньшее внимание. Все знают, что при низкой влажности в зимнее время есть риски повреждения оборудования статическим электричеством. Но это теория, а на практике ЦОД с антистатическими фальшполами и работающим заземлением – не то место, где накапливается статика.
С высокой влажностью борются еще меньше: считается, что система кондиционирования осушает воздух и влажность не может достигнуть пределов, опасных для оборудования. Тем не менее также не стоит доводить влажность до крайних значений.
Например: при запуске одного корпоративного ЦОД стояли четкие сроки начала тестовых испытаний ИТ-систем. К моменту, когда все было готово, система вентиляции и кондиционирования еще не функционировала из-за сложностей с поставками. Тем не менее было принято решение запускать ЦОД без охлаждения, так как изначальная мощность ИТ-оборудования не прогревала пространство ЦОД настолько, чтобы требовалось теплоотведение. При этом влажность была свыше 90 % – характерная для субтропического климата. Спустя несколько месяцев на серверном оборудовании, которое работало в таких условиях, стали появляться «синие экраны смерти». Опытным путем было установлено, что вследствие большой влажности произошло окисление планок памяти. Далее, после запуска систем кондиционирования и вентиляции, такого более не происходило.
На практике влажность трудно поддерживать в заданных режимах. И если вам повезло не иметь ограничений данного параметра в SLA – просто избегайте экстремальных значений в обе стороны, руководствуясь теми же современными требованиями ASHRAE.
Если же в SLA указаны параметры влажности – надо стремиться их соблюдать. Зимой помогают пароувлажнители, летом влага конденсируется на теплообменниках кондиционеров и происходит осушение воздуха. Если на улице экстремальные условия и возможностей системы кондиционирования недостаточно, то остается одно – выключить приточную вентиляцию. К этому способу прибегают нечасто, но он помогает вернуть показатели влажности в рамки SLA, хотя и в ущерб свежести воздуха в серверном помещении.
Определение параметров SLA
При определении параметров SLA следует учитывать сроки реакции ваших поставщиков (например, сервисных компаний, провайдеров) на какое-либо аварийное событие, то есть время реакции поставщика в SLA должно быть меньше времени возможного прерывания сервиса ЦОД для клиента.
На практике это фактически нереально из экономических соображений: чем короче сроки реакции, тем выше стоимость сервисного контракта. Можно даже организовать круглосуточные службы поддержки поставщиками на площадке ЦОД с проживанием, но это приведет к невероятной стоимости контракта.
Что делать в этом случае? Предотвращать возможные проблемы различными компенсирующими мерами.
Например: SLA с компанией, осуществляющей ремонт ИБП, оговаривает срок прибытия в ЦОД в пределах 4 часов, а восстановления – не более 8 часов. У вас выходит из строя один из ИБП, и один из вводов остается без гарантированного питания от ИБП. Какие меры может предпринять служба эксплуатации своими силами, чтобы обеспечить бесперебойную работу в таких условиях?
• Заранее определить компоненты, способные выйти из строя, и иметь их на складе в ЦОД.
• Запустить ДГУ на 8 часов, то есть на максимальное время восстановительных работ по SLA, чтобы второй ввод имел гарантированное питание до момента устранения неисправности.
• Заранее обучить персонал работе с оборудованием и провести тестовые тренировки по ликвидации аварийных ситуаций.
• Применять типы ИБП, позволяющие заменять узлы модулями в горячем режиме, без необходимости отключения оборудования, силами дежурной смены (без выезда сервис-инженера) для экономии средств и времени.
Разумеется, эти действия потребуют подготовительной работы руководителей службы эксплуатации. Но тем самым грамотно и спланированно, при сохранении высокого уровня доступности будет достигнута значительная экономия бюджета – по сравнению со стоимостью контракта с вендором/поставщиком на поддержку такого же уровня.
Служба эксплуатации ЦОД
Прежде всего мы должны установить и определить, что такое служба эксплуатации ЦОД.
Служба эксплуатации – это ключевое структурное подразделение ЦОД, команда которого, эксплуатируя инженерное оборудование и системы согласно действующим нормам, правилам и стандартам, обеспечивает предоставление услуг заранее определенного уровня.
Многие считают, что служба эксплуатации отвечает в ЦОД за все. Это, конечно же, не так. Служба эксплуатации отвечает за работу критически важных инженерных систем, список которых приведен в соответствующей главе. Важно понимать, что служба эксплуатации не отвечает за сети передачи данных (за исключением прокладки и коммутации кабелей) и серверное оборудование с программным обеспечением (за исключением подачи электричества и охлаждения).
Служба эксплуатации ЦОД вообще может не представлять, какие именно данные обрабатываются на серверах, размещенных в ЦОД (особенно актуально для коммерческих ЦОД), но должна понимать совместно с клиентом, что необходимо обеспечить, чтобы эти сервера работали.
Задачи службы эксплуатации ЦОД
В действующем Своде правил (СП) «Здания и сооружения. Правила эксплуатации. Основные положения» можно найти достаточно верное определение службы эксплуатации:
Служба эксплуатации зданий (сооружений) обеспечивает самостоятельно или с привлечением специализированных организаций выполнение комплекса работ по эксплуатационному контролю и обслуживанию зданий (сооружений):
• участие при вводе в эксплуатацию здания (сооружения) с правом визирования документов;
• взаимодействие с организациями, выполняющими монтажные и пусконаладочные работы…;
• поддержание эксплуатационных показателей строительных конструкций зданий (сооружений)…;
• эксплуатационный контроль и обслуживание систем инженерно-технического обеспечения…;
• круглосуточное диспетчерское обслуживание систем инженерно-технического обеспечения и коммуникаций…;
• эксплуатация производственного оборудования…;
• при необходимости создание собственной службы по обеспечению работ по устранению аварийных ситуаций и своевременный вызов аварийных служб в случае невозможности ликвидировать аварийную ситуацию собственными силами;
• исполнение нормативных актов, нормативных документов и технической документации по эксплуатации собственными силами или с привлечением сторонних организаций;