Эксплуатация ЦОД. Практическое руководство
Шрифт:
• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?
• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.
• В какой момент надо заказывать материалы на склад? Почему и где это записано?
• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?
• Когда следующая тренировка у дежурного и на какую тему?
• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?
• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?
Методики оценки
В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:
• PLAN – установлены ли цели, запланированы ли ресурсы, процессы?
• DO – выполняется ли запланированное?
• CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?
• ACT – есть ли действия по улучшению процесса по выявленным замечаниям?
Применительно к процессу эксплуатации ЦОД приведем простой пример.
Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).
Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:
• Проактивность. Есть ли совершенствование процессов, процедур?
• Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?
• Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?
Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.
Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:
• Facility Operations Maturity Model [33] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.
• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.
33
Schneider electric IT mission critical services & software, inc. 2013.
• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure [34] .
Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.
34
https://uptimeinstitute.com/publications/asset/asset-executive-handbook-risk-management-for-it-infrastructure.
В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.
Персонал службы эксплуатации
Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.
В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).
За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.
Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.
Руководитель должен:
• оценить объем предполагаемой сферы деятельности, наметить необходимый объем документации;
• написать обязательные и полные инструкции, процедуры и т. п.;
• ознакомить сотрудников с документацией;
• провести тренировки по этим инструкциям;
• обучить новых сотрудников, не допустить к работе неготовых сотрудников;
• периодически проверять качество подготовки сотрудников;
• создать условия для работы сотрудников, снабдить их инструментом, одеждой, комфортными местами отдыха и приема пищи во время смены;
• обеспечить комфортный график работы без превышения допустимого уровня переработок, чтобы сотрудники выполняли свои задачи качественно;
• установить четкие критерии оценки успешной работы каждого сотрудника и регулярно отслеживать их выполнение.
Сотрудник в созданных ему условиях должен:
• четко знать свои должностные обязанности и полностью выполнять их;
• знать перечень систем, за которые он отвечает, и принципы работы оборудования этих систем;