Чтение онлайн

ЖАНРЫ

Эксплуатация ЦОД. Практическое руководство
Шрифт:

• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?

• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.

• В какой момент надо заказывать материалы на склад? Почему и где это записано?

• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?

• Когда следующая тренировка у дежурного и на какую тему?

• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?

• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?

Методики оценки

В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:

PLAN – установлены ли цели, запланированы ли ресурсы, процессы?

DO – выполняется ли запланированное?

CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?

ACT – есть ли действия по улучшению процесса по выявленным замечаниям?

Применительно к процессу эксплуатации ЦОД приведем простой пример.

Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).

Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:

Проактивность. Есть ли совершенствование процессов, процедур?

Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?

Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?

Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.

Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:

• Facility Operations Maturity Model [33] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.

• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.

33

Schneider electric IT mission critical services & software, inc. 2013.

• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure [34] .

Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.

34

https://uptimeinstitute.com/publications/asset/asset-executive-handbook-risk-management-for-it-infrastructure.

В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.

Персонал службы эксплуатации

Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.

В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).

За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.

Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.

Руководитель должен:

• оценить объем предполагаемой сферы деятельности, наметить необходимый объем документации;

• написать обязательные и полные инструкции, процедуры и т. п.;

• ознакомить сотрудников с документацией;

• провести тренировки по этим инструкциям;

• обучить новых сотрудников, не допустить к работе неготовых сотрудников;

• периодически проверять качество подготовки сотрудников;

• создать условия для работы сотрудников, снабдить их инструментом, одеждой, комфортными местами отдыха и приема пищи во время смены;

• обеспечить комфортный график работы без превышения допустимого уровня переработок, чтобы сотрудники выполняли свои задачи качественно;

• установить четкие критерии оценки успешной работы каждого сотрудника и регулярно отслеживать их выполнение.

Сотрудник в созданных ему условиях должен:

• четко знать свои должностные обязанности и полностью выполнять их;

• знать перечень систем, за которые он отвечает, и принципы работы оборудования этих систем;

Поделиться с друзьями: