Эксплуатация ЦОД. Практическое руководство
Шрифт:
Несмотря на кажущуюся очевидность того, как следует построить эксплуатацию объекта, ее практическая реализация – весьма нетривиальная задача, успешно решить которую под силу не каждому. В этом ключе данный труд – настоящий подарок для каждого участника отрасли ЦОД.
Эта книга станет незаменимым пособием по организации повседневной эксплуатации ЦОД для их владельцев, технических директоров, руководителей служб эксплуатации, ответственных лиц в данной сфере и линейных сотрудников служб эксплуатации. Учитывая универсальность излагаемых принципов и подходов, книга применима даже шире, нежели исключительно в отрасли ЦОД, – излагаемые знания и практические указания применимы для любых критических объектов.
Константин Королев,
директор по развитию бизнеса
в России и СНГ, Uptime Institute
Введение
Центры обработки данных (ЦОД) приобретают все более важное и критическое значение для повседневной жизни. Особенность их функционирования – беспрерывная и круглосуточная работа. Даже минутные простои могут иметь катастрофические по степени финансового и репутационного ущерба последствия для организации или, в случае отказа каких-либо популярных сервисов, стать заметными по всему миру даже для людей, не связанных с ИТ-индустрией.
По опубликованным данным [1] опросов представителей отрасли, до 79 % респондентов испытывали проблемы, связанные с жизнедеятельностью ЦОД, за последние три года. По нашей собственной десятилетней статистике инцидентов, это число составляет примерно 65 %. Согласно статистическим исследованиям Uptime Institute, 75 % [2] отказов в ЦОД связаны с человеческим фактором. Когда мы только начинали переосмыслять работу службы эксплуатации в 2015 г., эта цифра достигала лишь 70 %.
1
https://uptimeinstitute.com/2021-data-center-industry-survey-results.
2
https://ru.uptimeinstitute.com/professional-services/management-operations.
Человеческий фактор включает в себя ошибки дежурного персонала ЦОД, но, что более важно, также говорит о принятии неверных управленческих решений в отношении подбора сотрудников, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работ по техническому обслуживанию или повседневной деятельности. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности, так как на долю отказов оборудования приходится относительно малая часть инцидентов. Следовательно, целесообразно направлять усилия на устранение большего процента рисков, связанного с человеческими ошибками при эксплуатации. Из них 48 % [3] связано с неверным выполнением процедур, 41 % – с неверно организованными процессами или процедурами.
3
https://uptimeinstitute.com/2021-data-center-industry-survey-results.
При правильно организованной системе эксплуатации, даже с несовершенной инженерной инфраструктурой и незначительным уровнем резервирования, ЦОД может иметь лучшее время беспрерывной работы, чем ЦОД с высоким уровнем резервирования систем, но с плохо выстроенной и организованной эксплуатацией. Недостатки инфраструктуры и низкий уровень резервирования можно компенсировать продуманными организационными мерами.
Мы – команда, которая уже более 10 лет занимается эксплуатацией ЦОД, – хотим поделиться с вами своим опытом организации современной модели эксплуатации ЦОД.
Современный подход к управлению эксплуатацией охватывает не только организацию качественной эксплуатации инфраструктуры ЦОД, но и контроль других сопряженных направлений – ИТ/телеком, службы поддержки, уборки, охраны, порядка доступа и пребывания сотрудников ЦОД, клиентов и подрядчиков на территории ЦОД.
Отметим, что описанная ниже модель эксплуатации даст результат только в случае реального осмысления принципов, описанных в этой книге, адаптации их под ваши процессы и самостоятельного внедрения с каждодневным использованием. В этом случае вы получите самоподдерживающуюся экосистему процессов и документации, позволяющую сохранять информированность сотрудников и качество процессов на уровне, позволяющем пройти любой аудит без предварительной подготовки.
В случае же разового точечного внедрения данной системы с целью пройти конкретный аудит вы, конечно же, достигнете временного результата, но все ваши усилия будут напрасны в долгосрочной перспективе, и каждый новый аудит будет вызывать страх и авральные приготовления как руководства, так и рядового персонала.
Мы также не рекомендуем заказывать услуги по созданию документации службы эксплуатации «под ключ». Это внедрение приведет к аналогичному временному результату. Без участия персонала – как руководящего звена, так и рядовых дежурных сотрудников – это все не будет работать. Важно платить деньги не за готовые формальные документы, а за качественное обучение вашего персонала, который сам уже потом применит полученные знания и создаст все требуемые процессы и инструкции, возможно, даже где-то улучшив предложенную концепцию.
Также следует бороться с формальным подходом к процессам со стороны дежурных инженеров ЦОД. Чаще всего он выражается в некачественном ведении отчетности, недостаточном контроле за работой подрядчиков, заполнении чек-листов не в процессе выполнения задачи, а задним числом (например, обход объекта без чек-листа и заполнение его потом). Руководству требуется вести непрерывный контроль, разъяснительную работу, мотивирование и выборочные проверки качества выполнения процедур дежурными, иначе все усилия руководителей могут быть перечеркнуты отношением сотрудников. А лучшим стимулом является собственный пример. Одновременно надо оценивать внедряемые процедуры и документы на предмет минимизации всего того, что требуется заполнять или отправлять в виде отчета. Новые процессы и документы должны упрощать работу руководителей и сотрудников, а не усложнять ее.
Виды ЦОД
Согласно ГОСТ Р 58811–2020, п. 3.1.13, «Центр обработки данных; ЦОД: Специализированный объект, представляющий собой связанную систему ИТ-инфраструктуры и инженерной инфраструктуры, оборудование и части которых размещены в здании или помещении, подключенном к внешним сетям, как инженерным, так и телекоммуникационным».
С точки зрения процессов под центрами обработки данных (ЦОД) мы будем подразумевать такие ИТ-площадки, которые достигли некоторого объема и зрелости процессов внутри организации, позволяющих организовывать эксплуатацию инженерной инфраструктуры отдельно от ИТ-инфраструктуры. В противном случае, когда поддержкой инженерной инфраструктуры ЦОД по старой памяти продолжает заниматься команда ИТ-отдела, это малоэффективно.
Наилучшее решение здесь – использование услуг колокации.
Колокация, колокейшн (от англ. colocation, сокращенно colo) – услуга, состоящая в том, что провайдер услуги размещает оборудование клиента в своем дата-центре, подключает его к электричеству, обеспечивает обслуживание и подключение к каналам связи с высокой пропускной способностью [4] .
Данная услуга востребована, так как для поддержания инженерной инфраструктуры ЦОД неспециализированной ИТ-компании потребуется достаточно большое количество непрофильных для нее процессов и специалистов, таких как электрики, механики и т. д.
4
https://ru.wikipedia.org/wiki/Колокация, с изменениями.
По построению инфраструктуры и организации эксплуатации ЦОД условно можно разделить на три категории:
• Корпоративные ЦОД. Для внутренних ИТ-нужд организаций.
• Гиперскейл-ЦОД [5] , дата-центры крупных интернет-компаний, мировых лидеров ИТ-индустрии.
• Колокейшн-провайдер ЦОД [6] . Коммерческие дата-центры.
Корпоративные ЦОД в большинстве случаев относительно просты по уровню резервирования и обслуживания. Круг решаемых задач очевиден и формулируется заранее, что позволяет выбрать, например, однотипное оборудование с низкими требованиями к параметрам окружающей среды. У таких ЦОД лишь один внутренний клиент, с которым достаточно просто договориться об остановке ЦОД для проведения каких-либо работ. Естественно, есть корпоративные ЦОД, отказ которых может быть видимым для всех, и к таким ЦОД предъявляются самые жесткие требования по инженерной структуре и бесперебойной работе. Но обычно это характерно лишь для достаточно крупных организаций, а в остальных случаях корпоративный ЦОД – просто «серверная комната».
5
От англ. hyperscale, букв. «сверхмасштабные»; обладающие весьма значительными площадями и ресурсами по сравнению с другими центрами обработки данных и имеющие возможность сравнительно быстрого наращивания площадей и ресурсов. Часто также называются «гипермасштабируемые ЦОД».
6
От англ. colocation provider, букв. «поставщик услуг совместного размещения». Часто можно встретить также названия «многопользовательский ЦОД» в русскоязычной среде и multi-tenant data center (MTDC) в англоязычной среде.