Чтение онлайн

ЖАНРЫ

Эксплуатация ЦОД. Практическое руководство
Шрифт:

SLA с клиентом чаще всего характеризуется требованиями к параметрам окружающей среды, указанным производителями оборудования и используемым клиентами ЦОД. Эти параметры необходимо учитывать в максимально широком диапазоне, чтобы иметь возможность эксплуатировать оборудование с более строгими параметрами по температуре и влажности.

Также существует OLA (Operational Level Agreement), соглашение об уровне операционного обслуживания, – аналогичный SLA внутренний документ компании, определяющий параметры услуги, оказываемой друг другу внутренними подразделениями компании.

• При соотнесении требований этих документов важно учитывать три аспекта:

• требования к любым SLA должны быть более жесткими по сравнению c OLA;

• требования к SLA ваших подрядчиков и поставщиков услуг должны быть более жесткими или как минимум равными с SLA, заключенными вами с клиентом;

• в договорах с подрядчиками и поставщиками услуг необходимы санкции за нарушение SLA, симметричные санкциям от клиентов ЦОД.

Если данные условия не соблюдаются, это может приводить к негативным событиям. Например, согласно SLA ваш поставщик услуг связи может допускать перерыв в предоставлении услуг на два часа в месяц без санкций, а по SLA с вашим клиентом допустим перерыв лишь в один час; это означает невозможность выполнения условий контракта с клиентом вашего ЦОД.

Отделы внутри компании также взаимозависимы и используют внутренние сервисы, параметры которых должны быть описаны. Важность наличия внутренних задокументированных взаимоотношений с разными отделами трудно переоценить. Несмотря на этот, казалось бы, формализм подхода, у вас будут четкие критерии того объема работы и уровня сервиса, который вы предоставляете другим. Информация не останется на уровне «договоренностей в почтовой переписке» между сотрудниками компании, которые могут ее покинуть и не оставить следов договоренностей. Также, опираясь на задокументированные условия OLA, можно обосновать те или иные затраты на резервирование и уровень обслуживания вашей инфраструктуры.

Например: для корпоративного ЦОД планировалась установка сетевого оборудования одного из вендоров. Выяснилось, что данному оборудованию присущи технологические особенности, а именно – подача охлаждающего воздуха к нему осуществляется от одной боковой стороны к другой, а также низкая температурная устойчивость: при 35 °C уже фиксировался перегрев. Эксплуатационной команде ЦОД пришлось не только демонтировать все боковые стенки уже установленных стоек холодных коридоров, но и понижать температуру подаваемого холодного воздуха до минимально возможной в 16 °C, чтобы сохранить температуру в пределах рабочего диапазона этого сетевого оборудования.

Для ЦОД крайне важно понимать требования SLA с клиентами и, исходя из них, иметь определенные зафиксированные SLA с поставщиками, так как это напрямую влияет на жизнеспособность ЦОД. SLA с поставщиками должны давать возможность ЦОД обеспечить SLA перед клиентами. Поэтому важно иметь фиксированные и прозрачно измеряемые метрики, по которым клиенты могут оценить качество и непрерывность предоставляемых им сервисов ЦОД.

В контексте данной книги мы не будем рассматривать все составляющие SLA между клиентом и ЦОД, так как это в основном коммерческие вопросы. В любом случае в SLA будут присутствовать требования о непрерывности подачи электроэнергии в каком-либо виде, допустимые диапазоны температуры и влажности. Так как это коммерчески значимая информация, все цифры должны иметь различные инструментальные источники подтверждения параметров, указанных в SLA (BMS [20] , поверенные средства измерения и т. д.).

20

BMS (Building Management System) (англ.) – система управления зданием. Прикладная система, позволяющая собирать и анализировать сигналы о состоянии различных инженерных систем здания.

Основные параметры SLA для ЦОД

Обрисуем параметры SLA по отдельности.

1. Подача электроэнергии

Очевидно, что электропитание – самый критичный параметр, который требуется обеспечивать службе эксплуатации. Его потеря или даже ухудшение параметров на доли секунды приводит к отключениям.

Например: в одном из крупных ЦОД были установлены слишком широкие параметры ИБП по допустимому диапазону частоты (50 ± 4 Гц). Это не было отслежено на этапе ПНР, и в итоге при частоте ниже 47 Гц у клиентов стало перезапускаться оборудование при сохранении электропитания в стойке. Сложность выявления этой проблемы заключалась в том, что не все оборудование реагировало на изменения частоты, что не позволяло однозначно идентифицировать проблему на стороне инженерной инфраструктуры ЦОД.

В зависимости от коммерческих условий процент непрерывности подачи электроэнергии может быть разным. Также могут существовать дополнительные условия, по которым предусмотрена ответственность за работу только одного ввода питания или обоих (если вводов питания два).

Тем не менее есть важные моменты, которые службе эксплуатации следует учитывать в любом случае: даже если вы имеете договорные отношения с клиентом о том, что вы обеспечиваете непрерывность только одного ввода из двух (а это стандартное условие для большинства ЦОД), то в случае неверно организованных клиентом подключений внутри стойки с неправильным распределением парных нагрузок часть оборудования может отключаться. Это вызовет негативную реакцию клиентов на работу ЦОД, несмотря на то, что юридически вы будете правы.

Во избежание этого мы рекомендуем:

• проводить информирование клиентов о способах правильного подключения. В качестве соответствующих мер можно предложить размещение информационных плакатов в машинном зале, проведение совместных аудитов подключений с электриком ЦОД;

• обеспечить проактивный мониторинг обычных и парных нагрузок на PDU. Это позволит информировать об угрозе ошибки при приближении к критическим параметрам.

2. Температура

Температура не так критична, как электропитание, и незначительные ее колебания не приведут к немедленной остановке работы ИТ- и телеком-оборудования. Тем не менее это также важнейший параметр ЦОД, зафиксированный в SLA с клиентом.

Традиционно для России и СНГ клиент ЦОД видит этот параметр в пределах температуры 22 ± 2 °C. В современных реалиях производители серверного оборудования расширяют диапазоны приемлемых температур, и этот параметр теоретически может быть увеличен до 26 ± 2 °C. Для его изменения следует избавиться от всего серверного и телекоммуникационного оборудования, требующего прежних параметров, и обновить SLA/OLA в договорах с клиентами.

Так, например, все европейские ведущие колокейшн-провайдеры уже несколько лет работают в новых диапазонах. Это, разумеется, ведет к экономии средств, затрачиваемых на охлаждение, что в пересчете на десятки и сотни мегаватт складывается в весьма значительные суммы.

На наш взгляд, российский консерватизм имеет исторические корни, следуя традиции использования «из поколения в поколение». Зачастую сами клиенты ЦОД не представляют, почему им необходимы именно эти параметры, – они это где-то слышали, прочитали и т. п.

Если посмотреть на эволюционные изменения температур от ASHRAE [21] , можно понять, что когда-то это было действительно актуально, но за прошедшие годы изменилось практически все, кроме сознания людей.

21

ASHRAE (The American Society of Heating, Refrigerating and Air-Conditioning Engineers), Американское общество инженеров в области отопления, охлаждения и кондиционирования воздуха, – американская профессиональная ассоциация, известная своими сборниками рекомендаций по обеспечению надлежащих условий окружающей среды для ИТ-оборудования в ЦОД. В данной книге приведена ссылка на документ 2021 ASHRAE Environmental Guidelines for Datacom Equipment.

Сравнение версий рекомендованных параметров воздуха от 2004, 2008/2011, 2015 и 2021 гг.

Даже если технически возможно повысить температуру охлаждающего воздуха, раз вы представляете коммерческий ЦОД, вы должны будете учитывать настроения клиентов, которые могут выбрать другого провайдера только потому, что «у него холоднее».

С точки зрения службы эксплуатации также лучше тем или иным способом обеспечить более низкую температуру для ИТ-оборудования, так как у вас будет больше времени на реакцию и предотвращение аварий, вызванных перегревом оборудования. В любом случае необходимо помнить о балансе между экономикой и эксплуатацией.

Поделиться с друзьями: