Причины падения серверов

04.04.2022
Владимир Евдокимов

Падение сервера – неприятность не только для системного администратора, но и зачастую для всего коллектива. Убытки, прерванный рабочий процесс, несданные отчёты – всех последствий не перечислить. Когда такое случается, главное – не паниковать, а как можно быстрее установить причину неполадки и привести сервер в рабочее состояние. Затем следует проанализировать происшедшее, сделать выводы и принять меры, чтобы подобное больше не повторилось.

Стандартные случаи

Стандартные причины падения серверов зачастую зависят от человеческого фактора, точнее, от жадности. Стоит сэкономить на покупке самых простых деталей, и рано или поздно выяснится, что скупой платит дважды. 

Падение серверной стойки в прямом смысле слова

Если фальшпол под стойкой с серверами неровный – рано или поздно случится беда. Поэтому на установке фальш-пола экономить не рекомендуется. А если фальшпол пришлось вскрыть, после выполнения запланированных работ плиты нужно уложить аккуратно, чтобы они не шатались и не проваливались.

Отказ блока питания после отключения света

Сервер – это очень дорогой компьютер, от бесперебойной работы которого зачастую зависит производственный процесс. Но некоторые умудряются сэкономить на блоке питания. В результате после внезапного отключения электричества сервер может больше не включиться. Чтобы поставить диагноз, иногда достаточно просто принюхаться. Если в воздухе чувствуется запах гари – нужно приступать к поиску перегоревшего «виновника».

Перегрев сервера

Чтобы сервер работал с максимальной отдачей и вообще чувствовал себя «уютно», ему нужно обеспечить постоянную оптимальную температуру (от +18 до +22 °C). Особенно это актуально для маленьких серверных. 

Слишком высокая температура может пагубно сказаться на процессоре, памяти, дисках. Чтобы не пришлось досрочно ремонтировать сервер или покупать новый, нужно позаботиться об эффективном охлаждении. Не стоит экономить на кондиционере.

Отсутствие АВР

Для обеспечения бесперебойной работы сетевого оборудования его с помощью АВР (автоматического ввода резерва) подключают к двум PDU (то есть двум разным лучам). При отключении одного из PDU сетевое оборудование будет питаться от резервной линии. Если АВР отсутствует, то коммутаторы, маршрутизаторы и другие устройства, обеспечивающие работу сети, отключатся вместе с единственным PDU, от которого они питаются.

Использование рабочей станции в качестве сервера

Рабочая станция стоит дешевле сервера, но она и гораздо менее надёжна. Обычный компьютер просто не выдержит нагрузок, которым подвергается сервер. Конечно, в ЦОДе использование рабочей станции в качестве сервера невозможно. Но в небольших компаниях, где на покупке оборудования экономят, вполне можно встретить рабочую станцию в роли, например, сервера 1С. Рано или поздно рабочая станция выйдет из строя, а важные данные будут утрачены.

Человеческий фактор

Сотрудник, допустивший ошибку, не всегда делает это из-за некомпетентности. Любой человек может что-то не так понять, не расслышать или забыть. Поэтому целесообразно составлять служебные записки с указанием точных сроков и видов работ с серверами. Желательно профилактику серверов и другие важные работы выполнять в неслужебное время.

Неправильное подключение какого-либо оборудования в серверной

Периодически проверяя индикацию оборудования, можно предотвратить многие неприятные «сюрпризы». Рекомендуется осматривать, плотно ли вставлены кабели. Важно, чтобы у оборудования с двумя блоками питания светились индикаторы на обоих.

Варианты неправильного подключения оборудования:

— оба кабеля АВР подключены к одному и тому же PDU. В этом случае при отключении основного луча переключения на резервный попросту не произойдёт;

— два блока питания сервера подключены к одному PDU;

— избыточное количество оборудования в стойке, из-за чего приходится в штатном режиме задействовать резервный луч. В результате при отключении основного луча мощностей резервного PDU не хватит на поддержание работы устройств;

— подключение оборудования из одной стойки в соседнюю.

Халатность системного администратора

Инструкции для сисадминов написаны если не кровью, то потом специалистов, которые сутки напролёт восстанавливали информацию, утраченную из-за невыполнения ответственным сотрудником своих обязанностей. Падение сервера может случиться по следующим причинам:

— установка на сервере нелицензионного ПО;

— запуск на сервере сразу нескольких сервисов;

— отключение фаервола или антивирусной программы;

— допуск к работе на сервере посторонних лиц.

Особенно сложно, если падение сервера сопровождается отсутствием резервных копий. Если бэкапы делаются слишком редко, вероятна утрата значительной части баз данных.

Серверы, установленные в ЦОДе, зачастую более надёжно защищены от вирусных и DDoS атак. Специалисты дата-центров имеют большой опыт противодействия внешним угрозам. 

Технические причины

Выйти из строя может любая техника. Однако наибольшей угрозе подвергается оборудование, эксплуатируемое не по правилам или регулярно подвергающееся перегрузкам. Перечислим наиболее распространённые случаи.

Перегрузка устройства АВР

При включении или перезагрузке оборудования происходит всплеск потребления электрического тока. Если устройство АВР в штатном режиме загружено меньше, чем на ¾, оно без проблем перенесёт этот всплеск. При большей загрузке АВР отключится или вообще перегорит.

Выход из строя дисков

Для сервера нужны специальные диски, обычные, предназначенные для рабочих станций, не подходят. Максимальное время использования диска в рейде – 4 года. По истечении этого срока диск следует заменять, даже если он рабочий. В противном случае он может выйти из строя в самый неподходящий момент.

Изношенность аккумуляторов источника бесперебойного питания

В источнике бесперебойного питания используются аккумуляторы, имеющие свойство со временем садиться. ИБП со старыми аккумуляторами не удержит сервер в случае отключения электроэнергии. Из-за резкого перепада напряжения в сервере может быть повреждён любой модуль: от блока питания до процессора или памяти. Поэтому состояние батарей ИБП необходимо периодически проверять.

Перегорание кабелей

Чаще всего перегорают дешёвые, слишком тонкие кабели. Если проводов в серверной много, поиск перегоревшего может занять несколько часов. 

Особенности эксплуатации серверов в дата-центре

Даже если мы классифицировали ситуацию как стандартную или произошедшую по техническим причинам, зачастую виноваты всё-таки люди. Тот, кто отвечает за оборудование. Тот, кто принимает решения о покупке техники. Тот, кто вовремя не позаботился о замене морально устаревших, изношенных или ненадёжных деталей. Тот, кто проявил халатность, вовремя не сделав резервную копию или допустив проникновение в систему вируса.

Чтобы избежать падения серверов, во многих случаях нужен только порядок, неукоснительное соблюдение правил эксплуатации оборудования, строгая дисциплина и компетентность сотрудников. Именно так работают в нашем дата-центре. Мы не экономим на мелочах, строго следим за энергопотреблением оборудования и не допускаем перегрузок. Наши сотрудники обеспечивают круглосуточную работу и поддержку пользователей. В любой ситуации клиентам гарантирована помощь высококвалифицированных специалистов.