Что такое Disaster Recovery, подробно об аварийном восстановлении

02.08.2024
Цод Миранов

IT-инструменты сегодня прочно вошли в современные реалии ведения бизнеса. Предприниматели внедряют различные программные решения для управления проектами, производством и персоналом. И действительно, с развитием интеллектуальных технологий создание, продвижение, продажа продуктов и услуг вышли на совершенно новый уровень.

Однако чем серьезнее IT-инфраструктура в компании, тем больше от нее зависят процессы и благополучие фирмы. Любые неполадки и нештатные ситуации в работе оборудования или программного обеспечения могут нанести заметный ущерб прибыли и репутации предприятия, уровню сервиса и продуктивности команды. При этом абсолютно защититься от сбоев невозможно, но можно составить план действий по восстановлению своих процессов в случае аварий.

В этом поможет Disaster Recovery Plan (DRP) — инструмент восстановления IT-систем и информации после неполадок любой сложности. Это набор процедур, направленных на сокращение последствий аварий, затрагивающих IT-инструменты фирмы, и поддержки непрерывности рабочих процессов.

При этом неважно, по какой причине произошел сбой, например из-за:

  • человеческого фактора,
  • природных катаклизмов,
  • технических поломок и программных ошибок,
  • сорвавшихся поставок и нарушения договоров партнерами,
  • политических событий и санкций,
  • кибератак и др.

Для чего нужен Disaster Recovery Plan

Чтобы восстановление проходило оперативно и успешно, нужна параллельная IT-система. Ее назначение — резервное хранение данных и образов виртуальных серверов или вспомогательные мощности, чтобы работать на время устранения аварии.

Disaster Recovery, как правило, включает в себя резервную площадку для хранения информации, программные решения для восстановления и план действий.

К DRP обращаются при:

  • отключении электроснабжения оборудования и доступа в Интернет,
  • ошибках сотрудников при эксплуатации IT-систем,
  • действиях злоумышленников,
  • технических поломках и программных сбоях,
  • возникновении пожаров, землетрясений, наводнений,
  • утечках конфеденциальных данных,
  • необходимости соблюдения законодательства в вопросах обеспечения безопасности данных и в других случаях.

Основные цели Disaster Recovery включают в себя:

  • восстановление работоспособности IT-систем,
  • защита данных,
  • минимизация ущерба для репутации компании.

Компания может иметь как физические серверы, так и использовать облачные технологии, применять виртуальные машины. При любом варианте IT-инфраструктуры требуется разработать план восстановления для каждого способа хранения информации. Так риски потери данных и остановки рабочих процессов будут сведены к минимуму.

Disaster Recovery Plan как инструмент непрерывной работы бизнеса

Разным компаниям необходим Disaster Recovery на разных стадиях развития. В общем виде условия для того, что пора задуматься над этой услугой, включают следующие:

  • любой сбой в программной или технической части инфраструктуры IT опасен крупными репутационными, финансовыми и другими потерями;
  • имеется возможность выделить бюджет на резервную систему;
  • в компании работает полноценное IT-подразделение с собственным бюджетом.

Вряд ли целесообразно расходовать средства, если простой IT-системы будет незаметен для работы команды. Тем не менее план действий на случай аварий может быть полезен в любом случае.

Для Disaster Recovery провайдеры предлагают следующие решения и услуги:

  • предоставление дополнительных вычислительных мощностей на отдельной платформе;
  • организация защищенного канала связи для синхронизации данных и настроек;
  • настройка сценария для переключения IT-систем на резервные в случае сбоев.

Разделение основной и резервной систем по разным ЦОДам — основа безопасности IT-инфраструктуры. Между этими системами настраиваются каналы связи, чтобы данные собирались в обеих и резерв всегда был готов к работе в любой момент.

При этом решение DRaaS — аварийное восстановление как сервис — не одно и то же, что услуга бэкапа (резервного копирования данных). 

Бэкап только сохраняет данные в виде копий на случай сбоев. Disaster Recovery же позволяет полноценно продолжить работу в резервной системе на время устранения аварии. Резервная система полностью идентична основной и предоставляет все ее функции, настройки, интерфейсы, а не только данные.Воспользоваться услугами диска для бэкапа или кибер-бэкапа для резервного копирования и восстановления данных можно в компании Miran — ведущем дата-центре, предоставляющем решения для сохранения работоспособности IT-инфраструктур обширного ряда компаний.

Поэтапное аварийное восстановление системы

В общем виде этапы аварийного восстановления IT-систем при неполадках выглядят следующим образом:

  1. Определение спектра систем для восстановления, расчет параметров BIA, RA, RTO и RPO.

Именно расчет BIA, RA, RTO и RPO помогает найти оптимальную стратегию восстановления для каждого объекта IT-системы бизнеса.

RTO (Recovery Time Objective) — допустимое время аварийного восстановления системы.  Параметр отражает период времени, за который необходимо восстановить определенную систему. Например, если RTO 12 часов, то система заработает не позже этого срока. Параметр может составлять даже несколько секунд, к примеру при автоматическом переключении трафика на резервную систему.

Для крупного бизнеса большой RTO может означать значительные потери разного рода.

RPO (Recovery Point Objective) — допустимые потери данных или допустимая точка восстановления. Параметр отражает период времени, за который данные могут быть утеряны при сбое. Например, RPO 1 час означает, что будет потеряна информация не больше чем за 1 час до сбоя. Чем меньше параметр RPO — тем чаще производится резервное копирование данных.

Некоторым компаниям, например банкам, критично потерять данные даже за минуту до аварии, поэтому для них RPO обычно имеет минимальные значения.

BIA (Business Impact Analysis) — анализ воздействия на бизнес. Параметр оценивает ущерб для бизнеса в результате аварии. Расчет BIA учитывает оценку важности систем для бизнеса и распределение средств для их защиты. Все потери выражаются в денежном эквиваленте и сравниваются со стоимостью решений для защиты. Например, привлечение потерянного количества клиентов может быть вдвое дороже, чем услуга резервного копирования данных.

Параметр помогает принять решение о приобретении услуги Disaster Recovery и выбрать приоритетные системы для защиты.

RA (Risk Analysis) — анализ рисков. Параметр отражает возможные проблемы, которые окажут негативное воздействие на бизнес-процессы предприятия при авариях. Зная потенциальные риски, легче найти оптимальные пути для их предотвращения или смягчения. RA также помогает понять, какие воздействия будут наиболее серьезны для компании и с какими системами могут быть связаны.

Расчет параметров RA, BIA, RTO и RPO помогает определить, какие системы нуждаются в защите больше всего и какие инструменты для этого будут самыми эффективными и выгодными.

2.  Разработка Disaster Recovery Plan и его наполнение. 

Disaster Recovery Plan — это документ по восстановлению при авариях, который может включать в себя:

  • стратегию восстановления, содержащую бюджет, ответственных лиц, перечень действий, инструменты для восстановления и доступы к ним;
  • список систем, на которые следует обратить внимание в первую очередь;
  • контакты для правильного взаимодействия с клиентами через СМИ, если авария глобальна и произошла в крупной компании;
  • корпоративные стандарты, чтобы при аварийном восстановлении работоспособности не возникало хаоса.

На этом этапе также могут разрабатываться такие документы, как SLA (Service-Level Agreement, соглашение об уровне услуг между компанией и клиентом) и RumBook (пошаговая инструкция для каждого сотрудника в момент сбоя).

3.  Внедрение DRP и другой документации по аварийному восстановлению системы, их обсуждение и разбор с командой.

Все сотрудники, особенно задействованные в устранении аварии, должны точно знать свои действия и понимать их смысл для наибольшей эффективности работы.

4. Проверка плана, его корректировка и обновление. Проводятся репетиции аварийных ситуаций и обучающие мероприятия для команды. Вносятся изменения в план аварийного восстановления информационной системы для наибольшей эффективности действий сотрудников.