planeaciÓn de la continuidad

PLANEACIÓN DE LA CONTINUIDAD DEL NEGOCIO –

RECUPERACIÓN DE DESASTRES

Planeación de la Continuidad del Negocio (BPC), es un proceso continuo. Son

los planes logísticos para la práctica de cómo una organización debe recuperar

y restaurar sus funciones críticas parcial o totalmente interrumpidas dentro de

un tiempo predeterminado después de una interrupción no deseada o desastre.

El propósito de la continuidad del negocio en casos de desastres es permitir

que una empresa continúe ofreciendo sus servicios críticos en caso de que

ocurra una interrupción y que sobreviva a una interrupción desastrosa de las

actividades. Es necesario contar con una planificación y un compromiso

riguroso de los recursos para proveer tales eventos de forma adecuada.

El primer paso en la preparación de un nuevo plan de continuidad de negocios,

es identificar los procesos de negocio de importancia estratégica, aquellos

procesos claves que son de responsables del crecimiento del negocio y de la

consecución de las metas del negocio.

Basado en los procesos claves, el proceso de gestión de riesgos debería

comenzar con una evaluación de riesgos. El riesgo es directamente

proporcional al impacto sobre la organización y la probabilidad de que ocurra la

amenaza percibida. Por lo tanto, la evaluación de riesgos debería permitir

identificar lo siguiente:

o Los recursos humanos, los datos, los elementos de la infraestructura,

entre otros.

o Una lista de las posibles vulnerabilidades, es decir, los peligros o

amenazas para la organización.

o La probabilidad estimada de que ocurran estas amenazas.

o La eficiencia y eficacia de los controles existentes de mitigación de

riesgos (contramedidas para afrontar riesgos).

La gestión de estos riesgos se aborda en la preparación del Planeación de la

Continuidad del Negocio (BCP).

El BCP, es básicamente responsabilidad de la alta gerencia, debido a que a

ésta se le confió la protección de los activos y la viabilidad de la organización,

tal como se definió en la política. En general, las unidades de negocio y soporte

siguen el BCP, para ofrecer un nivel de funcionabilidad reducido pero suficiente

en las operaciones de negocio inmediatamente después de enfrentar una

interrupción, mientas ocurre la recuperación.

El plan debería tatar todas las funciones y los activos requeridos para continuar

como una organización viable. Esto incluye procedimientos de continuidad

considerados como necesarios para sobrevivir y minimizar las consecuencias

de la interrupción del negocio.

El BCP, toma en consideración lo siguiente:

o Las operaciones críticas que son necearías para la supervivencia de la

organización.

o Los recursos humanos, materiales que los soporta.

Además del plan para la continuidad de las operaciones, el BCP incluye:

El DPR, que se utiliza para recuperar una instalación que se haya vuelto

inoperable, incluyendo la reubicación de las operaciones en una nueva

ubicación.

El plan de restauración que se utiliza para normalizar las operaciones de una

instalación restaurada o nueva. Dependiendo de la complejidad de la

organización, podría haber uno o más planes para tratar los diferentes

aspectos de la continuidad del negocio y la recuperación de desastres.

PLANIFICACIÓN DE LA CONTINUIDAD DEL NEGOCIO –

RECUPERACIÓN ANTE DESASTRES DE SI

En el caso de los planes de continuidad del negocio de SI, el enfoque es el

mismo que en el BCP con la excepción de que esa amenazado por el

procesamiento de SI. El procesamiento de SI es de importancia estratégica, es

un componente crítico porque la mayoría de los procesos clave de negocios

dependen de la disponibilidad de los componentes y los datos de la

infraestructura de sistemas claves.

El plan de continuidad de negocios de SI, debe estar alineado con la estrategia

de la organización. La criticidad de los diferentes sistemas de aplicaciones de

la organización depende de la naturaleza del negocio, así como del valor de

cada aplicación para el negocio.

Un plan de continuidad del negocio de SI es mucho más que sólo un plan para

los sistemas de información. Un BCP identifica lo que el negocio hará en el

caso de un desastre. Un subcomponente del plan de continuidad del negocio

es el plan de recuperación ante desastres de TI. Éste, típicamente detalla el

proceso que el personal de TI utilizará para restablecer los sistemas de

cómputo. Los DRPs pueden estar incluidos en el BCP como un documento

completamente separado, dependiendo de las necesidades del negocio.

Una vez que la evaluación de riesgos identifica la importancia de los

componentes de SI, para la organización de, y las amenazas y las

vulnerabilidades de esos componentes, se puede desarrollar un plan de

acciones correcticas para establecer lo métodos más apropiados para proteger

los componentes. Siempre hay diferentes opciones de mitigación de riesgos

para escoger, bien sea para eliminar la amenaza y/o corregir la vulnerabilidad.

No todos los sistemas requerirán de una estrategia de recuperación. Basada en

los resultados del análisis de riesgo, la gerencia puede no ver una relación

costo-beneficio favorable para restablecer ciertas aplicaciones en el caso de un

desastre. Un factor que se debe tener siempre presente para determinar las

opciones de recuperación es que el costo nunca debe exceder el beneficio.

La calidad de los elementos de SI es esencial para la recuperación ante

desastres de SI. Por lo tanto, se recomienda que la organización implemente

un sistema de gestión de seguridad de la información (ISMS), para mantener la

integridad, confidencialidad y disponibilidad de SI.

DESASTRES Y OTROS EVENTOS QUE PUEDEN CAUSAR

INTERRUPCIONES

Los desastres son interrupciones que ocasionan que los recursos críticos de

información queden inoperantes por un período de tiempo, impactando

adversamente las operaciones organizacionales. La interrupción podría durar

desde varios minutos hasta algunos meses, dependiendo de la extensión de

daño a los recursos de información. Más importante aún, los desastres

requieren esfuerzos de recuperación para restaurar el estado operativo.

Un desastre puede ser causado por calamidades naturales, como por ejemplo,

terremotos, inundaciones, tornados, tormentas eléctricas severas, incendios,

etc. los cuales causan daños importantes a las instalaciones de procesamiento

y a la localidad en general. Otros eventos desastrosos que causan

interrupciones pueden ocurrir cuando los servicios esperados ya no son

proporcionados a la compañía, por ejemplo, el suministro de energía eléctrica,

las telecomunicaciones, el suministro de gas natural u otros servicios provistos

por externos (que pueden o no estar relacionados con un desastre natural). Un

desastre podría también ser causado por eventos precipitados por seres

humanos tales como ataques terroristas, de hackers, virus o error humano.

No todas las interrupciones críticas del servicio son causadas por un desastre.

Por ejemplo, la interrupción del servicio es causada a veces por desperfectos

del sistema, eliminación de archivos por accidentes, versiones de aplicaciones

que no ha sido probada, perdida de los datos de respaldo, intrusiones, virus.

Un buen plan de continuidad del negocio tomará en cuenta todos los tipos de

acontecimientos que impacten tanto en las instalaciones de procesamiento de

los sistemas de información críticos como las funciones organizacionales

normales de operación del usuario final. Para escenarios de peor caso, se

requieren estrategias de marcha atrás de corto y largo plazo. Para el corto

plazo, se puede necesitar una instalación del procesamiento alterno para

satisfacer las necesidades operativas inmediatas, como en el caso de un

desastre natural mayor. En el largo plazo, para recuperación ante desastres, se

debe considerar una nueva instalación permanente, equipada para proveer la

continuidad del servicio de procesamiento de los sistemas de información de

manera regular.

PROCESO DE PLANIFICACIÓN DE CONTINUIDAD DEL

NEGOCIO

El proceso de BCP puede dividirse en las etapas del ciclo de vida siguientes:

1. Creación de una política de continuidad del negocio.

2. BIA. Análisis de Impacto del negocio.

3. Clasificación de las operaciones y análisis de criticidad.

4. Identificación de los procesos de SI que soportan funciones

organizacionales críticas.

5. Desarrollo de un BCP y procedimientos de recuperación ante desastres

de SI.

6. Desarrollo de procedimientos de reanudación.

7. Programa de capacitación y concientización.

8. Prueba e implementación del plan.

9. Monitoreo.

POLÍTICA DE CONTINUIDAD DEL NEGOCIO

Una política de continuidad del negocio es un documento aprobado por la alta

gerencia que define la magnitud y el alcance del esfuerzo de continuidad del

negocio. Esta se puede dividir en dos partes pública e interna.

Su parte interna es un mensaje para las partes interesadas de la organización

por ejemplo: empleados, gerencia, directores de que la compañía realiza

esfuerzos, compromete sus recursos y espera que el resto de la organización

haga lo mismo.

Su parte pública es un mensaje para las partes interesadas externas

(accionistas, reguladores, autoridades, entre otros), de que la organización se

toma en serio sus obligaciones.

Una política de continuidad del negocio debe ser proactiva y abarcar controles

preventivos, de detección y correctivos. El BCP es el control correctivo más

crítico. Depende de que otros controles sean efectivos, en particular la gestión

de incidentes y respaldo de medios.

GESTIÓN DE INCIDENTES DENTRO DE LA PLANEACIÓN DE

CONTINUIDAD DEL NEGOCIO

Un incidente es cualquier evento inesperado, aun cuando no cause daños

significativos.

Dependiendo de una estimación del nivel de daños resultantes a la

organización, todos los tipos de incidentes deben ser clasificados. Un sistema

de clasificación podría incluir las siguientes categorías: sin importancia, menor,

mayor y crisis. La clasificación puede cambiar dinámicamente mientras se

resuelve el incidente. Estos niveles pueden describirse como sigue:

Incidentes sin importancia son los que no causan daños perceptibles o

significativos, como por ejemplo, caídas del sistema operativo (OS) muy breves

con recuperación total de la información o cortes de energía momentáneos con

respaldo de suministro ininterrumpido de energía (UPS).

Eventos menores, son los que, aunque no insignificantes, no producen un

impacto material (de relativa importancia) o financiero negativo.

Incidentes mayores que causan un impacto material negativo sobre los

procesos de negocio y pueden afectar otros sistemas, departamentos o incluso

clientes externos.

La crisis es un incidente mayor que puede tener un impacto material (de

relativa importancia) serio sobre el funcionamiento continuo del negocio y que

puede también tener un impacto adverso sobre otros sistemas o terceros.

Es necesario documentar, clasificar y revisar los incidentes menores, mayores

y de crisis que se corrijan o resuelvan. Es un proceso dinámico, debido a que

un incidente mayor puede disminuir en grado momentáneamente y extenderse

luego para convertirse en una crisis.

ANÁLISIS DEL IMPACTO AL NEGOCIO

El BIA es un paso crítico para desarrollar el BCP. Esta etapa implica identificar

los diversos eventos que podrían tener un impacto sobre la continuidad de las

operaciones y su impacto financiero, humano, legal y de reputación sobre la

organización.

Se debe establecer la criticidad de los recursos de información de:

o Sistemas.

o Datos.

o Redes.

o Software de sistemas.

o Instalaciones.

Hay diferentes métodos para efectuar un análisis del impacto sobre el negocio

(BIA). Uno de los más populares es el método del cuestionario. Este enfoque

implica desarrollar un cuestionario detallado y circularlo a los usuarios clave

tanto en las áreas de TI como de los usuarios finales. La información recopilada

es tabulada y analizada.

Otro método popular es entrevistar a grupos de usuarios clave. La información

recopilada durante estas sesiones de entrevistas es tabulada y analizada para

desarrollar un plan y una estrategia detallada de BIA. Un tercer método es

reunir al personal de TI y usuarios relevantes para llegar a una conclusión

respecto al impacto potencial sobre el negocio de diversos niveles de

interrupción.

Los auditores de SI deben analizar el volumen de transacciones pasadas para

determinar el impacto sobre el negocio si el sistema no estuviera disponible por

un período prolongado de tiempo.

PUNTO DE RECUPERACIÓN OBJETIVO Y TIEMPO DE

RECUPERACIÓN OBJETIVO

El RPO se determina sobre la base de la pérdida de datos aceptable en caso

de una interrupción de operaciones. Ello indica el punto más anticipado en el

tiempo al cual es aceptable recuperar los datos. Por ejemplo, si el proceso

puede permitirse perder los datos hasta cuatro horas antes del desastre,

entonces la última copia de respaldo debería ser hasta cuatro horas antes del

desastre o de la interrupción y por tanto, las transacciones durante RPO y la

interrupción deberán ser ingresadas después de la recuperación (conocido

como “catch-up data” o puesta al día de los datos).

RPO cuantifica efectivamente la cantidad permitida de pérdida de datos en el

caso de interrupción. Es casi imposible recuperar la totalidad de los datos.

Incluso después de ingresar los datos faltantes, algunos todavía se perderán y

a ellos se hace referencia como datos huérfanos.

El RTO (tiempo objetivo de recuperación) se determina sobre la base del

tiempo de inactividad aceptable en caso de una interrupción de operaciones.

Ello indica el punto más anticipado en el tiempo en el que las operaciones de

negocio deben retomarse después del desastre. La siguiente figura, muestra la

relación entre RTO y RPO.

Cuanto más bajo sea el tiempo de recuperación requerido, más elevado será el

costo de las estrategias de recuperación, es decir, si el RPO está en minutos

(pérdida de datos aceptable más baja posible), entonces el MIRROGING o la

duplicación de datos debe implementarse como la estrategia de recuperación.

Si el RTO es menor, entonces el sitio alternativo podría preferirse a un contrato

de hot site.

ESTRATEGIAS DE RECUPERACIÓN

Una estrategia de recuperación identifica la mejor forma de recuperar un

sistema en caso de interrupción, incluyendo desastre y provee orientación

basada en qué procedimientos detallados de recuperación se pueden

desarrollar.

La estrategia apropiada es la que tiene un costo para un tiempo aceptable de

recuperación que también es razonable con el impacto y la probabilidad de

ocurrencia.

Las acciones más efectivas serían:

- Eliminar la amenaza completamente.

- Minimizar la probabilidad y el efecto de la ocurrencia.

Una estrategia de recuperación es una combinación de medidas preventivas,

detectives y correctivas.

La selección de una estrategia de recuperación dependería de:

- La criticidad del proceso del negocio y las aplicaciones que soportan los

procesos.

- Costo.

- El tiempo requerido para recuperarse.

- Seguridad.

Alternativas de Recuperación

Cuando las instalaciones de producción normal no están disponibles, el

negocio puede utilizar instalaciones alternas para sostener procesos críticos

hasta que las instalaciones principales se puedan restaurar. Entre las

instalaciones alternativas más comunes están:

Hot Sites: Se configuran totalmente y están listos para operar dentro de varias

horas. El equipo, red y software del sistema deben ser compatibles con la

instalación primaria que está siendo respaldada. Las únicas necesidades

adicionales son personal, programas, archivos de datos y documentación.

El hot site está destinado para operaciones de emergencia durante un período

limitado de tiempo y no para uso prolongado.

Warm Sites: Están parcialmente configurados, por lo general con conexiones

de red y equipo periférico seleccionado, como por ejemplo, unidades de discos

y otros controladores, pero sin la computadora principal. Algunas veces un

warm site está equipado con una CPU menos potente que la que se usa

generalmente. El supuesto detrás del concepto warm site es que la

computadora puede por lo general obtenerse rápidamente para una instalación

de emergencia y como la computadora es la unidad más cara, dicho acuerdo

es menos costoso que un hot site.

Cold Sites, son instalaciones con espacio apropiado y la infraestructura básica

adecuada para apoyar la reanudación de las operaciones, pero sin incluir

ninguno de los equipos de TI o comunicaciones, programas, datos o soporte de

oficina.

Sitios móviles: Especie de “remolque” especialmente diseñado para ser

transportado rápidamente a un lugar de negocio o a un sitio alterno para

proveer una instalación acondicionada y lista para el procesamiento de

información.

DESARROLLO DE PLANES DE CONTINUIDAD DEL NEGOCIO Y

RECUPERACIÓN DE DESASTRES

Basado en la información recibida del BIA, el análisis de criticidad y la

estrategia de recuperación seleccionada por la gerencia, se debe desarrollar o

revisar un plan detallado de continuidad del negocio y recuperación ante

desastres.

Los diversos factores que se deben considerar mientras se desarrolla/ revisa el

plan son:

- Estar preparado antes de un desastre cubriendo el manejo de

respuestas a incidentes para tratar todos los incidentes que afecten los

procesos del negocio.

- Procedimientos de evacuación.

- Procedimientos para declarar un desastre.

- Las circunstancias bajo las cuales se debe declarar un desastre. Todas

las interrupciones no son desastres, pero un pequeño incidente, si no es

tratado a su debido tiempo o de manera apropiada, puede conducir a un

desastre. Por ejemplo, un ataque de virus no reconocido y contenido a

tiempo puede hacer colapsar toda la instalación de TI.

- La clara identificación de las responsabilidades en el plan.

- La clara identificación de información de los contratos.

- La explicación paso por paso de la opción de recuperación.

- La clara identificación de los diversos recursos requeridos para la

recuperación y operación continúa de la organización.

- El plan debe estar documentado y escrito en un lenguaje sencillo y

comprensible para todos.

ORGANIZACIÓN Y ASIGNACIÓN DE RESPONSABILIDADES

El plan debe identificar los equipos con sus responsabilidades asignadas en el

caso de un incidente / desastre. Para implementar las estrategias que se han

desarrollado para la recuperación del negocio, se debe identificar el personal

de tomas de decisiones de SI y del usuario final. Es una buena idea desarrollar

una matriz sobre la correlación entre los equipos que se necesitan para

participar y el esfuerzo de recuperación/ nivel de interrupción estimado.

OTROS ASPECTOS A TENER EN CUENTA EN EL DESARROLLO

DEL PLAN

La participación de la gerencia es vital para el éxito del BCP. Es esencial para

la identificación de los sistemas, sus tiempos críticos de recuperación

asociados y recursos que necesita para la recuperación.

Las tres divisiones principales que requieren participación en la formulación del

BCP son los servicios de soporte, las operaciones del negocio y el soporte de

procesamiento de información.

La organización completa necesita ser considerada para el BCP y no

solamente el personal TI.

Cuando el plan se formule, se deben incluir los siguientes puntos: Una lista del

personal, con información de contacto, requerido para mantener las funciones

críticas del negocio en el corto, mediano y largo plazo. La configuración de las

instalaciones físicas, escritorios, sillas, teléfonos etc. que se requieren para

mantener las funciones críticas del negocio, en el corto, mediano y largo plazo.

Es decir, componentes de un BCP:

- Personal clave para la toma de decisiones (árbol de llamadas y

directorios). Es un directorio telefónico de las personas que deben ser

notificadas en caso de un desastre o de una catástrofe.

- Respaldo de los suministros requeridos (base de datos, sistemas

operativos, etc.). Se deben considerar todos los suministros necesarios

para la continuidad de las actividades normales del negocio durante el

proceso de recuperación. Procedimientos, formularios y todos los

documentos que se requieran.

- Métodos de recuperación de desastre de las redes de

telecomunicaciones.

- Arreglo redundante de discos independientes.

- Seguros.

Para las fases de planeación, implementación y evaluación del BCP se debe

acordar lo siguiente:

- Las políticas que regirán todos los esfuerzos de continuidad y

recuperación.

- Las metas/ requerimientos/ productos de cada fase.

- Instalaciones alternativas para realizar tareas y operaciones.

- Recursos de información critica a instalar.

- Personas responsables de su ejecución.

- Recursos disponibles para ayudar en la ejecución del plan.

- El cronograma de actividades con las prioridades establecidas.

PRUEBAS DEL PLAN

Se deben realizar las pruebas al PCN para saber si el plan funciona bien o que

partes de este necesitan ser resguardadas. Las pruebas deben ser

programadas durante un tiempo que minimice las interrupciones de las

operaciones normales. Por ejemplo, los fines de semana, en la noche, etc.

Especificaciones:

- Verificar si el BCP es completo y preciso.

- Evaluar el desempeño del personal involucrado en el ejercicio.

- Evaluar la capacitación y concientización de los miembros del equipo de

continuidad que no pertenecen al negocio.

- Evaluar la coordinación entre el equipo de continuidad del negocio y los

proveedores.

- Medir la habilidad y capacidad del lugar de respaldo para llevar a cabo el

procesamiento prescrito.

- Valorar la capacidad de recuperación de los registros vitales.

- Evaluar el estado y la cantidad de equipo y de suministros que han sido

reubicados en el lugar de recuperación.

- Medir el desempeño general de actividades operativas y de

procesamiento de los sistemas de información relacionadas con el

mantenimiento de la entidad de negocio.

La prueba debe simular las condiciones reales de procesamiento.

Ejecución de Prueba: Documentación de resultados, análisis de resultados

(tiempo, cantidad y exactitud), mantenimiento del plan de continuidad/

recuperación (revisión y actualización).

Participación del personal clave del equipo de recuperación.

RESPALDO Y RECUPERACIÓN

Para asegurar que las actividades de un negocio no sean interrumpidas en el

caso de un desastre, se usan medios secundarios de almacenamiento para

almacenar programas y datos asociados para fines de copias de respaldo.

Controles Incluyen:

- Asegurar que la construcción física pueda resistir al fuego / calor / agua

(por dos horas).

- Ubicar la biblioteca lejos de la sala de computadoras, preferentemente a

kilómetros de distancia para evitar que el riesgo de un desastre afecte

ambas instalaciones.

- Asegurar que solo el personal autorizado tenga acceso a la biblioteca y

a los medios fuera de línea.

- Asegurar que se mantenga un inventario perpetuo de todos los medios

de almacenamiento y de los archivos almacenados en la biblioteca.

- Asegurar que se mantenga un registro de información respecto al

contenido, a las versiones y a la ubicación de los archivos de datos.

Seguridad y control de las instalaciones alternas: El sitio alterno de

procesamiento de información debe ser tan seguro y controlado como el sitio

primario. Esto incluye controles adecuados de acceso físico como por ejemplo,

puertas cerradas con cerrojo, ninguna ventana y personal para vigilancia.

La instalación alterna debe poseer el mismo monitoreo y control ambiental

constante que el sitio primario. Esto incluye el monitoreo de humedad, de

temperatura y de aire que lo rodea para logar condiciones óptimas para

almacenar medios ópticos, magnéticos y en papel y, si fuera aplicable, equipo

operativo de cómputo y dispositivos periféricos. Incluido en los controles

ambientales apropiados, está el suministro ininterrumpido de energía operando

sobre un piso falso y con la instalación de detectores de humo y agua

apropiados y un sistema de extinción de incendio probado y en operación.

Respaldos de los medios y de la documentación: Un elemento crucial para el

plan de recuperación para la continuidad de un negocio, en el sitio o en el sitio

alterno, es la disponibilidad de datos adecuados. La duplicación de datos y de

documentación importantes, incluyendo el almacenamiento de dichos datos y

de la documentación de respaldo en el sitio alterno, es un requisito previo para

cualquier tipo de recuperación.

Procedimientos periódicos de copias de respaldo: Tanto los archivos de datos

como el software deben ser respaldados periódicamente, de acuerdo con el

RPO definido. El periodo de tiempo en el que se debe programar la copia de

respaldo

Puede diferir por programa de aplicación o por sistema de software. Por

ejemplo, ciertos sistemas de aplicación que se ejecutan mensualmente en los

cuales los archivos principales o de transacciones se actualizan mensualmente

requerirán que se programen las copias de respaldo después que se ejecute la

producción mensual. Sin embargo, los sistemas operativos o el software de

aplicación que sea actualizado con frecuencia podrán requerir copias de

respaldo semanales. A menudo los sistemas en línea que efectúan el

procesamiento de grandes volúmenes de transacciones requieren de copias de

respaldo cada noche o inmediatamente o utilizan actualizaciones de archivos

maestros espejados en una instalación de procesamiento separada.

planeaciÓn de la continuidad

Documents