planeaciÓn de la continuidad
TRANSCRIPT
PLANEACIÓN DE LA CONTINUIDAD DEL NEGOCIO –
RECUPERACIÓN DE DESASTRES
Planeación de la Continuidad del Negocio (BPC), es un proceso continuo. Son
los planes logísticos para la práctica de cómo una organización debe recuperar
y restaurar sus funciones críticas parcial o totalmente interrumpidas dentro de
un tiempo predeterminado después de una interrupción no deseada o desastre.
El propósito de la continuidad del negocio en casos de desastres es permitir
que una empresa continúe ofreciendo sus servicios críticos en caso de que
ocurra una interrupción y que sobreviva a una interrupción desastrosa de las
actividades. Es necesario contar con una planificación y un compromiso
riguroso de los recursos para proveer tales eventos de forma adecuada.
El primer paso en la preparación de un nuevo plan de continuidad de negocios,
es identificar los procesos de negocio de importancia estratégica, aquellos
procesos claves que son de responsables del crecimiento del negocio y de la
consecución de las metas del negocio.
Basado en los procesos claves, el proceso de gestión de riesgos debería
comenzar con una evaluación de riesgos. El riesgo es directamente
proporcional al impacto sobre la organización y la probabilidad de que ocurra la
amenaza percibida. Por lo tanto, la evaluación de riesgos debería permitir
identificar lo siguiente:
o Los recursos humanos, los datos, los elementos de la infraestructura,
entre otros.
o Una lista de las posibles vulnerabilidades, es decir, los peligros o
amenazas para la organización.
o La probabilidad estimada de que ocurran estas amenazas.
o La eficiencia y eficacia de los controles existentes de mitigación de
riesgos (contramedidas para afrontar riesgos).
La gestión de estos riesgos se aborda en la preparación del Planeación de la
Continuidad del Negocio (BCP).
El BCP, es básicamente responsabilidad de la alta gerencia, debido a que a
ésta se le confió la protección de los activos y la viabilidad de la organización,
tal como se definió en la política. En general, las unidades de negocio y soporte
siguen el BCP, para ofrecer un nivel de funcionabilidad reducido pero suficiente
en las operaciones de negocio inmediatamente después de enfrentar una
interrupción, mientas ocurre la recuperación.
El plan debería tatar todas las funciones y los activos requeridos para continuar
como una organización viable. Esto incluye procedimientos de continuidad
considerados como necesarios para sobrevivir y minimizar las consecuencias
de la interrupción del negocio.
El BCP, toma en consideración lo siguiente:
o Las operaciones críticas que son necearías para la supervivencia de la
organización.
o Los recursos humanos, materiales que los soporta.
Además del plan para la continuidad de las operaciones, el BCP incluye:
El DPR, que se utiliza para recuperar una instalación que se haya vuelto
inoperable, incluyendo la reubicación de las operaciones en una nueva
ubicación.
El plan de restauración que se utiliza para normalizar las operaciones de una
instalación restaurada o nueva. Dependiendo de la complejidad de la
organización, podría haber uno o más planes para tratar los diferentes
aspectos de la continuidad del negocio y la recuperación de desastres.
PLANIFICACIÓN DE LA CONTINUIDAD DEL NEGOCIO –
RECUPERACIÓN ANTE DESASTRES DE SI
En el caso de los planes de continuidad del negocio de SI, el enfoque es el
mismo que en el BCP con la excepción de que esa amenazado por el
procesamiento de SI. El procesamiento de SI es de importancia estratégica, es
un componente crítico porque la mayoría de los procesos clave de negocios
dependen de la disponibilidad de los componentes y los datos de la
infraestructura de sistemas claves.
El plan de continuidad de negocios de SI, debe estar alineado con la estrategia
de la organización. La criticidad de los diferentes sistemas de aplicaciones de
la organización depende de la naturaleza del negocio, así como del valor de
cada aplicación para el negocio.
Un plan de continuidad del negocio de SI es mucho más que sólo un plan para
los sistemas de información. Un BCP identifica lo que el negocio hará en el
caso de un desastre. Un subcomponente del plan de continuidad del negocio
es el plan de recuperación ante desastres de TI. Éste, típicamente detalla el
proceso que el personal de TI utilizará para restablecer los sistemas de
cómputo. Los DRPs pueden estar incluidos en el BCP como un documento
completamente separado, dependiendo de las necesidades del negocio.
Una vez que la evaluación de riesgos identifica la importancia de los
componentes de SI, para la organización de, y las amenazas y las
vulnerabilidades de esos componentes, se puede desarrollar un plan de
acciones correcticas para establecer lo métodos más apropiados para proteger
los componentes. Siempre hay diferentes opciones de mitigación de riesgos
para escoger, bien sea para eliminar la amenaza y/o corregir la vulnerabilidad.
No todos los sistemas requerirán de una estrategia de recuperación. Basada en
los resultados del análisis de riesgo, la gerencia puede no ver una relación
costo-beneficio favorable para restablecer ciertas aplicaciones en el caso de un
desastre. Un factor que se debe tener siempre presente para determinar las
opciones de recuperación es que el costo nunca debe exceder el beneficio.
La calidad de los elementos de SI es esencial para la recuperación ante
desastres de SI. Por lo tanto, se recomienda que la organización implemente
un sistema de gestión de seguridad de la información (ISMS), para mantener la
integridad, confidencialidad y disponibilidad de SI.
DESASTRES Y OTROS EVENTOS QUE PUEDEN CAUSAR
INTERRUPCIONES
Los desastres son interrupciones que ocasionan que los recursos críticos de
información queden inoperantes por un período de tiempo, impactando
adversamente las operaciones organizacionales. La interrupción podría durar
desde varios minutos hasta algunos meses, dependiendo de la extensión de
daño a los recursos de información. Más importante aún, los desastres
requieren esfuerzos de recuperación para restaurar el estado operativo.
Un desastre puede ser causado por calamidades naturales, como por ejemplo,
terremotos, inundaciones, tornados, tormentas eléctricas severas, incendios,
etc. los cuales causan daños importantes a las instalaciones de procesamiento
y a la localidad en general. Otros eventos desastrosos que causan
interrupciones pueden ocurrir cuando los servicios esperados ya no son
proporcionados a la compañía, por ejemplo, el suministro de energía eléctrica,
las telecomunicaciones, el suministro de gas natural u otros servicios provistos
por externos (que pueden o no estar relacionados con un desastre natural). Un
desastre podría también ser causado por eventos precipitados por seres
humanos tales como ataques terroristas, de hackers, virus o error humano.
No todas las interrupciones críticas del servicio son causadas por un desastre.
Por ejemplo, la interrupción del servicio es causada a veces por desperfectos
del sistema, eliminación de archivos por accidentes, versiones de aplicaciones
que no ha sido probada, perdida de los datos de respaldo, intrusiones, virus.
Un buen plan de continuidad del negocio tomará en cuenta todos los tipos de
acontecimientos que impacten tanto en las instalaciones de procesamiento de
los sistemas de información críticos como las funciones organizacionales
normales de operación del usuario final. Para escenarios de peor caso, se
requieren estrategias de marcha atrás de corto y largo plazo. Para el corto
plazo, se puede necesitar una instalación del procesamiento alterno para
satisfacer las necesidades operativas inmediatas, como en el caso de un
desastre natural mayor. En el largo plazo, para recuperación ante desastres, se
debe considerar una nueva instalación permanente, equipada para proveer la
continuidad del servicio de procesamiento de los sistemas de información de
manera regular.
PROCESO DE PLANIFICACIÓN DE CONTINUIDAD DEL
NEGOCIO
El proceso de BCP puede dividirse en las etapas del ciclo de vida siguientes:
1. Creación de una política de continuidad del negocio.
2. BIA. Análisis de Impacto del negocio.
3. Clasificación de las operaciones y análisis de criticidad.
4. Identificación de los procesos de SI que soportan funciones
organizacionales críticas.
5. Desarrollo de un BCP y procedimientos de recuperación ante desastres
de SI.
6. Desarrollo de procedimientos de reanudación.
7. Programa de capacitación y concientización.
8. Prueba e implementación del plan.
9. Monitoreo.
POLÍTICA DE CONTINUIDAD DEL NEGOCIO
Una política de continuidad del negocio es un documento aprobado por la alta
gerencia que define la magnitud y el alcance del esfuerzo de continuidad del
negocio. Esta se puede dividir en dos partes pública e interna.
Su parte interna es un mensaje para las partes interesadas de la organización
por ejemplo: empleados, gerencia, directores de que la compañía realiza
esfuerzos, compromete sus recursos y espera que el resto de la organización
haga lo mismo.
Su parte pública es un mensaje para las partes interesadas externas
(accionistas, reguladores, autoridades, entre otros), de que la organización se
toma en serio sus obligaciones.
Una política de continuidad del negocio debe ser proactiva y abarcar controles
preventivos, de detección y correctivos. El BCP es el control correctivo más
crítico. Depende de que otros controles sean efectivos, en particular la gestión
de incidentes y respaldo de medios.
GESTIÓN DE INCIDENTES DENTRO DE LA PLANEACIÓN DE
CONTINUIDAD DEL NEGOCIO
Un incidente es cualquier evento inesperado, aun cuando no cause daños
significativos.
Dependiendo de una estimación del nivel de daños resultantes a la
organización, todos los tipos de incidentes deben ser clasificados. Un sistema
de clasificación podría incluir las siguientes categorías: sin importancia, menor,
mayor y crisis. La clasificación puede cambiar dinámicamente mientras se
resuelve el incidente. Estos niveles pueden describirse como sigue:
Incidentes sin importancia son los que no causan daños perceptibles o
significativos, como por ejemplo, caídas del sistema operativo (OS) muy breves
con recuperación total de la información o cortes de energía momentáneos con
respaldo de suministro ininterrumpido de energía (UPS).
Eventos menores, son los que, aunque no insignificantes, no producen un
impacto material (de relativa importancia) o financiero negativo.
Incidentes mayores que causan un impacto material negativo sobre los
procesos de negocio y pueden afectar otros sistemas, departamentos o incluso
clientes externos.
La crisis es un incidente mayor que puede tener un impacto material (de
relativa importancia) serio sobre el funcionamiento continuo del negocio y que
puede también tener un impacto adverso sobre otros sistemas o terceros.
Es necesario documentar, clasificar y revisar los incidentes menores, mayores
y de crisis que se corrijan o resuelvan. Es un proceso dinámico, debido a que
un incidente mayor puede disminuir en grado momentáneamente y extenderse
luego para convertirse en una crisis.
ANÁLISIS DEL IMPACTO AL NEGOCIO
El BIA es un paso crítico para desarrollar el BCP. Esta etapa implica identificar
los diversos eventos que podrían tener un impacto sobre la continuidad de las
operaciones y su impacto financiero, humano, legal y de reputación sobre la
organización.
Se debe establecer la criticidad de los recursos de información de:
o Sistemas.
o Datos.
o Redes.
o Software de sistemas.
o Instalaciones.
Hay diferentes métodos para efectuar un análisis del impacto sobre el negocio
(BIA). Uno de los más populares es el método del cuestionario. Este enfoque
implica desarrollar un cuestionario detallado y circularlo a los usuarios clave
tanto en las áreas de TI como de los usuarios finales. La información recopilada
es tabulada y analizada.
Otro método popular es entrevistar a grupos de usuarios clave. La información
recopilada durante estas sesiones de entrevistas es tabulada y analizada para
desarrollar un plan y una estrategia detallada de BIA. Un tercer método es
reunir al personal de TI y usuarios relevantes para llegar a una conclusión
respecto al impacto potencial sobre el negocio de diversos niveles de
interrupción.
Los auditores de SI deben analizar el volumen de transacciones pasadas para
determinar el impacto sobre el negocio si el sistema no estuviera disponible por
un período prolongado de tiempo.
PUNTO DE RECUPERACIÓN OBJETIVO Y TIEMPO DE
RECUPERACIÓN OBJETIVO
El RPO se determina sobre la base de la pérdida de datos aceptable en caso
de una interrupción de operaciones. Ello indica el punto más anticipado en el
tiempo al cual es aceptable recuperar los datos. Por ejemplo, si el proceso
puede permitirse perder los datos hasta cuatro horas antes del desastre,
entonces la última copia de respaldo debería ser hasta cuatro horas antes del
desastre o de la interrupción y por tanto, las transacciones durante RPO y la
interrupción deberán ser ingresadas después de la recuperación (conocido
como “catch-up data” o puesta al día de los datos).
RPO cuantifica efectivamente la cantidad permitida de pérdida de datos en el
caso de interrupción. Es casi imposible recuperar la totalidad de los datos.
Incluso después de ingresar los datos faltantes, algunos todavía se perderán y
a ellos se hace referencia como datos huérfanos.
El RTO (tiempo objetivo de recuperación) se determina sobre la base del
tiempo de inactividad aceptable en caso de una interrupción de operaciones.
Ello indica el punto más anticipado en el tiempo en el que las operaciones de
negocio deben retomarse después del desastre. La siguiente figura, muestra la
relación entre RTO y RPO.
Cuanto más bajo sea el tiempo de recuperación requerido, más elevado será el
costo de las estrategias de recuperación, es decir, si el RPO está en minutos
(pérdida de datos aceptable más baja posible), entonces el MIRROGING o la
duplicación de datos debe implementarse como la estrategia de recuperación.
Si el RTO es menor, entonces el sitio alternativo podría preferirse a un contrato
de hot site.
ESTRATEGIAS DE RECUPERACIÓN
Una estrategia de recuperación identifica la mejor forma de recuperar un
sistema en caso de interrupción, incluyendo desastre y provee orientación
basada en qué procedimientos detallados de recuperación se pueden
desarrollar.
La estrategia apropiada es la que tiene un costo para un tiempo aceptable de
recuperación que también es razonable con el impacto y la probabilidad de
ocurrencia.
Las acciones más efectivas serían:
- Eliminar la amenaza completamente.
- Minimizar la probabilidad y el efecto de la ocurrencia.
Una estrategia de recuperación es una combinación de medidas preventivas,
detectives y correctivas.
La selección de una estrategia de recuperación dependería de:
- La criticidad del proceso del negocio y las aplicaciones que soportan los
procesos.
- Costo.
- El tiempo requerido para recuperarse.
- Seguridad.
Alternativas de Recuperación
Cuando las instalaciones de producción normal no están disponibles, el
negocio puede utilizar instalaciones alternas para sostener procesos críticos
hasta que las instalaciones principales se puedan restaurar. Entre las
instalaciones alternativas más comunes están:
Hot Sites: Se configuran totalmente y están listos para operar dentro de varias
horas. El equipo, red y software del sistema deben ser compatibles con la
instalación primaria que está siendo respaldada. Las únicas necesidades
adicionales son personal, programas, archivos de datos y documentación.
El hot site está destinado para operaciones de emergencia durante un período
limitado de tiempo y no para uso prolongado.
Warm Sites: Están parcialmente configurados, por lo general con conexiones
de red y equipo periférico seleccionado, como por ejemplo, unidades de discos
y otros controladores, pero sin la computadora principal. Algunas veces un
warm site está equipado con una CPU menos potente que la que se usa
generalmente. El supuesto detrás del concepto warm site es que la
computadora puede por lo general obtenerse rápidamente para una instalación
de emergencia y como la computadora es la unidad más cara, dicho acuerdo
es menos costoso que un hot site.
Cold Sites, son instalaciones con espacio apropiado y la infraestructura básica
adecuada para apoyar la reanudación de las operaciones, pero sin incluir
ninguno de los equipos de TI o comunicaciones, programas, datos o soporte de
oficina.
Sitios móviles: Especie de “remolque” especialmente diseñado para ser
transportado rápidamente a un lugar de negocio o a un sitio alterno para
proveer una instalación acondicionada y lista para el procesamiento de
información.
DESARROLLO DE PLANES DE CONTINUIDAD DEL NEGOCIO Y
RECUPERACIÓN DE DESASTRES
Basado en la información recibida del BIA, el análisis de criticidad y la
estrategia de recuperación seleccionada por la gerencia, se debe desarrollar o
revisar un plan detallado de continuidad del negocio y recuperación ante
desastres.
Los diversos factores que se deben considerar mientras se desarrolla/ revisa el
plan son:
- Estar preparado antes de un desastre cubriendo el manejo de
respuestas a incidentes para tratar todos los incidentes que afecten los
procesos del negocio.
- Procedimientos de evacuación.
- Procedimientos para declarar un desastre.
- Las circunstancias bajo las cuales se debe declarar un desastre. Todas
las interrupciones no son desastres, pero un pequeño incidente, si no es
tratado a su debido tiempo o de manera apropiada, puede conducir a un
desastre. Por ejemplo, un ataque de virus no reconocido y contenido a
tiempo puede hacer colapsar toda la instalación de TI.
- La clara identificación de las responsabilidades en el plan.
- La clara identificación de información de los contratos.
- La explicación paso por paso de la opción de recuperación.
- La clara identificación de los diversos recursos requeridos para la
recuperación y operación continúa de la organización.
- El plan debe estar documentado y escrito en un lenguaje sencillo y
comprensible para todos.
ORGANIZACIÓN Y ASIGNACIÓN DE RESPONSABILIDADES
El plan debe identificar los equipos con sus responsabilidades asignadas en el
caso de un incidente / desastre. Para implementar las estrategias que se han
desarrollado para la recuperación del negocio, se debe identificar el personal
de tomas de decisiones de SI y del usuario final. Es una buena idea desarrollar
una matriz sobre la correlación entre los equipos que se necesitan para
participar y el esfuerzo de recuperación/ nivel de interrupción estimado.
OTROS ASPECTOS A TENER EN CUENTA EN EL DESARROLLO
DEL PLAN
La participación de la gerencia es vital para el éxito del BCP. Es esencial para
la identificación de los sistemas, sus tiempos críticos de recuperación
asociados y recursos que necesita para la recuperación.
Las tres divisiones principales que requieren participación en la formulación del
BCP son los servicios de soporte, las operaciones del negocio y el soporte de
procesamiento de información.
La organización completa necesita ser considerada para el BCP y no
solamente el personal TI.
Cuando el plan se formule, se deben incluir los siguientes puntos: Una lista del
personal, con información de contacto, requerido para mantener las funciones
críticas del negocio en el corto, mediano y largo plazo. La configuración de las
instalaciones físicas, escritorios, sillas, teléfonos etc. que se requieren para
mantener las funciones críticas del negocio, en el corto, mediano y largo plazo.
Es decir, componentes de un BCP:
- Personal clave para la toma de decisiones (árbol de llamadas y
directorios). Es un directorio telefónico de las personas que deben ser
notificadas en caso de un desastre o de una catástrofe.
- Respaldo de los suministros requeridos (base de datos, sistemas
operativos, etc.). Se deben considerar todos los suministros necesarios
para la continuidad de las actividades normales del negocio durante el
proceso de recuperación. Procedimientos, formularios y todos los
documentos que se requieran.
- Métodos de recuperación de desastre de las redes de
telecomunicaciones.
- Arreglo redundante de discos independientes.
- Seguros.
Para las fases de planeación, implementación y evaluación del BCP se debe
acordar lo siguiente:
- Las políticas que regirán todos los esfuerzos de continuidad y
recuperación.
- Las metas/ requerimientos/ productos de cada fase.
- Instalaciones alternativas para realizar tareas y operaciones.
- Recursos de información critica a instalar.
- Personas responsables de su ejecución.
- Recursos disponibles para ayudar en la ejecución del plan.
- El cronograma de actividades con las prioridades establecidas.
PRUEBAS DEL PLAN
Se deben realizar las pruebas al PCN para saber si el plan funciona bien o que
partes de este necesitan ser resguardadas. Las pruebas deben ser
programadas durante un tiempo que minimice las interrupciones de las
operaciones normales. Por ejemplo, los fines de semana, en la noche, etc.
Especificaciones:
- Verificar si el BCP es completo y preciso.
- Evaluar el desempeño del personal involucrado en el ejercicio.
- Evaluar la capacitación y concientización de los miembros del equipo de
continuidad que no pertenecen al negocio.
- Evaluar la coordinación entre el equipo de continuidad del negocio y los
proveedores.
- Medir la habilidad y capacidad del lugar de respaldo para llevar a cabo el
procesamiento prescrito.
- Valorar la capacidad de recuperación de los registros vitales.
- Evaluar el estado y la cantidad de equipo y de suministros que han sido
reubicados en el lugar de recuperación.
- Medir el desempeño general de actividades operativas y de
procesamiento de los sistemas de información relacionadas con el
mantenimiento de la entidad de negocio.
La prueba debe simular las condiciones reales de procesamiento.
Ejecución de Prueba: Documentación de resultados, análisis de resultados
(tiempo, cantidad y exactitud), mantenimiento del plan de continuidad/
recuperación (revisión y actualización).
Participación del personal clave del equipo de recuperación.
RESPALDO Y RECUPERACIÓN
Para asegurar que las actividades de un negocio no sean interrumpidas en el
caso de un desastre, se usan medios secundarios de almacenamiento para
almacenar programas y datos asociados para fines de copias de respaldo.
Controles Incluyen:
- Asegurar que la construcción física pueda resistir al fuego / calor / agua
(por dos horas).
- Ubicar la biblioteca lejos de la sala de computadoras, preferentemente a
kilómetros de distancia para evitar que el riesgo de un desastre afecte
ambas instalaciones.
- Asegurar que solo el personal autorizado tenga acceso a la biblioteca y
a los medios fuera de línea.
- Asegurar que se mantenga un inventario perpetuo de todos los medios
de almacenamiento y de los archivos almacenados en la biblioteca.
- Asegurar que se mantenga un registro de información respecto al
contenido, a las versiones y a la ubicación de los archivos de datos.
Seguridad y control de las instalaciones alternas: El sitio alterno de
procesamiento de información debe ser tan seguro y controlado como el sitio
primario. Esto incluye controles adecuados de acceso físico como por ejemplo,
puertas cerradas con cerrojo, ninguna ventana y personal para vigilancia.
La instalación alterna debe poseer el mismo monitoreo y control ambiental
constante que el sitio primario. Esto incluye el monitoreo de humedad, de
temperatura y de aire que lo rodea para logar condiciones óptimas para
almacenar medios ópticos, magnéticos y en papel y, si fuera aplicable, equipo
operativo de cómputo y dispositivos periféricos. Incluido en los controles
ambientales apropiados, está el suministro ininterrumpido de energía operando
sobre un piso falso y con la instalación de detectores de humo y agua
apropiados y un sistema de extinción de incendio probado y en operación.
Respaldos de los medios y de la documentación: Un elemento crucial para el
plan de recuperación para la continuidad de un negocio, en el sitio o en el sitio
alterno, es la disponibilidad de datos adecuados. La duplicación de datos y de
documentación importantes, incluyendo el almacenamiento de dichos datos y
de la documentación de respaldo en el sitio alterno, es un requisito previo para
cualquier tipo de recuperación.
Procedimientos periódicos de copias de respaldo: Tanto los archivos de datos
como el software deben ser respaldados periódicamente, de acuerdo con el
RPO definido. El periodo de tiempo en el que se debe programar la copia de
respaldo
Puede diferir por programa de aplicación o por sistema de software. Por
ejemplo, ciertos sistemas de aplicación que se ejecutan mensualmente en los
cuales los archivos principales o de transacciones se actualizan mensualmente
requerirán que se programen las copias de respaldo después que se ejecute la
producción mensual. Sin embargo, los sistemas operativos o el software de
aplicación que sea actualizado con frecuencia podrán requerir copias de
respaldo semanales. A menudo los sistemas en línea que efectúan el
procesamiento de grandes volúmenes de transacciones requieren de copias de
respaldo cada noche o inmediatamente o utilizan actualizaciones de archivos
maestros espejados en una instalación de procesamiento separada.