dell powervault md3600f/md3620f - guide de conception...

30
Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance Page i Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Upload: hathuy

Post on 16-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page i

Dell PowerVault

MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page ii

LE PRÉSENT LIVRE BLANC EST FOURNI À TITRE INFORMATIF UNIQUEMENT. IL PEUT CONTENIR DES ERREURS TYPOGRAPHIQUES AINSI QUE DES INEXACTITUDES TECHNIQUES. LE CONTENU EST FOURNI EN L'ÉTAT, SANS GARANTIE EXPRESSE NI IMPLICITE D'AUCUNE SORTE.

© 2011 Dell Inc. Tous droits réservés. La reproduction de ce document de quelque manière que ce soit sans l'autorisation expresse écrite de Dell Inc. est strictement interdite. Pour plus d'informations, contactez Dell.

Dell, le logo DELL et le badge DELL, PowerConnect et PowerVault sont des marques de Dell Inc. Microsoft et Windows sont des marques ou des marques déposées de Microsoft Corporation aux États-Unis et/ou dans d'autres pays. D'autres marques ou noms de produits peuvent apparaître dans le présent document en référence aux entités revendiquant la propriété de ces marques et produits ou à leurs produits. Dell Inc. renonce à tout droit de propriété sur les marques et noms de produits autres que les siens.

Juin 2011

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page iii

Résumé Ce guide explique la façon de concevoir une solution de reprise après sinistre en utilisant la fonctionnalité de réplication à distance équipant les baies de stockage Dell MD36X0F. Il présente également un certain nombre de points à prendre en compte avant la conception d'une solution de reprise après sinistre robuste. Enfin, il contient des instructions, des pratiques d'excellence ainsi que des règles importantes.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 1

Table des matières Résumé ......................................................................................................................................................... iii

Réplication à distance des baies Dell PowerVault MD3600F/MD3620F (MD36X0F) -

Présentation .................................................................................................................................................. 3

Avantages de la réplication à distance des baies PowerVault MD ................................................... 3

Considérations relatives à la conception ................................................................................................. 4

Pourquoi mettre en place une réplication de données ? ................................................................... 4

Mise en conformité ...................................................................................... 4

Sauvegarde centralisée ................................................................................. 4

Reprise après sinistre .................................................................................... 4

Combien coûte la mise en place d'une solution DR ? ......................................................................... 5

Stockage ................................................................................................... 5

Réseau SAN ................................................................................................ 5

Réseau LAN ................................................................................................ 6

Réseau WAN ............................................................................................... 6

Licences logicielles ...................................................................................... 6

D'un point de vue réaliste, combien de temps la mise en place prend-elle ? ............................... 6

Quelle est la capacité de stockage nécessaire ? ................................................................................. 6

Hiérarchisation et qualification des données ........................................................ 7

Le datacenter du site de récupération est-il équipé de la fonctionnalité de réplication à

distance ? ................................................................................................................................................... 8

Quelle est la distance séparant le site principal du site de récupération ? ................................... 8

De quelle quantité de bande passante ai-je besoin pour la liaison des données ? ....................... 8

La restauration fait-elle partie de la solution ? .................................................................................. 9

Qu'en est-il des procédures de sauvegarde ? ..................................................................................... 10

La solution DR répond-elle aux besoins de stockage actuels et à venir ? ..................................... 10

Quel mode de réplication utiliser ? ..................................................................................................... 10

Instructions de mise en place .................................................................................................................. 11

Détermination de la taille des baies de stockage MD36X0F ............................................................ 11

Détermination de la taille de la baie de stockage principale ................................... 11

Détermination de la taille de la baie de stockage de récupération ........................... 12

Performances réseau .............................................................................................................................. 13

Collecte d'informations d'E/S ........................................................................ 13

Latence .................................................................................................. 14

Bande passante ......................................................................................... 15

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 2

Crédits de mémoire tampon.......................................................................... 15

Autres considérations relatives au réseau ......................................................... 15

Considérations relatives à l'application .............................................................................................. 16

Taille de bloc des E/S ................................................................................. 16

Disposition de la base de données/du système de fichiers ...................................... 16

Fichiers temporaires/brouillons et espaces de table ............................................ 16

Amélioration de la solution de reprise après sinistre .......................................................................... 17

Mise en place de la capture d'instantanés et de la copie sur disque virtuel dans une

solution DR ............................................................................................................................................... 17

Instantanés .............................................................................................. 17

Copie sur disque virtuel ............................................................................... 18

Sauvegardes ............................................................................................................................................. 18

Considérations relatives aux tests .......................................................................................................... 19

Tests de performances ........................................................................................................................... 19

Tests de basculement et de restauration ........................................................................................... 19

Services ........................................................................................................................................................ 20

Conclusion ................................................................................................................................................... 20

Annexe A - Réplication à distance de bases de données pour une reprise après sinistre ............. 21

Que faut-il répliquer dans une base de données ? ............................................................................ 21

Méthode n°1 : tout répliquer ........................................................................ 21

Méthode n°2 : répliquer uniquement les fichiers journaux ..................................... 21

Groupe de cohérence ............................................................................................................................. 22

Autres considérations relatives à la base de données ...................................................................... 23

Annexe B - Terminologie des opérations de reprise après sinistre ................................................... 24

Figures

Figure 1. Distance séparant les sites .................................................................................................. 14

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 3

Réplication à distance des baies Dell PowerVault MD3600F/MD3620F (MD36X0F) - Présentation

La réplication à distance (ou fonctionnalité RR - Remote Replication) est une fonctionnalité intégrée aux baies MD36x0f qui permet de faire transiter à distance des données entre plusieurs baies de stockage MD36x0f. Il s'agit d'une fonctionnalité Premium facultative qui nécessite une activation, une configuration et, dans le cas d'opérations de réplication normales, une administration et un contrôle. Ces deux dernières tâches ne demandent que peu de temps et de ressources humaines, et peuvent être automatisées à l'aide de scripts.

Avantages de la réplication à distance des baies PowerVault MD • Réplication de type SAN : la réplication de données entre disques virtuels principaux et secondaires

est gérée par les baies de stockage MD36X0f et totalement transparente au niveau des applications et des machines hôtes.

• Modes de réplication : la fonctionnalité RR prend en charge les modes de réplication synchrone, asynchrone et asynchrone avec cohérence d'ordre d'écriture. Ces modes permettent aux administrateurs de choisir la méthode de réplication qui répond le mieux à leurs besoins en matière de protection, de distance et de performances.

• Changement dynamique du mode de réplication sans arrêter la réplication : les utilisateurs peuvent changer de mode de réplication à tout moment. Grâce à cette fonctionnalité, les administrateurs peuvent s'adapter aux besoins changeants en termes d'applications et de bande passante, sans affecter la protection des données.

• Facilité d'utilisation : les administrateurs informatiques peuvent activer la réplication sur l'interface graphique utilisateur ou l'interface de ligne de commande du logiciel MDMS (Modular Disk Management System, système de gestion sur disque modulaire). Une fois activée, la fonctionnalité RR se gère à l'aide du plug-in vCenter, de l'interface de ligne de commande ou de l'interface graphique utilisateur du logiciel MDMS. Ces outils sont disponibles gratuitement.

• Plusieurs relations de réplication : une connexion de réplication n'est pas limitée à un système RR principal et à un système RR distant. En règle générale, chaque baie de stockage MD36X0f sur laquelle la fonctionnalité RR Premium facultative est installée et activée peut être avoir le rôle de système principal, de système secondaire ou les deux. Jusqu'à 16 relations de réplication sont prises en charge.

• Arrêt et reprise : la fonctionnalité RR permet d'arrêter la réplication via la commande Suspend (arrêt). Dans certains cas, elle permet également d'arrêter automatiquement la réplication (arrêt du groupe de cohérence, réplication asynchrone lorsque la bande passante de la liaison est dépassée).

• Inversion des rôles/Basculement : la fonctionnalité RR permet l'inversion des rôles des disques virtuels primaire et secondaire dans le cas d'une reprise après sinistre.

• Accès à la réplique en lecture seule (comprend la capture d'instantanés) : la fonctionnalité RR permet l'utilisation des données distantes avant un sinistre sans sacrifier la protection des données du site principal.

Pour plus d'informations sur les aspects fonctionnels de la réplication à distance des baies Dell PowerVault MD36X0F, consultez le document Réplication à distance des baies Dell PowerVault MD36X0F - Guide de fonctionnement. La suite du document présente les facteurs à prendre en compte avant la mise en place d'une solution de réplication à distance.

REMARQUE : reportez-vous à l'annexe B pour consulter les définitions des termes clés utilisés dans ce document.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 4

Considérations relatives à la conception Il est nécessaire de résoudre certains points de conception critiques avant de mettre en place une solution de reprise après sinistre (solution DR - Disaster Recovery) avec réplication à distance :

• Pourquoi mettre en place une réplication à distance ? • Combien coûte la mise en place d'une solution de réplication à distance ? De quelle infrastructure ai-

je besoin ? • Quels sont les objectifs de reprise (objectifs de point de récupération, objectifs de temps de

récupération et plans de continuité de l'activité) en cas de sinistre ?

• Comment mes décisions affecteront-elles la croissance à venir et les procédures de sauvegarde actuelles ?

• Quelle est la distance recommandée entre le site principal et le site secondaire ? • Quelle est la quantité de données à répliquer ? Faut-il répliquer l'intégralité des données ou

seulement une partie d'entre elles ? Pourquoi mettre en place une réplication de données ? Il y a trois bonnes raisons de répliquer des données (n'oubliez pas que la réplication de données n'est qu'un composant d'une solution de plus grande envergure), chacune impliquant un ensemble d'exigences et de tâches d'intégration différentes.

• Mise en conformité • Sauvegarde centralisée • Reprise après sinistre

Mise en conformité Nombre d'initiatives de mise en conformité sont motivées par la réglementation (HIPPA et Sarbanes/Oxley (SOX) aux États-Unis ou Bâle (BAL) en Europe, par exemple) et sont fortement prioritaires du fait des responsabilités toujours croissantes qu'elles impliquent.

Les normes de conformité SOX et HIPPA exigent une solution de reprise après sinistre rapide. En fonction de la taille de l'entreprise et de la complexité de son activité, des sauvegardes sur bande régulières effectuées hors site ou la réplication en temps réel d'enregistrements de transactions permettent de respecter cette exigence. La période d'arrêt suivant un sinistre ne doit, pour cela, pas dépasser quelques minutes.

Sauvegarde centralisée La réplication à distance peut faire partie d'une solution de sauvegarde centralisée. Elle constitue une solution viable pour centraliser les sauvegardes d'entreprises disposant de plusieurs sites de production, mais d'un seul site de sauvegarde.

Reprise après sinistre Il est également possible de disposer d'un site de sauvegarde centralisée comme site de reprise après sinistre, mais il faut alors prévoir des mesures de sauvegarde autres que la réplication pour mettre en place une réelle capacité de reprise après sinistre.

REMARQUE : si la réplication de données à distance n'est pas requise, la capture d'instantanés et la copie sur disque virtuel pour créer des copies physiques ponctuelles sur une baie de stockage constituent une alternative à la réplication entre baies de stockage. Ces outils de réplication sont

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 5

particulièrement utiles dans le cadre de tests d'applications ainsi que de migration et d'exploration de données.

Combien coûte la mise en place d'une solution DR ? Un certain nombre de facteurs contribuent au coût général d'une solution DR (stockage, distance, réseaux SAN, LAN, WAN, etc.), mais le plus important est la distance de transfert des données. Pour une certaine capacité de données, le coût de la solution augmente avec la distance séparant les baies de stockage MD36X0F principale et secondaire utilisées pour répliquer les données.

Les exigences en matière de distance dépendent du niveau de protection. Par exemple, si les données sont répliquées sur un site de récupération se trouvant dans le même bâtiment, la solution assure une protection contre les pannes de la baie MD36X0F principale, de la salle informatique contenant l'autre baie MD36X0F et de l'étage du bâtiment contenant la salle informatique. Cette approche assure une protection contre la plupart des pannes auxquelles l'entreprise peut avoir à faire face.

En revanche, si les données sont répliquées vers un autre bâtiment se trouvant dans la même ville, la solution assure alors une protection supplémentaire contre les sinistres impliquant l'ensemble du bâtiment contenant la baie MD36X0F principale. Toutefois, cette solution s'avère plus chère du fait d'un coût de liaison supérieur entre les deux systèmes. De même, si le site de récupération se trouve dans une ville éloignée, la solution offre une protection supplémentaire mais son coût est également plus élevé. La conception de la solution doit tenir compte de ce point. De son côté, Dell peut apporter son aide pour évaluer le rapport entre les coûts liés à la distance et le niveau de protection.

Stockage Le coût total d'une solution DR inclut un composant de stockage important. Non seulement le nombre de baies de stockage nécessaires (ainsi que le stockage utilisé) double dans le meilleur des cas, mais les ressources d'infrastructure requises au niveau des réseaux SAN augmentent également. Les fonctionnalités Premium des baies MD36X0F s'ajoutent au coût total de la solution (la réplication à distance est nécessaire sur chacune des baies de stockage, la capture d'instantanés et la copie sur disque virtuel sont, quant à elles, recommandées sur les deux appareils).

Réseau SAN Un réseau SAN est nécessaire à la fois sur le site principal et sur le site de récupération.

Si de tels réseaux sont déjà en place, certains points de leur conception doivent faire l'objet d'une attention toute particulière pour vérifier qu'il n'existe aucun point de défaillance entre les baies de stockage répliquées. Cela peut impliquer l'ajout de commutateurs supplémentaires. S'il est tentant de vouloir réduire les coûts au niveau du site de récupération, la solution DR risque de ne pas fournir les résultats escomptés en cas de mauvaise configuration de ce site, tout particulièrement s'il doit rester en ligne pendant une période prolongée. Comme indiqué précédemment, le site principal peut être indisponible pour la restauration suite à un sinistre pendant une période prolongée (voire ne jamais redevenir disponible).

Par ailleurs, si une défaillance provoque une perte des capacités de réplication du site de récupération et si le site principal est victime d'une panne ou d'un sinistre avant la reprise de la réplication, la solution DR ne pourra pas atteindre ses objectifs de point de récupération et de temps de récupération. La seule façon d'éliminer un tel risque consiste à s'assurer que le site de récupération est configuré pour une haute disponibilité (comparable à celle du site principal). Une analyse de l'impact professionnel contribue à détecter et à résoudre des problèmes potentiels de ce genre.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 6

Réseau LAN Pour concevoir une solution réellement durable, il peut être nécessaire d'ajouter des composants au réseau LAN. Par exemple, des commutateurs, des routeurs et/ou des concentrateurs supplémentaires. Des capacités de gestion supplémentaires peuvent également se montrer nécessaires pour assurer un contrôle et une gestion appropriés du réseau LAN. Réseau WAN Il s'agit généralement du composant le plus cher de la solution, principalement du fait qu'il implique un coût récurrent. Bien qu'il soit possible de réduire les coûts d'un réseau WAN en mettant en place la solution avec une bande passante moins importante que ce que vous aura recommandé votre ingénieur commercial Dell, la solution ne fonctionnera pas comme initialement prévu et vous n'obtiendrez pas les résultats escomptés, tout en exposant l'ensemble du projet aux risques de défaillance (et aux coûts très élevés qui y sont liés). Il est très important de prendre en charge la solution avec la bande passante réseau recommandée.

Licences logicielles L'intérêt d'une solution DR étant de faciliter un basculement rapide des applications vers un site de récupération distant, l'entreprise doit obtenir les licences logicielles permettant de prendre en charge ce processus de basculement. Ces coûts peuvent s'ajouter à ceux de la solution.

D'un point de vue réaliste, combien de temps la mise en place prend-elle ? La planification, la conception, la mise en place et les tests d'une solution DR ne sont pas des opérations qui peuvent être effectuées en une seule semaine. Il est recommandé de prévoir une longue période ne serait-ce que pour les évaluations et les tests. Pour réduire la complexité et accélérer la période de mise en place du projet dans son ensemble, Dell recommande de diviser la solution DR en plusieurs phases, telles que celles suggérées ci-dessous, et de gérer une phase à la fois.

Phase 1 : la première phase de réplication des données consiste à assurer une protection appropriée des données. En elle-même, cette opération n'est pas une reprise après sinistre, mais elle constitue une étape cruciale pour y parvenir et se met en place relativement rapidement, surtout en cas d'utilisation de services professionnels. De plus, elle apporte d'autres avantages, comme une meilleure conformité et une progression vers une sauvegarde centralisée.

Phase 2 : outre la protection des données, la reprise après sinistre nécessite que le basculement des serveurs hôtes assure la connexion aux données du site de récupération, de sorte qu'il soit possible d'accéder à ces serveurs et aux données via le réseau.

Phase 3 : il est également nécessaire de consacrer du temps et des ressources humaines pour tester la solution dans son intégralité.

Quelle est la capacité de stockage nécessaire ? Cette question est très importante. La réponse dépend des points suivants :

• Quelle est la quantité de données mises en ligne aujourd'hui et à quelle vitesse cette quantité est-

elle censée augmenter ? • Quelle est la quantité de données actuelles devant être répliquées ? • Le nombre de paires de disques virtuels et d'images (copies de disques virtuels) devant être gérées.

N'oubliez pas que chaque disque virtuel et chaque image physique nécessitent la même capacité de stockage que le disque virtuel de données source. Par comparaison, un instantané nécessite généralement très peu de capacités supplémentaires. Il est recommandé d'avoir recours à la capture

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 7

d'instantanés (si cela est approprié) pour créer des images logiques afin de réduire les coûts des capacités de stockage.

Il est nécessaire de déterminer la taille des baies de stockage du site principal et du site de récupération lors de la mise en place initiale (et de prendre en compte tous les disques virtuels source et les images), puis d'ajouter les capacités supplémentaires à chaque système pour une augmentation future des données. Ne pas anticiper cette augmentation peut entraîner une obsolescence rapide de la solution de reprise après sinistre. Il est important de savoir que les exigences en matière de capacités des disques et des performances associées augmentent généralement de 10 à 15 % par trimestre. Hiérarchisation et qualification des données La hiérarchisation et la qualification des données facilite et rend plus efficace la prise de décision en matière de capacités de stockage. Hiérarchisez les données à répliquer en fixant des objectifs de point de récupération et de temps de récupération. Pour la plupart des entreprises, les différents types de données présentent différents niveaux de valeur commerciale et, dans le cadre d'une reprise après sinistre, ils doivent avoir des objectifs de point de récupération et de temps de récupération différents.

Les types de données professionnelles vont généralement de simples répertoires et fichiers utilisateur à des journaux, index et tables de base de données complexes. Chaque type de données dispose de ses propres exigences en matière d'intégrité et de récupération. Pour assurer une récupération réussie, il est important de bien comprendre les types de données à répliquer et les exigences associées.

Partir du principe que toutes les données ont la même valeur et tenter de les répliquer de manière égale dans le cadre d'une reprise après sinistre n'est généralement pas réaliste. La plupart des entreprises jugent approprié de mettre en place des objectifs de point de récupération et de temps de récupération différents. La réplication des données doit être hiérarchisée par valeur de données (qui se traduit en objectif de point de récupération) par rapport au temps de récupération (objectif de temps de récupération). C'est là que l'analyse de l'impact professionnel prend toute son importance.

Il est important que les diagrammes des structures, des schémas et des relations de données soient documentés au niveau du site de récupération de manière à ce qu'ils soient rapides d'accès suite à un sinistre (en cas de besoin). Ces diagrammes doivent inclure tous les composants des fichiers, des répertoires et des bases de données que la solution DR doit protéger. De plus, il est nécessaire de disposer de diagrammes détaillant (logiquement et physiquement) la façon dont les données sont disposées au sein des baies de stockage et dont elles sont connectées aux serveurs et aux applications.

Bien comprendre la disposition des données actuelles contribue à détecter certains problèmes potentiels avant de devoir effectuer une récupération et à réduire la probabilité de problèmes associés pouvant survenir de manière imprévue pendant ou après la récupération.

En cas de modification prévue de l'une ou l'autre des relations ou de planification d'une migration des données, il est nécessaire de prendre en compte ces informations dans la solution DR afin d'allouer suffisamment de temps et de ressources à ces tâches.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 8

Le datacenter du site de récupération est-il équipé de la fonctionnalité de réplication à distance ? L'une des étapes clés lors de la conception d'une solution DR consiste à évaluer le datacenter du site de récupération. Une solution DR réussie ne peut tolérer aucun imprévu lors de la tentative de récupération. Voici certains points importants à prendre en compte :

• Quel est le matériel disponible ? • Le matériel est-il approprié pour gérer la récupération et reprendre le fonctionnement des

applications ciblées après leur basculement ? • Le matériel doit-il être amélioré ? • Quelles sont les performances à prévoir une fois la récupération terminée ? • De quel logiciel approprié sous licence le site dispose-t-il ? • Les logiciels ont-ils besoin d'être mis à niveau ? • Quelles sont les installations d'alimentation et de refroidissement disponibles ? • Comment le personnel nécessaire peut-il accéder au site de récupération ? • Quelles installations sont disponibles pour le personnel qui n'est pas sur site ? • Le réseau doit-il être partagé (au détriment de son débit) ?

Quelle est la distance séparant le site principal du site de récupération ? L'une des étapes les plus importantes lors de la conception d'une solution DR consiste à planifier la distance que les données répliquées doivent parcourir pour aller d'un site à l'autre. Plus cette distance est grande, plus les lois de la physique deviennent problématiques et plus les défis techniques imposés par la réplication à distance deviennent complexes. Par exemple, si elle est inférieure à 1 mile, l'infrastructure sera totalement différente que si elle est de 50 miles. Les coûts de mise en place et de fonctionnement seront, eux aussi, largement différents. Comprendre et surmonter ces défis est un point crucial dans la conception et la mise en place d'une solution réussie.

Pour certains secteurs, comme la banque, ce sont les réglementations gouvernementales qui imposent les distances minimales entre les sites. Pour d'autres, ce sont les coûts d'un haut débit réseau approprié qui constituent la première priorité. Dans certains cas, il est également important de tenir compte des conditions spécifiques à la situation géographique. Par exemple, en Californie du sud, le site de récupération doit se trouver sur une plaque tectonique différente de celle du site principal. À Londres, en revanche, le site de récupération peut se trouver à quelques rues de distance pour pouvoir assurer une reprise en cas d'attaque terroriste ou d'incendie. Il est également nécessaire de tenir compte des possibilités d'inondation et du besoin d'installer les sites sur des réseaux électriques différents.

De quelle quantité de bande passante ai-je besoin pour la liaison des données ? L'exigence en matière de bande passante pour la réplication des données est un autre facteur important pour une solution DR réussie. Si elle est inappropriée, la solution échouera.

L'exigence en matière de bande passante pour la liaison de données comprend la quantité de données à répliquer et le débit nécessaire pour obtenir des performances acceptables. Étant donné que la quantité de données à répliquer augmentera vraisemblablement de manière rapide, le débit doit pouvoir s'adapter de façon dynamique afin de répondre à des besoins futurs. Voici certaines des questions à se poser :

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 9

• Quelle est la bande passante minimale recommandée par Dell pour obtenir des performances appropriées en fonction de la distance séparant les sites et de la quantité de données à répliquer initialement ?

• Quel est le taux de croissance prévu des données répliquées ? • Quelle est la bande passante minimale recommandée par Dell pour gérer la croissance prévue des

données ? • Si les données sont répliquées vers un site existant, quelle est la quantité de bande passante

disponible actuellement ? Est-elle partagée ? Si c'est le cas, quelle portion est disponible pour cette réplication ? Qu'en sera-t-il plus tard ?

• L'augmentation de la quantité de bande passante est-elle prévue ? Si ce n'est pas le cas, que faut-il faire pour la planifier ?

Si la liaison des données s'interrompt pour quelque raison que ce soit, la réplication s'arrête tant que la liaison n'est pas rétablie. Cela nécessite que les paires de disques virtuels soient resynchronisées (c'est-à-dire à nouveau répliquées intégralement) avant de pouvoir être utilisées dans le cadre de la récupération, ce qui implique une période assez longue qui dépend d'un certain nombre de facteurs. Un bon plan de reprise après sinistre prévoit une bande passante réseau suffisante pour limiter le temps de resynchronisation.

La restauration fait-elle partie de la solution ? L'objectif d'une solution DR consiste à permettre un basculement des applications sélectionnées vers un site de récupération qui n'est pas affecté de manière critique par le sinistre. Pour restaurer le fonctionnement intégral de l'activité suite à un sinistre, la restauration vers le site principal ou le basculement vers un troisième site (selon l'état du site principal) peut se montrer nécessaire. C'est une considération importante à prendre en compte lors de la conception de la solution DR.

La restauration ajoute à la conception de la solution DR de nouvelles exigences qui affectent la mise en place et les tests de la solution. Par exemple, elle ajoute la possibilité de perte de transactions hors du cadre de la reprise après sinistre. Les données dont l'objectif de point de récupération est inférieur à zéro risquent d'être perdues lors d'un basculement de reprise après sinistre et lors de la restauration. Cette dernière provoque également une deuxième période d'arrêt des applications, leur restauration prenant un temps défini. L'entreprise dont donc être préparée à gérer ces différents points.

Le moyen le plus simple et le plus utilisé pour mettre en place une restauration consiste à inverser le processus de réplication d'avant le sinistre. En cas de besoin d'une restauration planifiée (comme l'évacuation d'une zone à l'approche d'un ouragan), l'arrêt des serveurs sur le site principal, l'arrêt puis l'inversion du sens de la réplication sont des opérations permettant un basculement et une restauration rapides.

La restauration est plus complexe si le basculement est déclenché par une panne imprévue, car il est alors nécessaire de restaurer une copie intégrale de la base de données de récupération sur le site principal avant la reprise de l'activité. Cela est dû au fait que les serveurs du site principal ont des chances d'être en cours de fonctionnement au moment de la panne, ce qui entraîne une désynchronisation des deux images de la base de données. Il n'existe aucun moyen pratique de fusionner les deux images et de garantir l'intégrité des données, c'est pourquoi il est nécessaire de désigner l'un des sites comme site maître et d'écraser les données de l'autre avec l'image du site maître.

L'un des problèmes principaux est le temps que prend la réplication de restauration : dans certains cas, elle peut prendre des jours, voire des semaines, surtout si la taille de la base de données a augmenté de manière substantielle depuis le basculement. La révision régulière des exigences en termes de temps

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 10

de restauration assure le respect des objectifs de temps de restauration. Pour réduire le temps de restauration, il peut être nécessaire d'effectuer le transfert physique d'une nouvelle copie de sauvegarde du site de récupération vers le site principal. Une fois la base de données restaurée, la réplication des journaux et leur application s'effectue de manière beaucoup plus rapide.

Il n'y a aucune garantie que le site principal d'origine survive au sinistre et que la restauration puisse vraiment s'effectuer. C'est pourquoi une solution DR intégrale doit prévoir la possibilité de ne jamais pouvoir reprendre l'activité à partir du site principal initial.

Qu'en est-il des procédures de sauvegarde ? Une solution DR a un impact certain sur les procédures de sauvegarde des données affectées lors d'une reprise après sinistre et peut avoir une portée plus étendue. Pour bien comprendre ce point, il est bon de savoir qualifier toutes les données selon des classes de sauvegarde (locale ou distante) puis de déterminer leur type selon que vous souhaitez conserver une sauvegarde locale ou l'effectuer à distance. Cette analyse permet de déterminer la taille nécessaire aux baies de stockage et de contribuer à la conception définitive de la solution DR. Dans la plupart des cas, il est préférable d'effectuer des sauvegardes à distance pour que les images de sauvegarde ne soient pas stockées sur le site principal, où elles peuvent devenir inutiles en cas d'imprévu ou de sinistre. La sauvegarde à distance est une exigence dans la plupart des scénarios de reprise après sinistre. Les archives effectuées sur bande ou sur tout autre média permanent restent nécessaires et doivent faire partie de la solution DR globale. La solution DR répond-elle aux besoins de stockage actuels et à venir ? Il est impératif de penser aux besoins de stockage actuels et à venir lors de la conception d'une solution DR. Voici certaines des questions à se poser :

• Les données sont-elles déjà enregistrées sur une baie de stockage MD36X0F ? Doivent-elles être

migrées à partir d'une autre plateforme de stockage ? Les niveaux des micrologiciels sont-ils à jour ?

• Qu'en est-il des besoins de stockage à venir ? La croissance nécessitera vraisemblablement des

capacités supplémentaires, mais dans quelle mesure ? Sera-t-il nécessaire d'ajouter des baies de stockage MD36X0F supplémentaires à l'avenir ?

• Pour éviter d'augmenter les coûts, est-il préférable de commencer avec de petites baies MD36X0F et de passer à des configurations plus importantes lorsque la croissance aura lieu ?

Quel mode de réplication utiliser ? La réponse à cette question souvent un peu déroutante dépend largement de la distance séparant le site principal du site de récupération. La réplication synchrone des baies MD36X0F est recommandée pour les courtes distances afin de permettre un débit maximal. C'est un bon choix lorsque les liaisons de données fonctionnent à des débits de type Fibre Channel. Si la distance d'une réplication synchrone dépasse la limite standard de 10 km (6,2 miles) du Fibre Channel, la réplication à distance requiert une certification de matériel supplémentaire pour dépasser les limites du Fibre Channel. Si la distance séparant les sites dépasse celle prévue pour la réplication synchrone, la seule solution est une réplication asynchrone ou asynchrone avec cohérence d'ordre d'écriture.

L'avantage de ces deux types de réplication est de permettre des distances plus importantes et/ou des débits de liaison inférieurs dans le cadre de la solution DR. Toutefois, les liaisons de données d'une réplication asynchrone ou asynchrone avec cohérence d'ordre d'écriture doivent disposer d'une bande passante suffisante et d'un débit d'E/S permettant de prendre en charge la mise en place de la

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 11

réplication à distance. Par ailleurs, il est nécessaire de les contrôler et de les gérer avec vigilance pour qu'elles fonctionnent correctement et restent efficaces.

La réplication à distance des baies MD36X0F dispose d'une fonctionnalité unique qui permet de changer de mode de réplication de façon dynamique et de passer d'une réplication synchrone à une réplication asynchrone puis à une réplication asynchrone avec cohérence d'ordre d'écriture. Grâce à cette fonctionnalité, il est possible de tester tous les modes dans le cadre d'une comparaison de performances (en partant du principe que la réplication synchrone soit possible).

Instructions de mise en place

Détermination de la taille des baies de stockage MD36X0F

Détermination de la taille de la baie de stockage principale Déterminez la taille de la baie de stockage principale comme d'ordinaire pour répondre aux exigences en matière de performances et de capacités de production, puis modifiez la taille et la configuration pour :

• Doubler les débits d'E/S d'écriture des disques virtuels à répliquer. La réplication exige que la baie

MD36X0F écrive chaque E/S deux fois (vers elle-même et vers un système secondaire du site de récupération), ce qui monopolise des ressources supplémentaires sur la baie. Ces dernières compensent l'impact sur les performances qui a lieu lors de la synchronisation des disques virtuels.

• Augmenter de 25 % le débit de lecture de tous les disques virtuels afin d'éviter les problèmes de latence de la réplication, de synchronisation et de coûts. Ces problèmes sont affectés par le débit de transfert des données, la priorité de réplication et les latences réseau. Toutefois, 25 % est un pourcentage raisonnable.

• La réplication à distance des baies MD36X0F utilise le dernier port de chaque contrôleur. Cela réduit la bande passante globale disponible entre les baies MD36X0F et le réseau SAN. Si le dernier port est déjà utilisé, il doit être reconfiguré pour prendre en charge la réplication à distance. Les disques virtuels associés doivent être réaffectés à un autre port.

Surtout, assurez-vous que la baie de stockage dispose d'une taille suffisante pour garantir les performances nécessaires aux exigences de croissance prévues ainsi que les performances de réplication à distance souhaitées.

Si vous utilisez d'autres fonctionnalités de réplication des baies MD36X0F alors que la réplication à distance est en cours, celles-ci auront également un impact sur les performances et devront être prises en compte lors de la détermination de la taille de la baie de stockage principale. Ce point est aussi vrai pour la réplication de données de l'hôte.

Les référentiels de la réplication à distance ne doivent pas se trouver sur la même baie que celle contenant les données en cours de réplication. Il s'agit là d'une pratique d'excellence. Ils doivent se trouver sur une baie hautes performances/à haute disponibilité qui soit moins sollicitée.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 12

Détermination de la taille de la baie de stockage de récupération La baie de stockage distante demande un effort en matière de taille plus complexe que la baie principale. Voici certaines des questions à se poser au sujet de la baie de récupération :

• Doit-elle servir à autre chose qu'à la récupération ? • Quelles sont les performances à prévoir en cas de basculement ? • Doit-elle héberger l'exécution de plus ou moins d'applications que la baie de stockage principale • après le basculement ? • Quel impact la sauvegarde qui doit s'effectuer après le basculement aura-t-elle sur cette baie ? • Cette dernière doit-elle devenir la nouvelle baie de stockage principale dans le cadre d'une

réplication à distance vers un autre site (pour faciliter la restauration, par exemple) ? Si les disques virtuels de récupération doivent effectuer les mêmes opérations que les disques virtuels principaux, ils nécessitent alors les mêmes opérations de détermination de taille que ceux de la baie de stockage principale pour assurer le bon fonctionnement de l'activité. N'oubliez pas qu'un port est réservé sur chaque contrôleur pour la réplication à distance. Pensez à compenser les impacts sur les performances provoqués par les fonctionnalités de réplication des données des baies MD36X0F (comme indiqué à la section traitant de la baie de stockage principale, ci-dessus).

L'une des pratiques d'excellence consiste à multiplier au moins par un facteur de 3,2 la taille des capacités de production au niveau du site de récupération. Cette opération permet de fournir les capacités supplémentaires suivantes :

• Un facteur multiplicateur de 1 pour la réplication continue des disques virtuels de production qui a

lieu avant le basculement. • Un facteur multiplicateur de 2 pour fournir les capacités supplémentaires nécessaires à une

deuxième copie ponctuelle des disques virtuels, afin d'assurer des capacités de déploiement de la base de données dans l'éventualité où une corruption de cette dernière sur le site principal est répliquée sur le site de récupération.

• Un facteur multiplicateur de 3 pour ajouter des capacités supplémentaires, afin de répliquer les disques virtuels source à des fins de tests ou de sauvegarde en ligne.

• Un facteur multiplicateur de 0,2 pour assurer des capacités incrémentielles permettant la capture d'instantanés des disques virtuels répliqués.

• Un facteur multiplicateur de 3,2 permet tous les points susmentionnés (c'est-à-dire des capacités supplémentaires pour la réplication à distance, pour une copie ponctuelle de restauration, pour la copie de la base de données à des fins de tests ou de sauvegarde et pour des référentiels d'instantanés).

En d'autres termes, si le site principal dispose de 10 To de données de production à répliquer et à mettre en production sur le site de récupération suite à un basculement, la baie de stockage de récupération doit disposer d'une capacité minimale de 32 To et de suffisamment d'axes pour assurer les performances à prévoir.

Il n'est pas inhabituel de disposer d'une baie de stockage moins importante au niveau du site de récupération, certaines des applications fonctionnant sur le site principal n'étant pas nécessaires en cas de panne du site. C'est pourquoi il est si important de déterminer les données à répliquer et les applications à faire fonctionner au niveau du site distant.

Si, après un basculement, le site de récupération doit répliquer les données vers un site distant pour une restauration ou effectuer plusieurs réplications, il est nécessaire de déterminer la taille de la baie

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 13

de stockage de récupération de manière appropriée. En fait, cette dernière doit fonctionner comme la baie de stockage principale dans le nouveau schéma de réplication et subir une modification de taille conformément aux règles indiquées dans la section relative à la baie de stockage principale, ci-dessus.

Si les données stockées sur le système principal sont en cours de réplication vers un site sécurisé au lieu du site de récupération, les performances sont alors moins importantes que les coûts. C'est le SEUL cas de prise en compte possible de lecteurs SATA dans le cadre de la réplication à distance. On utilise généralement un site sécurisé pour l'exploration de données ou les sauvegardes centralisées. Les règles de détermination de taille appropriées s'appliquent alors.

Performances réseau L'un des aspects les plus importants lors de la conception d'une solution DR consiste à déterminer correctement les performances du réseau assurant la connexion entre le site principal et le site de récupération. Si la bande passante est insuffisante, vous ne disposerez jamais du débit nécessaire. Si la latence, qui augmente avec la distance, devient excessive, vous risquez de ne pas pouvoir atteindre les objectifs de point de récupération. De plus, si les coûts nécessaires à l'obtention de la bande passante demandée sont excessifs, la solution peut ne pas être approuvée par la direction de l'entreprise. L'un des points les plus importants à prendre en compte lors de la conception du réseau est le temps nécessaire à la synchronisation initiale ainsi qu'aux resynchronisations en cours. Il peut être nécessaire d'attribuer davantage de bande passante pour permettre une synchronisation raisonnablement rapide des paires de disques virtuels. Si le réseau doit être partagé, la détermination de la taille prévue pour la synchronisation est particulièrement importante, car la réplication à distance risque d'utiliser l'intégralité de la bande passante disponible ou, dans le pire des cas, de ne pas disposer d'une bande passante suffisante. Lors de la détermination de la taille de la bande passante, il est recommandé d'utiliser des mesures de performances réelles. Dans certains cas, il est recommandé d'envoyer une copie de la base de données au site de récupération et de la charger sur place plutôt que de tenter une synchronisation de l'intégralité de la base de données par le biais d'une réplication. Cette approche permet une synchronisation plus rapide sur le site de récupération et réduit les exigences en matière de bande passante réseau. Dans ce cas, il est nécessaire de transférer d'abord la base de données vers le site de récupération. Une fois la base de données chargée sur le site de récupération, les journaux sont répliqués depuis le site principal vers le site de récupération, puis appliqués à la base de données via un processus de déploiement. Tant que les journaux continuent d'être répliqués et appliqués, la base de données reste à jour par rapport au site principal. Étant donné que seuls les journaux sont répliqués et non la base elle-même, les besoins en matière de bande passante réseau sont bien moindres. Collecte d'informations d'E/S Déterminez les informations d'E/S sur la base d'un disque virtuel, celles-ci étant nécessaires pour déterminer la bande passante minimale requise pour une réplication à distance réussie. Elles sont également utiles pour déterminer les performances à prévoir dans l'éventualité où le site de récupération fournit des performances moindres pour quelque raison que ce soit (contraintes réseau, serveurs plus lents, stockage ancien, etc.). Plusieurs utilitaires disponibles permettent de collecter ces informations (IOSTAT, PERFMON et MD Storage Manager, entre autres). Voici certaines des informations d'E/S nécessaires pour chaque disque virtuel :

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 14

• E/S par seconde • Rapport lecture/écriture • Taille de bloc des E/S • Écart entre la charge de travail normale et celle en période de pointe • Total des octets (lecture et écriture)

Idéalement, ces mesures sont effectuées sur une longue période et comprennent un minimum, un maximum et une moyenne pour chaque disque virtuel à répliquer. Latence La latence correspond au temps de transfert des E/S de réplication et de leur confirmation sur une liaison réseau. Plus la distance séparant le site principal du site de récupération est grande, plus l'envoi des données et la réception d'une confirmation prend de temps. La distance devient un facteur restreignant le nombre d'E/S pouvant être envoyées par seconde. C'est la raison pour laquelle la latence est le facteur contrôlant le débit d'E/S pouvant être pris en charge lors d'une solution de reprise après sinistre. Exemples : si l'envoi d'une E/S à un site de récupération situé à 200 km (125 miles) via une liaison et la réception d'une confirmation (ce qu'on appelle « temps d'aller-retour ») prend 2 millisecondes (ms), il est possible de traiter un maximum de 500 E/S par seconde via cette liaison (500*2 ms=1 seconde). Si la distance séparant les sites passe à 1 000 km (620 miles), le temps d'aller-retour passe à 10 ms et le débit d'E/S de cette liaison passe à 100 E/S par seconde. Dans les exemples ci-dessus, la latence supplémentaire liée à l'infrastructure de communication (commutateurs, routeurs, pare-feux, etc.) n'est pas prise en compte. La figure suivante illustre la façon dont le temps d'aller-retour augmente alors que le débit d'E/S maximal baisse avec la distance séparant les sites dans le cadre d'une solution de reprise après sinistre.

Figure 1. Distance séparant les sites

10 km 100 km 1 000 km 10 000 km

(6 miles) (62 miles) (620 miles) (6 200 miles)

100

10

1

0,1

10

100

1 000

10 000

Temps d'aller-retour

(en ms)

Maximum d'E/S par seconde

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 15

Si la liaison dispose d'une bande passante disponible suffisante et si l'application à répliquer permet des E/S indépendantes, les E/S de la réplication à distance peuvent être multiplexées sur la liaison, augmentant ainsi le débit d'E/S effectif de la solution. Toutefois, les bases de données nécessitent généralement une synchronisation des transactions à des fins de cohérence et c'est pourquoi les avantages du multiplexage peuvent être limités lors de la réplication de bases de données.

Au niveau des baies MD36X0F, la réplication asynchrone avec cohérence d'ordre d'écriture permet de séquencer les E/S sur le site de récupération dans le même ordre que sur la base de données d'origine. Pour assurer la cohérence d'ordre d'écriture, il est nécessaire d'activer l'option de livraison ordonnée des paquets au niveau du matériel de télécommunications reliant les deux sites. Remarque : consultez votre opérateur de télécommunications pour plus de détail sur ce sujet sensible.

Bande passante La bande passante réseau détermine la quantité de données pouvant être envoyées via la liaison de données. La conversion au protocole TCP/IP des données en cours de transmission implique une augmentation importante des coûts ainsi qu'une réduction de la bande passante effective (jusqu'à 50 % en cas de liaison lente).

Crédits de mémoire tampon Les crédits de mémoire tampon contribuent à optimiser les performances de réplication pour les réseaux SAN intégrant des distances importantes. Ils permettent le transfert simultané de plusieurs trames de données sur une seule liaison Fibre Channel.

La spécification d'un nombre approprié de crédits de mémoire tampon assure une efficacité optimale de la liaison Fibre Channel en termes de livraison de données. En cas de grandes distances, le nombre approprié de crédits de mémoire tampon devient important, afin d'empêcher ce que l'on appelle, en technologie réseau, des drooping. Les drooping surviennent lorsque l'envoi de données est impossible, le système expéditeur s'étant mis en attente d'une occasion d'envoyer davantage de données sur la liaison. Dans le cas du Fibre Channel, les drooping peuvent survenir si le nombre de crédits de mémoire tampon est insuffisant.

Le nombre optimal de crédits de mémoire tampon dépend de la bande passante et de la distance. Une trame Fibre Channel de 2 Ko (taille de trame standard) se déplaçant à la vitesse de la lumière aura une longueur approximative de 2 km en cas d'utilisation d'une liaison de 2 Go. Cette même trame atteindra 4 km avec une liaison d'1 Go et 1 km avec une liaison de 4 Go. La longueur de trame permet de calculer le nombre de crédits de mémoire tampon nécessaires pour optimiser les performances de réplication (il faut diviser la distance séparant les sites par la longueur de la trame).

Remarque : consultez votre fournisseur d'extension de réseau SAN pour plus d'informations sur les crédits de mémoire tampon.

Autres considérations relatives au réseau Le réseau ayant une importance primordiale au niveau de la solution dans son ensemble, il est important que toutes les informations nécessaires soient obtenues avant la finalisation de la conception. Il est recommandé de créer un diagramme de réseau SAN/LAN/WAN détaillé pour détecter les incohérences et les problèmes le plus tôt possible au cours de la mise en place.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 16

Voici certaines des informations réseau nécessaires : • Commutateurs (nombre, disposition, type) • Chemin d'accès des données réel utilisé pour l'interconnexion des baies de stockage • La connexion réseau WAN/LAN sera-t-elle dédiée ou partagée ? • Quelle quantité de la bande passante disponible sera utilisée par les autres applications ou

utilisateurs ? • Des modifications pouvant affecter la bande passante disponible sont-elles prévues ? • Quels outils de surveillance réseau sont disponibles ? Peuvent-ils devenir disponibles lors de la mise

en place ? • Comment les performances seront-elles contrôlées ? • Quelles sont les répercussions d'une panne réseau sur la réplication ? La réplication à distance

s'arrête-t-elle ? Si c'est le cas, combien de temps ?

Considérations relatives à l'application Taille de bloc des E/S - D'une manière générale, définissez une taille de bloc d'E/S qui soit la plus importante possible tout en conservant des performances acceptables. Les bases de données et les systèmes de fichiers sont conçus avec des tailles de bloc standard, qui résultent d'un équilibrage par rapport à l'efficacité de mise en cache de la mémoire serveur. Les bases de données permettent de changer la taille des blocs mais cette modification est un processus contraignant.

Une autre des pratiques d'excellence au niveau des performances consiste à aligner ces blocs de données sur une limite de segment de stockage. Ce problème ne se pose généralement pas sous UNIX, mais il survient fréquemment sur les environnements Microsoft Windows. Pour plus d'informations à ce sujet, consultez le document Microsoft intitulé « Procédure d'alignement d'E/S Exchange avec les limites de piste du support de stockage », à l'adresse : http://www.microsoft.com/technet/prodtechnol/exchange/guides/StoragePerformance/0e24eb22- fbd5-4536-9cb4-2bd8e98806e7.mspx.

Disposition de la base de données/du système de fichiers Les applications utilisant un système de fichiers pour accéder aux fichiers présentent des coûts supplémentaires à prendre en compte lors de la conception et de la création de la solution DR. Un système de fichiers journalisé requiert des E/S supplémentaires, car les E/S sont organisées dans le journal du système de fichiers avant d'être écrites sur la zone principale du disque. Ce système de fichiers peut impliquer davantage de coûts au niveau de la solution DR s'il nécessite une bande passante réseau supplémentaire. Évitez autant que possible les systèmes de fichiers qui utilisent des périphériques bruts pour réduire ces coûts. Ce point n'est pas forcément important pour de petites bases de données, mais son importance augmente avec la croissance des bases de données.

N'oubliez pas que les partitions et les disques virtuels sont deux choses différentes. Sur les environnements Windows, il est important d'optimiser le positionnement des partitions sur les disques virtuels.

Fichiers temporaires/brouillons et espaces de table Dans la mesure du possible, affectez les fichiers et les espaces de table temporaires/brouillons à un disque virtuel qui n'est PAS répliqué. Ces conteneurs de données temporaires servent généralement aux rapports ou aux conversions de données et ne font pas partie des données devant être répliquées sur le site de récupération. Si elles le sont, elles s'ajoutent aux autres E/S (générant ainsi des coûts de bande passante supplémentaires) sans apporter aucun avantage en cas de basculement. L'administrateur système ou de la base de données doit pouvoir déterminer si cette condition existe et y remédier.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 17

Pour les mêmes raisons, il est déconseillé de répliquer le fichier d'échange de stockage. Consultez l'annexe A pour obtenir des recommandations sur la mise en place de la réplication à distance pour les bases de données.

Amélioration de la solution de reprise après sinistre Si la base de données doit être récupérée rapidement sur le site principal en cas de corruption, intégrez une solution de récupération rapide au sein de la solution DR. Utilisez à cet effet la capture d'instantanés et la copie sur disque virtuel.

Voici certaines des questions à se poser lors de la mise en place d'une solution de récupération rapide :

• Quels objectifs de point de récupération et de temps de récupération paraissent raisonnables dans le

cadre d'une récupération rapide en cas de corruption de la base de données ? • Ces objectifs peuvent-ils être atteints à l'aide de la capture d'instantanés et la copie sur disque

virtuel ? • La baie de stockage MD36X0F peut-elle prendre en charge les coûts supplémentaires et l'impact sur

les performances ?

Une solution de récupération rapide suit généralement la séquence d'événements suivante :

1. La base de données passe en mode de sauvegarde à chaud. 2. Un instantané de la base de données est capturé. 3. La base de données repasse en mode normal. 4. L'instantané fait l'objet d'une copie sur disque virtuel. 5. Une fois la copie sur disque virtuel effectuée, l'instantané est supprimé.

En cas de corruption de la base de données, l'administrateur de cette dernière la désactive et active à sa place l'image copiée sur disque virtuel. La base de données récupérée correspond au moment de capture de l'instantané. Des fichiers journaux sont utilisés pour déployer la base de données et rétablir son intégrité.

Mise en place de la capture d'instantanés et de la copie sur disque virtuel dans une solution DR

Instantanés Un instantané permet de fournir (en quelques secondes) une copie ponctuelle qui nécessite généralement une petite partie (20 % par défaut) des capacités des données en cours de copie. Cette fonctionnalité est très utile pour les sauvegardes sans interruption, car il suffit de suspendre la base de données (c'est-à-dire de la mettre en état de cohérence) pendant une période relativement courte avant que l'activité puisse reprendre normalement.

Les instantanés sont également utiles pour les mises à jour impliquant plusieurs étapes et pour lesquelles des copies ponctuelles sont créées à chaque étape. Si une étape de mise à jour échoue, un instantané précédent permet de restaurer le dernier point de récupération en bon état. Avant l'apparition de la capture d'instantanés sur disque, la seule façon de conserver une image ponctuelle consistait à sauvegarder sur bande la base de données dans son intégralité et à conserver cette image en cas de besoin de restauration. Cette opération nécessitait une longue période (pour sauvegarder les données et vérifier leur intégrité) et la restauration elle-même durait des heures. Les copies ponctuelles sur bande ne sont plus efficaces dans ce cas précis (toutefois, elles restent utiles à des fins d'archivage).

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 18

Il est recommandé de conserver un instantané de la base de données sur le site de récupération pour s'assurer que ce dernier contient toujours une image utilisable. L'une des pratiques d'excellence consiste à utiliser une paire d'instantanés lors de la capture d'un deuxième instantané avant la resynchronisation des bases de données. Une fois les bases de données synchronisées, l'instantané le plus ancien est supprimé pour améliorer les performances globales de la baie de stockage.

Si vous souhaitez intégrer l'instantané à la solution DR (ce qui est fortement recommandé), la capture de l'instantané et sa mise en activité peuvent avoir un impact sur les performances de la baie de stockage. Toutefois, il est possible de limiter cet impact en ajoutant des lecteurs à la configuration de la baie. Il est d'usage de compter une augmentation de 15 % des coûts pour les lectures et de 25 % pour les écritures dans la base de données. Si l'instantané est capturé sur le site de récupération, ces chiffres ont un effet minime sur la solution dans son ensemble (sauf si la baie de stockage de récupération est en cours d'utilisation pour d'autres tâches sur le site de récupération).

L'impact de l'instantané sur les performances est à prendre en compte au moment de la détermination de la taille des baies de stockage.

Copie sur disque virtuel La copie sur disque virtuel est une autre fonctionnalité Premium des baies MD36X0F permettant d'améliorer une solution DR. Elle effectue la copie d'un disque virtuel et la rend disponible sous forme d'un disque virtuel différent (ou clone). Elle est différente de la capture d'instantanés dans la mesure où la nouvelle image est une copie physique intégrale pouvant être manipulée séparément des données d'origine. Cette nouvelle image peut avoir de nombreuses utilisations, comme l'exploration de données, la création de rapports, les tests et la migration de données.

Pendant la copie du disque virtuel, l'image d'origine doit rester stable et ne pas être modifiée. C'est pourquoi l'une des pratiques d'excellence consiste à capturer un instantané de la base de données d'origine puis d'utiliser cet instantané comme source pour la copie sur disque virtuel. Cette opération lisant chaque bloc de l'image d'origine, elle a un impact supplémentaire sur les performances au moment de la copie et il est recommandé de tenir compte de ce point lors de la conception de la solution.

Sauvegardes Les sauvegardes constituent un composant important lors de la conception d'une solution DR. Non seulement elles sont une partie critique de l'activité, mais elles requièrent des fonctionnalités Premium et des capacités supplémentaires au niveau des baies MD36X0F.

La première question à se poser consiste à déterminer où les sauvegardes doivent s'effectuer et être stockées. Dans de nombreux cas, elles s'effectuent sur le site principal et y sont conservées, afin de permettre une récupération en cas de panne du site principal ne nécessitant pas de basculement vers le site de récupération.

Il est également possible de créer les sauvegardes sur le site de récupération. Voici certaines des raisons poussant à choisir cette approche :

• Il est possible que les sauvegardes soient déjà stockées hors du site principal. • La charge de travail supplémentaire générée par les sauvegardes (sur les serveurs, les baies de

stockage, le réseau et le réseau SAN) n'est plus gérée à partir du site principal, permettant à ce dernier d'afficher des performances plus cohérentes et éventuellement meilleures.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 19

Considérations relatives aux tests Tests de performances La vérification de l'impact sur les performances de la réplication (et des opérations associées de capture d'instantanés et de copie sur disque virtuel) pour prendre en charge la reprise après sinistre est un aspect très important de la solution dans son ensemble.

La possibilité d'obtenir des mesures visant à vérifier que les performances sont acceptables à la fois au niveau des baies de stockage et des applications est un composant critique de la conception de la solution. Voici certaines de ces mesures :

• Temps maximal et temps moyen d'envoi d'une transaction • Utilisation maximale et utilisation moyenne de la bande passante réseau • Débit d'E/S et temps de réponse maximum et moyens

La solution doit être testée dans un environnement de laboratoire avant sa mise en place. Cette exigence de premier ordre doit être résolue rapidement lors de la conception de la solution dans son ensemble.

Tests de basculement et de restauration Les tests de basculement et de restauration peuvent constituer un important obstacle et doivent être inclus lors de la définition de la solution DR. Dans de nombreux cas, la direction ne souhaite pas effectuer de tests, principalement à cause du temps que prend la restauration sur le site principal. Toutefois, ces procédures doivent être testées pour vérifier qu'elles fonctionnent et pour permettre des améliorations efficaces. La simulation d'un basculement est un test assez simple qui ne nécessite que peu d'efforts. Cependant, la simulation d'une restauration peut se montrer beaucoup plus compliquée du fait qu'elle requiert du matériel supplémentaire (notamment des capacités de stockage ou des baies de stockage supplémentaires). C'est la raison pour laquelle la restauration est fréquemment supprimée de la solution globale.

Si la restauration n'est pas nécessaire, il est beaucoup plus facile de tester la solution DR, car les tests de basculement peuvent s'effectuer sans arrêter les systèmes principaux. Les tests de restauration nécessitent l'utilisation du site principal comme site de récupération et c'est pourquoi l'activité habituelle ne peut pas se poursuivre sur les systèmes principaux lors de ces tests.

Si la restauration est nécessaire, il est possible d'envisager une alternative pour résoudre le problème lié aux tests mentionné ci-dessus. Cette approche consiste à traiter la restauration comme un deuxième basculement et à la tester uniquement une fois le premier basculement effectué. En d'autres termes, il s'agit de retarder les tests de restauration jusqu'à ce que la récupération soit terminée sur le site secondaire. Cette opération implique de recommencer du début le processus de réplication à partir du site secondaire qui vient d'obtenir l'état de site principal.

L'inconvénient de cette alternative est que le basculement vers le site principal d'origine peut prendre plus de temps que l'approche basculement/restauration, le nouveau processus de basculement devant être mis en place et testé au préalable. Si les ressources du site secondaire n'affichent pas les performances appropriées, ce temps supplémentaire peut se montrer inacceptable. La planification à l'avance de cette approche modifiée raccourcit le temps nécessaire à la remise en fonctionnement du site principal d'origine.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 20

Pour tester le basculement et la restauration de manière appropriée et sécurisée, il est nécessaire d'affecter plusieurs serveurs et d'importantes capacités de stockage supplémentaires, ce qui s'ajoute aux coûts de la solution dans son ensemble. L'une des manières de réduire ces coûts consiste à utiliser momentanément du matériel alloué à un autre projet pour les tests de reprise après sinistre, puis de réaffecter ce matériel à sa tâche initiale une fois ces tests terminés.

Gardez toutefois à l'esprit que les tests de reprise après sinistre ne sont jamais vraiment terminés ! La direction doit faire en sorte que la solution DR reste constamment à jour et que des tests sont effectués régulièrement pour qu'elle reste un moyen viable garantissant la continuité de l'activité.

Services Dell propose un service de mise en place de la réplication à distance qui peut raccourcir le temps de planification, de conception, de mise en place et de tests d'une solution DR. Si ce service a un coût, il permet toutefois de réduire celui de la solution dans son ensemble en raccourcissant le temps total du projet et, plus important, en limitant les risques de ne pas parvenir à une solution réussie. Contactez votre ingénieur commercial Dell pour plus d'informations à ce sujet.

Conclusion La réplication à distance des baies Dell MD36X0F permet techniquement de mettre en place une solution de reprise après sinistre. Toutefois, elle n'est que l'un des composants d'une solution efficace. Il est nécessaire que cette dernière soit planifiée, conçue, mise en place et testée pour résoudre tous les points abordés dans ce document.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 21

Annexe A - Réplication à distance de bases de données pour une reprise après sinistre

Que faut-il répliquer dans une base de données ? Il existe plusieurs manières de répliquer une base de données dans le cadre d'une reprise après sinistre. Chaque méthode a ses avantages et ses inconvénients, et les comprendre contribue à concevoir la solution la plus adaptée.

Les deux méthodes de réplication de base de données les plus demandées consistent à (1) tout répliquer ou à (2) répliquer uniquement les fichiers journaux.

Méthode n°1 : tout répliquer Cette approche consiste à répliquer l'intégralité de la base de données, fichiers journaux compris. Avantage : les mises à jour massives de la base de données peuvent être gérées normalement, sans aucune procédure ou ressource supplémentaire. Elle présente toutefois plusieurs inconvénients : davantage exposée aux problèmes, elle demande une solution plus complexe et nécessite une bande passante réseau plus importante.

Séquence d'événements habituelle de réplication d'une base de données et des journaux :

1. Établissez la réplication pour tous les disques virtuels de la base de données. 2. Vérifiez que les paires de disques virtuels sont entièrement synchronisées (état optimal).

Puis, régulièrement :

3. Passez la base de données principale en mode de sauvegarde à chaud. 4. Arrêtez la réplication vers le site de récupération. 5. Capturez un instantané de l'image répliquée sur le site de récupération. 6. Reprenez la réplication entre les sites. 7. Quittez le mode de sauvegarde à chaud sur le site principal puis reprenez l'activité normalement. 8. Grâce à l'instantané capturé, les sauvegardes et les tâches de migration des données peuvent

s'effectuer sur le site de récupération. 9. Ne supprimez pas l'instantané !

Pour plus d'informations sur le mode de sauvegarde à chaud, consultez le document Réplication à distance des baies Dell PowerVault MD36X0F/MD3620f - Guide de fonctionnement.

Il est recommandé d'avoir toujours au moins un instantané disponible sur le site de récupération en cas de réplication d'une version corrompue de la base de données du site principal sur le site de récupération. L'une des pratiques d'excellence consiste à conserver plusieurs copies de la base de données sur le site de récupération pour disposer de plusieurs points de récupération. Les instantanés permettent un processus ponctuel facile et rapide pour cela.

Méthode n°2 : répliquer uniquement les fichiers journaux Grâce à cette approche, l'intégralité de la base de données est répliquée initialement sur la baie de stockage de récupération. Ensuite, seuls les fichiers journaux sont répliqués (jusqu'à ce qu'il soit nécessaire de répliquer à nouveau la base de données). Les journaux sont appliqués à la base de données sur le site distant. Cela réduit la bande passante nécessaire à la réplication, mais demande

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 22

également un serveur sur le site de récupération pour appliquer les journaux. En cas de modifications importantes de la base de données, il est nécessaire de copier à nouveau intégralement cette dernière, processus long qui utilise temporairement une quantité de bande passante supplémentaire. Avantage de cette approche : les deux images de la base de données sont réellement séparées l'une de l'autre. En cas de corruption de la base de données sur le site principal, celle-ci reste intacte sur le site de récupération.

Séquence d'événements habituelle de réplication des fichiers journaux (uniquement) :

1. Établissez la réplication pour tous les disques virtuels de la base de données. 2. Arrêtez ou supprimez la réplication de la base de données lorsque la synchronisation est terminée. 3. Vérifiez que les paires de disques virtuels sont entièrement synchronisées (état optimal). 4. Poursuivez la réplication des fichiers journaux.

Puis, régulièrement :

5. Passez la base de données principale en mode de sauvegarde à chaud. 6. Arrêtez la réplication vers le site de récupération. 7. Capturez un instantané des fichiers journaux sur le site de récupération. 8. Reprenez la réplication des fichiers journaux entre les sites. 9. Quittez le mode de sauvegarde à chaud sur le site principal puis reprenez l'activité normalement. 10. En utilisant l'instantané, appliquez les fichiers journaux à la base de données du site de récupération.

Les instantanés des journaux peuvent ou non être supprimés, une fois leur application effectuée. L'une des pratiques d'excellence consiste à conserver au moins une image instantanée des fichiers journaux.

Il est également recommandé que l'espace dédié aux fichiers journaux sur la baie de stockage principale puisse contenir au minimum 24 heures de journaux en cas de problème sur le site de récupération (une panne empêchant l'application des fichiers journaux, par exemple). Par ailleurs, il est important de s'assurer que les fichiers journaux ne soient pas supprimés du site principal tant qu'ils n'ont pas été appliqués au site de récupération. Cette opération est possible à l'aide de scripts.

Les objectifs de temps de récupération et de point de récupération influencent, eux aussi, la conception de la solution DR. Les données doivent-elles être synchronisées en permanence ou est-il possible d'envoyer régulièrement des images par lots via la liaison de données (toutes les heures ou au moment d'une rotation)? L'entreprise peut-elle se permettre de perdre une à plusieurs heures de travail ? La solution DR doit-elle proposer un objectif de point de récupération au sein d'une seule transaction ? Toutes ces questions doivent être résolues lors de l'évaluation des objectifs de temps de récupération et de point de récupération. Les réponses doivent être intégrées dans la conception.

Groupe de cohérence Chaque baie de stockage MD36X0F prend en charge un groupe de cohérence. Ce groupe est très important lorsque les données à répliquer dépassent un seul disque virtuel. Concevoir une solution DR de manière appropriée implique de déterminer les disques virtuels devant faire partie du groupe de cohérence.

Dans un environnement de base de données, le mieux consiste à inclure les fichiers journaux et les disques virtuels de la base de données dans le groupe de cohérence si vous choisissez la méthode « tout répliquer ». Si vous optez pour la méthode « répliquer uniquement les fichiers journaux », ajoutez les fichiers journaux au groupe de cohérence.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 23

Autres considérations relatives à la base de données Il peut être nécessaire de désactiver la réplication lors de modifications majeures de la base de données (chargements en bloc, opérations sans journal ou reconstructions). Généralement, ces types de modifications requièrent une désactivation de la journalisation pour accélérer le processus. Si seuls les fichiers journaux sont en cours de réplication à des fins de reprise après sinistre, il est nécessaire de répliquer une nouvelle copie de la base de données avant que la réplication des journaux ne redémarre. Assurez-vous d'optimiser la base de données avant de démarrer le processus de réplication (chaînage des lignes, taille des blocs de données, optimiseur, statistiques). Si les modifications sont importantes, elles peuvent affecter tous les blocs de données de la base et nécessiter la réplication de chacun d'entre eux. Une approche plus efficace consiste à arrêter la réplication de la base de données, d'apporter les modifications, puis d'effectuer une copie intégrale des disques virtuels source.

Pensez au multiplexage des fichiers journaux (si cette fonctionnalité est prise en charge par la base de données), il peut réduire l'impact sur les performances. La plupart des bases de données permettent plusieurs copies des fichiers journaux. En cas de multiplexage de ces derniers (deux ou trois copies des données au lieu d'une seule) et de réplication d'une seule image de journal, le système principal affiche pratiquement les mêmes performances avec la réplication que sans.

Remarque : il est important de capturer des instantanés de l'environnement de la base de données juste après une panne de liaison et avant le début de la resynchronisation de la réplication à distance. Cette opération permet d'établir un point de récupération cohérent de la base de données avant la panne. De même, il est recommandé de capturer des instantanés après la resynchronisation de la réplication à distance pour établir un nouveau point de récupération (cohérent) de la base de données.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 24

Annexe B - Terminologie des opérations de reprise après sinistre

Reprise après sinistre La reprise après sinistre est le processus métier visant à récupérer des données suite à un sinistre, qu'il soit humain ou naturel. Elle nécessite la restauration, la récupération et le redémarrage d'une application métier ainsi que des processus associés suite à un sinistre. Les sinistres peuvent être provoqués de multiples façons et chacun doit donner lieu à un plan de récupération documenté. Les types de sinistres sont très variables : ils peuvent dépendre de l'environnement professionnel ainsi que de la situation géographique ou politique. Un site se trouvant dans le Middle West (aux États-Unis), doit prévoir des sinistres provoqués par des tornades ou des inondations, alors qu'un site à Hawaï se préoccupera davantage des typhons, des tremblements de terre, des éruptions volcaniques et des raz-de-marée. Dans les deux cas, il est recommandé de prévoir des pannes d'alimentation prolongées, des actions syndicales et des incendies. Tous les sites peuvent par ailleurs se sentir (ou non) menacés par d'éventuelles attaques terroristes. Chaque origine potentielle de sinistre doit être anticipée à l'aide d'un plan de reprise testé et documenté. Il est recommandé à toute entreprise souhaitant survivre à un sinistre de mettre en place un tel plan.

Continuité de l'activité La continuité de l'activité se rapporte à la possibilité de maintenir une activité professionnelle normale avec un temps d'inactivité minimal, voire inexistant (planifié ou non). Ce temps d'inactivité peut avoir des origines différentes du sinistre. Exemple de temps d'inactivité planifié : mise hors ligne d'une base de données pour des raisons de sauvegarde. Exemple de temps d'inactivité non planifié : panne serveur suivie de l'arrêt du système de saisie des commandes. Aucun de ces deux cas n'implique un sinistre, mais les deux ont un impact sur l'activité professionnelle d'une entreprise. La continuité de l'activité peut avoir diverses implications pour une entreprise, selon sa taille et son modèle de fonctionnement. Par exemple, une petite entreprise de dix collaborateurs ouverte uniquement pendant les horaires de bureau habituels aura des normes de continuité de l'activité différentes de celles d'une multinationale ouverte 7j/7 et 24h/24, comptant des milliers de collaborateurs et de clients. Mettre la base de données de saisie des commandes hors ligne à des fins de sauvegarde peut s'effectuer facilement dans le cas de la petite entreprise mentionnée ci-dessus pendant les heures creuses, mais elle est inacceptable pour la multinationale. Cette dernière a la possibilité d'utiliser un instantané sans interruption pour prendre une image de la base de données à des fins de sauvegarde, en s'assurant que les exigences relatives à la continuité de l'activité sont respectées.

Évitement des désastres L'évitement des désastres fait référence au fait d'empêcher les sinistres de survenir. Par exemple, la mise en place d'un système de contrôle d'accès strict empêche les utilisateurs d'accéder à des données critiques ne devant pas être modifiées. De même, la protection d'un site à l'aide d'un système d'extincteurs est une façon de limiter ou d'empêcher les dégâts liés à un incendie. Les techniques d'évitement des désastres (comme celles citées ici) doivent faire partie de toute stratégie de reprise après sinistre. Les facteurs externes pouvant avoir un impact sur les capacités de continuité de l'activité constituent l'un des aspects d'évitement des désastres que l'entreprise doit résoudre. Par exemple, si un constructeur automobile utilise un seul fournisseur externe pour les freins, que se passe-t-il si ce dernier cesse son activité ? Un exercice complet de planification d'imprévus permet généralement de détecter les problèmes d'évitement de sinistre.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 25

Objectif de point de récupération Un objectif de point de récupération correspond à l'intervalle de temps maximal entre un sinistre et le dernier moment où les données étaient récupérables. Il correspond directement à la quantité de données pouvant être perdues en cas de sinistre. Il est généralement recommandé de minimiser le plus possible cet objectif. Toutefois, il peut varier en fonction du type de données, de leur importance, leur valeur et leur coût de maintenance. Par exemple, le système de commande de composants et le système de fonctionnement de l'usine d'une entreprise industrielle peuvent afficher des objectifs de point de récupération plus exigeants que d'autres systèmes. Par comparaison, les applications d'entreposage des données, les fichiers utilisateur et les données d'impression ont des objectifs de point de récupération moins exigeants que d'autres systèmes de saisie des commandes.

L'objectif de point de récupération d'une application donnée peut être d'une journée, d'une rotation, d'une heure ou d'une demi-heure, selon les attributs de données mentionnés ci-dessus. En règle générale, l'accessibilité des données est gérée sur une période variable. Par exemple, une entreprise peut vouloir conserver plusieurs générations de données critiques en cas de corruption afin de restaurer une image précédente puis déployer la base de données à l'instant présent. Sur certains environnements plus sensibles (les bourses des valeurs, par exemple), l'objectif de point de restauration doit être défini de manière à pouvoir récupérer l'intégralité des échanges effectués.

Objectif de temps de récupération L'objectif de temps de récupération établit le temps maximal alloué pour récupérer les données à partir d'un point de récupération suite à un sinistre. Il est généralement préférable qu'il soit le plus court possible. Toutefois, cet objectif doit lui aussi être défini en fonction des attributs de données mentionnés au-dessus du paragraphe relatif à l'objectif de point de récupération. Par exemple, une entreprise de vente par correspondance va souhaiter une récupération de son système de saisie des commandes aussi rapide que possible (en minutes) mais acceptera de laisser jusqu'à 24 heures pour la récupération de son application d'entreposage des données. L'un des facteurs déterminants à ce niveau consiste à comparer les coûts d'un objectif de temps de récupération faible à ceux qu'engendre l'inaccessibilité des données.

Objectif de récupération réseau L'objectif de récupération réseau détermine le temps nécessaire à la mise en fonctionnement du site de récupération distant. Il nécessite une étude de l'environnement réseau dans son ensemble et la détermination des exigences d'un basculement total vers le site distant. Si cet objectif n'implique pas forcément directement de baies de stockage (sauf via l'utilisation du réseau pour la réplication ou la réplication de données), il est important d'en tenir compte.

Les trois objectifs définis ci-dessus (point de récupération, temps de récupération et récupération réseau) dépendent les uns des autres et il est nécessaire de les prendre en compte lors de la conception d'une solution complète de reprise après sinistre. Par exemple, il est inutile d'avoir un objectif de temps de récupération de 30 minutes si l'objectif de récupération réseau est de deux heures. Il est préférable de prévoir des coûts et des ressources supérieurs pour obtenir un objectif de récupération réseau d'une heure et de réduire les coûts de l'objectif de temps de récupération dans cette optique. Lors de la conception d'une solution de reprise après sinistre, posez-vous les deux questions suivantes pour chacun des objectifs :

Si nous dépensons plus (ou moins) sur cet objectif, pouvons-nous améliorer le temps maximal de reprise après sinistre ? Si c'est le cas, les coûts supplémentaires (ou les économies réalisées) en valent-ils/elles la peine ?

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 26

Plan d'urgence Un plan d'urgence est un processus visant à analyser plusieurs questions de type « et si ? » liées à une reprise après sinistre. La planification d'événements « pouvant » survenir est critique pour la continuité de l'activité d'une entreprise. Que se passe-t-il si un incendie se déclare dans la salle informatique principale ? Comment éteindre l'incendie ? En quoi cela affecte-t-il l'activité de l'entreprise ? Quelles procédures est-il possible d'effectuer pour limiter ou éliminer ce problème potentiel et ses répercussions ? Quels en sont les coûts et dans quelle mesure est-ce dans l'intérêt de l'entreprise ?

Un plan d'urgence complet permet toujours de déceler davantage de points faibles qu'initialement prévu, mais il contribue à la continuité de l'activité de l'entreprise en cas de problèmes moins évidents (ou au moins un plan a-t-il été mis au point pour réduire les risques).

Haute disponibilité Une haute disponibilité signifie qu'un système permettant le fonctionnement de l'activité est capable de continuer à fonctionner en cas de panne d'un seul composant. Si vous utilisez un serveur pour une application métier stratégique, il est nécessaire de le mettre à jour vers une configuration à haute disponibilité ou de le configurer dans un cluster de serveurs capable de reprendre l'application en cas de panne du serveur. Heureusement, les baies de stockage MD36X0F peuvent être configurées pour fonctionner à différents niveaux de disponibilité tout en assurant de hautes performances.

La haute disponibilité est importante non seulement pour le datacenter, mais aussi pour d'autres services de l'entreprise. Par exemple, si vous utilisez une seule source pour alimenter un centre de production et si cette source tombe en panne, la production s'arrête. Le principe est le même pour les réseaux WAN, particulièrement avec la tendance à la mondialisation actuelle. Si vous avez recours à un seul prestataire de services WAN, que se passe-t-il en cas d'interruption de la connexion ?

La haute disponibilité s'obtient par la conception d'une redondance des divers composants, systèmes et sous-systèmes qui constituent le datacenter. Les différents niveaux de haute disponibilité vont de la simple redondance au niveau des composants (adaptateurs de bus hôte, par exemple) aux systèmes recto verso assurant une protection contre les pannes système. L'objectif de la haute disponibilité consiste à éliminer les points de défaillance uniques de sorte que les systèmes continuent de fonctionner malgré des pannes imprévues.

Isolation et confinement des pannes L'isolation et le confinement des pannes empêchent des défaillances uniques d'entraîner des événements en cascade provoquant d'autres pannes. L'utilisation de baies MD36X0F illustre la mise en place réussie d'une isolation et un confinement des pannes : en cas de défaillance d'un seul lecteur sur un système correctement configuré disposant de lecteurs commutés et en RAID, la panne n'affecte aucun des autres composants de la baie et l'application continue de fonctionner.

Le même concept s'applique à tous les niveaux du datacenter. En cas de défaillance d'un seul commutateur réseau, le réseau doit être suffisamment résistant pour continuer à fonctionner en ignorant le commutateur défaillant. Si l'on considère l'isolement et le confinement des pannes d'un point de vue plus général, une panne provoquant l'arrêt du système de développement ne doit pas entraîner également l'arrêt du système de saisie des commandes. Malheureusement, un grand nombre des pannes les plus célèbres ont été provoquées par des événements mineurs qui, s'ils avaient été confinés et isolés correctement, ne seraient jamais survenus ou n'auraient pas eu de conséquences aussi catastrophiques.

Dell PowerVault MD3600f/MD3620f - Guide de conception pour reprise après sinistre avec réplication à distance

Page 27

Analyse de l'impact professionnel L'analyse de l'impact professionnel est le résultat de l'évaluation des répercussions d'événements non planifiés et d'imprévus sur l'activité. Il s'agit d'une évaluation qui compare les coûts de mise en place de solutions DR spécifiques par rapport à l'impact de ne pas disposer de solution DR, en tenant compte de l'aspect financier, de la réputation de l'entreprise, des clients perdus, etc. En bref, il s'agit d'une comparaison des coûts d'une solution DR par rapport aux pertes prévisibles. Si le système de saisie des commandes s'arrête suite à une panne du site, à combien se chiffrent les pertes (immédiates et à long terme) liées aux clients perdus et quels sont les coûts permettant d'éviter une telle panne ? Les pannes des sites ne sont pas toujours provoquées par les technologies de l'information. Voir l'un de ses fournisseurs cesser son activité pendant une semaine suite à une tornade et manquer ensuite de composants de production essentiels est un exemple d'événement non technique pouvant affecter les résultats d'une entreprise.