Plan de reprise d'activité (informatique)

Un article de Wikipédia, l'encyclopédie libre.

En informatique, un Plan de Reprise d'Activité permet d'assurer, en cas de crise majeure ou importante d'un centre informatique, la reconstruction de son infrastructure et la remise en route des applications supportant l'activité d'une organisation.

Le plan de reprise d'activité doit permettre, en cas de sinistre, de basculer sur un système capable de prendre en charge les besoins informatiques nécessaires à la survie de l'entreprise. Il existe plusieurs niveaux de capacité de reprise, et le choix doit dépendre des besoins exprimés par l'entreprise.

[modifier] Déterminer les besoins

Un système de reprise peut coûter extrêmement cher à mettre en place et à maintenir. Il est donc important de définir correctement les attentes du système de reprise.

Les besoins sont exprimés par un RTO (Return Time Objective) et un RPO (Return Point Objective). Le premier définit le temps alloué pour faire le basculement vers le nouveau système. Le second définit l'état dans lequel doit se trouver le nouveau système après basculement : doit-on avoir conservé les transactions jusqu'à la dernière seconde, ou peut-on se permettre de perdre toutes les données de la journée ; peut on démarrer en mode dégradé ou est-ce que tous les services informatiques doivent être disponibles ...

Par exemple, dans le secteur bancaire, et plus particulièrement dans le cadre d'un système de gestion de trading, on peut définir un RTO de 1 heure avec un RPO de 0 secondes, sans mode dégradé. Aucune transaction ne sera ainsi perdue, et le service pourra être disponible sous une heure.

[modifier] Méthodes

Un plan de continuité passe invariablement par une architecture multi sites, permettant au matériel sur le second site de ne pas être affecté par le sinistre.

Les données sont centrales dans toute architecture de Disaster Recovery. On distingue deux techniques pour sauvegarder les données sur le site distant :

  • Les sauvegardes synchrones : une écriture sur le disque local est répliquée immédiatement sur le site distant. Cette solution est cependant difficile à mettre en place : le temps de transfert altère les performances, il faut donc que le site soit à une distance raisonnable. De plus la quantité de données à transmettre étant importante, il est primordial d'avoir un réseau très rapide, dédié à cet usage, et donc couteux à mettre en place et maintenir. Cette solution est cependant celle à choisir quand le RPO est de zéro, et que le RTO est très court.
  • Les sauvegardes asynchrones : la réplication se fait à intervalles réguliers. Cette solution est moins performante que la précédente, cependant elle est plus simple et moins couteuse à mettre en place : on peut se permettre de transférer lentement les données, le site distant peut donc être éloigné et relié par un réseau à débit plus faible.

Une architecture assez typique est organisée en 3 sites : 2 sites proches, où les données sont répliquées de manière synchrones, ce qui permet un basculement instantané entre les systèmes; le 3ème site étant distant et une réplication asynchrone est mise en place.