
Il est plus
compliqué de savoir si les systèmes de sauvegarde et de restauration
fonctionnent bien que de savoir combien de temps prennent les sauvegardes et
les restaurations; accepter un ensemble de mesures essentielles est la clé pour
juger correctement votre système afin de déterminer s’il réussit ou a besoin
d’une refonte.
Voici cinq mesures que chaque entreprise doit rassembler afin
de s’assurer que ses systèmes répondent aux besoins de l’entreprise.
Capacité de stockage et utilisation
Commençons par une métrique très basique: votre système de
sauvegarde a-t-il une capacité de stockage suffisante pour répondre à vos
besoins de sauvegarde et de restauration actuels et futurs? Que vous parliez
d’une bandothèque ou d’une baie de stockage, votre système de stockage a une
quantité limitée de capacité, et vous devez surveiller quelle est cette
capacité et quel pourcentage de celle-ci vous utilisez au fil du temps.
Ne pas le surveiller peut vous obliger à prendre des
décisions qui pourraient aller à l’encontre des politiques de votre entreprise.
Par exemple, la seule façon de créer une capacité supplémentaire sans en
acheter plus est de supprimer les anciennes sauvegardes. Il serait dommage que
le fait de ne pas surveiller la capacité de votre système de stockage se
traduise par l’incapacité de répondre aux exigences de rétention fixées par
votre entreprise.
Le stockage d’objets basé sur le cloud peut aider à atténuer
cette inquiétude car certains services offrent une capacité essentiellement
illimitée.
Capacité de débit et utilisation
Chaque système de stockage a la capacité d’accepter un
certain volume de sauvegardes par jour, généralement mesuré en mégaoctets par
seconde ou en téraoctets par heure. Vous devez connaître ce numéro et vous
assurer de surveiller l’utilisation de votre système de sauvegarde. Si vous ne
le faites pas, les sauvegardes peuvent prendre de plus en plus de temps et
s’étendre sur la journée de travail.
La surveillance de la capacité de débit et de l’utilisation
de la bande est particulièrement importante. Il est très important que le débit
de vos sauvegardes corresponde au débit de la capacité de votre lecteur de
bande à transférer des données. Plus précisément, le débit que vous fournissez
à votre lecteur de bande doit être supérieur à la vitesse minimale du lecteur
de bande. Consultez la documentation du lecteur et le système d’assistance du
fournisseur pour connaître la vitesse minimale acceptable et essayez de vous
rapprocher le plus possible de cette vitesse. Il est peu probable que vous
approchiez de la vitesse maximale du lecteur de bande, mais vous devez
également surveiller cela.
Calculer la capacité et l’utilisation
La capacité de votre système de sauvegarde dépend également
de la capacité du système de calcul derrière lui. Si la capacité de traitement
des serveurs de sauvegarde ou de la base de données derrière le système de
sauvegarde ne parvient pas à suivre, cela peut également ralentir vos
sauvegardes et les faire saigner dans la journée de travail. Vous devez
également surveiller les performances de votre système de sauvegarde pour voir
dans quelle mesure cela se produit.
Fenêtre de sauvegarde
Les deux mesures précédentes sont très importantes car elles affectent ce que nous appelons la fenêtre de sauvegarde: la période pendant laquelle les sauvegardes sont autorisées à s’exécuter. Si vous utilisez un système de sauvegarde traditionnel où il y a un impact significatif sur les performances de vos systèmes principaux pendant la sauvegarde, vous devez convenir à l’avance de la fenêtre de sauvegarde. Si vous êtes sur le point de remplir toute la fenêtre, il est temps de réévaluer la fenêtre ou de repenser le système de sauvegarde.
Les entreprises qui utilisent des techniques de sauvegarde qui entrent dans la catégorie incrémentielle permanente (par exemple, la protection continue des données (CDP), le quasi-CDP, les sauvegardes incrémentielles de niveau bloc ou les sauvegardes par déduplication de source) n’ont généralement pas à se soucier d’une fenêtre de sauvegarde. En effet, les sauvegardes s’exécutent sur de très courtes périodes et transfèrent une petite quantité de données, un processus qui a généralement un impact très faible sur les performances des systèmes principaux. C’est pourquoi les clients utilisant de tels systèmes effectuent généralement des sauvegardes tout au long de la journée, aussi souvent qu’une fois par heure, voire toutes les cinq minutes. Un véritable système CDP fonctionne en fait en continu, transférant chaque nouvel octet tel qu’il est écrit.
Point de récupération et réalité du temps de récupération
Personne ne se soucie vraiment du temps nécessaire à la sauvegarde; ils se soucient du temps qu’il faut pour restaurer. L’objectif de temps de récupération (RTO) est le temps convenu par toutes les parties qu’une restauration doit prendre après une sorte d’incident qui en nécessite un. La durée d’un RTO acceptable pour une entreprise donnée est généralement déterminée par le montant d’argent qu’il perdra lorsque les systèmes seront en panne. Par exemple, si une entreprise perd des millions de dollars par heure pendant les temps d’arrêt, elle souhaite généralement un RTO très serré. Des sociétés telles que les sociétés de négoce financier, par exemple, cherchent à avoir un RTO aussi proche de zéro que possible. D’autres sociétés qui peuvent tolérer de plus longues périodes d’indisponibilité informatique peuvent avoir un RTO mesuré en semaines. L’important est que le RTO corresponde aux besoins commerciaux de l’entreprise.
Il n’est pas nécessaire d’avoir un seul RTO dans toute l’entreprise. Il est parfaitement normal et raisonnable d’avoir un RTO plus serré pour les applications plus critiques et un RTO plus détendu pour le reste du centre de données.
L’objectif de point de récupération (RPO) est la quantité de perte de données acceptable après un incident majeur, mesurée en temps. Par exemple, si nous convenons que nous pouvons perdre l’équivalent d’une heure de données, nous avons convenu d’un RPO d’une heure. Cependant, la plupart des entreprises optent pour des valeurs beaucoup plus élevées, comme 24 heures ou plus. Cela est principalement dû au fait que plus votre RPO est petit, plus vous devez exécuter votre système de sauvegarde plus fréquemment. De nombreuses entreprises peuvent souhaiter un RPO plus strict, mais elles se rendent compte que ce n’est pas possible avec leur système de sauvegarde actuel. Comme le RTO, il est parfaitement normal d’avoir plusieurs RPO dans toute l’entreprise en fonction de la criticité des différents ensembles de données.
Les métriques de point de récupération et de réalité de temps de récupération sont mesurées uniquement si une récupération se produit – qu’elle soit réelle ou via un test. Le RTO et le RPO sont des objectifs, le RPR et le RTR mesurent dans quelle mesure vous avez atteint ces objectifs après une restauration. Il est important de mesurer cela et de le comparer avec le RTO et le RPO pour évaluer si vous devez envisager une refonte de votre système de sauvegarde et de récupération.
La réalité est que la plupart des RTR et RPR de la plupart des entreprises sont loin des RTO et RPO convenus pour leur entreprise. L’important est de mettre cette réalité en lumière et de la reconnaître. Soit nous ajustons le RTO et le RPO, soit nous avons repensé le système de sauvegarde. Il est inutile d’avoir un RTO ou RPO serré si le RTR et le RPR sont complètement différents.
Que faire des métriques
L’une des façons d’augmenter la confiance dans votre système de sauvegarde consiste à documenter et à publier toutes les mesures mentionnées ici. Faites savoir à votre direction dans quelle mesure votre système de sauvegarde fonctionne comme prévu. Faites-leur savoir – sur la base du taux de croissance actuel – combien de temps il leur faudra avant d’acheter de la capacité supplémentaire. Et surtout, assurez-vous qu’ils sont conscients de la capacité de votre système de sauvegarde et de récupération à respecter les RTO et RPO convenus. Cacher ce fait ne fera du bien à personne en cas de panne.
0 commentaire Laisser un commentaire