Dans sa définition générique, la disponibilité informatique est la capacité d’accomplir la fonction donnée dans le temps imparti et dans des conditions d’exploitation considérées comme normales. La disponibilité d’une solution Cloud est par exemple sa capacité à assurer un stockage fiable, sécurisé et immédiatement accessible à l’utilisateur.
Cette opérabilité est un facteur déterminant de la qualité d’une solution et c’est pourquoi de nombreux indicateurs permettent de la mesurer. Pourtant, ces derniers ne doivent pas être utilisés en dehors de leur contexte spécifique et les substituer l’un à l’autre peut avoir un impact significatif sur l’évaluation de la disponibilité réelle du service. Plusieurs questions apparaissent instantanément : quels indicateurs utiliser, lesquels prendre en compte et dans quel contexte ?
Tout d’abord en cas de panne, il convient de vérifier le temps moyen entre les pannes (ou Mean Time Between Failures). Cet indicateur ne prend pas en compte les arrêts programmés ou réalisés de manière volontaire. Il s’agit de la somme des écarts entre les durées de fonctionnement et les durées de pannes, la somme de ces écarts étant ensuite divisée par le nombre de pannes. Autrement dit, plus le MTBF est élevé et moins le produit est sujet à des pannes, ce qui gage de sa fiabilité. Il s’agit d’ailleurs d’un indice de fiabilité.
Le temps moyen pour réparer un système (ou Mean Time To Repair). Contrairement au MTBF, le MTTR est calculé sur un équipement et représente un indice de maintenabilité. Il s’agit arithmétiquement de la somme des temps d’intervention par panne divisée par le nombre de pannes. Ainsi, plus le MTTR est important et plus il est complexe d’assurer la maintenance de l’équipement car chaque incident est relativement long à résoudre.
Le RTO (Recovery Time Objective) est la durée maximale d’interruption admissible d’un équipement informatique. Dans le cas d’une sauvegarde externalisée de type Cloud, il s’agit de la durée de non-disponibilité de la sauvegarde et de l’accès aux documents qui est acceptée en cas de défaillance de l’équipement.
Le RPO (Recovery Point Objective) dans le cadre de la défaillance d’une solution Cloud est la durée maximale au cours de laquelle il est considéré comme acceptable de perdre des données. Le RPO définit la durée entre deux sauvegardes automatiques par exemple, entre l’intervalle desquelles on accepte de potentiellement perdre les données non-sauvegardées.
Le Service Level Agreement est une clause contractuelle passée entre le prestataire de service informatique par laquelle le premier s’engage à fournir un niveau de qualité de service prédéterminé.
La Garantie de Temps d’Intervention constitue la durée contractuellement définie entre la survenance de l’incident et le déclenchement des premières interventions du prestataire en vue de rétablir l’opérabilité de l’équipement.
Enfin, la Garantie de Temps de Rétablissement est la durée maximale – également définie contractuellement – pendant laquelle le prestataire doit avoir rétabli l’opérationnalité du service.
À chaque difficulté technique correspond un indicateur adapté. Il est donc nécessaire de réaliser une analyse préalable de la problématique afin d’utiliser le bon indicateur de maintenance. Ce, pour développer une politique de surveillance adaptée et pour pouvoir répondre le cas échéant de la manière la plus adaptée aux incidents. Un expert en infogérance informatique peut vous fournir les clés pour mieux appréhender votre infrastructure informatique et ainsi garantir son efficacité dans le temps.
Test