Fault management
Dans le cadre de la supervision de réseaux, le Fault management est l'ensemble des fonctions qui permettent de détecter, isoler et corriger les erreurs dans un réseau de télécommunication et de réagir aux changements environnementaux.
Cela inclut la maintenance et l'analyse des historiques d'erreurs, l'acceptation et la gestion d'évènements de notification d'erreurs, le suivi et l'identification de celles-ci, la menée de tests de diagnostic, la correction des erreurs et la publication d'informations pertinentes les concernant, la localisation et le suivi des erreurs par l'examen et la manipulation d'informations contenues dans des bases de données.
Description
Lorsqu'une erreur ou un évènement se produit, un équipement réseau enverra souvent une notification à l'opérateur réseau en utilisant un protocole tel que le SNMP. Une alarme est une indication persistante d'une faute, qui ne disparait que lorsque les conditions qui l'ont produites ont été résolues. La liste courante des problèmes liés à l'équipement réseau est souvent conservée sous la forme d'une liste d'alarmes actives telles que définies dans la RFC 3877, la MIB d'alarmes. Une liste des erreurs réparées est aussi maintenue par la plupart des équipements réseau.
Les systèmes de fault management peuvent utiliser des systèmes de filtrage complexes pour assigner aux alarmes des degrés de sévérité. Ils peuvent aller de mineurs à urgents, comme dans le protocol syslog. De manière alternative, ils peuvent utiliser les champs de sévérité perçus des fonctions de report d'alarme suivant l'ITU X.733. Les valeurs possibles sont alors réparées, indéterminées, critiques, majeures, mineures ou avertissements.
Notez que la dernière version du protocole syslog, encore actuellement en développement à l'IETF, inclut des correspondances entre les différentes échelles de sévérité. Il est considéré comme une bonne pratique d'envoyer une notification non seulement lorsqu'un problème est apparu, mais également lorsque celui-ci a été résolu. Dans ce dernier cas, la sévérité serait "réparée".
Une interface de fault management permet à un administrateur réseau ou à un opérateur système de superviser des évènements de systèmes multiples et d'effectuer des actions basées sur ces informations. Idéalement, un système de fault management devrait permettre d'identifier correctement les évènements et de prendre automatiquement les décisions qui s'imposent, comme le lancement d'un programme ou d'un script correctif, ou l'activation d'un logiciel de notification qui va permettre à un opérateur humain d'effectuer les actions appropriées (par exemple, en lui envoyant un SMS ou un courriel). Certains systèmes de notification ont également des règles de préemption qui permettent d'avertir plusieurs personnes en fonction de leur disponibilité et de la sévérité des alarmes.
Il y a deux manières premières de faire du fault management : une active et une passive.
- Le fault management passif est réalisé en collectant les alarmes des équipements (usuellement via SNMP) lorsque quelque chose s'y produit. Dans ce mode, le système de fault management sera averti uniquement si l'équipement qu'il supervise est suffisamment intelligent pour générer une erreur et la lui envoyer. Cependant, dans le cas où l'équipement supervisé tombe totalement en panne, aucune alarme ne sera envoyée et le problème ne sera pas détecté.
- Le fault management actif évite cet écueil en utilisant des outils comme PING pour vérifier que l'équipement répond bien et si tel n'est pas le cas, une alarme est générée pour avertir de ce problème et en permettre la correction.
Note
Traduction littérale de l'article Fault Management en version anglophone.