Accueil🇫🇷Chercher

DĂ©duplication

En informatique, la déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de stockage de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace utilisé.

Exemple de déduplication de blocs de données

Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stockés dans un index. L'objectif de la déduplication est de ne stocker qu'une seule fois un même tronçon. Aussi, une nouvelle occurrence d'un tronçon déjà présent n'est pas à nouveau sauvegardée, mais remplacée par un pointeur vers l'identifiant correspondant.

La déduplication est utilisée en particulier sur des solutions du type VTL (Virtual Tape Library) ou tout autre type de système de sauvegarde.

Méthodes de déduplication

DĂ©duplication hors ligne

Les données à sauvegarder sont recopiées sur un espace disque tampon, et dans un deuxième temps une recherche des blocs en double est réalisée. Cette méthode nécessite un espace de stockage important. C'est le principe des solutions Falconstor ou Quantum DXi en firmware 1.x par exemple.

DĂ©duplication en ligne

Les données à sauvegarder sont analysées "à la volée", et une table d'index des blocs identiques est gérée (solution NexentaStor de Nexenta Systems, Data Domain de EMC Corporation ou IBM ProtecTIER)[1].

DĂ©duplication Ă  la source

Des agents répartis sur les serveurs à sauvegarder analysent les données à la source (solution EMC Avamar notamment)[1].

Principe

L'index créé lors de la sauvegarde est utilisé pour restituer les données au bon endroit. Les fichiers ou les blocs en double dans l'index sont dupliqués au moment de la restauration. L'expérience montre qu'en pratique le taux de déduplication augmente dans le temps, car en pratique peu de données changent entre deux sauvegardes totales. D'autre part le taux de réduction obtenu dépend fortement du type de données traitées[2].

Inconvénients de la déduplication

  • Risque de perte de donnĂ©es car les donnĂ©es ne sont pas en double et donc le support utilisĂ© doit ĂŞtre fiable. La rĂ©duction de la taille des sauvegardes est un avantage par rapport Ă  d'autres types de sauvegarde, mais au dĂ©triment de la sĂ©curitĂ© des donnĂ©es. Par consĂ©quent, il est recommandĂ© de crĂ©er des doubles des supports de stockage.
  • Perte du format d'origine, ce qui dans certains cas pose des problèmes de conformitĂ© aux contraintes lĂ©gales (par exemple Bâle II). Certaines solutions proposent pour cela de gĂ©nĂ©rer les donnĂ©es sensibles sur cartouche au format initial, pour s'affranchir d'une Ă©ventuelle dĂ©faillance de la VTL par exemple.

Avantage de la déduplication

  • L'avantage le plus important est la rĂ©duction d'espace occupĂ© par les sauvegardes : selon le cabinet Gartner, cette technologie permet de diviser par 20 voire par 30 les besoins en espace de stockage[3].
  • Un avantage indirect, consĂ©quence du prĂ©cĂ©dent, est la diminution de la bande passante nĂ©cessaire Ă  la sauvegarde dans le cas de la dĂ©duplication Ă  la source[4].

Solutions de déduplication

Logiciels libres (ou assimilés)

Logiciels propriétaires de déduplication à la cible (VTL ou Stockage disque)

Les VTL (les Virtual Tape Libraries, ou bandothèques virtuelles, présentent aux systèmes l'équivalent d'un ou plusieurs lecteurs de bandes, avec des capacités de bandes virtuelles modifiable. Une solution de sauvegarde supplémentaire est en général nécessaire.)

  • FalconStor
  • Rocksoft (Adic/Quantum)
  • Sepaton

Le stockage disque (les solutions présentent aux systèmes un disque ou dossier en partage réseau, utilisable directement, ou bien une solution complète de sauvegarde exploitant la déduplication de manière exclusive)

  • NetApp Data ONTAP (Stockage disque)
  • IBM ProtecTIER, (ex Diligent) (Stockage disque)
  • EMC Avamar (Solution de sauvegarde complète)
  • EMC Datadomain (Stockage disque)
  • VERITAS PureDisk (Solution de sauvegarde complète)
  • Quantum DXi (Stockage disque)
  • Quantum V-series (Appliance virtuelle de dĂ©duplication Ă  la cible)
  • Dell DR4000 Series (Appliance physique de dĂ©duplication Ă  la cible)

Logiciels propriétaires de déduplication à la source (agent sur le serveur à sauvegarder)

  • Atempo HyperStream Server (HSS)
  • EMC Avamar
  • IBM Tivoli Storage Manager
  • VERITAS PureDisk
  • VERITAS NetBackup (Media Server Deduplication Option)
  • RapidoBackup

Logiciels propriétaires de déduplication à la source (sans agent sur le serveur à sauvegarder)

  • DataStor Shield Enterprise Protection Server
  • IBM Tivoli Storage Manager
  • Microsoft Windows Server 2012 et Windows Storage Server 2012
  • Storex Storex Protek
  • Tandberg Data AccuGuard
  • Veeam Backup & Replication
  • Acronis

Voir aussi

Articles connexes

Liens externes

Notes et références

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.