Glossaire

Déduplication de données

Que désigne la déduplication de données ?

La déduplication de données est une technique de compression de données qui implique la suppression des données redondantes dans un système. Elle s'utilise pour sauvegarder des données et pour transmettre des données sur un réseau. Elle permet de stocker un modèle unique de données dans une base de données ou dans un système d'information plus vaste. On parle également de « compression intelligente », « stockage d'instance unique », « factorisation » ou « réduction de données ».

La déduplication de données examine puis compare les données entrantes avec les données déjà stockées. Si des données sont déjà présentes, les algorithmes de déduplication suppriment les nouvelles données et les remplacent par un pointeur.

Par exemple, lorsqu'un ancien fichier est sauvegardé avec quelques modifications, le fichier précédent et les modifications s'ajoutent au segment de données total. Cependant, s'il n'y a aucune différence, alors le nouveau fichier est ignoré et un pointeur est créé.

La déduplication de données est une technologie qu'utilisent les fournisseurs de solutions de stockage afin de mieux exploiter l'espace de stockage (l'autre solution étant la compression de données). Ces fonctionnalités de stockage sont généralement regroupées dans une catégorie plus large, appelée réduction de données. Tous ces systèmes ont un même objectif : améliorer l'efficacité de stockage. Si elles utilisent les techniques de déduplication appropriées, les entreprises peuvent stocker davantage de données que le suggère leur capacité de stockage globale. Prenons l'exemple d'une entreprise qui dispose de 15 To de stockage. En conjuguant des techniques de déduplication et de compression, elle peut atteindre une réduction de données de l'ordre de 4:1, soit une capacité de stockage de 60 To sur un tableau de données de 15 To.

Étude de cas d'une déduplication de données

Le cas de figure suivant offre un aperçu pratique des avantages de la déduplication de données : Une entreprise exécute un environnement de bureau virtuel, où des centaines de postes de travail identiques sont stockés sur une baie de stockage coûteuse, qui a été spécialement achetée en soutien. L'entreprise exécute des centaines de fichiers provenant de Windows 8, Office 2013, d'un logiciel ERP et d'autres outils dont les utilisateurs peuvent avoir ponctuellement besoin. Disons que les images de chaque poste de travail consomment 25 Go d'espace disque. Avec seulement 200 postes de travail de ce type, ces images consommeraient à elles seules 5 To de capacité.

Avec la déduplication, il est possible de ne stocker qu'une seule copie de ces machines virtuelles. À chaque fois que le système découvre une donnée qui est stockée quelque part dans l'environnement de stockage, le système de stockage enregistre un petit pointeur à la place de la copie de données, libérant ainsi des blocs qui seraient autrement occupés.

Types de déduplication de données

Comme on peut s'y attendre, les fournisseurs gèrent la déduplication de différentes manières. Il existe deux principales techniques de déduplication qui méritent d'être abordées :

La déduplication in-line est effectuée au moment où les données sont écrites sur l'espace de stockage. Pendant que les données sont en mouvement, le moteur de déduplication détecte les données de manière séquentielle. Bien qu'efficace, ce processus crée une surcharge informatique. Le système doit identifier les données entrantes à maintes reprises, avant de déterminer rapidement si chaque segment de données correspond à un élément présent dans le système. Si c'est le cas, le processus inscrit l’adresse du pointeur. Si ce n'est pas le cas, le bloc est enregistré sans modifications. La déduplication in-line est une fonctionnalité majeure pour de nombreux périphériques de stockage et, bien qu'elle occasionne des frais généraux, elle offre bien plus d'avantages que de coûts.

La déduplication post-process, également appelée déduplication asynchrone, s'effectue quand toutes les données sont entièrement écrites, jusqu'à ce que, à intervalles réguliers, le système de déduplication détecte toutes les nouvelles données, en supprime les copies et les remplace par des pointeurs.

La déduplication post-process permet aux entreprises d'utiliser leur service de réduction des données sans tenir compte du surdébit de traitement causé par la déduplication in-line. Les entreprises peuvent ainsi planifier la déduplication, afin qu'elle soit effectuée pendant les heures creuses.

Le principal inconvénient de la déduplication post-process réside dans le fait que toutes les données sont stockées sous leur forme complète. Ces données non dédupliquées exigent donc un espace de stockage plus important. Ce n'est qu'après la déduplication planifiée (post-traitement) que la taille des données diminue. Les entreprises qui ont recours à la déduplication post-process doivent donc disposer constamment d'une plus grande capacité de stockage.

La déduplication des données côté client désigne une technique de déduplication des données qui s'utilise, par exemple, sur un client de sauvegarde-archivage afin de supprimer les données redondantes pendant leur sauvegarde et leur archivage, avant que les données ne soient transférées vers le serveur. Avec la déduplication des données côté client, il est possible de réduire le volume de données envoyées sur un réseau local.

Déduplication matérielle ou logicielle ?

Les appliances de déduplication fonctionnelles réduisent la charge de traitement associée aux produits logiciels. Ces systèmes de déduplication matérielle peuvent aussi ajouter des matériels de protection des données, comme des appliances de sauvegarde, des VTL (Virtual Tape Libraries) ou des serveurs de stockage en réseau.

Bien que la déduplication logicielle puisse éliminer efficacement les redondances à la source, les méthodes matérielles se focalisent sur la réduction des données lors du stockage. Par conséquent, si la déduplication matérielle ne permet pas d'économiser de la bande passante en dédupliquant les données à la source, elle compense ce problème en offrant des vitesses de compression plus élevées.

La déduplication matérielle des données offre des performances élevées, une évolutivité et un déploiement relativement sans interruption. Elle s'adapte particulièrement bien aux déploiements réalisés par des grandes entreprises, plutôt que par des PME ou des bureaux distants.

La déduplication logicielle est généralement moins coûteuse à mettre en place et ne requiert aucune modification significative de l'infrastructure réseau physique des entreprises. Toutefois, elle s'avère souvent plus difficile à installer et à tenir à jour. Des agents doivent être installés afin de communiquer entre le site local et le serveur de sauvegarde exécutant le même logiciel.

En quoi la déduplication de données est-elle importante ?

Bien que les capacités de stockage ne cessent d'augmenter, les fournisseurs de stockage de données sont constamment en quête de nouvelles méthodes pour permettre à leurs clients d'intégrer des montagnes de données dans des périphériques de stockage. Après tout, même sur les disques les plus gros, il est logique d'essayer de maximiser la capacité potentielle de stockage. La déduplication aura toujours des effets positifs sur l'utilisation des espaces de stockage, permettant ainsi d'en réduire les coûts. Mais pour qu'elle soit pleinement efficace, une méthode de déduplication doit être choisie avec soin. Certaines méthodes réduisent les besoins en bande passante, d'autres réduisent les dépendances de stockage localisées et d'autres s'intègrent directement aux services de cloud computing.

En savoir plus sur la déduplication de données

Termes associés

Lectures complémentaires

Découvrez comment Barracuda peut vous aider

La déduplication de Barracuda Backup simplifie la protection des données tout en réduisant les dépenses additionnelles, en support et réseau. À l'aide d'une déduplication en trois étapes, de longueur variable, cette solution permet de stocker des serveurs protégés de manière efficace et durable, tout en réduisant les temps de sauvegarde.