La redondance des données en stockage est un phénomène courant que les particuliers ne gèrent pas bien et qui pourtant amoindrit considérablement leur capacité de stockage. Quand il s’agit des entreprises, le phénomène prend des proportions énormes si on considère le fait que les données dupliquées occupent des dizaines, voire des centaines de téraoctets. Là, il ne s’agit plus de gérer approximativement. Les systèmes de déduplication de données est à leur service.  

Gaspillage des capacités de stockage et déduplication des données

Les améliorations des possibilités et capacités de stockage ne justifient pas la production abusive de données. Quand dans une entreprise, une multitude de postes de travail utilise les mêmes données et que chacun d’eux en fait la même sauvegarde individuellement, l’occupation des données est multipliée par le nombre de ces postes et sature vite le stockage principal qui n’est pourtant pas sans coût. Tant qu’il est possible de ne stocker qu’un seul exemplaire d’un fichier ou dossier commun à tous dans un système d’information comme ses bases de données, cela doit être fait et pour le désencombrement et pour l’économie d’énergie. Pour parvenir à cette factorisation qui est encore appelée « stockage d’instance unique », l’entreprise doit mettre en œuvre un système de déduplication des données qui va éliminer les données redondantes. Ce dispositif le fait en comparant au moyen d’un algorithme spécial toutes les données entrantes avec celles déjà stockées et remplace les nouvelles données identiques aux précédentes par un pointeur. Il en découle une réduction du volume de data, ce qui va maximiser la capacité des espaces de stockage.  

Déduplication in-line et déduplication asynchrone

Les techniques de déduplication de données sont de deux types. Il y a d’un côté la déduplication in-line qui se fait automatiquement pendant même l’écriture des nouvelles données sur le support de stockage. Le dispositif identifie les données entrantes de manière séquentielle et les remplace par un pointeur lorsqu’elles correspondent à un élément déjà enregistré sur le système. Malgré la surcharge informatique que l’opération occasionne, ce système présente plus d’avantages que d’inconvénients et est adopté par la plupart des périphériques de stockage. De l’autre côté, il y a la duplication asynchrone ou post-process qui ne s’effectue que lorsque les blocs de nouvelles données sont totalement écrits. C’est après l’enregistrement que la comparaison avec les blocs déjà présents sur le système intervient et que le remplacement des copies par un pointeur se fait. Non instantané, ce procédé demande une capacité de stockage important pour l’accueil des nouvelles données. En outre, il y a la déduplication côté client qui se déroule sur le volume de stockage d’un client d’archivage avant le transfert des données vers le réseau local.  

Déduplication logicielle et déduplication matérielle

La déduplication des données se fait principalement de manière logicielle en raison de l’importance du confort offert par l’élimination automatique de la redondance dès son origine. Elle n’exige d’ailleurs pas d’importantes modifications au niveau de l’infrastructure réseau physique de l’entreprise et lui évite donc les investissements additionnels. Ses inconvénients résident dans sa difficulté d’installation et de maintien à jour et aussi dans la charge de traitement que son fonctionnement occasionne. Quand elle est effectuée de manière matérielle, c’est-à-dire uniquement lors du stockage-archivage après enregistrement complet de toute nouvelle donnée entrante, elle offre d’importantes vitesses de compression. De plus, un système de déduplication matérielle peut se faire sécuriser et épauler par une panoplie de dispositifs en réseau. Les serveurs de stockage et les Virtual Tape Libraries (VTL) font partie de cette dernière. Ses possibilités de déploiement correspondent plus aux besoins des grandes entreprises. La suppression régulière et physique ou virtuelle et automatique des données dupliquées dans un système s’impose pour les entreprises compte tenu du fait que ces données constituent un encombrement qui entame sérieusement les capacités de stockage, or le stockage a un coût tant sur le plan financier que sur le plan énergétique. Les solutions de déduplication des données sont disponibles auprès des spécialistes de la gestion de la qualité des données.