Et pourquoi ne pas tout simplement compresser les données ? Plus il y a de redondances plus la compression est bonne.
C'est exactement le principe de la déduplication: au lieu de dupliquer les données, tu ne conserves que des pointeur sur une copie, les algorithmes de compression utilisent ce principe depuis un moment ;)
Oui et non si on veut être rigoureux. Un algo de compression ne fonctionne pas au niveau bloc, il va plutôt chercher à repérer les itérations sur de longues chaines pour conserver une même information sur moins de bits. Pour l'exprimer avec un exemple trivial, si j'étais un algo de compression au service d'un comptable très doué, très rapide, mais capable de manipuler uniquement des additions de 1 et de 0 et bien je résumerais un long calcul comme 1+1+1+1+1+1+1+1+1+1+1+1 en le notant 1x12. Au final, ça prendrait moins de place dans le classeur du comptable, par contre il ne pourra se passer de mes services pour encoder et décoder l'information ainsi compressée.
De fait, et pour en revenir à la question de Zenon, la déduplication fonctionne mal sur des fichiers compressés. En effet, celle-ci fonctionnant au niveau bloc, si les données sont compressées, on va retrouver beaucoup moins de blocs semblables au niveau fichiers. Pour résumer un peu grossièrement le truc, la compression trouve son intérêt au niveau d'un fichier au sein duquel se trouve de longue chaines de séquences identiques et l'intérêt de la déduplication se trouve au niveau d'un ensemble de fichiers présents sur une même unité de stockage.
C'est pourquoi on retrouve ces technologies dans le multimédia pour la compression et dans les infrastructures virtualisée pour la déduplication du fait qu'on retrouve de nombreuses fois un certains nombre de fichiers présents au seins d'un ensembles de machines virtuelles.
On retrouve aussi une différence fondamentale dans les prérequis matériels: la compression demande surtout beaucoup de ressources CPU et la déduplication est elle plus sensibles aux I/O niveau stockage (temps d'accès disque, etc...).
On pourra détailler au besoin le fonctionnement de ces deux technologies sur un fil dédié.