J'inaugure ce fil dédié au la ptite manip' qui améliore l'usage de l'informatique au quotidien avec un bref guide de la déduplication.

La déduplication, de quoi ça s'agit?

La déduplication, ou dédup' pour les intimes, est une technique plutôt ingénieuse consistant à repérer les blocs de données identiques et communs à plusieurs fichiers et à les mutualiser. En clair, imaginons que vous avez un très grand nombre de livres de recettes dans votre bibliothèque et que vous manquiez de place pour ranger tout vos bouquins sur vos étagères. Vous décidez alors de consulter l'index de tous les bouquins avant de déchirer et de mettre à la poubelles chaque recettes de pages faisant doublon. Gain de place garanti.

La recette, si je puis dire, est ici la même avec votre ordinateur: la déduplication va morceler vos fichiers en tronçons appelé blocs qui seront référencés avec un identifiant unique stockés dans un index, puis chaque bloc faisant doublon sera supprimé.

Cette technique est utilisée depuis quelque temps dans le monde professionnel permettant d'optimiser grandement les espaces destinés au stockage est désormais à la porté de tous, mais oui madame Michu, vous avez bien entendu, même à vous. Cependant cette pratique n'étant pas implémentée nativement dans nos O.S. de pékin lambda demandera quelques manipulations que vous pourrez retrouver dans le tutoriel suivant:

http://weikingteh.wordpress.com/2013/01 ... windows-8/

Pour info, la pratique est connue et reconnue par Microsoft mais pas supportée. Comprenez que si vous vous plantez dans la manip' aucun recours auprès de l'éditeur ne sera possible.

Résultat, vous pourrez désormais stoker 300 Go de conneries sur un disque de 100 Go.

21 jours plus tard

m en tape j ai pas le moindre bouquin de cuisine et encore moins d’étagères

Plus personne n'utilise des DD de 100 Go.

Plus personne n'utilise des DD de 100 Go.

L'avantage de la déduplication c'est qu'elle marche au-delà du simple cadre de l'exemple qui par ailleurs se retrouve encore bien souvent :

Plus personne n'utilise des DD de 100 Go.

Moi si... Pour internet c'est amplement suffisant (pour l'instant )

Interessant cet article de tri selectif intelligent

Plus personne n'utilise des DD de 100 Go.

Moi si... Pour internet c'est amplement suffisant (pour l'instant )

Interessant cet article de tri selectif intelligent

oui moi aussi je trouve intéressant cet article... après est ce que je réussirai à faire ça sans conneries ? c'est pas sûr du tout !

7 jours plus tard

J'inaugure ce fil dédié au la ptite manip' qui améliore l'usage de l'informatique au quotidien avec un bref guide de la déduplication.

La déduplication, ou dédup' pour les intimes, est une technique plutôt ingénieuse consistant à repérer les blocs de données identiques et communs à plusieurs fichiers et à les mutualiser. En clair, imaginons que vous avez un très grand nombre de livres de recettes dans votre bibliothèque et que vous manquiez de place pour ranger tout vos bouquins sur vos étagères. Vous décidez alors de consulter l'index de tous les bouquins avant de déchirer et de mettre à la poubelles chaque recettes de pages faisant doublon. Gain de place garanti.

La recette, si je puis dire, est ici la même avec votre ordinateur: la déduplication va morceler vos fichiers en tronçons appelé blocs qui seront référencés avec un identifiant unique stockés dans un index, puis chaque bloc faisant doublon sera supprimé.

Cette technique est utilisée depuis quelque temps dans le monde professionnel permettant d'optimiser grandement les espaces destinés au stockage est désormais à la porté de tous, mais oui madame Michu, vous avez bien entendu, même à vous. Cependant cette pratique n'étant pas implémentée nativement dans nos O.S. de pékin lambda demandera quelques manipulations que vous pourrez retrouver dans le tutoriel suivant:

http://weikingteh.wordpress.com/2013/01 ... windows-8/

Pour info, la pratique est connue et reconnue par Microsoft mais pas supportée. Comprenez que si vous vous plantez dans la manip' aucun recours auprès de l'éditeur ne sera possible.

Résultat, vous pourrez désormais stoker 300 Go de conneries sur un disque de 100 Go.

Ca peut-être pas mal pour un expert de virer d'un trait des mouchards, à condition d'y comprendre quelque chose dans ce merdier

8 jours plus tard

J'inaugure ce fil dédié au la ptite manip' qui améliore l'usage de l'informatique au quotidien avec un bref guide de la déduplication.

La déduplication, ou dédup' pour les intimes, est une technique plutôt ingénieuse consistant à repérer les blocs de données identiques et communs à plusieurs fichiers et à les mutualiser. En clair, imaginons que vous avez un très grand nombre de livres de recettes dans votre bibliothèque et que vous manquiez de place pour ranger tout vos bouquins sur vos étagères. Vous décidez alors de consulter l'index de tous les bouquins avant de déchirer et de mettre à la poubelles chaque recettes de pages faisant doublon. Gain de place garanti.

La recette, si je puis dire, est ici la même avec votre ordinateur: la déduplication va morceler vos fichiers en tronçons appelé blocs qui seront référencés avec un identifiant unique stockés dans un index, puis chaque bloc faisant doublon sera supprimé.

Cette technique est utilisée depuis quelque temps dans le monde professionnel permettant d'optimiser grandement les espaces destinés au stockage est désormais à la porté de tous, mais oui madame Michu, vous avez bien entendu, même à vous. Cependant cette pratique n'étant pas implémentée nativement dans nos O.S. de pékin lambda demandera quelques manipulations que vous pourrez retrouver dans le tutoriel suivant:

http://weikingteh.wordpress.com/2013/01 ... windows-8/

Pour info, la pratique est connue et reconnue par Microsoft mais pas supportée. Comprenez que si vous vous plantez dans la manip' aucun recours auprès de l'éditeur ne sera possible.

Résultat, vous pourrez désormais stoker 300 Go de conneries sur un disque de 100 Go.

Bonjour,

Et si les blocs sont réorganisés après avoir été mis dans un index ? Et est-ce que ça marche sur des disques en RAID ? Et pourquoi ne pas tout simplement compresser les données ? Plus il y a de redondances plus la compression est bonne.

Cordialement.

C'est une technique de compression de donnée des plus classique. Pourquoi coder chaque pixel d'une image sur 32 bits si l'image ne comporte que 255 couleurs quand il suffit d'avoir une palette des 255 couleurs et faire que chaque pixel de l'image "pointe" sur une couleur de la palette ?

C'est juste le même algo appliqué a du texte. En théorie l'hypertexte devrait permettre fonctionner sur un principe similaire et éviter la redondance d'information. C'est un peu l'échec vu que les gens aiment copier coller du texte d’ailleurs pour dire que c'est eux qui l'on fait...

Et pourquoi ne pas tout simplement compresser les données ? Plus il y a de redondances plus la compression est bonne.

C'est exactement le principe de la déduplication: au lieu de dupliquer les données, tu ne conserves que des pointeur sur une copie, les algorithmes de compression utilisent ce principe depuis un moment ;)

alors pour windows 7 :

- désactiver le service Superfetch (Recherche de programme et service -> tapez "services") (ça précharge vos applis préféré à chaque démarrage, soit disant pour améliorer les perfs...)

- désactiver la restauration du système qui fait des copies de fichier (panneau de configuration -> système -> paramètres système avancées -> Protection du système)

- Supprimer les tâches planifiées du "Planificateur de tâches" (peut être que vous voudrez en garder certaines)

- Ne pas lancer certains programmes au démarrage (Recherche de programme et service -> tapez "msconfig" -> onglet démarrage)

installer Clover pour avoir des tabs dans l'explorateur de fichiers(http://ejie.me/)

Et pourquoi ne pas tout simplement compresser les données ? Plus il y a de redondances plus la compression est bonne.

C'est exactement le principe de la déduplication: au lieu de dupliquer les données, tu ne conserves que des pointeur sur une copie, les algorithmes de compression utilisent ce principe depuis un moment ;)

Oui et non si on veut être rigoureux. Un algo de compression ne fonctionne pas au niveau bloc, il va plutôt chercher à repérer les itérations sur de longues chaines pour conserver une même information sur moins de bits. Pour l'exprimer avec un exemple trivial, si j'étais un algo de compression au service d'un comptable très doué, très rapide, mais capable de manipuler uniquement des additions de 1 et de 0 et bien je résumerais un long calcul comme 1+1+1+1+1+1+1+1+1+1+1+1 en le notant 1x12. Au final, ça prendrait moins de place dans le classeur du comptable, par contre il ne pourra se passer de mes services pour encoder et décoder l'information ainsi compressée.

De fait, et pour en revenir à la question de Zenon, la déduplication fonctionne mal sur des fichiers compressés. En effet, celle-ci fonctionnant au niveau bloc, si les données sont compressées, on va retrouver beaucoup moins de blocs semblables au niveau fichiers. Pour résumer un peu grossièrement le truc, la compression trouve son intérêt au niveau d'un fichier au sein duquel se trouve de longue chaines de séquences identiques et l'intérêt de la déduplication se trouve au niveau d'un ensemble de fichiers présents sur une même unité de stockage.

C'est pourquoi on retrouve ces technologies dans le multimédia pour la compression et dans les infrastructures virtualisée pour la déduplication du fait qu'on retrouve de nombreuses fois un certains nombre de fichiers présents au seins d'un ensembles de machines virtuelles.

On retrouve aussi une différence fondamentale dans les prérequis matériels: la compression demande surtout beaucoup de ressources CPU et la déduplication est elle plus sensibles aux I/O niveau stockage (temps d'accès disque, etc...).

On pourra détailler au besoin le fonctionnement de ces deux technologies sur un fil dédié.

- désactiver la restauration du système qui fait des copies de fichier (panneau de configuration -> système -> paramètres système avancées -> Protection du système)

Les points de restauration copient en général sur une partition système, tu ne gagnes rien en faisant ça !

Et si les blocs sont réorganisés après avoir été mis dans un index ?

Chaque bloc possède un identifiant unique permettant de le repérer quelle que soit sa place (physiquement parlant) sur le disque.

Et est-ce que ça marche sur des disques en RAID ?

Bien sûr, les deux fonctionnant typiquement ensemble sur la plus part des infrastructures virtualisées un peu conséquentes. La technologie de stockage physique, comme pour votre première question, n'interfère pas avec la déduplication qui, elle, fonctionne au niveau logiciel.

Et pourquoi ne pas tout simplement compresser les données ? Plus il y a de redondances plus la compression est bonne.

En fait non. Voir ci-dessus.

Et pourquoi ne pas tout simplement compresser les données ? Plus il y a de redondances plus la compression est bonne.
En fait non. Voir ci-dessus.

Et si on archive les fichiers avant leurs compression ?

Et si on archive les fichiers avant leurs compression ?

C'est quoi l'idée?

Et si on archive les fichiers avant leurs compression ?

C'est quoi l'idée?

Ben mettre l'ensemble des fichiers dans un gros fichier et lancer l’algorithme de compression. C'est le principe du .tar+gz.

J'ai déjà répondu plus haut, d'où ma question: c'est quoi l'idée?

L'idée est de compresser et de laisser dans un coin ce dont on se sert pas souvent et éventuellement de laisser les fichiers fréquemment utilisés sans compression d'aucune sorte.

En fait l’intérêt de la dédup vient du fait que deux blocs identiques peuvent être considérer comme équivalent. Si l'on modifie la partie d'une fichier qui correspond a l'un des blocs communs: il faudra le copier, le mettre autre part, le modifier et éventuellement modifier l'agencement des autres fichiers dédup dans le cas ou le choix des blocs indexés ne serait plus pertinent. Dans un système de stockage ou la lecture/écriture de fichier est très sollicité la dédup va montrer ses limites.

En fait, ça devient très vite complexe lorsque l'on pense aux cas pratiques. Ça dépend de l'utilisation que l'on fait de sa machine. Je suis un peu partisan des solutions extrêmes en info(donc optimisées) et j'ai tendance à me méfier des compromis.

Après je ne vois peut être pas l'avantage parce que je n'ai aucune idée de l’implémentation...

Edit:

Enfin peut être que si. Si c'est ce à quoi je pense, il peut y avoir un intérêt d'avoir un système de compression/décompression qui ne nécessite pas de lancer l'algo sur l'ensemble des données pour trouver l'information dont on a besoin (la sollicitation cpu dont tu parlais). Du coups la question que je me pose touche a la pertinence du procédé dans un système qui stocke des fichiers de nature différente, ce qui réduit les chances d'avoir des blocs de données similaires.