Algorithme de compression.
Le codage de Huffman est un algorithme de compression qui fut mis au point en 1952 par
David Huffman.
Il s’agit d’un algorithme qui a pour objectif de compresser les fichiers sans perte (le résultat
du fichier décompressé doit être strictement équivalent au résultat du fichier avant la
compression).
Constat : Dans la plupart des fichiers classiques, chaque caractère est stocké sur le même
nombre d'octet : Par exemple, dans un texte écrit en caractère Ascii chaque caractère est codé
sur un Octet. Dans une image (ou une vidéo) non compressé, chaque pixel est codé par un
nombre d'octet qui dépend du nombre de couler autorisé. Dans un fichier construit «
normalement »(Un texte tapé par un utilisateur, une photo réel...), il y a des caractères
récurrents et des caractères rares. Idée : L'idée est donc de coder sur un plus petit nombre de
bit les caractères les plus courant.
Problème :
Si on code les caractères avec des tailles différentes, comment au décodage, savoir quand est
ce qu'on a lu un caractère complet? Comment choisir le nombre de bit de codage de chaque
lettre.
Idée de Huffman (version semi adaptative) : Commencer par parcourir le fichier, faire la liste
des caractères rencontrés en comptant leur nombre d'occurrence.
Trier par nombre d’occurrences croissantes et construire ensuite un arbre binaire en suivant la
logique suivante.
Chaque caractère représentera une feuille, et le « poids » de cette feuille correspond au
nombre d'occurrence de ce caractère. Chaque nœud interne aura pour poids la somme des
poids de ses fils. On construit ensuite l'arbre de cette manière : A chaque étape on sélectionne
les deux nœuds (nœuds internes ou feuilles) qui n'ont pas encore de père et qui ont le plus
faible poids( plus faible fréquence). On crée un nœud qui sera père des deux éléments et dont
le poids sera égal à la somme du poids des deux fils.. Le processus est répété sur l’ensemble
des caractères jusqu'à qu’il ne reste plus qu’un seul élément parent formant la racine de
l’arbre.
Cette construction d'arbre résoud les deux problèmes : Un bit représente une descente dans
l'arbre : 0 pour fil gauche et 1 pour fil droit. Tant qu'on est sur des nœuds internes, il faut
continuer de descendre dans l'arbre jusqu'a arriver sur une feuille. Ainsi, on sait toujours à
quel moment on a fini de lire un caractère, malgré la différence de codage entre les caractères.
Lorsque l'arbre se construit, les caractères les plus courant se trouvent forcement plus haut et
se codent donc avec un nombre plus réduit de bit. On peut même démontrer que ce codage est
le meilleur possible pour un codage par symbole.
Pour décoder il suffit de redescendre et de noter les chemins parcourus pour arriver jusqu’aux
feuilles et ainsi on obtient le caractère correspondant au code de Huffman. Une caractéristique
essentielle du codage de Huffman est qu’il n’utilise pas de séparateur entre deux symboles.
Chaque symbole est décodable de manière unique grâce à une technique de préfixe, c'est-à-
dire si aucun mot du code n'est le préfixe d'un autre mot du code (par exemple 01 étant préfixe
de 0111, ces deux mots ne peuvent appartenir à un code préfixe).