3 Entropie de Shannon et questions oui/non
Nous voulons maintenant répondre à la question : à quel point est-il difficile de deviner la valeur d’une
variable aléatoire ? On mesure cette difficulté par le nombre moyen de questions fermées auxquelles il faut
répondre pour deviner cette valeur. Ce nombre peut se calculer pour plusieurs algorithmes de questionnement.
Pour deviner la valeur de Xparmi les quatre possibles, on regarde les deux algorithmes suivants :
— algorithme (i) : la première question est « la lettre Xappartient-elle à l’ensemble {A, B}? ».
— Si la réponse est « oui », on demande « X=A? ».
— Sinon, on demande « X=C? ».
On a ainsi déterminé la valeur de Xen deux questions.
— algorithme (ii) : la première question est « X=A? ».
— Sinon « X=B? »
— Sinon « X=C? »
5. Déterminez le nombre moyen de questions à poser hnQiavec ces deux algorithmes. Lequel est le plus
efficace ? Comparer avec l’entropie de l’alphabet. Même question si les 4 lettres sont équiprobables.
6. Même question avec l’algorithme (i) pour 3 lettres équiprobables, puis pour 2blettres équiprobables.
7. Dans le cas général d’un alphabet de Nlettres (xi)de probabilités (pi), généraliser l’algorithme (ii). Que
vaut hnQi?
Initialement, il ne semble pas que Shannon ait été au courant de la relation entre sa nouvelle mesure
et les travaux précédents en thermodynamique. En 1949, tandis qu’il travaillait à ses équations depuis un
moment, il rendit visite au grand mathématicien John von Neuman qui lui dit : « La théorie est excellente
mais elle a besoin d’un bon nom pour « information perdue ». Pourquoi ne l’appelles-tu pas entropie ?
Premièrement, un développement mathématique ressemblant fort au tien existe déjà dans la mécanique
statistique de Boltzmann, et deuxièmement, personne ne comprend vraiment bien l’entropie, donc dans une
discussion tu te trouverais dans une position avantageuse. »
4 Compression de l’information
Prenons un fichier avec Nvaleurs aléatoires dans {x1, . . . , xA}. Ce fichier prend une place Nlog2(A)bits
sur le disque dur.
On utilise les algorithmes précédents pour compresser le fichier : on remplace chaque caractère par la
suite des réponses aux questions données dans la partie précédente qui y aboutissent. Chaque réponse est
stockée sur un bit.
8. Quelle est la taille moyenne du fichier comprimé ?
9. Comparez ce résultat avec les performances d’un programme de compression (zip, xz) pour les fichiers
textes que vous pouvez récupérer à l’adresse suivante :
http://www.pct.espci.fr/˜vdemery/files/textes_al%C3%A9atoires.tar
—random256.txt : caractères tirés uniformément dans un alphabet de 256 lettres,
—
—random128.txt : caractères tirés uniformément dans un alphabet de 128 lettres,
—random4.txt : caractères tirés uniforméments dans un alphabet de 4 lettres,
—random4_b.txt : caractères tirés dans un alphabet de 4 lettres avec les probabilités de la section 2.
2