Théorie de l`information et du codage

publicité
Théorie de l’information et du codage
Examen écrit janvier 2012
Première partie. Durée : 2h00
Pas de GSM, ni de calculatrice.
Documents (cours, rapports de projet. . . ) autorisés.
Répondez à chaque question et indiquez votre nom, prénom sur chaque feuille.
Répondez aux Questions 1, 2 et 3 sur des feuilles différentes, et numérotez les feuilles.
Soyez clair, concis et précis.
Pour répondre aux questions, vous pouvez utiliser les approximations suivantes :
ln(2) ≈ 0.7;
ln(3) ≈ 1.1;
ln(5) ≈ 1.6;
ln(7) ≈ 1.9.
QUESTION 1 : Grandeurs de la théorie de l’information
Q1.1 L’USS scorpion, un sous-marin américain, a coulé en mai 1968 dans l’atlantique Nord. La densité
de probabilité de la position du sous-marin est uniforme dans la zone de recherche, que l’équipe
de recherche a délimité par un quadrillage de 3 × 4 tel que la surface de chaque case est égale
à celle des autres (voir Figure 1). Il vous est demandé d’utiliser vos connaissances afin d’aider
les recherches. Les variables X , Y correspondent aux positions sur la grille en abscisse et en
ordonnée (voir Figure 1).
(a) Quelle est la probabilité de trouver l’USS scorpion en (X, Y ) = (i, j) ?
(b) Quelles sont la loi de probabilité et l’entropie de la variable X ?
(c) Modélisez de façon graphique les relations de dépendance entre ces deux variables ? Justifiez
votre réponse à l’aide des grandeurs de la théorie de l’information.









Figure 1 – Grille de recherche
Q1.2 Soit
(a)
(b)
(c)
Y = g(X ), une fonction de la variable aléatoire discrète X .
Donnez un exemple de variable aléatoire X et de fonction g telles que H(Y) < H(X ).
Donnez un exemple de variable aléatoire X et de fonction g telles que H(Y) = H(X ).
Donnez un exemple de variable aléatoire X et de fonction g telles que H(Y) ≥ H(X ), ou
bien prouvez qu’il est impossible de faire cela.
Q1.3 Soit un squelette candidat de réseau bayésien X − Y − Z formé sur trois variables binaires. On
dispose d’un échantillon de N = 1000 observations conjointes des trois variables :
(a) Expliquez la démarche que vous aller adopter pour orienter le graphe ? (Soyez précis ! )
ˆ ; Z) = 0.003 et I(X
ˆ ; Z|Y) = 0.06, dites
(b) En supposant que l’échantillon nous indique que I(X
nous s’il est possible d’orienter le graphe, en acceptant une probabilité de α = 0.05 de
commettre des erreurs, et si oui faites le.
Note : Pour un nombre d’échantillons N , l’indépendance conditionnelle entre deux variables
ˆ ; Y|Z)
X et Y étant donée Z peut être évaluée à l’aide de la grandeur 2 × N × ln(2) × I(X
qui suit une loi de χ2 de k = |Z|(|X | − 1)(|Y| − 1) degrés de liberté en cas d’indépendance
conditionnelle. La Table 1 (page suivante) fournit les informations pertinentes pour α = 0.05.
1
Degrés de libertés
Densité de probabilité de χ en x
Densité de probabilité cumulative de χ2 en x
Densité de probabilité cumulative inverse de χ2 en x
2
1
2
3
4
5
0.2681
0.6572
2.7055
0.3188
0.3624
4.6052
0.2413
0.1746
6.2514
0.1435
0.0754
7.7794
0.0724
0.0298
9.2364
Table 1 – Informations concernant la loi du χ2 pour x = (1 − α) = 0.95.
QUESTION 2 : Modèle probabiliste graphique
Q2.1 Les trois graphiques de la Figure 2 ont chacun été obtenus en appliquant l’algorithme de Chow-Liu
sur une base de données considérées comme infinie, puis en détectant les v-structures. Il vous
est demandé, pour chacun de ces modèles, de dessiner toutes les structures de réseaux bayésiens
qu’il est possible d’obtenir en effectuant une propagation des bassins de causalités.
A
B
A
C
B
D
E
A
C
D
B
C
E
D
Figure 2 – Trois polyarbres en devenir
Q2.2 Soient cinq modèles d’indépendance correspondant aux cinq modèles probabilistes graphiques
de la Figure 3. Il vous est demandé d’indiquer, pour chacun des modèles, s’il est un I-map, un
D-map et/ou un P-map de chacun des autres modèles, et de le justifier.
A
B
C
A
B
A
B
C
A
C
B
C
A
B
C
Figure 3 – Cinq modèles probabilistes graphiques
Q2.3 L’algorithme de Chow-Liu permet-il de construire un arbre optimal ? Si oui, précisez en quel
sens un arbre renvoyé par cet algorithme serait optimal. Est ce que cet arbre est nécessairement
unique ? Justifiez vos réponses (éventuellement au moyen de contre-exemples).
QUESTION 3 : codage de source
Q3.1 Est-ce que le code suivant [10, 11, 001, 100001] est régulier, déchiffrable, instantané et/ou complet ?
(Justifier)
Q3.2 Soit une source sans mémoire et stationnaire qui émet 4 symboles différents, dont les probabilités
sont données par le vecteur ci-dessous.
P (S) = [0.10
0.15
0.20
0.55]
(a) Effectuez un encodage de Huffman avec un alphabet de code binaire sur cette source.
(b) Afin de diminuer la longueur moyenne des messages de cette source une fois encodés, vaut-il
mieux augmenter la taille de l’alphabet du code ou effectuer une extension de la source ?
Justifiez votre réponse.
Q3.3 Représentez le code binaire suivant [01, 00, 100, 101, 110] sous forme d’un arbre. Le code est-il,
déchiffrable, instantané, complet ou incomplet ? (Justifier chaque réponse !) Est-il possible de
compléter ce code ? Si oui, proposez une façon de le rendre complet. (et justifiez le fait que le
résultat est en effet complet).
2
Téléchargement