Theorie de l`information

publicité
Théorie de l’information : historique
Développée dans les années quarante par Claude
Shannon.
Objectif : maximiser la quantité d’information pouvant être
transmise par un canal de communication imparfait.
Shannon voulait déterminer les maxima théoriques de :
la compression de données (l’entropie)
le taux de transmission du canal (la capacité du canal)
Shannon a montré que l’on pouvait transmettre de
l’information à travers un canal bruité avec une probabilité
d’erreur nulle tant que l’on ne dépasse pas la capacité du
canal.
Méthodes probabilistes - Théorie de l’information – p.1/42
Liens avec le TAL
La théorie de l’information a servi de cadre théorique aux
premiers travaux de TAL probabiliste dans les années 70.
Plusieurs applications de TAL peuvent être modélisées à
l’aide des outils de la théorie de l’information en
particulier la reconnaissance de la parole et la traduction
automatique.
Les mesures développées dans le cadre de la théorie de
l’information (entropie et information mutuelle) sont utiles
pour de nombreux aspects du TAL.
Méthodes probabilistes - Théorie de l’information – p.2/42
Plan
Entropie
Le théorème du canal sans bruit.
Information mutuelle
Le théorème du canal bruité
Application du modèle du canal bruité au TAL
Méthodes probabilistes - Théorie de l’information – p.3/42
Surprise
Soit E, l’un des événements pouvant survenir à la suite
d’une expérience.
A quel point serions-nous surpris d’apprendre que E a
effectivement eu lieu ?
La surprise liée à E est liée à la probabilité de E.
Elle est d’autant plus élevée que la probabilité est faible.
Méthodes probabilistes - Théorie de l’information – p.4/42
Suprise
La surprise est formalisée sous la forme d’une fonction S(p),
où p est une probabilité différente de 0.
On désire que cette fonction réponde aux conditions
suivantes :
1. S(1) = 0 il n’y a pas de surprise à apprendre qu’un
événement certain est effectivement arrivé.
2. S est une fonction strictement décroissante de p. (si p < q
alors S(p) > S(q)). Plus un événement est improbable
plus grande sera notre surprise.
3. S(pq) = S(p) + S(q)
Méthodes probabilistes - Théorie de l’information – p.5/42
Suprise
S(pq) = S(p) + S(q)
Soient deux événement indépendants E et F de
probabilités respectives p et q.
Comme P (EF ) = pq, la surprise correspondant à
l’apparition simultanée de E et F est S(pq).
On apprend que E est survenu, puis, plus tard, que F
est survenu lui aussi. La surprise additionnelle créée
par le fait que F survienne vaut :
S(pq) − S(p)
F étant indépendant de E, l’information sur E ne
change pas la probabilité de F , la surprise
conditionnelle doit donc être S(q), d’où la condition :
S(pq) = S(p) + S(q)
Méthodes probabilistes - Théorie de l’information – p.6/42
Suprise
Une fonction vérifiant les conditions précédentes est la
fonction suivante :
S(p) = − log2 (p)
La surprise est mesurée en bits binary digits. Un bit est la
quantité d’information correspondant à une probabilité de
1/2.
Exemple : on tire une carte d’un jeu de 52 cartes. Soit E
l’événement la carte tirée est l’as de pique.
P (E) =
1
52
1
1
S( 52
) = − log2 ( 52
) = log2 (52) = 5.7bits
6 bits : 2 pour la couleur et 4 pour la valeur.
Méthodes probabilistes - Théorie de l’information – p.7/42
Entropie d’une variable aléatoire
Soit X une variable aléatoire qui prend ses valeurs dans
l’ensemble {x1 , x2 , . . . xn } avec les probabilités
correspondantes p1 , p2 , . . . pn (P (X = xi ) = pi ).
La grandeur − log2 (pi ) représentant la mesure de la
surprise associée à l’événement X = xi , la surprise
moyenne créée lorsqu’on apprend quelle valeur X a prise
est :
H(X) = −
n
X
pi log2 (pi )
i=1
Cette quantité est appelée entropie de la variable aléatoire
X (par convention, si l’un des pi vaut 0, on déclare que
0 log2 (0) vaut 0).
Méthodes probabilistes - Théorie de l’information – p.8/42
Entropie d’une variable aléatoire
On peut montrer que H(X) est maximale lorsque tous les
pi sont égaux.
Méthodes probabilistes - Théorie de l’information – p.9/42
Exemple de la pièce
P (X = pile) = p
P (X = face) = 1 − p
1
0.9
0.8
0.7
H(X)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
p
0.6
0.7
0.8
0.9
1
Méthodes probabilistes - Théorie de l’information – p.10/42
Entropie d’une variable aléatoire
H(X) représente la surprise moyenne associée à la
découverte de la valeur de X.
On peut aussi l’assimiler à la quantité d’incertitude
relative à cette variable aléatoire.
La théorie de l’information considère H(X) comme
l’information liée à l’observation de X.
On peut donc dire que :
la surprise moyenne causée par X,
l’incertitude liée à X
l’information moyenne recelée par X,
représentent en fait le même concept abordé par des
points de vue un peu différents.
Méthodes probabilistes - Théorie de l’information – p.11/42
Théorie du codage et entropie
On désire transmettre la valeur prise par une variable
aléatoire discrète X d’ un point A où on l’observe, jusqu’à
un point B, ceci grâce à un système de communication
ne véhiculant que des 0 ou des 1.
On code les diverses valeurs que X peut prendre pour
les transformer en chaînes de 0 et de 1.
Pour éviter toute ambiguïté, on exige normalement qu’il
soit impossible de former un code simplement en ajoutant
une séquence de 0 et de 1 à un code existant.
Méthodes probabilistes - Théorie de l’information – p.12/42
Théorie du codage et entropie
Supposons que X puisse prendre l’une des quatre
valeurs x1 , x2 , x3 , x4 .
Un code possible est :
x1
x2
x3
x4
↔
↔
↔
↔
00
01
10
11
Méthodes probabilistes - Théorie de l’information – p.13/42
Théorie du codage et entropie
On peut aussi utiliser le code suivant :
x1
x2
x3
x4
↔
↔
↔
↔
0
10
110
111
Ce dernier code a ceci de particulier que tous les codes
n’ont pas la même longueur.
L’un des objectifs ordinairement assignés au codage est
de minimiser la longueur moyenne des messages à
transmettre de A à B, la longueur d’un message étant le
nombre de bits qui le compose.
Méthodes probabilistes - Théorie de l’information – p.14/42
Théorie du codage et entropie
Si l’on suppose que la loi de probabilité de la variable X
est la suivante :
P (X = x1 )
=
P (X = x2 )
=
P (X = x3 )
=
P (X = x4 )
=
1
2
1
4
1
8
1
8
Le second code utilisera en moyenne :
1
1
1
1
×
1
+
×
2
+
×
3
+
× 3 = 1, 75 bits pour transmettre
2
4
8
8
une des 4 valeurs x1 , x2 , x3 , x4 .
Alors que le premier code nécessite 2 bits en moyenne.
Méthodes probabilistes - Théorie de l’information – p.15/42
Théorie du codage et entropie
Etant donné une variable aléatoire X, quel est l’efficacité
maximale que puisse atteindre un codage ?
La réponse à cette question est donnée par le théorème
du codage sans bruit qui dit que pour tout codage, il
faudra transmettre un nombre de bits moyen au moins
égal à l’entropie de X.
Méthodes probabilistes - Théorie de l’information – p.16/42
Théorème du codage sans bruit
Soit X une variable aléatoire pouvant prendre les valeurs
x1 , . . . xN avec pour probabilités respectives p(x1 ) . . . p(xN ).
Tout codage de X traduisant xi grâce à ni bits utilisera un
nombre moyen de bits supérieur ou égal à l’entropie de X.
N
X
i=1
ni p(xi ) ≥ H(X) = −
N
X
p(xi ) log2 (p(xi ))
i=1
Méthodes probabilistes - Théorie de l’information – p.17/42
Entropie conjointe
L’entropie conjointe d’une paire de variables aléatoires
discretes X, Y de loi de probabilité conjointe p(x, y) est la
quantité d’information nécessaire en moyenne pour
spécifier leurs deux valeurs.
Soient deux variables aléatoires X et Y prenant leurs
valeurs respectivement dans {x1 , x2 , . . . xn } et
{y1 , y2 , . . . yn }, leur loi de probabilité conjointe étant :
p(xi , yj ) = P (X = xi , Y = yj )
On calcule grâce à cette loi conjointe l’entropie H(X, Y )
attachée au vecteur aléatoire (X, Y ) :
X
H(X, Y ) = −
p(xi , yj ) log2 p(xi , yj )
i,j
Méthodes probabilistes - Théorie de l’information – p.18/42
Entropie conditionnelle
Admettons maintenant que l’on ait observé que Y = yj .
La quantité restante d’incertitude sur X est :
X
H(X|Y = yj ) = −
p(xi |yj ) log2 (p(xi |yj ))
i
où :
p(xi |yj ) = P (X = xi |Y = yj )
Aussi écrira-t-on comme suit l’incertitude moyenne
associée à X après observation de Y :
X
H(X|Y ) =
H(X|Y = yj )P (Y = yj )
j
Méthodes probabilistes - Théorie de l’information – p.19/42
Calcul de l’entropie conditionnelle
H(X|Y ) =
X
j
= −
p(yj )H(X|Y = yj )
X
j
= −
X
p(yj )
X
p(xi |yj ) log2 p(xi |yj )
i
p(yj , xi ) log2 p(xi |yj )
i,j
Méthodes probabilistes - Théorie de l’information – p.20/42
Entropie conjointe et entropie conditionnelle
Relation entre l’entropie conjointe et l’entropie conditionnelle :
H(Y, X) = H(Y |X) + H(X)
H(X, Y ) = −
X
p(xi , yj ) log2 p(xi , yj )
i,j
= −
X
p(xi , yj ) log2 p(yj |xi )p(xi )
i,j
= −
X
p(xi , yj ) log2 p(yj |xi ) −
i,j
= −
X
X
p(xi , yj ) log2 p(xi )
i,j
p(xi , yj ) log2 p(yj |xi ) −
i,j
= H(Y |X) + H(X)
X
p(xi ) log2 p(xi )
i
Méthodes probabilistes - Théorie de l’information – p.21/42
Information mutuelle
On appelle information mutuelle entre deux variables
aléatoires X et Y la diminution de l’incertitude associée à
une variable aléatoire due à notre connaissance
(observation) de l’autre variable aléatoire :
I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
L’information mutuelle est une mesure symétrique de
l’information commune de deux variables.
I(X; Y ) ≥ 0
I(X; Y ) = 0 si X et Y sont indépendantes
Elle croît en fonction de la dépendance de deux variables
ainsi que de leur entropie.
I(X; X) = H(X)
Méthodes probabilistes - Théorie de l’information – p.22/42
Calcul de l’information mutuelle
I(X; Y )
=
H(X) − H(X|Y )
=
H(X) + H(Y ) − H(X, Y )
X
X
X
−
p(xi ) log2 p(xi ) −
p(yj ) log2 p(yj ) +
p(xi , yj ) log2 p(xi , yj )
=
i
=
X
i
=
X
i,j
=
X
i,j
j
i,j
X
X
1
1
+
+
p(yj ) log2
p(xi , yj ) log2 p(xi , yj )
p(xi ) log2
p(xi )
p(y
)
j
j
i,j
X
X
1
1
+
−
p(xi , yj ) log2
p(xi , yj ) log2 p(xi , yj )
p(xi , yj ) log2
p(xi )
p(y
)
j
i,j
i,j
p(xi , yj ) log2
p(xi , yj )
p(xi )p(yj )
Méthodes probabilistes - Théorie de l’information – p.23/42
Exemple
On dispose d’objets caractérisés par leur forme et leur
couleur.
trois formes (carré (C), triangle(T), rectangle (R))
trois couleurs (vert (V), noir (N), bleu (B))
on définit deux variables aléatoires :
C pour la couleur
F pour la forme
on dispose de la loi de probabilité conjointe p(C, F )
Méthodes probabilistes - Théorie de l’information – p.24/42
Exemple 1
C
T
R
V N
1
0
3
0 13
0 0
1
3
1
3
B
0
0
1
3
1
3
1
3
1
3
1
3
1
I(C; F ) = 3 × × log2
3
1
3
1
9
= log2 3
= 1.58 bits
H(C) = H(F ) = 3 × ( 13 × log2 3) = 1.58 bits!
Méthodes probabilistes - Théorie de l’information – p.25/42
Exemple 2
C
T
R
V
N
B
3
18
1
18
2
18
1
3
2
18
3
18
1
18
1
3
1
18
2
18
3
18
1
3
1
3
1
3
1
3
3
3
1
1
2
I(C; F ) = 3 × ( × log2 +
× log2 +
× log2 1)
18
2 18
2 18
3
× (3 × 0.584 − 1 + 2 × 0)
=
18
= 0.125 bits
Méthodes probabilistes - Théorie de l’information – p.26/42
Exemple 3
C
T
R
V N
B
1
9
1
9
1
9
1
3
1
9
1
9
1
9
1
3
1
9
1
9
1
9
1
3
1
3
1
3
1
3
1
1
I(C; F ) = 9 × ( × log2 91 )
9
9
= 0 bits
C et F sont indépendantes.
Méthodes probabilistes - Théorie de l’information – p.27/42
Relations entre l’information mutuelle et l’entropie
H(X,Y)
H(X|Y)
H(Y|X)
I(X;Y)
H(X)
H(Y)
Méthodes probabilistes - Théorie de l’information – p.28/42
Modèle du canal bruité
Xn
W
message
encodeur
canal
p(y|x)
Yn
Ŵ
decodeur
estimation
du message
Les symboles d’une source sont traduits en symboles du
canal (encodeur)
Le canal produit une séquence de symboles en sortie
Le canal est bruité : pour un symbole en entrée, il produit
une distribution de probabilités sur les symboles
possibles en sortie.
La séquence de symboles en sortie est utilisée pour
reconstruire le message (décodeur)
Méthodes probabilistes - Théorie de l’information – p.29/42
Modèle du canal bruité
Toute séquence d’entrée définit une distribution de
probabilité sur les séquences de sortie.
Deux séquences d’entrée différentes peuvent produire la
même séquence de sortie, deux entrées peuvent donc
être confondues.
Méthodes probabilistes - Théorie de l’information – p.30/42
Canal discret
Un canal discret est un système composé d’un alphabet
d’entrée X , d’un alphabet de sortie Y et d’une matrice de
probabilité de transition p(y|x) qui exprime la probabilité
d’observer le symbole y en sortie si l’on a le symbole x en
entrée.
Un canal est dit sans mémoire si la distribution de
probabilité en sortie ne dépend que de l’entrée au même
instant, et qu’elle est indépendante des entrées et sorties
du canal précédentes.
Méthodes probabilistes - Théorie de l’information – p.31/42
Exemple : le canal binaire symetrique
1−p
0
0
p
p
1
1
1−p
La probabilité d’erreur est égale à p pour chacun des
deux symboles.
Méthodes probabilistes - Théorie de l’information – p.32/42
Qualité d’un canal
Soit X une variable aléatoire définie sur X décrivant le
symbole en entrée du canal
Soit Y une variable aléatoire définie sur Y décrivant le
symbole en sortie du canal.
Quelle information Y nous donne-t-elle sur X ?
On calcule I(X; Y )
Pour cela il faut fixer une distribution p(x)
Méthodes probabilistes - Théorie de l’information – p.33/42
Evolution de l’information mutuelle
1
p=0.0
p=0.1
p=0.2
p=0.3
p=0.4
p=0.5
0.9
0.8
I(X;Y)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4 0.5 0.6
P(X=1)
0.7
0.8
0.9
1
Méthodes probabilistes - Théorie de l’information – p.34/42
Interprétation
pour p = 0 et pour pX uniforme, I(X; Y ) vaut 1 bit.
cela veut dire que l’observation de Y nous permet de
déterminer avec certitude la valeur de X.
lorsque I(X; Y ) < 1, l’observation de Y ne nous permet
plus de déterminer avec certitude la valeur de X, une
partie de l’information a été perdue dans le canal.
Méthodes probabilistes - Théorie de l’information – p.35/42
Capacité d’un canal
On appelle capacité d’un canal discret sans mémoire
l’information mutuelle maximale entre la sortie et l’entrée
qu’il permet d’atteindre :
C = max I(X; Y )
p(x)
Méthodes probabilistes - Théorie de l’information – p.36/42
Interprétation de la notion de capacité
Supposons que le canal permette de transmettre 1 bit/sec
et que la capacité du canal soit de 0.5 bit.
Bien que la vitesse de transmission soit de 1 bit/sec. la
vitesse de transmission d’information est inférieure à
cette valeur.
Pour réaliser une transmission fiable, il faut ajouter de la
redondance et, par conséquent, diminuer la vitesse de
transmission d’information.
Le canal ne pourra transmettre de l’information à une
vitesse supérieure à 0.5 bit/sec sans commettre d’erreurs.
Méthodes probabilistes - Théorie de l’information – p.37/42
Le théorème du canal bruité
Etant donné un canal de capacité C, il est possible de
transmettre de l’information à une vitesse V < C avec un
taux d’erreur arbitrairement faible.
En d’autres termes, il existe un encodage qui permet de
réaliser une vitesse de transmission de l’information
égale à la capacité.
Le théorème du canal bruité n’est pas constructif, il ne dit
pas comment réaliser un tel encodage.
Méthodes probabilistes - Théorie de l’information – p.38/42
Relation avec le TAL
Le modèle du canal bruité (MCB) a servi de modèle aux
premiers travaux de TAL probabiliste dans les années 70
Des chercheurs du centre de recherche Watson de IBM
ont modélisé la reconnaissance de la parole et la
traduction automatique à l’aide du canal bruité.
Dans l’application du MCB au TAL, on ne contrôle pas la
phase d’encodage, on cherche à décoder la sortie pour
retrouver l’entrée la plus probable.
Méthodes probabilistes - Théorie de l’information – p.39/42
Relation avec le TAL
De nombreuses applications de TAL peuvent être vues
comme une tentative de construire l’entrée la plus
probable étant donné une sortie.
P (ES)
Ê = arg max P (E|S) = arg max
E
E
P (S)
P (E)P (S|E)
= arg max
E
P (S)
= arg max P (E)P (S|E)
E
Méthodes probabilistes - Théorie de l’information – p.40/42
Relation avec le TAL
Deux probabilités doivent être calculées :
P (E) probabilité d’une séquence d’entrée, elle est
calculée à l’aide d’un modèle de langage
P (S|E) probabilité d’une sortie étant donné une
entrée, elle est calculée à l’aide d’un modèle du canal.
Méthodes probabilistes - Théorie de l’information – p.41/42
Application du MCB au TAL
Application
Entrée
Sortie
P (E)
P (S|E)
Traduction
séquence de
séquence de
proba. de seq.
modèle
Automatique
mots de L1
mots de L2
de mots de L1
traducti
Correction
séquence
séquence
proba. de seq.
modèle
Automatique
de mots
de mots
de mots
erreurs
Etiquetage morpho
séquence de
séqence de
proba. de seq.
p(m|c)
syntaxique
catégories
mots
de catégories
Reconnaissance de
séquence
signal
proba. de seq.
modèle
la parole
de mots
acoustique
de mots
acousti
Méthodes probabilistes - Théorie de l’information – p.42/42
Téléchargement