1. Entropie et inFormation 1.1. Introduction. On cherche un élément

Abstract.
1. Entropie et information
1.1. Introduction. On cherche un élément xdans un ensemble …ni Ede cardinal N.
Supposons que l’on puisse déterminer si xpossède ou non une certaine caractéristique.
Cela revient à déterminer si xappartient ou non à la partie Ades éléments de Epossèdant
cette caractéristique. Quelle “quantité”d’information obtient-on ainsi ?
Si x2Aet que la partie Aest petite par rapport à Ealors la quantité d’information est
importante, au contraire si la partie Aest grande E, l’information est faible. De même,
si x2ACla quantité d’information obtenue est une fonction décroissante de la taille
de AC. Pour dé…nir la quantité d’information, on peut utiliser une fonction décroissante
f: [0;1] !R+et poser pour chaque x,IA(x) = f(card A
card E)si x2Aet IA(x) = f(card AC
card E)
si x2AC. On obtient ainsi une fonction dé…nie sur E:
IA(x) = f(card A
card E) 1A(x) + f(card AC
card E) 1Ac(x):
Si A=E, l’information est nulle on peut donc imposer à fla condition f(1) = 0. La
caractéristique utilisée pour classer les éléments de Epeut avoir plus de 2modalités :
l’ensemble Eest partagé en catégories C1; :::; Ck, et pour chaque élément on peut déter-
miner la catégorie Cià laquelle il appartient. De la même manière, la fonction fpermet de
quanti…er l’information apportée par la connaissance de la catégorie à laquelle appartient
un élément :
I(x) =
k
X
i=1
f(card Ci
card E) 1Ci(x):
Les catégories C1; :::; Ckdé…nissent une partition C=fC1; :::; Ckgde Eet on note IC
l’application que l’on vient de dé…nir. Les conditions imposées à fsont f(1) = 0 et
sa décroissance. Ajoutons deux autres contraintes naturelles. D’une part, on souhaite
choisir une fonction findépendante de E. D’autre part, on voudrait que la quantité
d’information soit additive. Plus précisément, supposons que l’on ait deux renseignements
sur les éléments de E. Cela revient à disposer de deux partitions de E,C=fC1; :::; Ckg
et D=fD1; :::; Dlg. Ces deux partitions nous en donne une nouvelle
C _ D =fCi\Dj:i2 f1; :::; kg; j 2 f1; :::; lgg
qui correspond à la connaissances simultanée des deux renseignements. Lorsque ces ren-
seignements sont indépendants, on aimerait avoir la formule
IC_D =IC+ID:
Que signi…e l’indépendance de Cet D? Les deux caractéristiques Cet Dsont indépen-
dantes si pour chaque j, la proportion des éléments possédant le caractère Djparmi ceux
possédant le caractère Cine dépend pas de i. Par conséquent, l’indépendance signi…e que
pour chaque j, on a
8i; card Dj\Ci
card Ci
=card Dj
card E
1
2
ou encore card Dj\Ci
card E=card Dj
card Ecard Ci
card E:
La relation souhaitée est
8x2E; X
i;j
f(card Ci\Dj
card E) 1Ci\Dj(x) =
k
X
i=1
f(card Ci
card E) 1Ci(x) +
j
X
j=1
f(card Dj
card E) 1Dj(x):
Pour les xde Ci\Dj, cela donne
f(card Ci\Dj
card E) = f(card Ci
card E) + f(card Dj
card E)
ou encore
f(card Dj
card Ecard Ci
card E) = f(card Ci
card E) + f(card Dj
card E)
Cette dernière relation est vraie avec la fonction f(t) = ln t. N’importe quel multiple
positif fconvient encore. Grâce à la décroissance, on peut montrer que ce sont les seuls
choix possibles. Pour la suite nous …xons le choix de f:f(t) = ln t. Le fait que ln 0 ne
soit pas dé…nie n’est pas gênant : si card Ci= 0 alors la fonction 1Ciest nulle.
Supposons, maintenant que l’on apprenne d’abord Cpuis D, on aimerait mesurer le
supplément d’information apporté IDjC par Det on devrait avoir
IC_D =IC+IDjC
ce qui donne comme dé…nition de l’information apportée par Dsachant C:
IDjC =IC_D IC:
La fonction IDjC obtenue est-elle positive ? Pour cela il faut véri…er que pour chaque
x2Ci\Dj,
(ln card Ci\Dj
card E)(ln card Ci
card E)0
mais cela résulte de la décroissance.
Finalement, l’information moyenne apportée par une partition Cest
1
card EX
x2E
IC(x) = X
i
card Ci
card E(ln card Ci
card E)
et ce nombre s’appelle l’entropie de la partition C.
1.2. Dé…nitions dans le cas des espaces probabilisés. Un ensemble …ni Epeut
être vu comme un espace probabilisé où chaque partie Aa la probabilité P(A) = card A
card E.
Les dé…nitions précédentes se transposent alors aux espaces probabilisés.
Dé…nition 1. Soit (;A)un espaces mesurable et Cune partition de . On dit que la
partition Cest mesurable si tous les éléments de Cappartiennent à A.
3
Dé…nition 2. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cngune partition
mesurable …nie de . La fonction information ICde !R+associée à la partition Cest
dé…nie presque partout sur par
IC(x) =
n
X
i=1
ln (Ci) 1Ci(x):
L’entropie de la partition H(C)est dé…nie par
H(C) = E(IC):
Lorsqu’il n’y pas d’ambiguïté sur la probabilité , on note l’entropie de la partition C
par H(C).
En calculant l’espérance, on obtient immédiatement :
Proposition 1. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cngune partition
mesurable …nie de . Avec la convention 0 ln 0 = 0, on a
H(C) =
n
X
i=1
(Ci) ln (Ci):
Notation. Dans la suite désigne l’application : [0;1] !R+dé…nie par (0) = 0
et (x) = xln xsi x2]0;1]. Remarquons que est strictement concave.
Proposition 2. Soit (;A; )un espace probabilisé et C=fC1; :::; Cngune partition
mesurable …nie de . On a H(C)ln net H(C) = ln nssi (C1) = ::: =(Cn) = 1
n.
Dem : exercice.
Exercice. Soit (;A; )un espaces probabilisé et Cune partition mesurable …nie de
. Si pour chaque C2 C on a (C)"alors H(C) ln "(intégrer IC)
Dé…nition 3. Soit C=fC1; :::; Cnget D=fD1; :::; Dmgdeux partitions …nies d’un
ensemble E.
1. La partition engendrée par Cet Dest la partition C _ D =Ci\Dj:i= 1; :::; n; j =
1; :::; mg.
2. Lorsque tout les éléments de Csont des réunions d’éléments de Don dit que Dest plus
ne que Cet on écrit C  D.
Dé…nition 4. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cng,D=fD1; :::; Dmg
deux partitions mesurables …nies de . La fonction information conditionnelle de D
sachant C,IDjC de !Rest dé…nie presque partout sur par
IDjC =ID_C IC:
Comme dans l’introduction, on obtient immédiatement la proposition suivante.
Proposition 3. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cng,D=fD1; :::; Dmg
deux partitions mesurables …nies de .
1. Pour presque tout x,
IDjC(x) =
n
X
i=1
m
X
j=1
ln (Ci\Dj)
(Ci)1Ci\Dj(x)
2. La fonction information conditionnelle de Dsachant C,IDjC est positive.
4
Dé…nition 5. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cng,D=fD1; :::; Dmg
deux partitions mesurables …nies de . L’entropie de la partition Dsachant Cest
H(DjC) = E(ICjD)
Un simple calcul donne :
Proposition 4. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cng,D=fD1; :::; Dmg
deux partitions mesurables …nies de . L’entropie de la partition Dsachant Cvaut
H(DjC) =
n
X
i=1
m
X
j=1
(Ci\Dj) ln (Ci\Dj)
(Ci)
=
n
X
i=1
(Ci)
m
X
j=1
(DjjCi) ln (DjjCi)
(avec la convention 0ln 0
0= 0).
Exercice. Soit (;A; )un espaces probabilisé et C=fC1; :::; Cng,D=fD1; :::; Dmg
deux partitions mesurables …nies de . Appelons pour chaque C2 C,N(C)le nombre
des éléments Dde Dtels que D\C6=;. Montrer que H(DjC)maxC2C ln N(C). ( Pour
chaque C2 C, l’entropie calculée avec la probabilité conditionnelle (:jC)est ln N(C)).
En remarquant que (Ci\Dj)
(Ci)est égale à la probabilité conditionnelle (DjjCi), on
obtient
IDjC(x) =
n
X
i=1
m
X
j=1
ln (DjjCi) 1Ci\Dj(x)
et
H(DjC) =
n
X
i=1
m
X
j=1
(Ci\Dj) ln (DjjCi):
Les expressions de l’information conditionnelle et de l’entropie conditionnelle suggèrent
de remplacer la partition Cdans les dé…nitions par une sous tribu Fde A. Regardons
d’abord le cas où Fest la tribu engendrée par C. La fonction ln((DjjF)) est égale à
Piln((DjjCi)) 1Cidonc
IDjC(x) =
n
X
i=1
m
X
j=1
ln (DjjCi) 1Ci\Dj(x)
=
m
X
j=1
1Dj(x)
n
X
i=1
ln (DjjCi) 1Ci(x)
=
m
X
j=1
1Dj(x) ln((DjjF)(x)):
D’où la dé…nition :
Dé…nition 6. Soit (;A; )un espaces probabilisé, D=fD1; :::; Dmgune partition mesurable
nie de et Fune sous tribu de A.
5
1. L’information conditionnelle de Dsachant Fest la fonction dé…nie presque sûrement
par
IDjF(x) =
m
X
j=1
ln (DjjF) 1Dj(x):
2. L’entropie conditionnelle de Dsachant Fest le nombre
H(DjF) = E(IDjF(x)):
Remarque. Lorsque F=f;; Xgest la tribu triviale, on a IDjF =IDet H(DjF) =
H(D).
Proposition 5. Soit (;A; )un espaces probabilisé, D=fD1; :::; Dmgune partition
mesurable …nie de et Fune sous tribu de A. On a
H(DjF) = E(
m
X
j=1
ln (DjjF)(DjjF))
Dem. On a
H(DjF) = E(
m
X
j=1
ln (DjjF) 1Dj)
=E(E(
m
X
j=1
ln (DjjF) 1DjjF))
=E(
m
X
j=1
ln (DjjF)E(1DjjF))
=E(
m
X
j=1
ln (DjjF)(DjjF))
(ce qui donne une dé…nition alternative de l’entropie conditionnelle).
Notations. On note (C)la tribu engendrée par un ensemble de partie et F1_F2=
(F1[ F2).
Proposition 6. Soit (;A; )un espaces probabilisé, C=fC1; :::; Cnget D=fD1; :::; Dmg
deux partitions mesurables …nies de et Fune sous tribu de A. On a presque sûrement
ID_CjF =ICjF +IDjC_F
et
H(D _ CjF) = H(CjF) + H(DjC _ F):
Dem. Montrons que pour tout Amesurable, on a presque sûrement (AjC _ F) =
Pn
i=1
(A\CijF)
(CijF)1Ci. Comme le deuxième membre de l’égalité est C_F mesurable, il su¢ t
de véri…er que pour toute partie B2 C _ F on a
(A\B) = E(
n
X
i=1
(A\CijF)
(CijF)1Ci1B):
1 / 60 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !