Théorie de l`information

publicité
Introduction
à la théorie de l’information
David Rousseau
Doctorant première année au LISA
Pr Ag de Physique à l’Université d’Angers
Organisation de l’exposé
Cadre et historique de la théorie de l’information
Les principaux outils
Les théorèmes fondamentaux
Exemples d’applications en relation avec les activité du LISA
Comment est née
la théorie de l’information ?
•
A l’origine une réflexion sur les techniques de
communication.
•
Claude Shannon pose en 1948 les fondements
mathématiques des communications numériques.
A quoi sert la théorie de
l’information ?
Vous disposez d ’une source de données.
• Quelle est la quantité d ’information et de redondance ?
• Quel est le taux de compression maximal sans pertes d’information ?
• Quelle est la complexité de ces données ?
Vos données traversent un système où règnent des perturbations
• Quel est l’effet des perturbations sur l’information ?
• Quel est le taux de transmission maximal sans pertes d ’information ?
Paradigme de Shannon
message
Source
Canal
Destinataire
Perturbations
Exemples illustrant le paradigme :
• cas d’une source analogique : la parole
• cas d’une source numérique : l ’écriture
• cas d’une séparation temporelle : lecture d ’un CD gravé
Quantifier l’information
La transmission d’un message serait inutile s’il était
connu à l’avance par son destinataire.
•
•
Une source d’information est considérée comme le siège
d’événements aléatoires.
La quantité d’information d’un message se définit comme une
mesure de son imprévisibilité.
La source est modélisée par une variable aléatoire X,
son espace d’épreuve (x1,x2…,xn) est l’alphabet de la source.
pi = Pr( X = xi ) , i = 1,2,..., n
n
∑ p =1
i
i=1
Quantité d’information
Soit h(Pr(x)) la quantité d’information apportée par la réalisation d’un
événement x de probabilité Pr(x).
Propriétés de la fonction h:
– Soit f une fonction croissante : h(x)= f( 1 )
Pr(x)
– f(1)=0.
– Soit x et y deux événements indépendants : h(x, y)=h(x)+h(y)
Quantité d’information associée à la réalisation d’un événement x :
h(x)=log(1/Pr(x))=−log(Pr(x))
Entropie d’une source
Il s’agit de la quantité d’information moyenne associée à chaque
symbole de cette source :
H(X)=E[h(X)]=−∑ pilog(pi)
n
i=1
Cette expression définit l’entropie par symbole.
C ’est une mesure de surprise
Exemple d ’une source binaire :
H ( X ) = −( p log( p ) + (1 − p ) log(1 − p))
p = Pr(0) = 1 − Pr(1)
H(X) est maximum pour n fixé lorsque pi=1/n .
Information mutuelle
C’est la quantité d’information que la donnée
de l’une des variables apporte sur l’autre.
X
Canal
• Pr(x) probabilité que x soit émis
• Pr(xIy) probabilité a posteriori que x ait été
émis sachant que y a été reçu.
Y
i(x, y)=log(Pr(x y)/Pr(x))
i(x,y)=h(x) si Pr(xIy)=1
i(x,y)=0 si x et y sont indépendants
D’après la relation de Bayes :
Pr(x, y) 

i(x, y)=log
=i(y,x)

 Pr(x)Pr(y) 
Information mutuelle moyenne
Soit X et Y deux variables aléatoires (x1,x2,…xn) et
(y1,y2…ym) leurs espaces d’épreuves respectifs.
Pr(xi, y j) 

I(X,Y)=E[i(X,Y)]=−∑∑Pr(xi, y j)log
 Pr(xi)Pr(y j) 
i=1 j =1
n
m
m
n
j =i
i=i
Pr(xi)=∑Pr(xi, y j) ; Pr(y j)=∑Pr(xi, y j)
C ’est une mesure d ’indépendance
Le codage de source
L’usage d’un canal coûte d’autant plus cher
que le message est long.
Pour diminuer ce coût, on substitue le message émis par la source
par un message aussi court que possible.
Le codage de source enlève la redondance de la source.
Théorème fondamental du codage de source : Soit une source sans
mémoire S d ’entropie par message H. Soit n la longueur moyenne
des mots nécessaires au codage de ces messages, exprimé en nombre
de symbole q-aire :
H
≤ n
log(q )
Exemple de codage de source
Ajout de bruit
garbo.bmp
garbo2.bmp
On code les deux images avec
un algorithme de compression
par dictionnaire (Lempel Ziv)
Est-il indispensable de faire
appel aux probabilités pour
quantifier l ’information ?
Par exemple comment décrire la complexité de ces suites ?
01010101010101010101010101010101
Imprimer 16 fois 01
01101010000010011111001100110011
Imprimer les 32 premiers
chiffres du développement
binaire de √2-1
01001010101111000011101100101100
Imprimer
010010101011110000111
01100101100
Mesure de complexité
• Complexité au sens de Kolmogorov (ou algorithmique) :
La plus courte longueur d ’un programme informatique tel
qu ’un ordinateur imprime la suite x et s ’arrête.
• Complexité au sens de Lempel Ziv:
La taille du dictionnaire après compression
Le codage de canal
Le résultat des perturbations est une probabilité d’erreur par
symbole incompatible avec la qualité de restitution.
Le codage de canal ajoute de la redondance au message initial de
manière à augmenter la sûreté de transmission en présence de
perturbations.
Soit C la capacité d ’un canal :
C = max I ( X ; Y )
Théorème fondamental sur le codage de canal: Si H<C il existe
un code qui permet de rendre la probabilité d ’erreur aussi petite
qu ’on le souhaite.
Représentation des codes linéaires
en blocs
Code C(n,k) de longueur n, de dimension k
Source
Message m
Codeur de
(m1,m2,…,mk) canal
Mot de code c
(c1,c2,…,cn)
n-k symboles de redondance
Rendement R=k/n
Représentation matricielle
• Matrice génératrice c=mG
 g1,1 g1, 2 ... g1,n  
g

g
...
g
2 ,1
2, 2
2,n  
k lignes
[c1 c2 ... cn ] = [m1 m2 ... mn ]

 ...
...
...  


g k ,1 g k , 2 ... g k ,n  
1
444
424444
3
n colonnes
• Matrice contrôle de parité
cH = 0
La matrice de contrôle H permet de détecter les erreurs
T
Représentation Polynomiale
• Cas des codes cycliques :
 g0
0

G= 0

 ...
 0
g1
g0
0
...
0
g2
g1
g0
...
...
...
g2
g1
...
0
gn−k
...
g2
...
g0
0
gn−k
...
...
g1
0
0
gn−k
...
g2
...
0 
...
0 
...
... 

...
0 
... g n − k 
• Représentation polynomiale :
2
n −1
– Mot de Code c: c( x) = c0 + c1x + c2 x + ... + cn −1x
– Message m: m( x) = m0 + m1x + m2 x 2 + ... + mk −1x k −1
• Polynôme générateur g(x) de degré n-k:
g ( x) = g 0 + g1x + g 2 x 2 + ... + g n − k x n − k
c ( x ) = m( x ) g ( x )
Contraintes du tatouage d’images
ÊLa marque doit être invisible
ËLa marque doit être indélébile:
–
–
–
–
compression avec perte
conversion analogique/numérique
fenêtrage, changement d’échelle
lissage, rehaussement
• La robustesse peut être variable selon les
applications:
Robustesse
Indexation
Quantité
d’information
Authentification
Droits d’auteurs
Contribution de la théorie de
l ’information au tatouage d ’image
Quelle est la longueur maximale du message que l’on peut
cacher dans une image ?
Signature
Canal
Signature perturbée
Y={y1,y2,…yn}
W={w1,w2,…wn}
Traitements
B={b1,b2,…bn}
C=max(I(W;Y)) bits/transmission
Une transmission représente ici l ’élément le plus petit qui permet de transmettre le
message: pixel, coefficient fréquentiel, bloc image
Canal non linéaire à saturation.
g(u)
s: Signal d’entrée
1
η: Bruit additif
-1
1
-1
y = g(s + ç − è)
θ: Offset
u
y: Signal de sortie
Quel est l ’effet de la non linéarité sur
l ’information mutuelle?
I(s; y) = ∫ ds f (s) ∫ dy p(y s)ln(
s
p(y s)
p(y)
)
Etude de I(s;y) dans le cas : s Gaussien η Gaussien
Fonctions densités de probabilité :

exp  −

2ð





u
2ó

1
f s (u) =
exp  −

ó s 2ð





u 

2 ó s 
f n (u) =
1
ó
n
n




2
2








Fonctions de répartition :
u
Fn (u) = ∫ f n (u' )du' =
−∞
1
u 
)
Fs (u) = ∫ f s (u' )du' = 1 + erf (
2
2σ s 
−∞
u
I(s; y) = ∫ ds f (s) ∫ dy p(y s)ln(
p(y s)
s
I1(s) calculé analytiquement :
1
u 
1
+
(
)
erf

2
2σ n 
p(y)
I1(s)
I1(s)=Icont(s)+J1(s)+J-1(s)
)
Expression analytique de I1
y =1
2


 2

  ó 2 
 ón 
1   ó n  
s
1



n
− 1 −    − ln Fn (y + è − s)
I cont (s) =  1 −
(y + è − s)f n (y + è − s) + 
2
ó 
2   ó y  
2   ó y  
2ó y



 y






y = −1
σ y = σ n +σ s
2
2
 1 − Fn (1 − s + è) 

J1 (s) = [1 − Fn (−1 − s + è) ]ln
 Pr{Y = 1} 
 Fn (−1 − s + è) 

J −1 (s) = Fn (−1 − s + è)ln 
 Pr{Y = −1} 
Pr{Y = 1} = Fy (−1 + θ )
Pr{Y = −1} = 1 − Fy (1 + θ )
Quel est l ’effet du bruit sur l’information mutuelle?
Dans le cas d ’un signal faible et d ’un fort offset :
Conclusion
Vous souhaitez caractériser :
• Une source de données
• Un système entrée/sortie
La théorie de l’information : des outils et des théorèmes
fondamentaux dont le domaine d ’application s’étend bien au
delà de celui des télécommunications.
Téléchargement