Introduction à la théorie de l’information David Rousseau Doctorant première année au LISA Pr Ag de Physique à l’Université d’Angers Organisation de l’exposé Cadre et historique de la théorie de l’information Les principaux outils Les théorèmes fondamentaux Exemples d’applications en relation avec les activité du LISA Comment est née la théorie de l’information ? • A l’origine une réflexion sur les techniques de communication. • Claude Shannon pose en 1948 les fondements mathématiques des communications numériques. A quoi sert la théorie de l’information ? Vous disposez d ’une source de données. • Quelle est la quantité d ’information et de redondance ? • Quel est le taux de compression maximal sans pertes d’information ? • Quelle est la complexité de ces données ? Vos données traversent un système où règnent des perturbations • Quel est l’effet des perturbations sur l’information ? • Quel est le taux de transmission maximal sans pertes d ’information ? Paradigme de Shannon message Source Canal Destinataire Perturbations Exemples illustrant le paradigme : • cas d’une source analogique : la parole • cas d’une source numérique : l ’écriture • cas d’une séparation temporelle : lecture d ’un CD gravé Quantifier l’information La transmission d’un message serait inutile s’il était connu à l’avance par son destinataire. • • Une source d’information est considérée comme le siège d’événements aléatoires. La quantité d’information d’un message se définit comme une mesure de son imprévisibilité. La source est modélisée par une variable aléatoire X, son espace d’épreuve (x1,x2…,xn) est l’alphabet de la source. pi = Pr( X = xi ) , i = 1,2,..., n n ∑ p =1 i i=1 Quantité d’information Soit h(Pr(x)) la quantité d’information apportée par la réalisation d’un événement x de probabilité Pr(x). Propriétés de la fonction h: – Soit f une fonction croissante : h(x)= f( 1 ) Pr(x) – f(1)=0. – Soit x et y deux événements indépendants : h(x, y)=h(x)+h(y) Quantité d’information associée à la réalisation d’un événement x : h(x)=log(1/Pr(x))=−log(Pr(x)) Entropie d’une source Il s’agit de la quantité d’information moyenne associée à chaque symbole de cette source : H(X)=E[h(X)]=−∑ pilog(pi) n i=1 Cette expression définit l’entropie par symbole. C ’est une mesure de surprise Exemple d ’une source binaire : H ( X ) = −( p log( p ) + (1 − p ) log(1 − p)) p = Pr(0) = 1 − Pr(1) H(X) est maximum pour n fixé lorsque pi=1/n . Information mutuelle C’est la quantité d’information que la donnée de l’une des variables apporte sur l’autre. X Canal • Pr(x) probabilité que x soit émis • Pr(xIy) probabilité a posteriori que x ait été émis sachant que y a été reçu. Y i(x, y)=log(Pr(x y)/Pr(x)) i(x,y)=h(x) si Pr(xIy)=1 i(x,y)=0 si x et y sont indépendants D’après la relation de Bayes : Pr(x, y) i(x, y)=log =i(y,x) Pr(x)Pr(y) Information mutuelle moyenne Soit X et Y deux variables aléatoires (x1,x2,…xn) et (y1,y2…ym) leurs espaces d’épreuves respectifs. Pr(xi, y j) I(X,Y)=E[i(X,Y)]=−∑∑Pr(xi, y j)log Pr(xi)Pr(y j) i=1 j =1 n m m n j =i i=i Pr(xi)=∑Pr(xi, y j) ; Pr(y j)=∑Pr(xi, y j) C ’est une mesure d ’indépendance Le codage de source L’usage d’un canal coûte d’autant plus cher que le message est long. Pour diminuer ce coût, on substitue le message émis par la source par un message aussi court que possible. Le codage de source enlève la redondance de la source. Théorème fondamental du codage de source : Soit une source sans mémoire S d ’entropie par message H. Soit n la longueur moyenne des mots nécessaires au codage de ces messages, exprimé en nombre de symbole q-aire : H ≤ n log(q ) Exemple de codage de source Ajout de bruit garbo.bmp garbo2.bmp On code les deux images avec un algorithme de compression par dictionnaire (Lempel Ziv) Est-il indispensable de faire appel aux probabilités pour quantifier l ’information ? Par exemple comment décrire la complexité de ces suites ? 01010101010101010101010101010101 Imprimer 16 fois 01 01101010000010011111001100110011 Imprimer les 32 premiers chiffres du développement binaire de √2-1 01001010101111000011101100101100 Imprimer 010010101011110000111 01100101100 Mesure de complexité • Complexité au sens de Kolmogorov (ou algorithmique) : La plus courte longueur d ’un programme informatique tel qu ’un ordinateur imprime la suite x et s ’arrête. • Complexité au sens de Lempel Ziv: La taille du dictionnaire après compression Le codage de canal Le résultat des perturbations est une probabilité d’erreur par symbole incompatible avec la qualité de restitution. Le codage de canal ajoute de la redondance au message initial de manière à augmenter la sûreté de transmission en présence de perturbations. Soit C la capacité d ’un canal : C = max I ( X ; Y ) Théorème fondamental sur le codage de canal: Si H<C il existe un code qui permet de rendre la probabilité d ’erreur aussi petite qu ’on le souhaite. Représentation des codes linéaires en blocs Code C(n,k) de longueur n, de dimension k Source Message m Codeur de (m1,m2,…,mk) canal Mot de code c (c1,c2,…,cn) n-k symboles de redondance Rendement R=k/n Représentation matricielle • Matrice génératrice c=mG g1,1 g1, 2 ... g1,n g g ... g 2 ,1 2, 2 2,n k lignes [c1 c2 ... cn ] = [m1 m2 ... mn ] ... ... ... g k ,1 g k , 2 ... g k ,n 1 444 424444 3 n colonnes • Matrice contrôle de parité cH = 0 La matrice de contrôle H permet de détecter les erreurs T Représentation Polynomiale • Cas des codes cycliques : g0 0 G= 0 ... 0 g1 g0 0 ... 0 g2 g1 g0 ... ... ... g2 g1 ... 0 gn−k ... g2 ... g0 0 gn−k ... ... g1 0 0 gn−k ... g2 ... 0 ... 0 ... ... ... 0 ... g n − k • Représentation polynomiale : 2 n −1 – Mot de Code c: c( x) = c0 + c1x + c2 x + ... + cn −1x – Message m: m( x) = m0 + m1x + m2 x 2 + ... + mk −1x k −1 • Polynôme générateur g(x) de degré n-k: g ( x) = g 0 + g1x + g 2 x 2 + ... + g n − k x n − k c ( x ) = m( x ) g ( x ) Contraintes du tatouage d’images ÊLa marque doit être invisible ËLa marque doit être indélébile: – – – – compression avec perte conversion analogique/numérique fenêtrage, changement d’échelle lissage, rehaussement • La robustesse peut être variable selon les applications: Robustesse Indexation Quantité d’information Authentification Droits d’auteurs Contribution de la théorie de l ’information au tatouage d ’image Quelle est la longueur maximale du message que l’on peut cacher dans une image ? Signature Canal Signature perturbée Y={y1,y2,…yn} W={w1,w2,…wn} Traitements B={b1,b2,…bn} C=max(I(W;Y)) bits/transmission Une transmission représente ici l ’élément le plus petit qui permet de transmettre le message: pixel, coefficient fréquentiel, bloc image Canal non linéaire à saturation. g(u) s: Signal d’entrée 1 η: Bruit additif -1 1 -1 y = g(s + ç − è) θ: Offset u y: Signal de sortie Quel est l ’effet de la non linéarité sur l ’information mutuelle? I(s; y) = ∫ ds f (s) ∫ dy p(y s)ln( s p(y s) p(y) ) Etude de I(s;y) dans le cas : s Gaussien η Gaussien Fonctions densités de probabilité : exp − 2ð u 2ó 1 f s (u) = exp − ó s 2ð u 2 ó s f n (u) = 1 ó n n 2 2 Fonctions de répartition : u Fn (u) = ∫ f n (u' )du' = −∞ 1 u ) Fs (u) = ∫ f s (u' )du' = 1 + erf ( 2 2σ s −∞ u I(s; y) = ∫ ds f (s) ∫ dy p(y s)ln( p(y s) s I1(s) calculé analytiquement : 1 u 1 + ( ) erf 2 2σ n p(y) I1(s) I1(s)=Icont(s)+J1(s)+J-1(s) ) Expression analytique de I1 y =1 2 2 ó 2 ón 1 ó n s 1 n − 1 − − ln Fn (y + è − s) I cont (s) = 1 − (y + è − s)f n (y + è − s) + 2 ó 2 ó y 2 ó y 2ó y y y = −1 σ y = σ n +σ s 2 2 1 − Fn (1 − s + è) J1 (s) = [1 − Fn (−1 − s + è) ]ln Pr{Y = 1} Fn (−1 − s + è) J −1 (s) = Fn (−1 − s + è)ln Pr{Y = −1} Pr{Y = 1} = Fy (−1 + θ ) Pr{Y = −1} = 1 − Fy (1 + θ ) Quel est l ’effet du bruit sur l’information mutuelle? Dans le cas d ’un signal faible et d ’un fort offset : Conclusion Vous souhaitez caractériser : • Une source de données • Un système entrée/sortie La théorie de l’information : des outils et des théorèmes fondamentaux dont le domaine d ’application s’étend bien au delà de celui des télécommunications.