Télécharger - ISIG-GOMA

publicité
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
1
INSTITUT SUPERIEUR D’INFORMATIQUE ET DE GESTION
(ISIG GOMA)
PROBABILITES ET THEORIE DE L’INFORMATION
Notes de cours à l’attention des étudiants de première Licence
Par Lucien Zihindula Biguru, MSc
Année académique : 2011-2012
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
2
NOTES INTRODUCTIVES
C’est en 1948, alors qu’il travaillait aux Laboratoires Bell, que l’ingénieur en
Génie Electrique, Claude Shannon donna une formalisation mathématique de la
nature statistique de l’Information manquante dans les signaux des lignes
téléphoniques.
Il développa pour cette fin l’importante notion d’entropie de l’Information qui
est fondamentale dans ce domaine. C’est ainsi que naquit la Théorie de
l’Information qui est un domaine d’essence théorique et dont l’objet principal
consiste en l’étude des lois quantitatives liées à l’obtention, le traitement et la
conservation de l’Information.
La théorie de l’Information est devenue par la suite un outil mathématique
indispensable pour les processus de commande les plus divers.
La nécessité de transmission d’informations relatives à un système physique
vient du fait que ce dernier présente généralement, du point de vue du
destinataire, une certaine imprécision ou au mieux une certaine incertitude étant
donné que pour tout système physique dont l’état est exactement connu par le
destinataire, toute transmission d’information sera inutile.
Suite au caractère aléatoire inhérent à tout système physique, la théorie de
l’Information utilise tout naturellement les outils du calcul des probabilités qui
est la branche des mathématiques s’occupant de la quantification des
phénomènes aléatoires.
L’objectif de ce cours est de donner à l’étudiant de Licence en Informatique les
notions et les outils de base pouvant lui permettre de faire une description
quantitative des processus de transmission de l’Information et dégager certaines
caractéristiques mathématiques lié aux tels processus.
Eu égard aux aspects probabilistes de cette théorie, c’est tout naturellement que
ce cours est subdivisé en deux grandes parties :
- La théorie des probabilités, où seront rappelées les outils de base relatifs
au calcul des probabilités1 ainsi qu’à certaines distributions d’usage
courant généralement abordées en cours de Statistique Inductive en
deuxième année de graduat.
1
Ces distributions probabilistes nous seront également très utiles dans l’étude de la troisième partie du cours de
Recherche Opérationnelle ; partie consacrée à l’étude des phénomènes d’attente pour lesquels les distributions de
Poisson et exponentielle jouent un important rôle.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
3
- Notions de base de la Théorie de l’Information, où seront abordées les
notions centrales de cette Théorie que sont l’entropie et de codage de
l’Information.
Comme outil de calcul pour ce cours nous avons choisi de saisir ce cadre comme
prétexte2 pour attirer l’attention de nos étudiants sur le logiciel libre , de plus
en plus utilisé essentiellement en Analyse statistique mais qui est en même
temps un puissant outil mathématique offrant en ce qui concerne ce cours et
même une partie de celui de Recherche Opérationnelle, de remarquables
facilités pour le calcul des quantiles de presque toutes les distributions
probabilistes connues à ce jours en nous permettant ainsi de nous débarrasser de
traditionnelles et encombrantes tables statistiques.
Notons enfin en ce qui concerne ce logiciel que cette façon de procéder cadre
bien avec la filière Informatique et Gestion qu’ont choisie les étudiants
auxquels s’adresse ce modeste cours qui n’a nullement l’intention d’en faire de
mathématiciens !
Nous commencerons donc par une rapide présentation du logiciel
en en
présentant l’esprit ainsi que les premières illustrations et nous y reviendrons tout
au long du cours selon les besoins.
2
Le nombre relativement élevé de nos étudiants des cours de Statistique en Graduat ne nous a pas permis de les
initier à
.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
CONTENU DU COURS:
0. Premier contact avec le logiciel
I. Eléments de calcul des probabilités
I.1. Rappels sur les techniques de dénombrement
I.2. Probabilités et évènements
I.3. Variables aléatoires
I.4. Distributions statistiques d’usage courant
II. Eléments de théorie de l’Information
II.1. Problèmes de base de la théorie de l’information
II.2. Entropie comme mesure du degré d’incertitude d’un état
physique
II.3. Entropie d’un système composé
II.4. Entropie et Information
II.5. Introduction aux problèmes de codage des communications
II.6. Codage de Shannon Fano
III. Exercices des travaux Pratiques
4
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
5
REFERENCES
1. H. Ventsel, Théorie des probabilités, Editions Mir, Moscou 1982
2. F. Dress, Probabilités et Statistiques, Dunod, Paris 1999
3. D. Rousseau, Notes de cours de Théorie de l’Information, Université
d’Angers 2003, Inédit.
4. O Rioul, Polycopié de Théorie de l’Information et du codage, ENSTA,
Janvier 2006
5. L. Zihindula B, Notes de cours de Probabilités et Théorie de
l’Information, Licence ISIG-Goma, 2009-2010, Inédit
6. OVG-UNOPS, Module de renforcement des capacités des chercheurs de
l’Observatoire Volcanologique de Goma en Méthodes Statistiques,
Décembre 2010
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
6
o. Premier contact avec le logiciel
0.1. Présentation de
Le logiciel
est un système d’Analyse Statistique et graphique créé dans les
années 1990 par Ross Ihaka et Robert Gentleman (Département de
Statistique, Université d’Auckland, Nouvelle-Zélande) . Il est distribué
librement et son développement et sa distribution sont assurés par plusieurs
statisticiens rassemblés dans le
developement Core Team.
De manière plus spécifique
est encore un langage de programmation et de ce
fait
présente beaucoup d’atouts par rapport à bon nombre de logiciels
concurrents.
est un langage, il n’est pas
Il convient de noter qu’en dépit du fait que
obligatoire de savoir programmer pour bien l’utiliser.
En effet,
est un langage interprété et non un langage compilé dans la
mesure où les commandes tapées au clavier sont directement exécutées sans
qu’il soit besoin de construire un programme complet comme cela est le cas
pour la plupart des langages informatiques (C, Fortran, Pascal…)
Il est aussi intéressant de remarquer3 que la syntaxe de
est très intuitive.
Quand
est utilisé, les variables, les données, les fonctions, les résultats
…sont stockés dans la mémoire de l’ordinateur sous forme d’objets qui ont
chacun un nom.
L’utilisateur peut agir sur ces objets avec des opérateurs (arithmétiques,
logiques,…) et des fonctions.
Ainsi toutes les actions de
mémoire vive de l’ordinateur.
sont effectuées sur des objets présents dans la
Avant de préciser davantage chacun de ces concepts, précisons qu’actuellement
il existe de nombreuses communautés de chercheurs à travers le monde qui ont
en commun l’utilisation du logiciel
comme instrument d’analyse statistique
et graphique et certaines revues scientifiques vont même jusqu’à préférer
3
L’utilisateur, quoique débutant, remarque justement qu’à mesure qu’il s’habitue à R, des tournures qui lui
paraissaient arbitraires au début deviennent évidentes et parfois il finit par créer ses propres astuces.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
l’utilisation de
de croître.
7
aux milliers des logiciels statistiques dont le nombre ne cesse
, il suffit de lire ce qu’écrit Greg Snow, l’un de
Pour résumer les atouts de
grands défenseurs de
, en Mai 2006 :
When talking about computer software I like the analogy of cars versus busses…
Using this analogy programs like SPSS are busses, easy to use for the standard things, but
very frustrating if you want to do something that is not already pre-programmed.
is a car with a bike on the back, a kayak on top, good walking and running shoes in the
passenger seat, and mountain climbing and spelunking gear in the back.
can take you anywhere you want to go if you take time to learn how to use
equipments, but is going to take longer than learning where the bus stops are in
SPSS.
0.2. Lancer et quitter
Il suffit de double-cliquer sur l’icône
pour entrer et d’entrer q() sur la ligne
de commande pour quitter.
En double-cliquant sur l’icône
il apparait l’environnement du genre :
R version 2.9.0 (2009-04-17)
Copyright (C) 2009 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
R est un logiciel libre livré sans AUCUNE GARANTIE.
Vous pouvez le redistribuer sous certaines conditions.
Tapez 'license()' ou 'licence()' pour plus de détails.
R est un projet collaboratif avec de nombreux contributeurs.
Tapez 'contributors()' pour plus d'information et
'citation()' pour la façon de le citer dans les publications.
Tapez 'demo()' pour des démonstrations, 'help()' pour l'aide
en ligne ou 'help.start()' pour obtenir l'aide au format HTML.
Tapez 'q()' pour quitter R.
[Sauvegarde de la session précédente restaurée]
>
0.3. Interaction avec
L’utilisation de
schéma :
se fait généralement de manière interactive suivant le
- On entre une commande et on tape la touche « Retour à la ligne »
exécute cette commande (avec affichage d’un résultat si possible).
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
8
attend une autre commande.
0.4. Quelques premiers exemples simples
Dans l’environnement
les commandes de l’utilisateur figurent en rouge
tandis que la réponse de
est en bleu.
1. Calculer successivement :
> (2+4)^3
[1] 216
> exp(3)
[1] 20.08554
> log(100, base=10)
[1] 2
>
2. Que vous donne
si vous tapez la commande >
seq(from=2,to=500,by=5) ?
En l’introduisant dans l’environnement
on obtient :
> seq(from=2,to=500,by=5)
[1] 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87
[19] 92 97 102 107 112 117 122 127 132 137 142 147 152 157 162 167 172 177
[37] 182 187 192 197 202 207 212 217 222 227 232 237 242 247 252 257 262 267
[55] 272 277 282 287 292 297 302 307 312 317 322 327 332 337 342 347 352 357
[73] 362 367 372 377 382 387 392 397 402 407 412 417 422 427 432 437 442 447
[91] 452 457 462 467 472 477 482 487 492 497
Au vu de la réponse donnée par
on comprend que la commande
>seq(from=2,to=500,by=5) sollicite des nombres entiers partant de 2 à 100 en
faisant chaque fois un pas de 5.
Le nombre entre crochet au début de chaque ligne indique le rang (indice) du
premier nombre de la ligne.
3. Dans le même ordre d’idées, donner une commande en
générer tous les multiples de 7 inférieurs à 2000.
> seq(from=0,to=2000,by=7)
[1] 0 7 14 21 28 35 42 49 56 63 70 77 84 91 98
qui permet de
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
9
[16] 105 112 119 126 133 140 147 154 161 168 175 182 189 196 203
[31] 210 217 224 231 238 245 252 259 266 273 280 287 294 301 308
[46] 315 322 329 336 343 350 357 364 371 378 385 392 399 406 413
[61] 420 427 434 441 448 455 462 469 476 483 490 497 504 511 518
[76] 525 532 539 546 553 560 567 574 581 588 595 602 609 616 623
[91] 630 637 644 651 658 665 672 679 686 693 700 707 714 721 728
[106] 735 742 749 756 763 770 777 784 791 798 805 812 819 826 833
[121] 840 847 854 861 868 875 882 889 896 903 910 917 924 931 938
[136] 945 952 959 966 973 980 987 994 1001 1008 1015 1022 1029 1036 1043
[151] 1050 1057 1064 1071 1078 1085 1092 1099 1106 1113 1120 1127 1134 1141 1148
[166] 1155 1162 1169 1176 1183 1190 1197 1204 1211 1218 1225 1232 1239 1246 1253
[181] 1260 1267 1274 1281 1288 1295 1302 1309 1316 1323 1330 1337 1344 1351 1358
[196] 1365 1372 1379 1386 1393 1400 1407 1414 1421 1428 1435 1442 1449 1456 1463
[211] 1470 1477 1484 1491 1498 1505 1512 1519 1526 1533 1540 1547 1554 1561 1568
[226] 1575 1582 1589 1596 1603 1610 1617 1624 1631 1638 1645 1652 1659 1666 1673
[241] 1680 1687 1694 1701 1708 1715 1722 1729 1736 1743 1750 1757 1764 1771 1778
[256] 1785 1792 1799 1806 1813 1820 1827 1834 1841 1848 1855 1862 1869 1876 1883
[271] 1890 1897 1904 1911 1918 1925 1932 1939 1946 1953 1960 1967 1974 1981 1988
[286] 1995
>
0.5. Manipuler les données
0.5.1. Variables et affectation
Comme la plupart des langages de programmation,
possède des variables
auxquelles on peut affecter une valeur.
Pour assigner une valeur à une variable, on utilise l’opérateur : « < - » ou
« -> » ou tout simplement « = ».
Ainsi pour assigner à la variable x la valeur 3, à la variable y la variable 5 et, par
exemple, à la variable z la valeur
, il suffit de taper la syntaxe :
> x=3
> y=5
> z=2*x+3
>
Une des commandes les plus simples consiste à taper le nom d’un objet pour
afficher son contenu.
Ainsi, pour afficher le contenu de chacune des variables x, y et z définies cihaut, on a :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
10
> x=3
> y=5
> z=2*x+3
>x
[1] 3
>y
[1] 5
>z
[1] 9
>
0.5.2. Nom des variables
Les noms des variables sont très flexibles.
N’importe quelle variable peut stocker n’importe quelle valeur. Cependant il
faut noter que :
les noms des variables ne peuvent pas commencer par un chiffre ou un
caractère spécial.
Un caractère majuscule X est différent d’un caractère minuscule x.
Ainsi par exemple, R distingue clairement les variables x et X comme le
montre clairement l’exemple suivant :
> x=2
> X=1
> x-X
[1] 1
>
0.5.3. Vecteurs
Les types élémentaires dans R sont des vecteurs qu’on construit avec la syntaxe
c(…)
En mesurant les tailles de 10 agents de polices on trouve les valeurs suivantes en
mètres : 1.78, 1.75, 1.89, 1.80, 1.75, 1.78, 1.80, 1.82, 1.75, 1.63.
On peut stocker ces données dans une variable x par la syntaxe :
> x=c(1.78, 1.75, 1.89, 1.80, 1.75, 1.78, 1.80, 1.82, 1.75, 1.63)
Pour afficher le contenu de la variable x il suffit de saisir x suivi de la touche
Retour à la ligne :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
11
>x
[1] 1.78 1.75 1.89 1.80 1.75 1.78 1.80 1.82 1.75 1.63
>
0.5.4. Arithmétique vectorielle
Les opérations arithmétiques élémentaires usuelles : +(addition), (soustraction), * (multiplication) , / (division), ^(élévation à une puissance) ainsi
que diverses fonctions mathématiques travaillent élément par élément sur des
vecteurs afin de produire un autre vecteur.
Exemple :
Les poids des dix agents de polices ci-dessus, exprimées en Kg sont données par
les valeurs : 82, 75, 78, 62, 56, 85, 93, 87, 59, 68.
On appelle indice de masse corporelle (imc) d’un individu, le rapport de son
poids (en Kg) sur le carré de sa taille (en mètres) :
En couplant ces données relatives aux poids à celles relatives aux tailles de ces
agents de police, générons la série de leurs indices de masse corporelle
respectifs :
En notant x la taille de ces dix agents et y leurs poids, on a :
> x=c(1.78, 1.75, 1.89, 1.80, 1.75, 1.78, 1.80, 1.82, 1.75, 1.63)
> y=c(82, 75, 78, 62, 56, 85, 93, 87, 59, 68)
> imc=y/x^2
> imc
[1] 25.88057 24.48980 21.83589 19.13580 18.28571 26.82742 28.70370 26.26494
[9] 19.26531 25.59374
>
Nous allons progresser dans l’apprentissage de R suivant des besoins de calcul
qui se poseront durant le déroulement de la formation.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
12
I. Eléments de calcul des probabilités
I.1. Techniques de dénombrement
On dit d'une expérience qu'elle est aléatoire lorsque d'une part il est impossible
de prévoir avec précision le résultat auquel elle conduira mais d'autre part il est
possible de décrire l'ensemble de tous ses résultats possibles.
Ainsi, comme on le verra un peu plus loin, toute étude mathématique d'une telle
expérience (aléatoire) consiste à définir une certaine structure sur l'ensemble de
ses résultats possibles.
Dans bien d'applications des probabilités, on considère des cas où une
expérience conduit à un ensemble fondamental
fini et que
tous les résultats ont la même chance de se produire. Dans ce cas particulier
mais fréquent, la probabilité d'un évènement A est défini comme le rapport du
nombre de cas favorables à l'évènement A sur celui de tous les cas possibles.
Il est donc très utile en abordant les probabilités d'avoir à l'esprit certaines
techniques de dénombrement (pour compter tous ces cas favorables et possibles)
qui font l'objet de l'Analyse combinatoire.
I. 1. a) Principe fondamental :
L’exemple suivant permet d’introduire le principe fondamental du calcul des
probabilités, appelé aussi principe multiplicatif.
La garde robe de Julien, comporte 4 pantalons, 5 chemises et 3 paires de
souliers. En convenant d’appeler style, le choix d’un pantalon, d’une chemise et
d’une paire de chaussure, combien de styles différents sont-il possibles à
Julien ?
Le logiciel
comporte la commande expand.grid() dont les arguments sont
des vecteurs et le résultat obtenu sont les différentes combinaisons possibles des
composantes des vecteurs argument.
Pour obtenir grâce à
définir les vecteurs :
les différents styles possibles à Julien il nous suffit de
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
> Pantalons=c("p1","p2","p3","p4")
> Chemises=c("ch1","ch2","ch3","ch4","ch5")
> Souliers=c("soul1","soul2","soul3")
Qui correspondent aux données de la question et de taper la commande :
> expand.grid(Pantalons,Chemises,Souliers)
Pour obtenir tous les styles possibles que peut arborer Julien:
Var1 Var2 Var3
1 p1 ch1 soul1
2 p2 ch1 soul1
3 p3 ch1 soul1
4 p4 ch1 soul1
5 p1 ch2 soul1
6 p2 ch2 soul1
7 p3 ch2 soul1
8 p4 ch2 soul1
9 p1 ch3 soul1
10 p2 ch3 soul1
11 p3 ch3 soul1
12 p4 ch3 soul1
13 p1 ch4 soul1
14 p2 ch4 soul1
15 p3 ch4 soul1
16 p4 ch4 soul1
17 p1 ch5 soul1
18 p2 ch5 soul1
19 p3 ch5 soul1
20 p4 ch5 soul1
21 p1 ch1 soul2
22 p2 ch1 soul2
23 p3 ch1 soul2
24 p4 ch1 soul2
25 p1 ch2 soul2
26 p2 ch2 soul2
27 p3 ch2 soul2
28 p4 ch2 soul2
29 p1 ch3 soul2
30 p2 ch3 soul2
31 p3 ch3 soul2
32 p4 ch3 soul2
33 p1 ch4 soul2
34 p2 ch4 soul2
35 p3 ch4 soul2
36 p4 ch4 soul2
37 p1 ch5 soul2
13
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
>
p2
p3
p4
p1
p2
p3
p4
p1
p2
p3
p4
p1
p2
p3
p4
p1
p2
p3
p4
p1
p2
p3
p4
14
ch5 soul2
ch5 soul2
ch5 soul2
ch1 soul3
ch1 soul3
ch1 soul3
ch1 soul3
ch2 soul3
ch2 soul3
ch2 soul3
ch2 soul3
ch3 soul3
ch3 soul3
ch3 soul3
ch3 soul3
ch4 soul3
ch4 soul3
ch4 soul3
ch4 soul3
ch5 soul3
ch5 soul3
ch5 soul3
ch5 soul3
En remarquant que le nombre de ces styles pouvait, intuitivement, être obtenu en
faisant :
,
On peut généraliser ce principe :
Considérons k expériences
possibles.
Il existe alors
dans l'ordre indiqué.
telles que
possède
réalisations
possibilités de réaliser ces n expériences
Illustrations :
1.
Dans une ville donnée, les plaques d'immatriculation des véhicules
comportent les lettres BK, suivies de 4 chiffres différents, suivis à leur tour des
lettres BB. Combien peut-on ainsi immatriculer des véhicules différents ?\\
2.
Répondre à la même question pour une ville où toute plaque
d'immatriculation est composée de deux lettres quelconques de l'alphabet
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
15
français suivies de 4 chiffres différents suivis à leur tour de deux lettres
différentes de l'alphabet français
Rappel : pour tout entier naturel non nul , on appelle factorielle , le nombre
noté
et qui vaut le produit des n premiers nombres entiers non nuls.
Exemples :
II. 1. b) Arrangements
On appelle arrangement de n objets pris r à r une liste de r de ces n objets pris
dans un ordre précis.
Si ces r objets sont supposés distincts on parle d'arrangement sans répétition.
Dans le cas contraire il y a répétition.
Le nombre d'arrangements sans répétition de n objets pris r à r se note
tandis que la notation
est réservée aux arrangements avec répétition.
Pour former tous un arrangement sans répétition de n éléments pris r à r, il y a :
.
.
.
.
.
.
.
choix possibles pour le premier élément,
choix possibles pour le deuxième,
choix possibles pour le troisième,
choix possibles pour le
élément.
En appliquant le principe fondamental on obtient :
Et il est facile d'établir que :
Il convient de préciser que deux arrangements sont différents si l'un possède au
moins un élément que l'autre n'a pas ou alors tout en ayant les mêmes éléments,
l'un les a dans un ordre différent.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
16
Illustration :
1. Calculer
2. Combien peut-on former des nombres à 4 chiffres à l'aide des chiffres
1, 2, 4, 6, 8, 9 ?
3. Combien peut-on former des nombres à 4 chiffres dans le système de
numération décimale ?
4. Combien peut-on former des nombres à 4 chiffres différents dans le système
de numération décimale ?
II. 1. c) Permutations
Une permutation de n éléments est toute liste de ces n éléments dans un ordre
donné.
Il en résulte qu'une telle permutation est un arrangement de ces n éléments pris n
à n. En notant
le nombre de telles permutations on a évidemment :
A titre d'illustration (rapide), notons qu'il y a
d'asseoir 5 invités sur 5 places différentes.
manières différentes
II. 1. c) Combinaisons
Une combinaison de n éléments pris r à r est un sous ensemble de r éléments
dans un ensemble qui en possède n.
Il en résulte que dans une combinaison, l'ordre dans lequel se présentent les
éléments n'a pas d'importance.
Le nombre de telles combinaisons se note
.
On peut énumérer tous les
arrangements en énumérant d'abord tous les
combinaisons et de générer ensuite les arrangements en permutant les éléments
de chacune des combinaisons.
On en déduit que
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
17
de sorte que :
Illustration :
En utilisant la formule
calculer :
1)
2)Justifier et illustrer chacune des propriétés suivantes dont jouissent les
combinaisons :
et
3)
En appliquant la célèbre formule dite du binôme de Newton :
, développer
Remarque :
Le logiciel R, en tant que calculatrice, permet de calculer :
- factoriel n ( ) grâce à la commande : >gamma (n+1) tandis que la
commande >choose(n,k) permet de trouver .
ILLUSTRATION:
De combien de manières peut-on partager 9 jouets entre 4 enfants, sachant que
le plus jeune enfant doit recevoir 3 jouets et les autres enfants 2 jouets:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
18
SOLUTION:
Quelques exercices sur les dénombrements
Question 1 :
Huit nageurs, dont un congolais, participent à la finale olympique de 100m.
a) Combien de podiums sont-ils possibles ? (un podium est constitué par un
premier, un deuxième et un troisième nageur).
b) Combien de podiums comportant un nageur congolais sont-ils possibles ?
Question 2 :
Jean et Renée font partie d’un club de 18 personnes.
On doit former un groupe constitué de 5 d’entre elles pour représenter le club à
un spectacle.
a) Combien de groupe de 5 personnes peut-on ainsi former ?
b) Jean et Renée ne pouvant se supporter, combien de groupes de 5 personnes
peut-on constituer de telle façon que Jean et Renée ne se retrouvent pas
ensemble ?
Calculer si : i)
ii)
I. 2. Probabilités et évènements
I. 2. a) Notions de base
Beaucoup de phénomènes étudiés dans les sciences expérimentales sont guidés
par le principe de déterminisme d'après lequel dans les mêmes conditions, les
mêmes causes produisent toujours les mêmes effets.
Cependant, les phénomènes déterministes ne constituent pas la totalité de ce qui
intéresse le scientifique.
Dans presque tous les domaines du savoir humain il se pose le besoin de pouvoir
prendre la meilleure décision en situation d'incertitude.
Le calcul des Probabilités est la branche des mathématiques qui s'occupe des
phénomènes aléatoires, c.-à-d. ceux dans lesquels intervient le hasard.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
19
Comme souligné au début, la première des exigences en probabilités consiste à
associer à chaque expérience aléatoire son ensemble
de toutes les issues
possibles.
Exemples :
-Le jet d'un dé cubique est une expérience aléatoire dont l'ensemble fondamental
est
.
-Le jet d'une pièce de monnaie est une expérience aléatoire dont l'ensemble
fondamental est
Certains faits liés à toute expérience aléatoire peuvent ou ne pas se produire. On
les appelle évènements.
En reconsidérant l'expérience du jet d'un dé cubique, considérons l'évènement A:
la face amenée est paire.
Des six faces possibles seules les faces 2,4 et 6 sont favorables à l'évènement A.
On écrit ainsi
.
De manière générale, tout évènement est une partie de l'ensemble fondamental.
En supposant que le dé jeté est parfaitement équilibré, chaque face possède
naturellement une chance sur six d'apparaître et la situation peut être représentée
par le tableau suivant :
qui définit une loi équirépartie sur
.
Comme nous avons 3 chances sur six de réaliser A on peut écrire
Cet exemple, quoique très élémentaire, nous permet d'introduire le formalisme
de probabilité sur un ensemble fini:
Considérons une expérience aléatoire conduisant à un ensemble fondamental
fini
.
-Les éléments
de
l'expérience aléatoire.
sont les résultats ou encore les issues possibles de
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
20
-Un évènement est, dans ce cas, tout sous-ensemble de l'ensemble fondamental.
L'ensemble et
lui-même sont des évènements particuliers respectivement
appelés évènement impossible et évènement certain.
En effet, l'évènement impossible n'a aucune chance de se réaliser tandis que
l'évènement certain est celui dont on sait qu'il se réalisera.
En généralisant l'exemple ci-dessus, on comprend qu'une loi de probabilité sur
$\Omega$, est définie par la donnée d'un tableau:
On peut combiner des évènements (sous-ensembles) à l'aide des opérations
ensemblistes usuelles pour obtenir d'autres évènements :
i)
est l'évènement qui se produit si au moins l'un des évènements A
ou B se produit.
ii)
est l'évènement qui se produit si simultanément les évènements A
et B se produisent.
iii)
est l'évènement contraire à A.
un ensemble fondamental fini et
.
Soit
Une probabilité sur
propriétés suivantes:
la classe des évènements, c.-à-d.
est une fonction
vérifiant les
i)
ii)
Si
iii) En général, si
alors :
est une suite d'évènements deux à deux disjoints,
Les conséquences naturelles de cette définition sont les suivantes:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
21
i)
ii)
Si
iii)
Si
est l'évènement contraire à A alors
iv)
v)
En particulier, lorsqu'une loi équirépartie est définie sur un ensemble fini,
la probabilité d'un évènement est le rapport entre le nombre de cas favorables à
l'évènement sur celui de tous les cas possibles :
Remarque : Il arrive qu'une expérience aléatoire conduise à un ensemble
fondamental infini non dénombrable.
Définir une probabilité sur un tel ensemble nécessite quelques précautions
mathématiques supplémentaires et surtout une généralisation des notions
précédentes.
Quelques exemples d'applications sur la notion de Probabilité.
I. On choisit au hasard 4 articles d'un lot de 15 articles parmi lesquels 7 sont
défectueux.
a)Quelle est la probabilité que les 4 articles choisis soient défectueux ?
b) Quelle est la probabilité qu'aucun des 4 articles choisis ne soit défectueux ?
c) Quelle est la probabilité qu'au moins l'un des quatre articles choisis soit
défectueux ?
II. On pipe une pièce de monnaie de telle sorte que face apparaisse deux fois
plus que pile. Calculer
et
.
III. On tire au hasard une carte d'un jeu ordinaire de 52 cartes. Calculer la
probabilité pour que (i) les deux cartes soient des piques, (ii) une carte au moins
soit un roi.
IV. Un auditoire comporte 10 garçons dont la moitié a les yeux marron et 20
filles dont la moitié également a les yeux marron. Calculer la probabilité p pour
qu'une personne tirée au hasard dans cet auditoire soit un garçon ou ait les yeux
marron.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
22
I.2.3.Probabilités conditionnelles : Formule des probabilités
totales et formule de Bayes
Considérons une classe de 30 élèves dont 10 sont des garçons. Si la moitié des
garçons fume et que le quart de filles fument également, on peut représenter la
situation par le tableau suivant :
Total
G
F
5 5
10
5 15 20
Total 10 20 30
On choisit un élève au hasard.
a) Quelle est la probabilité qu’il s’agisse d’un garçon ?
b) Quelle est la probabilité qu’il s’agisse d’un fumeur ?
c) On choisit un élève au hasard et on constate qu’il s’agit d’une fille. Quelle est
la probabilité que l’élève choisi soit fumeur ?
Comme on peut le voir dans la résolution de la question c), il arrive que la
réalisation d’un évènement modifie la probabilité de la réalisation de l’autre.
Cette situation conduit naturellement à l’importante notion de probabilité
conditionnelle.
Considérons A un évènement de probabilité non nulle.
La probabilité conditionnelle de réaliser un évènement B sachant que A est
réalisé se note
et on a la relation :
De manière générale, pour deux évènements A et B des probabilités non nulles,
.
Toute fois il résulte de la formule
que:
Illustration
:
Dans une population donnée, 15% des individus sont atteints de malaria. Parmi
les individus atteints de malaria, 20% développent une migraine et parmi les
individus non atteints de malaria, 4% développent aussi une migraine.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
23
On prend un individu dans cette population et on considère les évènements:
P : l’individu est atteint de malaria
M : l’individu souffre d’une migraine
a) Donner les valeurs des probabilités suivantes
b) Calculer la probabilité que l’individu choisi ne souffre ni de malaria ni de
migraine.
c) Calculer la probabilité que l’individu souffre d’une migraine.
Formule des probabilités totales
Dans la résolution de l’illustration précédente on a vu que :
La formule des probabilités totales est une généralisation de cette dernière.
Pour mieux l’aborder, précisons d’abord la notion suivante:
Définition 4 : on dit que
constituent un système complet
d’évènements si les conditions suivantes sont remplies:
i)
ii) Pour
,
iii)
En d’autres termes, un système complet d’évènements forme une partition de
l’ensemble fondamental .
Remarque :
Les évènements
formant un système complet s’appellent parfois hypothèses.
Le résultat suivant est très important et s’appelle formule des probabilités
totales:
Considérons A un évènement qui peut se réaliser à la suite de la réalisation
d’une et d’une seule hypothèse
appartenant à un système complet
d’évènements.
Résultat : la probabilité de l’évènement A est égale à la somme des produits des
probabilités de toutes les hypothèses formant un système complet par les
probabilités conditionnelles correspondantes de l’évènement donné A :
Exercice : justifier ces résultats à la lumière de ce qui précède.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
24
Illustration classique:
et
qui
la production d’une usine est assurée par trois machines
assurent respectivement 50%, 30% et 20% de la production totale.
Il est connu que 2% des articles produits par
, 3% de ceux produits par
et
5% de ceux produits par
sont défectueux.
Quelle est la probabilité qu’une pièce provenant de cette usine soit de bonne
qualité ?
Solution :
Formule de BAYES
Dans cette situation, on a également un système complet d’évènements
dont les probabilités
sont connues avant l’expérience. C’est
pourquoi les
sont parfois appelées probabilités à priori.
En effectuant l’expérience, on constate la réalisation de l’évènement A, tout en
sachant que nos hypothèses attribuaient à cet évènement des probabilités bien
déterminées
.
Il se pose le besoin de déterminer les probabilités de ces hypothèses après
expérience (probabilités à postériori).
En bref, grâce à la formule des probabilités totales nous savons que
mais dans ce cadre, A est déjà réaliser et on voudrait
calculer chacune des probabilités
.
Résultat (Formule de Bayes) :
Exercice : justifier cette formule à la lumière de ce qui précède.
Illustration:
dans une usine, 15% de pièces sont fabriquées par la machine
, 20% par la
machine
, 15% par la machine
, 40% par la machine
et 10% par la
.
machine
Une étude a montré que 1% des pièces produites par , 1.2% des pièces
, 1.4% des pièces produites par la machine
, 0.5% des pièces
produites par
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
produites par
et 1% des pièces produites par
25
sont défectueuses.
Un client achète une pièce et constate qu’elle défectueuse.
Quelle est la probabilité qu’elle ait été fabriquée par la machine
?
Indépendance
On dit de deux évènements qu’ils sont indépendants si la réalisation de l’un ne
change pas la probabilité de réalisation de l’autre.
Symboliquement, les évènements A et B sont indépendants ssi
ou
encore
.
Il résulte de ces formules que si les évènements A et B sont indépendants on
aura :
En général, on dit des évènements
qu’ils sont indépendants si
Exemples d’applications
1. Deux grossistes produisent des bulbes de tulipes; le premier produit des
bulbes à fleur rouge dont 90% donnent une fleur et le second produit des bulbes
à fleurs jaunes dont 80% donnent une fleur. Un horticulteur achète 70% de ses
bulbes chez le premier grossiste et le reste au second. Un bulbe donne au plus
une fleur. Si l’horticulteur choisit un bulbe au hasard dans son stock et le plante,
quelle est la probabilité que ce bulbe donne une fleur?
2. Considérons une population composée de 48% d’hommes et 52% de femmes.
Il est connu qu’au sein de cette population, 5 hommes sur cent et 25 femmes sur
dix mille sont daltoniens4. Trouver la proportion de cette population qui est
daltonienne.
3. Considérons trois sites primaires
et qui produisent des semences
d’une même variété. produit 50%, 35% et 15%. Il est établi que 0.3% de
graines provenant de sont défectueux de même pour 0.8% et 1% de graines
provenant respectivement de et .
4
Il convient en effet de rappeler que le Daltonisme est déterminé par un gène lié
au chromosome X et possède donc une incidence différente suivant les sexes.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
26
On choisit au hasard une graine de la caisse et on constate qu’elle est
et ?
défectueuse. Quelle est la probabilité qu’elle provienne de
4. Au cours d’une épidémie de grippe ayant atteint un quart de la population on
a aléatoirement vacciné le tiers de la population. On constate après qu’un
malade sur dix est vacciné. Calculer la probabilité pour un individu vacciné de
se retrouver grippé malgré tout.
I.3. Variables aléatoires
Considérons
l’ensemble fondamental associé à une expérience aléatoire
donnée.
Les éléments de (i.e. les résultats de l’expérience aléatoire) peuvent ne pas être
des nombres réels mais la résolution d’une bonne catégorie de problèmes relatifs
aux phénomènes aléatoire nécessite qu’on attribue, suivant certaines règles, un
nombre spécifique à chaque résultat. Une telle opération s’appelle variable
aléatoire.
De manière plus formelle,
On définit une variable aléatoire sur un ensemble fondamental comme
une fonction
telle que l’image réciproque de chaque intervalle soit un
évènement.
Il en résulte que si l’ensemble fondamental est dénombrable, toute fonction
réelle définie sur est une variable aléatoire tandis que si est non
dénombrable, certaines fonctions à valeurs réelles peuvent ne pas être des
variables aléatoires.
Exemple : On jette deux fois de suite un dé équilibré et on s’intéresse à la
somme des résultats obtenus. Quelle est la probabilité que la somme des
résultats obtenus soit égale à 5 ?
Il est évident que
La situation se modélise par la variable aléatoire
définie par
et il est trivial que l’ensemble des images possibles est
et la probabilité que cette application prenne
comme image 5 est :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
27
De ce premier exemple on peut déduire le formalisme général suivant:
Soit
une variable aléatoire. On appelle loi de probabilité de
définie sur l’ensemble image
par:
la loi
La variable aléatoire permet de transporter en quelque sorte la loi de probabilité
P définie sur pour trouver la loi de probabilité
définie sur
mais
pour des raisons de simplicité d’écriture on notera indistinctement les deux
probabilités.
P.
On démontre aisément que si X et Y sont des variables aléatoires sur un même
ensemble fondamental X+Y est aussi une variable aléatoire et plus exactement,
l’ensemble des variables aléatoires associables à une même expérience aléatoire
est un espace vectoriel !
Exemple : définir complètement la loi de probabilité associée à la variable
aléatoire X de l’exemple précédent.
Il existe principalement deux types de variables aléatoires :
‐les
les variables aléatoires discrètes : ce sont celles pour
lesquelles l’ensemble image
est dénombrable.
‐les
les variables aléatoires continues : ce sont celles pour
lesquelles
est un intervalle ou même l’ensemble
tout
entier.
Pour toute variable aléatoire, il existe deux paramètres numériques
hautement importants, l’une caractérisant la tendance centrale et l’autre la
dispersion :
‐Etant donné un variable aléatoire discrète d’ensemble image
, on appelle espérance mathématique de X, la quantité
‐ S’il s’agit d’une variable aléatoire continue dont l’ensemble image est
l’intervalle I, en lieu et place de la loi de probabilité P on a l’importante notion
de densité de probabilité.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
28
On dit d’une fonction
que c’est une densité de probabilité si elle
remplit les conditions suivants:
i)
ii) f est continue sur I et iii) L’espérance mathématique d’une
variable continue de densité de probabilité f sur I vaut
L’espérance mathématique est la meilleure des caractérisations de la tendance
centrale d’une variable aléatoire. ‐ On appelle variance d’une variable aléatoire
l’espérance mathématique du carré des écarts par rapport à l’espérance
mathématique.
On la note
et on a donc :
La variance est, en tant que somme des termes positifs, toujours positive et
mesure la manière dont les valeurs sont dispersées autour de l’espérance
mathématique. Plus elle grande, plus les valeurs sont dispersées par rapport
à E(X).
Cependant, la variance exagère les vrais écarts (à cause des carrés des termes qui
s’y trouvent) et pour corriger cette exagération on calcule l’écart-type, qui est la
racine carrée de la variance.
L’écart-type
variable aléatoire.
est la meilleure caractérisation de la dispersion d’une
Evidemment, dans le cas continue, cette sommation discrète
une somme continue , mutatis mutandis.
est remplacée par
Illustration 1: calculer l’espérance mathématique ainsi que l’écart-type de
chacune des lois suivantes :
a)
2 3 11
b)
1
3
4
5
0.4 0.1 0.2 0.3
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
Illustration 2 : Pour la variance
de manière équivalente (c’est parfois plus simple) utiliser la formule
. Justifier.
29
, on peut
Avant d’aborder de célèbres exemples, concluons cette synthèse théorique en
précisant qu’on comprend mieux le sens central de l’espérance mathématique
ainsi que le sens dispersif de la variance en considérant le théorème
mathématique suivant:
Inégalité de Bienaymé-Tchebychev :
soit X une variable aléatoire admettant une espérance mathématique
variance
Pour toute quantité positive on a :
En effet, i) Si X est discrète, X prend par définition les valeurs avec les
probabilités
pour
.
ii) Nous savons que
Notons
. On a :
Il en résulte que:
Or :
On en déduit que:
On obtient enfin:
et une
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
30
ii) Dans le cas où X est une variable aléatoire continue, la démarche de preuve
est la même mais le prix à payer est de remplacer les probabilités
par la
densité de probabilité de X et les sommations par des intégrales.
Aussi bien dans le cas discret que dans le cas continu, il existe des variables
aléatoires dont les lois de probabilité (on parle aussi de distributions) sont
d’usage très courant et servent alors de modèle à diverses applications.
L’application des théorèmes limites à ces lois constitue l’interface entre les
probabilités et la statistique. Dans les lignes qui suivent nous décrivons
sommairement les plus importantes de ces lois, eu égard à l’utilisation que nous
en ferons dans la modélisation de certains problèmes de la seconde partie de ce
cours, consacrée à la théorie de l’information.
I.4. Distributions statistiques d’usage courant
I.4.1. Loi binomiale
a) Concepts théoriques
Définition 1 :(Epreuve de Bernoulli):
Considérons une expérience aléatoire n’ayant que deux issues possibles
généralement appelées succès et échec.
En posant
la probabilité du succès et par conséquent
la
probabilité de l’échec, on appelle variable de Bernoulli de paramètre p, la
variable aléatoire X définie sur
en associant 1 au succès et 0 à l’échec.
La loi de Bernoulli est donc définie sur l’ensemble
par le tableau:
0
1
1‐p p
Exercice : Calculer l’espérance mathématique et la variance de la loi de
Bernoulli
Exemple introductif : On jette trois fois de suite et de manière indépendante un
dé équilibré.
Calculer la probabilité d’obtenir la face 6 trois fois au cours de ces trois lancers.
En généralisant cet exemple, nous concluons que lorsqu’une épreuve de
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
31
Bernoulli de paramètre p est reprise n fois de manière indépendante, la
probabilité d’obtenir k succès
vaut :
Définition 2 : ‐on appelle schéma de Bernoulli, l’expérience qui consiste à
répéter n fois une épreuve ayant exactement deux issues possibles, sous
l’hypothèse que les n épreuves ainsi obtenues sont indépendantes les unes des
autres.
‐ On dit qu’une variable aléatoire X suit la loi binomiale des paramètres et
si X est la variable aléatoire définie par le nombre de succès obtenus au cours
des n épreuves de Bernoulli pour lesquelles la probabilité de succès est . Dans
ce cas,
Il est évident que pour une loi binomiale des paramètres n et p on a :
I.4.b. Utilisation de
pour la loi binomiale :
Nous avons vu plus haut que la syntaxe choose(n,k) permet de calculer .
permet de
Comme pour toutes les distributions importantes, le logiciel
répondre aux questions les plus pratiques qu’on peut essayer de résoudre avec la
loi binomiale :
1) La syntaxe dbinom(x,n,p) permet de calculer directement
2) La syntaxe pbinom(x,n,p) permet de calculer
3) La syntaxe qbinom(s,n,p) permet de trouver la plus petite valeur de x telle que
4) On peut représenter le diagramme en bâtons de la loi binomiale et il y est
évident que les valeurs les autour de l’espérance mathématique ( ) sont les
plus probables.
A titre d’illustration représentons une loi binomiale consistant au nombre de
réponses correctes obtenues par un étudiant qui travaillerait « à l’aveuglette » un
questionnaire à choix multiples comportant vingt questions qui comportent
chacune six assertions parmi lesquelles une seule est correcte : il s’agit de la loi
binomiale des paramètres
et
.
Il suffit pour cela de taper la syntaxe :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
32
> y=0:n
> p=1/6
> plot(dbinom(y,20,p),xlim=c(0,20),lwd=3,type="h",main="Densité des probabilité des réussites aux
Eetats")
> plot(dbinom(y,20,p),xlim=c(0,20),lwd=3,type="h",main="Densité des probabilité des réussites aux
Exetats RDC")
Le résultat fourni par
est :
0.15
0.10
0.00
0.05
dbinom(y, 20, p)
0.20
Densité des probabilité des réussites aux Exetats RDC
0
5
10
15
20
Index
Illustration 1:
On suppose qu’à la naissance il y a autant de chance d’avoir un garçon que
d’avoir une fille.
a) Calculer la probabilité d’avoir exactement 5 filles dans une famille de dix
enfants
b) Calculer la probabilité d’avoir au moins un garçon dans une famille de six
enfants
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
33
Illustration 2 :
Lors d’un examen à choix multiples, dix questions sont posées et chacune
d’elles possède 5 assertions parmi lesquelles une seule est correcte. Lucie
n’ayant pas préparé l’examen, décide de le travailler à l’aveuglette. Quelle est la
probabilité qu’elle réussisse cet examen (i.e. qu’elle obtienne au moins 5 bonnes
réponses sur dix) ?
I.4.2. Loi de Poisson
b. Notions
Dans beaucoup d’applications pratiques on rencontre des variables aléatoires
réparties suivant une loi particulière dite loi de Poisson.
Rappelons d’abord quelques résultats élémentaires d’Analyse mathématique
étudiés l’an dernier:
1.
2.
3.
Considérons la variable aléatoire discrète X pouvant prendre les valeurs entières
.
On dit que la variable aléatoire X est répartie suivant la loi de Poisson si la
probabilité qu’elle prenne la valeur m est:
où la valeur est le paramètre de la loi de Poisson.
Il en résulte que la distribution de Poisson est donnée par le tableau suivant:
0
1
2
S’agit-il vraiment d’une loi de probabilité?
m
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
Pour nous en assurer, vérifions l’égalité
34
.
Il est naturel, à ce stade, de se poser les deux questions suivantes:
1. Quelle signification peut-on donner au paramètre de la loi de Poisson?
2. Dans quel type de situations doit-on utiliser la loi de Poisson?
Ces deux questions sont étroitement liées: pour la première question, il est facile
de montrer que le paramètre représente l’espérance mathématique et en même
temps la variance de la loi de Poisson. C’est d’ailleurs une spécificité d’une
distribution poissonnienne que d’avoir une espérance mathématique qui est
égale à la variance:
.
En effet,
En faisant le changement de variable
il est naturel que comme m
commence par 1, k commence par zéro et le calcul précédent donne:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
Calculons
maintenant
la
variance
de
la
loi
de
35
Poisson:
Nous savons que la variance est la différence entre le carré de l’espérance
mathématique
et
l’espérance
mathématique
du
carré.
Comme nous savons déjà que l’espérance vaut
l’espérance du carré:
En opérant le changement de variable
En définitive:
il nous reste à calculer
on obtient:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
36
On retient de ces calculs que la variance d’une variable aléatoire distribuée
suivant la loi de Poisson est égale à son espérance mathématique .
Cette propriété particulière à la loi de Poisson est souvent utilisée dans la
Pratique de la Statistique lorsqu’il y a lieu d’établir la vraisemblance de
l’hypothèse suivant laquelle une variable aléatoire X est distribuée suivant la
loi de Poisson.
A cet effet, on détermine à partir des données expérimentales l’espérance et la
variance
statistiques.
La proximité de leurs valeurs peut témoigner en faveur de la loi de Poisson...
Imaginons un certain nombre d’évènements distribués dans le temps avec
comme densité évènements par unité de temps avec les contraintes suivantes:
i) La probabilité pour un intervalle de temps de longueur l de contenir un
nombre quelconque d’évènements dépend seulement de la longueur de cet
intervalle
mais
pas
de
l’instant
considéré.
ii) Les points sont répartis indépendamment les uns des autres, c’est‐à‐dire
que la probabilité pour qu’un nombre quelconque de points se trouve dans un
intervalle donné ne dépend pas du nombre de points tombés dans tout autre
intervalle
ne
se
recouvrant
pas
avec
l’intervalle
considéré.
iii) La probabilité pour que deux évènements ou plus tombent dans un petit
intervalle
est négligeable par rapport à la probabilité d’y trouver un seul
évènement (i.e. plusieurs évènements ne peuvent, pratiquement, pas coïncider).
Considérons alors la variable aléatoire X qui est égale au nombre de tels
évènements qui tombe dans l’intervalle de temps de longueur l.
Divisons l’intervalle l en n sous intervalles de longueur
chacun.
Si n est grand, chaque sous intervalle temps vers un point et d’après la condition
ii) on ne peut y trouver pratiquement qu’un point à la fois, avec la probabilité
ou alors aucun point avec la probabilité
.
Ainsi, la probabilité de trouver m points (évènements) dans l’intervalle de temps
l vaut, en utilisant la loi binomiale:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
37
Exercice:
Dans le calcul ci‐dessus, certains détails ont été escamotés. En élucidant
toutes les étapes, justifier l’égalité:
b. Loi de Poisson avec
En valorisant l’étude faite sur la loi binomiale sous on peut retenir que la loi
de Poisson utilise le suffixe pois et que les préfixes r,d,p,q gardent la même
signification que pour la loi binomiale (et les autres lois d’ailleurs).
Ainsi la fonction :
> dpoiss(x, ) calcule l’image de x par la densité de la loi de Poisson de paramètre
, >rpoiss(n, ) génère un échantillon de taille n tiré d’une distribution de Poisson
de même paramètre, >ppoiss(x, ) calcule la probabilité
tandis que
>qpoiss(p, )
trouve la plus petite valeur de x telle que
.
Exercices sur la loi de Poisson:
1. La probabilité d’atteindre la cible par un tireur étant de 0.01, calculer la
probabilité qu’au cours de deux cents essais indépendants :
a) La cible soit atteinte au moins une fois
b) Six fois
2. La densité moyenne des microbes nocifs dans un mètre cube d’air est égale à
100 dans un certain quartier. On prend un échantillon de
d’air dans ce
quartier. Quelle est la probabilité d’y trouver au moins un microbe?
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
38
I.4.3. Synthèse théorique sur les lois continues
Rappel:
On dit d’une fonction réelle f définie sur un intervalle I que c’est une densité de
probabilité si les conditions suivantes sont remplies:
i)
ii) f est continue sur I
iii)
Dans ce cas, chaque évènement est une partie de I et pour un tel évènement
, la probabilité pour une variable aléatoire X de densité de
probabilité f de tomber dans l’ensemble A est :
Il existe toute une zoologie de variables aléatoires continues5 mais nous
n’aborderons que principalement deux: la plus simple de toutes (loi uniforme) et
la plus populaire de toutes (loi normale de Gauss).
I.4.3.1. Loi uniforme
Cette loi est pour les lois continues ce qu’est une loi équirépartie pour les lois
discrètes.
Elle modélise la situation où une particule se déplace aléatoirement sur un
segment et peut y être dans n’importe coin avec la même probabilité.
Etant donné un segment
, la densité uniforme y est définie par:
Exercices
1. Verifier que pour la loi uniforme définie ci‐dessus, l’égalité rituelle
est vérifiée.
5
Nous encourageons vivement tous les étudiants à approfondir ces notions par de saines lectures...
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
2. Montrer que l’espérance mathématique de la loi uniforme sur
tandis que la variance vaut
.
39
vaut
3. Une particule se déplace aléatoirement sur l’axe des abscisses entre les
pointes d’abscisses
et 7. Quelle est la probabilité qu’en un moment donné
elle soit à droite de l’origine de cet axe, en supposant que sa position suit la loi
uniforme?
I.4.3.2. Loi de durée de vie sans vieillissement
La loi exponentielle, appelée encore loi de durée de vie sans vieillissement se
rencontre dans la modélisation de beaucoup de phénomènes de la nature parmi
lesquels on peut partir de la désintégration radioactive comme situation
introductive.
Comme nous l’apprennent les Physiciens des particules et essentiellement les
physiciens nucléaires, la désintégration des noyaux des substances radioactives
respecte
les
hypothèses
suivantes:
1. La durée de vie d’un noyau semble régie par une loi de probabilité P à
densité f sur
identique pour tous les noyaux de l’élément concerné,
2. La désintégration d’un noyau n’affecte pas celle des autres .
3. La probabilité pour un noyau, ayant existé jusqu’à l’instant t, de se
désintégrer entre les instant et
ne dépend pas de son âge t: c’est pour
cette importante raison qu’on parle de la loi de durée de vie sans vieillissement.
La loi exponentielle est la loi de probabilité adaptée à la description des
situations vérifiant les hypothèses analogues à celles évoquées ci-haut.
Considérons un composant électronique (transistor...) qu’on observe à partir de
l’instant
.
Sa durée de vie T peut prendre toute valeur t positive ou nulle.
On s’intéresse à la probabilité :
qui est la probabilité que le composant soit encore en état de marche à l’instant .
Dans le même ordre d’idée, la quantité
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
40
représente la probabilité que le composant cesse d’assurer ses fonctions durant
la période
.
Cherchons l’expression mathématique de
ne vieillit pas.
en admettant que notre composant
, il faut être en état de
Il est évident que pour dépasser l’instant
fonctionnement à l’instant t et rester en marche durant la période
.
Considérons les évènements:
: l’appareil est encore en état de marche à l’instant et
de marche pendant l’intervalle
.
alors:
Comme
Comme la fonction G est telle que
fonction exponentielle.
Il existe donc
: l’appareil est en état
tel que
alors G est une
.
Comme G est une probabilité alors
et il existe par conséquent
tel que
de sorte que l’on obtient en définitive:
Définition:
On dit qu’une probabilité P sui la loi exponentielle de paramètre si pour toute
valeur
Cherchons alors la densité de la loi exponentielle:
Si
est la densité cherchée, alors:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
41
ce qui implique que
Il est facile de vérifier que la fonction
définit une densité de
probabilité sur
étant donné qu’il s’agit d’une fonction continue,
positive et que:
En résumé, la loi de durée de vie sans vieillissement a comme densité
.
Pour le cas de la désintégration radioactive, la constante est appelée constante
de désintégration par unité de temps et sa valeur est très variable d’une
substance radioactive à une autre, comme le montrent ces quelques exemples:
1. Pour l’uranium 238,
2. Pour l’iode 131,
3. Pour le polonium 214,
APPLICATION:
Notons P la loi de durée de vie sans vieillissement sur
de paramètre
.
ce paramètre est attaché à une substance radioactive, et on admet que, si I est
un intervalle contenu dans
désigne la probabilité pour un noyau
donné de cette substance de se désintégrer à un instant
.
i) Calculer
et préciser ce que représente ce nombre ( t et s désignent
des nombres réels positifs ).
ii) Calculer en fonction de le temps tel que :
Ce nombre est appelé la demi-vie, ou période, de l’élément radioactif
considéré.
iii) Comme la constante , la demi-vie est très variable d’un élément à l’autre.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
42
a) Le carbone 14 a une demi-vie de 5730 années; calculer sa constante de
désintégration annuelle.
b) La constante de désintégration annuelle de l’Uranium 238 est de
environs.
Quelle demi-vie peut-on en déduire pour l’Uranium 238.
Remarques sur l’utilisation du logiciel
pour la loi exponentielle :
De manière synthétique, il convient de souligner que les préfixes d,p,q et r
gardent la même signification que pour les lois binomiale et de Poisson en
remplaçant les suffixes bin et pois par exp.
A titre illustratif, on peut se faire une idée sur la représentation graphique de la
densité de la loi exponentielle, en tapant (et en s’efforçant de comprendre le sens
de chaque expression tapée) la syntaxe :
curve(dexp(x),xlim=c(0,10),col="red",lwd=2,main="Densité de la loi exponentielle ")
Le résultat obtenu est :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
43
0.6
0.4
0.0
0.2
dexp(x)
0.8
1.0
loi exponentielle
0
2
4
6
8
10
x
I.4.3.3. Loi normale de Laplace‐
‐Gauss
Cette loi joue un rôle de premier plan en théorie des probabilités et dans les
applications pratiques.
Sa particularité fondamentale est que c’est une loi limite vers laquelle
tendent les autres lois pour des conditions se rencontrant fréquemment
dans les applications pratiques.
La densité de probabilité de la loi normale de moyenne
donnée par l’expression :
et d’écart-type
est
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
44
Exercice: Montrer que cette fonction définit réellement une densité de
probabilité.
Propriétés:
1) La courbe de cette densité de probabilité est une courbe en cloche symétrique,
, correspondant au point
.
d’ordonnée maximale
On peut le remarquer en observant cette densité(obtenue par pqrs) de probabilité
de la loi normale de moyenne 175 et d’écart-type 10.
Si l’on veut obtenir cette même courbe normale grace au logiciel
taper la syntaxe :
, il suffit de
curve(dnorm(x,mean=170,sd=10),xlim=c(140,210),col="red",lwd=3,main="Loi normale de moyenne 170 et de sd 10")
dont les résultats sont :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
45
0.03
0.02
0.01
0.00
dnorm(x, mean = 170, sd = 10)
0.04
Loi normale de moyenne 170 et de sd 10
140
150
160
170
180
190
200
210
x
2) L’espérance mathématique de la loi normale vaut
vaut .
tandis que sa variance
En d’autres termes, en considérant la densité de probabilités ci-dessus on a :
3) En réduisant cette loi (i.e. en la divisant par ) et en la centrant (soustraire ),
on obtient la loi normale centrée réduite de moyenne 0 et d’espérance 1. Cette
double opération correspond à faire le changement de variable
qui
conduit à l’intégrale
qui, heureusement, est tabulée.
Avant d’illustrer cette démarche par quelques exemples, précisons que sous ,
les préfixes r,d,p,q gardent la même signification déjà explorée lorsqu’ils suivis
des suffixes binom, pois et exp correspondant respectivement à la loi binomiale,
de Poisson et exponentielle lorsqu’on utilise la fonction norm pour la loi
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
46
normale.
Exemples:
1) Admettons que la taille moyenne de l’étudiant d’une université est évaluée à
170 cm avec un écart-type de 4.
Une foule de 900 étudiants de cette université se trouve dans un stade. Combien
parmi eux (environs), ont une taille supérieure à 177cm? On admet que les
tailles sont distribuées normalement.
2) Trente mille étudiants ont passé les examens d’Etat et la note moyenne est de
62% avec un écart-type de 5. Le gouvernement dispose de 4000 bourses et
décide de les donner à ceux qui vont se distinguer.
Vous êtes consulté pour fixer la note à partir de laquelle la mention Distinction
doit être accordée de manière à ce que ces quatre mille bourses suffisent.
Proposez cette note en admettant que ces notes varient normalement.
REMARQUES : 1) Il est connu que pour une loi normale de moyenne
d’écart-type ,
et
C’est pour cette raison qu’on dit que 1.96 est le coefficient de confiance à 95
% (ou au risque de 5 %), pour un test bilatéral.
D’autre part
C’est pour cette raison qu’on dit que 2.58 est le coefficient de confiance à 99
% (ou au risque de 1 %), pour un test bilatéral.
Exercice : Vérifier ces affirmations par le logiciel
2) Il est également connu que pour une loi normale des paramètres cihaut,
C’est pour cette raison qu’on dit que 1.645 est le coefficient de confiance à 95
% (ou au risque de 5 %), pour un test unilatéral droit.
D’autre part,
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
47
C’est pour cette raison qu’on dit que 2.33 est le coefficient de confiance à 95
% (ou au risque de 5 %), pour un test unilatéral droit.
Pour ce qui est des tests unilatéraux gauches, il convient de remarquer que :
C’est ainsi que suivant le même schéma, -1.645 et -2.33 sont des coefficients de
confiance respectifs à 95 % et à 99 % pour un test unilatéral gauche.
Exercices : Vérifier ces affirmations par le logiciel
I.5. Approximations
Relation entre la loi binomiale et la loi normale
Comme le précisent bon nombre d’auteurs, lorsque n est grand et que ni p ni q
ne soient trop proches de zéro, la loi binomiale peut être approchée par la
distribution normale correspondant à la variable centrée réduite
.
Cette approximation est d’autant plus fiable que n est croît.
Dans la pratique, cette approximation est très bonne lorsque
tous les deux supérieurs à 5.
et
sont
Remarque:
Comme nous le verrons pour les exercices d’illustration, lorsque l’on fait
l’approximation des lois discrètes (Binomiale et Poissonnienne) par la loi
normale qui est continue, il est recommandé d’opérer des corrections de
continuité en soustrayant 0.5 à la borne inférieure et en additionnant 0.5 à la
borne supérieure de l’intervalle pour lequel on veut calculer la probabilité que la
loi discrète y prenne des valeurs en l’approchant par la gaussienne.
Relation entre la loi binomiale et la loi de Poisson
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
48
Comme souligné ci-haut, lorsque dans la formule de la loi binomiale, on fait
croître le nombre n d’essais en faisant tendre la probabilité de succès p vers
zéro, on parle d’évènement rare.
Dans la pratique, il s’agit d’évènement rare lorsque le nombre n d’expérience
vaut au moins 50 avec
.
Dans ce cas la distribution binomiale est approchée de façon satisfaisante
.
par la distribution de Poisson de paramètre
Disons enfin que lorsque croît, on peut approcher une loi de Poisson par une
loi normale de moyenne
et de variance
conformément aux
propriétés élémentaires de la loi de Poisson établies ci-haut en exercices.
Exemples
I. On a lancé 500 fois une pièce de monnaie équilibrée. Calculer la probabilité
pour que le nombre de faces ne s’éloigne pas de la valeur 250
a) de plus de 10
b) de plus de 30
Solution :
a) Il s’agit de la probabilité pour que le nombre de faces soit compris entre 240
et 260; ce qui revient à prendre les valeurs 239.5 et 260.5 en considérant les
données continues.
En passant aux unités centrées réduites, 239.5 donne
que 260.5 donne
alors
La table de la loi normale centrée réduite donne alors
II. On a lancé 120 fois un dé équilibré. Trouver la probabilité que 4 apparaisse
a) 18 fois ou moins
b) 14 fois ou moins
Indications :
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
49
a) 0.3557 b) 0.0885
III. On admet que dans un lac, la longueur des truites d’un an est distribuée à
peu près normalement autour d’une moyenne
avec un écart-type de 1.4.
Quelle est la proportion de ces truites qui
a) excèdent 12 (longueur légale minimum pour garder une truite pêchée) ?
b) excèdent 10 (nouvelle longueur légale proposée)
IV. Pour sa fabrication, une entreprise utilise des rondelles dont le diamètre
doit impérativement être compris entre 1180 inches et 1220 inches ; toute
rondelle de diamètre situé à l’extérieur de cet intervalle est inutilisable.
Un premier fournisseur lui propose des rondelles à 3$ les 1000, et dont le
diamètre est distribué normalement autour d’une moyenne de 1200 inches
avec un écart-type de 10inches.
Un deuxième fournisseur propose, lui, des rondelles à 2.6$ les 1000, dont le
diamètre est distribué normalement avec une moyenne de 1200 inches et un
écart-type de 15 inches.
Quelle est le marché le plus avantageux ?(Utiliser comme critère le prix par
rondelle utilisable. On supposera que dans les deux cas, le coût du tri des
rondelles est le même.)
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
50
II. ELEMENTS DE THEORIE DE L’INFORMATION
II.1. Problèmes de base de la théorie de l’Information
Après la première partie où il a été essentiellement question de résoudre certains
problèmes relatifs aux probabilités en général (formule des probabilités totales et
formule de Bayes) et à quelques lois discrètes et continues d’usage courant, nous
avons l’outillage nécessaire pour aborder la théorie de l’information. Il s’agit
d’une vaste théorie qui sert de fondement et d’outils dans beaucoup de
problèmes
liés
à
l’industrie
de
l’information.
Cette théorie, à divers niveaux, permet d’aborder certains problèmes qu’on peut
grouper
en
trois
types:
Comme souligné dans l’introduction du cours, la théorie de l’information a pour
objet, l’étude des lois quantitatives liées à l’obtention, la transmission, le
traitement et la conservation de l’Information. L’obtention, le traitement, la
conservation, de toute sorte d’information ont lieu dans tout système de
commande. Dans le processus de commande il y a toujours échange
d’information
entre
les
différentes
parties
du
système.
Pour être transmise l’information doit être convenablement codée,
c’est‐à‐dire traduite en une langue de symboles ou des signaux spéciaux.
L’un des problèmes de la théorie de l’information est la recherche des
méthodes les plus économiques de codage permettant de transmettre une
information donnée à l’aide d’une quantité minimale de symboles.
Dans un nombre considérable de situations, on dispose d’une source (émetteur)
à émission continue et d’un canal de transmission par lequel cette information
est transmise à un récepteur.
Un autre type de problèmes fondamental consiste à trouver le débit du
canal de manière à assurer la transmission de toute l’information sans
retard ni déformations.
Soulignons enfin qu’une autre catégorie de problèmes de la théorie de
l’information consiste à déterminer la capacité des mémoires destinées à la
conservation de l’information, de trouver les méthodes d’introduction et
d’extraction de l’information de la mémoire sous la forme convenable pour
l’utilisation directe.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
51
Pour pouvoir aborder tous ces problèmes il est d’abord nécessaire de savoir
mesurer le volume de l’information transmise et conservée, la capacité de
transmission des canaux et leur sensibilité aux bruits (déformations)
II.2. Entropie comme mesure du degré d’incertitude de
l’état d’un système physique
Nécessité et définitions
Toutes les informations que l’on rencontre dans cette théorie sont en réalité un
ensemble
de
données
concernant
un
système
physique.
Si l’état d’un tel système était connu d’avance du destinataire, toute transmission
d’information serait inutile.
L’information transmise concerne donc généralement un certain système
physique X pouvant occasionnellement se trouver dans un état quelconque: c’est
donc un système caractérisé par un certain degré d’incertitude.
Il ne fait pas l’ombre d’un doute que les renseignements que l’on obtiendra
sur le système seront d’autant plus importants que l’incertitude du système
avant la réception de ces renseignements (à priori) était grande.
C’est
donc
tout
naturellement
que
la
question
suivante
s’impose:
Que signifie un degré d’incertitude plus ou moins grand et comment peut-il
être
mesuré?
Pour mieux répondre à cette question, il est utile de comparer par intuition deux
systèmes simples et très familiers caractérisés chacun par une certaine
incertitude.
Premier système: Considérons une pièce de monnaie équilibrée qu’on s’apprête
à jeter en l’air. Ce système n’a que deux états possibles: pile et face.
Second système:
Considérons un dé équilibré que l’on doit jeter en l’air. Nous savons bien que ce
système n’a que six états possibles: 1,2,3,4,5,6.
Lequel de ces deux systèmes possède l’incertitude la plus grande?
Il est trivial que c’est le second vu que le nombre de ses états possibles est plus
grand.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
52
Toute fois, il ne faudrait pas qu’à cause de ce seul exemple on commette l’erreur
de conclure que le degré d’incertitude d’un système ne dépend que du nombre
de ses états! Montrons par un autre exemple qu’en général ce n’est pas vrai.
Considérons deux systèmes physiques ayant le même nombre d’états:
Système 1 :
Un dispositif technique dont la probabilité de tomber en panne est de 0.01 et
celle d’être en bon état 0.99
Les deux états de ce système sont: tomber en panne et fonctionner normalement.
Le degré d’incertitude de ce système est très faible étant donné qu’il est
raisonnable de supposer qu’il fonctionnera normalement.
Système 2:
Pour le jet d’une pièce de monnaie équilibré il y a également deux états
(équiprobables) mais on convient que l’incertitude est bien plus grande que
dans le système 1.
De ce qui précède on conclut que: le degré d’incertitude d’un système
physique est déterminé non seulement par le nombre de ses états possibles
mais également par la probabilité de ses états.
En général, on considère un système X pouvant prendre un nombre fini d’états
avec les probabilités respectives
où est la probabilité
que
le
système
X
se
trouve
dans
l’état
.
Comme pour les variables aléatoires, on arrange ces données sous la forme d’un
tableau où la ligne supérieure comporte les états possibles du système tandis que
la ligne inférieure comporte les probabilités correspondantes:
Il convient de souligner la forte ressemblance entre un système physique à un
nombre
fini
d’états
et
une
variable
aléatoire.
Cependant il y a aussi une grande différence dans la mesure où pour un système
physique, les états ne sont pas forcément de nombres et même lorsque c’est le
cas, le degré d’incertitude d’un tel système dépend uniquement du nombre de
ses états (et pas de leurs valeurs) ainsi que des probabilités de ces états.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
53
Pour mesurer l’incertitude d’un système physique, on utilise la notion
d’entropie; qui est fondamentale dans cette théorie.
Définition 1: On appelle entropie d’un système physique, la grandeur
Quelles sont les propriétés principales qui font de l’entropie la meilleure
caractéristique du degré d’incertitude d’un système?
Remarquons tout d’abord que le signe (‐) devant l’expression de H a pour but
de nous assurer de la positivité de l’entropie étant donné que les quantités
sont négative suite au fait que
.
Propriétés fondamentales
i) L’entropie s’annule lorsque l’un des états est certain
ii) Pour un nombre donné d’états, l’entropie est maximale lorsque ces états sont
équiprobables et augmente avec le nombre d’états.
ii) L’entropie est additive, i.e. lorsque plusieurs systèmes indépendants se
trouvent réunis en un seul, leurs entropies s’ajoutent.
Une précision s’impose concernant la base du logarithme dans la formule :
.
On peut prendre un base quelconque car, nous savons depuis notre jeunesse, que
la formule :
permet le passage du logarithme en base a au logarithme en base b lorsque le
besoin se pose.
Ainsi, le passage des logarithmes de base 2 aux logarithmes népériens se fait
pacifiquement grâce à la formule:
Comme le choix d’une base équivaut à une simple multiplication de l’entropie
par un nombre constant, on se convient que choisir une base revient à choisir
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
54
une unité de mesure de l’entropie.
Si l’on choisit pour base le nombre 10, on parle d’unités décimales d’entropie
tandis que si c’est le nombre 2 qui est base on parle d’unités binaires.
Existe‐
‐t‐
‐il une base meilleure par rapport à d’autres bases possibles?
La question semble tendancieuse mais les spécialistes de Théorie de
l’Information y répondent par l’affirmative. Ils affirment que 2 est la meilleure
base
pour
une
multitude
des
raisons
dont
voici
deux:
‐ La base 2 s’accorde bien avec les mœurs informatiques étant
donné que dans les calculatrices électroniques les informations
sont représentées en systèmes binaires.
‐En choisissant 2 comme base des logarithmes, l’unité de
mesure de l’entropie est l’entropie d’un système simple X
ayant deux états équiprobables:
En effet, pour un tel système:
Cette unité est appelée unité binaire ou bit (binary digit = chiffre binaire).
C’est en fait l’entropie d’un rang d’un nombre binaire pouvant avec la même
probabilité être égal à zéro ou à l’unité.
Ainsi, suite à ce choix, même lorsqu’aucune précision ne sera donnée, l’écriture
signifiera dans toute la suite, sauf indication contraire,
.
Nous nous servirons de temps en temps du résultat suivant:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
55
Résultats fondamentaux et calculs
L’entropie d’un système ayant un nombre fini d’états est maximale lorsque
les états sont équiprobables et vaut le logarithme du nombre d’états.
En effet, si nous avons un système ayant n états équiprobables, son entropie
vaut :
Exemple:
L’entropie d’un système à 32 états équiprobables est égale à
tandis que
celle à 8 états équiprobable vaut
Considérons un système à n états
des probabilités respectives
. Son entropie
est une
fonction à n variables
dont nous devons chercher l’extrémum en
tenant compte du fait que les variables sont soumises à la contrainte
(ce sont des probabilités respectives de tous les états possibles du système).
En utilisant la méthode des multiplicateurs indéterminés de Lagrange, on
trouve la fonction de Lagrange associée à la situation:
En annulant toutes les dérivées partielles on obtient le système:
ce qui équivaut au système:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
56
C’est‐à‐dire:
Et on aboutit en définitive au fait que :
Ainsi l’entropie d’un système ayant un nombre fini d’état est maximale
lorsque les états sont équiprobables et on a dans ce cas:
Pour faire face à certaines difficultés calculatoires liées au fait que le calcul du
logarithme binaire n’est pas explicite sur certaines calculatrices, les spécialistes
ont introduit une fonction notée ( lire eta ) d’finie par:
de sorte que l’entropie s’exprime aisément en fonction de par la formule:
et les choses sont largement facilitées par le fait que la fonction
est tabulée
pour des valeurs
de 0.01 en 0.01 dans la table en annexe II.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
57
Quelques exercices sur l’entropie :
1. Un système physique (appareil) se compose de deux parties I et II. Dans
chacune de ces parties un défaut peut survenir indépendamment de l’autre.
Après un certain temps de fonctionnement le système peut se trouver dans l’un
des quatre états suivants:
i) les deux parties fonctionnent
ii) la partie I fonctionne mais la partie II est en défaut,
iii) La partie I est en défaut et la partie II fonctionne,
iv) les deux parties sont en défaut.
Une étude ayant fixé les probabilités de ces différents états respectivement à 0.6,
0.25, 0.1 et 0.05, trouver l’entropie de ce système.
Proposition de réponse: 1.49 bit
2. Trouver l’entropie d’un système dont l’état est donné par la loi de répartition
d’une variable aléatoire discrète X:
0.01
0.01
0.01
0.01
0.96
Proposition de réponse: 0.322 bit
3. Trouver l’entropie maximale d’un système se composant de trois éléments ,
pouvant se trouver chacun dans quatre états éventuels.
Proposition de réponse: 6 bits
4. Trouver l’entropie maximale d’une communication de 5 lettres, le nombre de
lettres de l’alphabet étant égal à 32.
Proposition de réponse: 25 bits
Remarque:
Si pour un système physique à n états
des probabilités respectives
on remplace chacune de ces probabilités par son logarithme
pour obtenir une sorte de variable aléatoire discrète dont les valeurs sont
avec toujours les comme probabilités correspondantes, la formule
peut s’interpréter comme l’espérance
mathématique de la variable aléatoire:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
58
Il résulte de ce tableau que:
où
P(X)
est
le
logarithme
de
la
probabilité
d’un
état.
Cette subtilité d’écrire l’entropie comme une variable aléatoire permet
parfois d’avancer en appliquant à l’entropie les propriétés connues sur
l’espérance mathématique.
II.3.Entropie d’un système composé
Dans cette section, il sera question de calculer l’entropie d’un système composé
obtenu par réunion de deux systèmes simples.
Deux cas sont théoriquement envisageables:
i) Soit les systèmes réunis sont indépendants
ii)Soit ils son dépendants
Réunion de deux ou plusieurs systèmes indépendants
Définitions:
On appelle réunion de deux systèmes X et Y d’états possibles
X et
pour Y, un système composé
dont les états
toutes les combinaisons possibles des états
des systèmes X et Y.
Le nombre d’états possibles du système (X,Y) vaut
probabilité que le système
se retrouve dans l’état
On dispose parfois les probabilités
pour
sont
et on désigne par
:
la
sous forme d’un tableau.
L’entropie d’un système composé est, comme pour le cas simple, égale à la
somme prise avec le signe opposé des produits des probabilités de tous les états
possibles par leurs logarithmes respectifs:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
59
En utilisant la notation d’entropie comme espérance mathématique on obtient:
où
, logarithme de la probabilité de l’état du système est considéré
comme variable aléatoire.
Si les états X et Y sont indépendants, le théorème de multiplication des
probabilités des évènements indépendants nous permet d’écrire:
et par conséquent
on obtient:
et en revenant sur l’entropie
En définitive on conclut que l’entropie d’un système composé obtenu par
réunion de deux systèmes indépendants est égale à la somme de leurs entropies :
En généralisant ce résultat au cas des systèmes indépendants
obtient:
on
Cet important résultat est connu sous l’appellation théorème d’addition des
entropies et ne peut donc pas s’appliquer si les systèmes composés ne sont pas
indépendants.
Dans le cas des systèmes dépendants on a l’inégalité:
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
60
Et pour ce dernier cas, la formule exacte exige la notion d’entropie
conditionnelle.
Entropie conditionnelle et réunion des systèmes dépendants
Considérons deux systèmes X et Y, généralement non indépendants:
Supposons que le système X se trouve dans l’état et désignons par
la
probabilité conditionnelle pour le système Y de se trouver dans l’état
lorsque le système Y se trouve dans l’état :
De cette relation donnant la probabilité conditionnelle, on déduit naturellement
la notion d’entropie conditionnelle du système Y lorsque le système X se
et en la désignant par
on a par définition:
trouve dans l’état
De manière équivalente, on peut formuler cette entropie conditionnelle sous
forme d’espérance mathématique pour avoir:
où le symbole représente l’espérance conditionnelle de la grandeur
, pour la condition
.
A ce stade il se pose tout naturellement la question suivante:
L’entropie conditionnelle, telle que définie ci-dessus, dépend de l’état
système .
du
Comment calculer l’entropie moyenne ou totale du système Y compte tenu
du fait que le système X peut prendre des états différents?
En faisant un clin d’œil à la formule :
et en remarquant que
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
61
, il s’avère avisé de multiplier chacune des entropies conditionnelles
par la probabilité de l’état correspondant
et
d’additionner tous les résultats obtenus:
La quantité ainsi obtenue se note
totale:
et s’appelle entropie conditionnelle
Par moment, on utilisera des versions équivalentes comme
ou encore
selon
les besoins.
La grandeur H(Y|X) caractérise le degré d’incertitude du système Y
connaissant l’état du système X.
C’est l’entropie totale du système Y conditionnellement à X.
Illustration corrigée :
Cet exemple très simple illustre clairement comment utiliser le formalisme de
l’entropie totale conditionnelle et cette démarche est générale.
Considérons deux systèmes X et Y réunis en un seul
des états sont données par le tableau suivant:
0.1
0
0
0.2
0.3
0.2
dont les probabilités
0
0
0.2
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
62
Solution :
En ajoutant les probabilités
colonne par colonne on obtient le tableau:
0.1
0
0
0.1
0.2
0.3
0.2
0.7
On obtient les probabilités
0
0
0.2
0.2
:
qui se trouvent sur la dernière ligne du dernier
tableau.
De manière analogue ajoutons les probabilités
trouver:
colonne par colonne pour
0.1 0.2 0 0.3
0 0.3 0 0.3
0 0.2 0.2 0.4
On obtient les probabilités
qui figurent dans la dernière colonne du tableau.
Globalement nous avons le tableau:
0.1
0
0
0.1
0.2 0 0.3
0.3 0 0.3
0.2 0.2 0.4
0.7 0.2
Ce dernier tableau nous permet d’avoir les probabilités conditionnelles
:
6
en divisant les
par on obtient un tableau des probabilités conditionnelles
:
6
Souvenez‐vous que
implique que
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
1
0
0
0
0
1
A ce stade, l’utilisation de la formule
de trouver
:
permet
, les entropies conditionnelles étant nulles pour
On peut appliquer la même démarche pour trouver
et
.
on a:
En intervertissant X et Y dans la formule
De manière symétrique, trouvons le tableau des probabilités conditionnelles
en divisant les
par pour avoir:
0
0
0
63
1
0
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
64
Pour revenir à la question initiale qui, rappelons-le, consistait à chercher la
formule de l’entropie d’un système composé des systèmes X et Y pas
forcément indépendants
Résultat:
L’entropie d’un système composé des systèmes X et Y est égale à l’entropie
d’une de ses composantes plus l’entropie conditionnelle de l’autre par rapport à
la première:
En effet,
En guise d’illustration revenons à l’exemple ci dessus où le système composé
est donné par le tableau:
0.1
0
0
0.1
0.2
0.3
0.2
0.7
0
0
0.2
0.2
0.3
0.3
0.4
Nous avons calculé les entropies totales conditionnelles et avons trouvé:
et
Nous tirons de ce tableau les entropies marginales7 qui sont:
et
En appliquant la formule de l’entropie d’un système composé on obtient:
ou encore :
7
Marginal signifie dans ce contexte, relatif à chacun des composants dans un système composé.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
En combinant les relations
il en résulte que:
65
et
Cette formule signifie tout simplement que le degré d’incertitude d’un
système ne peut pas augmenter du fait que l’on connaît l’état d’un autre
système.
II.4. Entropie et Information
Notions
Dans les sections précédentes nous avons défini l’entropie comme la mesure de
l’incertitude de l’état d’un système physique. Il est évident que si l’on apprend
certaines informations sur le système cette incertitude diminue.
En fait, plus on a des données, plus ces dernières sont complètes, plus
l’information dont on dispose sur le système est grande et moindre est
l’incertitude de son état.
Il semble donc tout naturel de mesurer la quantité d’information par, la
diminution de l’entropie du système dont les données en question précisent
l’état.
Considérons
un
système
X.
En estimant l’information accumulée au fur et à mesure que l’état du système X
devient connu, appelons
l’entropie à priori du système. A mesure qu’on
obtient des données sur le système, l’entropie diminue et lorsque le système
devient
entièrement
connu,
l’entropie
devient
nulle.
En notant l’information obtenue avec la détermination de l’état du système X,
on peut admettre l’égalité :
Cette formule signifie que la quantité d’information acquise lorsque l’état
d’un système physique devient entièrement connu est égale à l’entropie de
ce système.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
66
On a donc :
Comme est la somme des termes
, chacun, multiplié par la probabilité
, il est naturel de considérer chaque terme
comme l’information
fournie par une communication particulière selon laquelle le système X se
trouve dans l’état .
On désigne cette information partielle
L’information
et on a
sera alors l’information moyenne ou totale
obtenue de toutes les communications, compte tenue de leurs probabilités
respectives.
Si tous les états possibles du système du système sont à priori équiprobables
, l’information
particulières
de chacune des communications
est égale à l’information moyenne totale.
Dans le cas où les états du système ont des probabilités différentes, la plus
grande information est contenue dans des communications sur les évènements
qui, à priori, étaient les moins probables.
Quelques exemples
Exemple 1:
Une pièce du jeu d’échecs se trouve sur une case d’un échiquier. A priori toutes
les positions des pièces sont équiprobables.
Déterminer l’information contenue dans la communication indiquant la case
occupée par la pièce.
Réponse: 6 bits
Exemple 2 :
Pour les conditions de l’exemple 1, trouver l’information de la communication
que la pièce occupe un des coins de l’échiquier.
Réponse: 4 bits
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
67
Exemple 3
Trouver l’information particulière d’une contenue dans la communication d’une
personne A rencontrée pour la première fois: Aujourd’hui c’est mon
anniversaire.
Réponse: 8.51 bits
Important:
Si l’information est mesurée en bits on peut lui donner une interprétation assez
simple: c’est le nombre de réponse OUI et NON fournissant la même
information.
En effet, considérons un système X à deux états
respectives et .
et
des probabilités
Pour trouver l’état de ce système il suffit de poser une seule question, par
exemple de demander si le système se trouve dans l’état .
La réponse OUI ou NON à cette question fournit une certaine information,
atteignant la valeur maximale 1 lorsque les deux états a priori sont
équiprobables
.
Ainsi l’information maximale donnée par la réponse OUI ou NON est égale
à 1 bit.
Il en résulte que si l’information obtenue d’une communication est égale à n
bits, elle est équivalentes à l’information donnée par n réponses OUI ou
NON à des questions posées de telle sorte que des les OUI et NON soient
équiprobables.
Dans certains cas simples pour déterminer le contenu d’une information on
arrive à poser des questions de telle sorte que les réponses OUI et NON à ces
questions soient équiprobables.
Dans ces cas l’information se mesure par le nombre de questions posées.
Exemple:
Quelqu’un a pensé à un nombre entier X tel que
. Trouver le nombre
minimal de questions auxquelles il faut répondre OUI ou NON pour avoir toute
l’information.
Solution:
Calculons d’abord l’information contenue dans la communication ci‐dessus:
toutes les valeurs de X étant a priori équiprobables on a:
et
bits.
on obtient
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
68
Le nombre minimal de questions qu’il faudra poser pour trouver le nombre
retenu est donc supérieur ou égal à trois ou alors exactement égal à trois si les
questions sont formulées de telle manière que les probabilités des réponses OUI
ou NON soient égales.
Vérification:
Supposons que le nombre retenu est 5.
Dans l’ignorance du nombre retenu on peut poser les questions suivantes:
Q1: le nombre X est-il inférieur à 5? R1: NOM
CONCLUSION: X est l’un des nombres 5, 6, 7 et 8
Q2: Le nombre X est-il inférieur à 7? R2: OUI
CONCLUSION: X est l’un des nombres 5, 6
Q3: Le nombre X est-il inférieur à 6? R3: OUI
CONCLUSION: X est égal à 5
Exercice:
On tire sur une cible n coups indépendants; la probabilité d’atteindre le but avec
un coup est égale à 0.3. les résultats du tir ne peuvent être observés directement.
Après le k-ième coup on examine la cible pour voir si elle a été atteinte ou non;
si oui on ne tire plus dessus.
Quelle doit être la valeur de k si l’on veut que la quantité d’information fournie
par l’examen de la cible soit maximale?
II.5. Introduction aux problèmes du codage des
communications: approche qualitative.
Dans cette section, nous donnons juste les notions de base en nous limitant
volontairement à l’aspect purement théorique.
Notions et définitions
Lorsqu’on transmet une information on est toujours obligé d’utiliser un code
quelconque, c’est‐à‐dire à représenter les messages sous forme d’une suite
des signaux.
Parmi les exemples les plus connu, on peut citer l’alphabet Morse adopté en
télégraphie pour la transmission des communications verbales.
Avec ce code on représente une communication quelconque sous la forme d’une
combinaison des signaux élémentaires: point, trait, pause (espace entre lettre),
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
69
pause longue(espace entre mots).
Définitions: On appelle codage la représentation de l’état d’un système
physique à l’aide de l’état d’un autre système.
Dans le cas le plus simple de codage, les deux systèmes X et Y (à représenter et
représentant) ont un nombre fini d’états possibles.
Considérons un certain système X pouvant prendre de manière aléatoires l’un
des états
.
Nous voulons le coder à l’aide d’un autre système Y, dont les états possibles
sont
.
Si
on arrivera pas à mettre en correspondance chaque état du système X
avec un état de Y.
On doit représenter alors chaque état du système X par une combinaison (suite)
d’états du système Y.
Le choix de ces combinaisons et l’établissement d’une correspondance entre
les communications à transmettre et ces combinaisons constitue le codage
au sens strict du terme.
Les codes se distinguent les uns des autres par le nombre de symboles
élémentaires servant à former une combinaison, c’est‐à‐dire par le nombre
d’états possibles du système Y.
Un code à deux symboles élémentaires (0 et 1) s’appelle binaire et il convient
de signaler que les codes binaires sont actuellement trop utilisés dans la
pratique, surtout pour l’introduction de l’information dans les calculatrices
électroniques
fonctionnant
en
système
binaire.
Comme une même communication peut être codée de différentes manières,
il se pose tout naturellement le problème du code optimal.
Il est normal de considérer comme optimal un code assurant la durée
minimal de transmission. Si la transmission d’un symbole élémentaire
prend le même temps, le code optimal sera celui pour lequel la transmission
d’une communication nécessitera un nombre minimal de symboles
élémentaires.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
70
Problèmes du codage: approche élémentaire
Pour commencer, supposons qu’il y ait lieu de représenter en code binaire les
lettres de l’alphabet français de telle sorte qu’à chaque lettre corresponde une
certaine combinaison des symboles élémentaires 0 et 1 et que le nombre moyen
de
ces
symboles
par
lettre
du
texte
soit
minimal.
Nous
avons
26
lettres
de
l’alphabet
français:
a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z auxquelles il faut ajouter
l’intervalle entre les mots qu’on désigne par ‐ et l’apostrophe ’ ainsi que les
lettres
é,è,à,ù;
ce
qui
fait
un
total
de
31
lettres.
La première idée est d’attribuer aux lettres, sans en changer l’ordre, un numéro
de 0 à 30, puis de transformer cette numérotation en système binaire.
A titre d’exemple,
25 en système binaire s’écrira 11001.
et par conséquent,
Comme chacun des nombres de 0 à 30 peut être représenté par un nombre
binaire à 5 chiffres on obtient le code suivant:
a=00000
b=00001
c=00010
d=00011
.........
z=11001
(-) = 11010
é=11011
è=11100
à=11101
u=11110
Dans ce code il faut exactement cinq chiffres élémentaires pour représenter une
lettre.
Il se pose alors la question de savoir si ce code est optimal et s’il n’est pas
possible de trouver un autre code dans lequel pour une lettre il faut en moyenne
moins de symboles élémentaires.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
71
Une lacune évidente est que pour ce code on a utilisé le même nombre de
symboles aussi bien pour les lettres fréquents comme a,e,o que pour les lettres
rares comme v,w,x,y,z.
Il serait plus raisonnable d’utiliser pour les lettres fréquentes moins de
symboles que pour les lettres rares.
Le problème est que pour établir un tel code il faudrait connaître la fréquence
d’emploi des lettres de l’alphabet français.
Il existe de telles données tabulées où les lettres sont disposées par ordre
décroissant des fréquences.
Voici un des tableaux les plus utilisés à cet effet8 :
Lettre Fréquence Lettre Fréquence
‐
e
a
i
n
t
r
u
f
v
b
q
b
è
g
j
0.164
0.145
0.081
0.077
0.063
0.063
0.053
0.053
0.010
0.009
0.009
0.008
0.007
0.005
0.005
0.005
l
o
s
p
d
c
m
é
à
x
z
y
ù
w
k
0.051
0.043
0.038
0.028
0.028
0.023
0.017
0.012
0.002
0.0004
0.0002
0.0001
0.0001
0.0001
0.0001
En utilisant ce tableau on peut établir le code le plus économique basé sur la
quantité d’information.
Le code le plus économique est celui pour lequel chaque symbole
élémentaire
transmet
le
maximum
d’information.
Nous avons par ailleurs que l’information est maximale dans le cas où les deux
états du système binaire représentant sont équiprobables; cas dans lequel
8
SOURCE: Hélène Ventsel [8] , page 510
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
72
l’information transmise par chaque symbole vaut 1 bit.
C’est la raison pour laquelle, on met à la base du codage optimal la
condition que les symboles élémentaires dans un texte codé soient en
moyenne également fréquents.
II.6. Code de Shannon-Fano (notions élémentaires)
Voici en bref, une méthode de construction d’un code optimal connu sous
l’appellation: code de Shannon-Fano.
Les symboles codés (lettres et combinaisons de lettres) sont répartis en deux
groupes à peu près équiprobables:
dans le premier groupe de symboles à la première place des combinaisons de
code on met 0 tandis que dans le second groupe le nombre binaire commence
par 1.
Puis de nouveau chaque groupe est divisé en deux sous‐groupes à peu près
équiprobables; pour les symboles du premier sous‐groupe on met le zéro à la
seconde place; dans le second sous‐groupe l’unité et on réitère le processus
autant
de
fois
qu’il
sera
nécessaire.
Illustrons cette méthode sur l’alphabet français.
En faisant les fréquences cumulées, on obtient 0.467 au niveau de n et on en
déduit que la somme des fréquences des autres lettres de n à k vaut :
1‐ 0.467 = 0.533
Ainsi, les quatre premières lettres auront à la première place du code le signe
binaire 0, les autres lettres l’unité.
Divisons de nouveau le premier groupe en deux sous‐groupes à peu près
équiprobables:
de ‐ à e et de a à i.
Pour toutes les lettres du premier on mettra 0 à la seconde
place et pour toutes celles du second sous‐groupe on mettra
l’unité.
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
73
On continue ainsi jusqu’à ce que dans chaque groupe il ne reste qu’une seule
lettre
qui
sera
codé
par
un
certain
nombre
binaire.
Le deux tableaux suivants (annexe 3) permettent de comprendre le mécanisme:
le tableau noté 18.8.2 permet de comprendre le principe de formation du code et
le code lui‐même est donné dans le tableau 18.8.3
En se servant du dernier tableau, on peut coder et décoder n’importe quelle
communication.
Exemples
Exemple 1: En utilisant le code de Shannon-Fano, écrire en code binaire la
phrase: théorie de l’information
Exemple 2: Décoder par le même mode, la phrase suivante:
1111011111001111000110001111000110001111010111001111000101111111
10001
Remarque importante: Une erreur de codage (confusion accidentelle des
signes 0 et 1 ) est dans un tel code funeste car le décodage de toute la partie du
texte suivant l’erreur devient impossible.
C’est pourquoi ce principe de codage n’est recommandé que lorsque les erreurs
de codage et de transmission de la communication sont pratiquement exclues.
Il se pose tout de même la question de savoir si un tel code est, en l’absence
d’erreur , optimal.
Pour répondre à cette question, il convient de chercher l’information moyenne
rapportée à chaque symbole élémentaire ( 0 et 1 ) et la comparer à l’information
maximale qui est égale à 1 bit.
L’information moyenne contenue dans une lettre H(l) du texte transmis est
l’entropie d’une lettre:
étant la probabilité pour que la lettre prenne un certain état (‐
‐, a, b, c, ..., z, é,
è, à, u).
ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru,
74
A partir du tableau des distributions des fréquences des lettres on a:
bits par
lettre du texte.
A partir du tableau 18.8.2 on trouve le nombre moyen de symboles élémentaires
par lettre:
En divisant
par
on obtient l’information par symbole élémentaire:
Ainsi, l’information rapportée à un symbole est très voisine de sa limite
supérieure 1 et donc le code de Shannon Fano est optimal.
Il convient de préciser que le codage de Shannon-Fano est loin d’être parfait
dans la mesure où il y a toujours, dans un texte sensé, corrélation entre certaines
lettres.
En français par exemple, après un q il y a presque toujours un u, des
combinaisons comme pb sont impossibles...
Téléchargement