ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 1 INSTITUT SUPERIEUR D’INFORMATIQUE ET DE GESTION (ISIG GOMA) PROBABILITES ET THEORIE DE L’INFORMATION Notes de cours à l’attention des étudiants de première Licence Par Lucien Zihindula Biguru, MSc Année académique : 2011-2012 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 2 NOTES INTRODUCTIVES C’est en 1948, alors qu’il travaillait aux Laboratoires Bell, que l’ingénieur en Génie Electrique, Claude Shannon donna une formalisation mathématique de la nature statistique de l’Information manquante dans les signaux des lignes téléphoniques. Il développa pour cette fin l’importante notion d’entropie de l’Information qui est fondamentale dans ce domaine. C’est ainsi que naquit la Théorie de l’Information qui est un domaine d’essence théorique et dont l’objet principal consiste en l’étude des lois quantitatives liées à l’obtention, le traitement et la conservation de l’Information. La théorie de l’Information est devenue par la suite un outil mathématique indispensable pour les processus de commande les plus divers. La nécessité de transmission d’informations relatives à un système physique vient du fait que ce dernier présente généralement, du point de vue du destinataire, une certaine imprécision ou au mieux une certaine incertitude étant donné que pour tout système physique dont l’état est exactement connu par le destinataire, toute transmission d’information sera inutile. Suite au caractère aléatoire inhérent à tout système physique, la théorie de l’Information utilise tout naturellement les outils du calcul des probabilités qui est la branche des mathématiques s’occupant de la quantification des phénomènes aléatoires. L’objectif de ce cours est de donner à l’étudiant de Licence en Informatique les notions et les outils de base pouvant lui permettre de faire une description quantitative des processus de transmission de l’Information et dégager certaines caractéristiques mathématiques lié aux tels processus. Eu égard aux aspects probabilistes de cette théorie, c’est tout naturellement que ce cours est subdivisé en deux grandes parties : - La théorie des probabilités, où seront rappelées les outils de base relatifs au calcul des probabilités1 ainsi qu’à certaines distributions d’usage courant généralement abordées en cours de Statistique Inductive en deuxième année de graduat. 1 Ces distributions probabilistes nous seront également très utiles dans l’étude de la troisième partie du cours de Recherche Opérationnelle ; partie consacrée à l’étude des phénomènes d’attente pour lesquels les distributions de Poisson et exponentielle jouent un important rôle. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 3 - Notions de base de la Théorie de l’Information, où seront abordées les notions centrales de cette Théorie que sont l’entropie et de codage de l’Information. Comme outil de calcul pour ce cours nous avons choisi de saisir ce cadre comme prétexte2 pour attirer l’attention de nos étudiants sur le logiciel libre , de plus en plus utilisé essentiellement en Analyse statistique mais qui est en même temps un puissant outil mathématique offrant en ce qui concerne ce cours et même une partie de celui de Recherche Opérationnelle, de remarquables facilités pour le calcul des quantiles de presque toutes les distributions probabilistes connues à ce jours en nous permettant ainsi de nous débarrasser de traditionnelles et encombrantes tables statistiques. Notons enfin en ce qui concerne ce logiciel que cette façon de procéder cadre bien avec la filière Informatique et Gestion qu’ont choisie les étudiants auxquels s’adresse ce modeste cours qui n’a nullement l’intention d’en faire de mathématiciens ! Nous commencerons donc par une rapide présentation du logiciel en en présentant l’esprit ainsi que les premières illustrations et nous y reviendrons tout au long du cours selon les besoins. 2 Le nombre relativement élevé de nos étudiants des cours de Statistique en Graduat ne nous a pas permis de les initier à . ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, CONTENU DU COURS: 0. Premier contact avec le logiciel I. Eléments de calcul des probabilités I.1. Rappels sur les techniques de dénombrement I.2. Probabilités et évènements I.3. Variables aléatoires I.4. Distributions statistiques d’usage courant II. Eléments de théorie de l’Information II.1. Problèmes de base de la théorie de l’information II.2. Entropie comme mesure du degré d’incertitude d’un état physique II.3. Entropie d’un système composé II.4. Entropie et Information II.5. Introduction aux problèmes de codage des communications II.6. Codage de Shannon Fano III. Exercices des travaux Pratiques 4 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 5 REFERENCES 1. H. Ventsel, Théorie des probabilités, Editions Mir, Moscou 1982 2. F. Dress, Probabilités et Statistiques, Dunod, Paris 1999 3. D. Rousseau, Notes de cours de Théorie de l’Information, Université d’Angers 2003, Inédit. 4. O Rioul, Polycopié de Théorie de l’Information et du codage, ENSTA, Janvier 2006 5. L. Zihindula B, Notes de cours de Probabilités et Théorie de l’Information, Licence ISIG-Goma, 2009-2010, Inédit 6. OVG-UNOPS, Module de renforcement des capacités des chercheurs de l’Observatoire Volcanologique de Goma en Méthodes Statistiques, Décembre 2010 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 6 o. Premier contact avec le logiciel 0.1. Présentation de Le logiciel est un système d’Analyse Statistique et graphique créé dans les années 1990 par Ross Ihaka et Robert Gentleman (Département de Statistique, Université d’Auckland, Nouvelle-Zélande) . Il est distribué librement et son développement et sa distribution sont assurés par plusieurs statisticiens rassemblés dans le developement Core Team. De manière plus spécifique est encore un langage de programmation et de ce fait présente beaucoup d’atouts par rapport à bon nombre de logiciels concurrents. est un langage, il n’est pas Il convient de noter qu’en dépit du fait que obligatoire de savoir programmer pour bien l’utiliser. En effet, est un langage interprété et non un langage compilé dans la mesure où les commandes tapées au clavier sont directement exécutées sans qu’il soit besoin de construire un programme complet comme cela est le cas pour la plupart des langages informatiques (C, Fortran, Pascal…) Il est aussi intéressant de remarquer3 que la syntaxe de est très intuitive. Quand est utilisé, les variables, les données, les fonctions, les résultats …sont stockés dans la mémoire de l’ordinateur sous forme d’objets qui ont chacun un nom. L’utilisateur peut agir sur ces objets avec des opérateurs (arithmétiques, logiques,…) et des fonctions. Ainsi toutes les actions de mémoire vive de l’ordinateur. sont effectuées sur des objets présents dans la Avant de préciser davantage chacun de ces concepts, précisons qu’actuellement il existe de nombreuses communautés de chercheurs à travers le monde qui ont en commun l’utilisation du logiciel comme instrument d’analyse statistique et graphique et certaines revues scientifiques vont même jusqu’à préférer 3 L’utilisateur, quoique débutant, remarque justement qu’à mesure qu’il s’habitue à R, des tournures qui lui paraissaient arbitraires au début deviennent évidentes et parfois il finit par créer ses propres astuces. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, l’utilisation de de croître. 7 aux milliers des logiciels statistiques dont le nombre ne cesse , il suffit de lire ce qu’écrit Greg Snow, l’un de Pour résumer les atouts de grands défenseurs de , en Mai 2006 : When talking about computer software I like the analogy of cars versus busses… Using this analogy programs like SPSS are busses, easy to use for the standard things, but very frustrating if you want to do something that is not already pre-programmed. is a car with a bike on the back, a kayak on top, good walking and running shoes in the passenger seat, and mountain climbing and spelunking gear in the back. can take you anywhere you want to go if you take time to learn how to use equipments, but is going to take longer than learning where the bus stops are in SPSS. 0.2. Lancer et quitter Il suffit de double-cliquer sur l’icône pour entrer et d’entrer q() sur la ligne de commande pour quitter. En double-cliquant sur l’icône il apparait l’environnement du genre : R version 2.9.0 (2009-04-17) Copyright (C) 2009 The R Foundation for Statistical Computing ISBN 3-900051-07-0 R est un logiciel libre livré sans AUCUNE GARANTIE. Vous pouvez le redistribuer sous certaines conditions. Tapez 'license()' ou 'licence()' pour plus de détails. R est un projet collaboratif avec de nombreux contributeurs. Tapez 'contributors()' pour plus d'information et 'citation()' pour la façon de le citer dans les publications. Tapez 'demo()' pour des démonstrations, 'help()' pour l'aide en ligne ou 'help.start()' pour obtenir l'aide au format HTML. Tapez 'q()' pour quitter R. [Sauvegarde de la session précédente restaurée] > 0.3. Interaction avec L’utilisation de schéma : se fait généralement de manière interactive suivant le - On entre une commande et on tape la touche « Retour à la ligne » exécute cette commande (avec affichage d’un résultat si possible). ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 8 attend une autre commande. 0.4. Quelques premiers exemples simples Dans l’environnement les commandes de l’utilisateur figurent en rouge tandis que la réponse de est en bleu. 1. Calculer successivement : > (2+4)^3 [1] 216 > exp(3) [1] 20.08554 > log(100, base=10) [1] 2 > 2. Que vous donne si vous tapez la commande > seq(from=2,to=500,by=5) ? En l’introduisant dans l’environnement on obtient : > seq(from=2,to=500,by=5) [1] 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 [19] 92 97 102 107 112 117 122 127 132 137 142 147 152 157 162 167 172 177 [37] 182 187 192 197 202 207 212 217 222 227 232 237 242 247 252 257 262 267 [55] 272 277 282 287 292 297 302 307 312 317 322 327 332 337 342 347 352 357 [73] 362 367 372 377 382 387 392 397 402 407 412 417 422 427 432 437 442 447 [91] 452 457 462 467 472 477 482 487 492 497 Au vu de la réponse donnée par on comprend que la commande >seq(from=2,to=500,by=5) sollicite des nombres entiers partant de 2 à 100 en faisant chaque fois un pas de 5. Le nombre entre crochet au début de chaque ligne indique le rang (indice) du premier nombre de la ligne. 3. Dans le même ordre d’idées, donner une commande en générer tous les multiples de 7 inférieurs à 2000. > seq(from=0,to=2000,by=7) [1] 0 7 14 21 28 35 42 49 56 63 70 77 84 91 98 qui permet de ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 9 [16] 105 112 119 126 133 140 147 154 161 168 175 182 189 196 203 [31] 210 217 224 231 238 245 252 259 266 273 280 287 294 301 308 [46] 315 322 329 336 343 350 357 364 371 378 385 392 399 406 413 [61] 420 427 434 441 448 455 462 469 476 483 490 497 504 511 518 [76] 525 532 539 546 553 560 567 574 581 588 595 602 609 616 623 [91] 630 637 644 651 658 665 672 679 686 693 700 707 714 721 728 [106] 735 742 749 756 763 770 777 784 791 798 805 812 819 826 833 [121] 840 847 854 861 868 875 882 889 896 903 910 917 924 931 938 [136] 945 952 959 966 973 980 987 994 1001 1008 1015 1022 1029 1036 1043 [151] 1050 1057 1064 1071 1078 1085 1092 1099 1106 1113 1120 1127 1134 1141 1148 [166] 1155 1162 1169 1176 1183 1190 1197 1204 1211 1218 1225 1232 1239 1246 1253 [181] 1260 1267 1274 1281 1288 1295 1302 1309 1316 1323 1330 1337 1344 1351 1358 [196] 1365 1372 1379 1386 1393 1400 1407 1414 1421 1428 1435 1442 1449 1456 1463 [211] 1470 1477 1484 1491 1498 1505 1512 1519 1526 1533 1540 1547 1554 1561 1568 [226] 1575 1582 1589 1596 1603 1610 1617 1624 1631 1638 1645 1652 1659 1666 1673 [241] 1680 1687 1694 1701 1708 1715 1722 1729 1736 1743 1750 1757 1764 1771 1778 [256] 1785 1792 1799 1806 1813 1820 1827 1834 1841 1848 1855 1862 1869 1876 1883 [271] 1890 1897 1904 1911 1918 1925 1932 1939 1946 1953 1960 1967 1974 1981 1988 [286] 1995 > 0.5. Manipuler les données 0.5.1. Variables et affectation Comme la plupart des langages de programmation, possède des variables auxquelles on peut affecter une valeur. Pour assigner une valeur à une variable, on utilise l’opérateur : « < - » ou « -> » ou tout simplement « = ». Ainsi pour assigner à la variable x la valeur 3, à la variable y la variable 5 et, par exemple, à la variable z la valeur , il suffit de taper la syntaxe : > x=3 > y=5 > z=2*x+3 > Une des commandes les plus simples consiste à taper le nom d’un objet pour afficher son contenu. Ainsi, pour afficher le contenu de chacune des variables x, y et z définies cihaut, on a : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 10 > x=3 > y=5 > z=2*x+3 >x [1] 3 >y [1] 5 >z [1] 9 > 0.5.2. Nom des variables Les noms des variables sont très flexibles. N’importe quelle variable peut stocker n’importe quelle valeur. Cependant il faut noter que : les noms des variables ne peuvent pas commencer par un chiffre ou un caractère spécial. Un caractère majuscule X est différent d’un caractère minuscule x. Ainsi par exemple, R distingue clairement les variables x et X comme le montre clairement l’exemple suivant : > x=2 > X=1 > x-X [1] 1 > 0.5.3. Vecteurs Les types élémentaires dans R sont des vecteurs qu’on construit avec la syntaxe c(…) En mesurant les tailles de 10 agents de polices on trouve les valeurs suivantes en mètres : 1.78, 1.75, 1.89, 1.80, 1.75, 1.78, 1.80, 1.82, 1.75, 1.63. On peut stocker ces données dans une variable x par la syntaxe : > x=c(1.78, 1.75, 1.89, 1.80, 1.75, 1.78, 1.80, 1.82, 1.75, 1.63) Pour afficher le contenu de la variable x il suffit de saisir x suivi de la touche Retour à la ligne : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 11 >x [1] 1.78 1.75 1.89 1.80 1.75 1.78 1.80 1.82 1.75 1.63 > 0.5.4. Arithmétique vectorielle Les opérations arithmétiques élémentaires usuelles : +(addition), (soustraction), * (multiplication) , / (division), ^(élévation à une puissance) ainsi que diverses fonctions mathématiques travaillent élément par élément sur des vecteurs afin de produire un autre vecteur. Exemple : Les poids des dix agents de polices ci-dessus, exprimées en Kg sont données par les valeurs : 82, 75, 78, 62, 56, 85, 93, 87, 59, 68. On appelle indice de masse corporelle (imc) d’un individu, le rapport de son poids (en Kg) sur le carré de sa taille (en mètres) : En couplant ces données relatives aux poids à celles relatives aux tailles de ces agents de police, générons la série de leurs indices de masse corporelle respectifs : En notant x la taille de ces dix agents et y leurs poids, on a : > x=c(1.78, 1.75, 1.89, 1.80, 1.75, 1.78, 1.80, 1.82, 1.75, 1.63) > y=c(82, 75, 78, 62, 56, 85, 93, 87, 59, 68) > imc=y/x^2 > imc [1] 25.88057 24.48980 21.83589 19.13580 18.28571 26.82742 28.70370 26.26494 [9] 19.26531 25.59374 > Nous allons progresser dans l’apprentissage de R suivant des besoins de calcul qui se poseront durant le déroulement de la formation. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 12 I. Eléments de calcul des probabilités I.1. Techniques de dénombrement On dit d'une expérience qu'elle est aléatoire lorsque d'une part il est impossible de prévoir avec précision le résultat auquel elle conduira mais d'autre part il est possible de décrire l'ensemble de tous ses résultats possibles. Ainsi, comme on le verra un peu plus loin, toute étude mathématique d'une telle expérience (aléatoire) consiste à définir une certaine structure sur l'ensemble de ses résultats possibles. Dans bien d'applications des probabilités, on considère des cas où une expérience conduit à un ensemble fondamental fini et que tous les résultats ont la même chance de se produire. Dans ce cas particulier mais fréquent, la probabilité d'un évènement A est défini comme le rapport du nombre de cas favorables à l'évènement A sur celui de tous les cas possibles. Il est donc très utile en abordant les probabilités d'avoir à l'esprit certaines techniques de dénombrement (pour compter tous ces cas favorables et possibles) qui font l'objet de l'Analyse combinatoire. I. 1. a) Principe fondamental : L’exemple suivant permet d’introduire le principe fondamental du calcul des probabilités, appelé aussi principe multiplicatif. La garde robe de Julien, comporte 4 pantalons, 5 chemises et 3 paires de souliers. En convenant d’appeler style, le choix d’un pantalon, d’une chemise et d’une paire de chaussure, combien de styles différents sont-il possibles à Julien ? Le logiciel comporte la commande expand.grid() dont les arguments sont des vecteurs et le résultat obtenu sont les différentes combinaisons possibles des composantes des vecteurs argument. Pour obtenir grâce à définir les vecteurs : les différents styles possibles à Julien il nous suffit de ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, > Pantalons=c("p1","p2","p3","p4") > Chemises=c("ch1","ch2","ch3","ch4","ch5") > Souliers=c("soul1","soul2","soul3") Qui correspondent aux données de la question et de taper la commande : > expand.grid(Pantalons,Chemises,Souliers) Pour obtenir tous les styles possibles que peut arborer Julien: Var1 Var2 Var3 1 p1 ch1 soul1 2 p2 ch1 soul1 3 p3 ch1 soul1 4 p4 ch1 soul1 5 p1 ch2 soul1 6 p2 ch2 soul1 7 p3 ch2 soul1 8 p4 ch2 soul1 9 p1 ch3 soul1 10 p2 ch3 soul1 11 p3 ch3 soul1 12 p4 ch3 soul1 13 p1 ch4 soul1 14 p2 ch4 soul1 15 p3 ch4 soul1 16 p4 ch4 soul1 17 p1 ch5 soul1 18 p2 ch5 soul1 19 p3 ch5 soul1 20 p4 ch5 soul1 21 p1 ch1 soul2 22 p2 ch1 soul2 23 p3 ch1 soul2 24 p4 ch1 soul2 25 p1 ch2 soul2 26 p2 ch2 soul2 27 p3 ch2 soul2 28 p4 ch2 soul2 29 p1 ch3 soul2 30 p2 ch3 soul2 31 p3 ch3 soul2 32 p4 ch3 soul2 33 p1 ch4 soul2 34 p2 ch4 soul2 35 p3 ch4 soul2 36 p4 ch4 soul2 37 p1 ch5 soul2 13 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 > p2 p3 p4 p1 p2 p3 p4 p1 p2 p3 p4 p1 p2 p3 p4 p1 p2 p3 p4 p1 p2 p3 p4 14 ch5 soul2 ch5 soul2 ch5 soul2 ch1 soul3 ch1 soul3 ch1 soul3 ch1 soul3 ch2 soul3 ch2 soul3 ch2 soul3 ch2 soul3 ch3 soul3 ch3 soul3 ch3 soul3 ch3 soul3 ch4 soul3 ch4 soul3 ch4 soul3 ch4 soul3 ch5 soul3 ch5 soul3 ch5 soul3 ch5 soul3 En remarquant que le nombre de ces styles pouvait, intuitivement, être obtenu en faisant : , On peut généraliser ce principe : Considérons k expériences possibles. Il existe alors dans l'ordre indiqué. telles que possède réalisations possibilités de réaliser ces n expériences Illustrations : 1. Dans une ville donnée, les plaques d'immatriculation des véhicules comportent les lettres BK, suivies de 4 chiffres différents, suivis à leur tour des lettres BB. Combien peut-on ainsi immatriculer des véhicules différents ?\\ 2. Répondre à la même question pour une ville où toute plaque d'immatriculation est composée de deux lettres quelconques de l'alphabet ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 15 français suivies de 4 chiffres différents suivis à leur tour de deux lettres différentes de l'alphabet français Rappel : pour tout entier naturel non nul , on appelle factorielle , le nombre noté et qui vaut le produit des n premiers nombres entiers non nuls. Exemples : II. 1. b) Arrangements On appelle arrangement de n objets pris r à r une liste de r de ces n objets pris dans un ordre précis. Si ces r objets sont supposés distincts on parle d'arrangement sans répétition. Dans le cas contraire il y a répétition. Le nombre d'arrangements sans répétition de n objets pris r à r se note tandis que la notation est réservée aux arrangements avec répétition. Pour former tous un arrangement sans répétition de n éléments pris r à r, il y a : . . . . . . . choix possibles pour le premier élément, choix possibles pour le deuxième, choix possibles pour le troisième, choix possibles pour le élément. En appliquant le principe fondamental on obtient : Et il est facile d'établir que : Il convient de préciser que deux arrangements sont différents si l'un possède au moins un élément que l'autre n'a pas ou alors tout en ayant les mêmes éléments, l'un les a dans un ordre différent. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 16 Illustration : 1. Calculer 2. Combien peut-on former des nombres à 4 chiffres à l'aide des chiffres 1, 2, 4, 6, 8, 9 ? 3. Combien peut-on former des nombres à 4 chiffres dans le système de numération décimale ? 4. Combien peut-on former des nombres à 4 chiffres différents dans le système de numération décimale ? II. 1. c) Permutations Une permutation de n éléments est toute liste de ces n éléments dans un ordre donné. Il en résulte qu'une telle permutation est un arrangement de ces n éléments pris n à n. En notant le nombre de telles permutations on a évidemment : A titre d'illustration (rapide), notons qu'il y a d'asseoir 5 invités sur 5 places différentes. manières différentes II. 1. c) Combinaisons Une combinaison de n éléments pris r à r est un sous ensemble de r éléments dans un ensemble qui en possède n. Il en résulte que dans une combinaison, l'ordre dans lequel se présentent les éléments n'a pas d'importance. Le nombre de telles combinaisons se note . On peut énumérer tous les arrangements en énumérant d'abord tous les combinaisons et de générer ensuite les arrangements en permutant les éléments de chacune des combinaisons. On en déduit que ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 17 de sorte que : Illustration : En utilisant la formule calculer : 1) 2)Justifier et illustrer chacune des propriétés suivantes dont jouissent les combinaisons : et 3) En appliquant la célèbre formule dite du binôme de Newton : , développer Remarque : Le logiciel R, en tant que calculatrice, permet de calculer : - factoriel n ( ) grâce à la commande : >gamma (n+1) tandis que la commande >choose(n,k) permet de trouver . ILLUSTRATION: De combien de manières peut-on partager 9 jouets entre 4 enfants, sachant que le plus jeune enfant doit recevoir 3 jouets et les autres enfants 2 jouets: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 18 SOLUTION: Quelques exercices sur les dénombrements Question 1 : Huit nageurs, dont un congolais, participent à la finale olympique de 100m. a) Combien de podiums sont-ils possibles ? (un podium est constitué par un premier, un deuxième et un troisième nageur). b) Combien de podiums comportant un nageur congolais sont-ils possibles ? Question 2 : Jean et Renée font partie d’un club de 18 personnes. On doit former un groupe constitué de 5 d’entre elles pour représenter le club à un spectacle. a) Combien de groupe de 5 personnes peut-on ainsi former ? b) Jean et Renée ne pouvant se supporter, combien de groupes de 5 personnes peut-on constituer de telle façon que Jean et Renée ne se retrouvent pas ensemble ? Calculer si : i) ii) I. 2. Probabilités et évènements I. 2. a) Notions de base Beaucoup de phénomènes étudiés dans les sciences expérimentales sont guidés par le principe de déterminisme d'après lequel dans les mêmes conditions, les mêmes causes produisent toujours les mêmes effets. Cependant, les phénomènes déterministes ne constituent pas la totalité de ce qui intéresse le scientifique. Dans presque tous les domaines du savoir humain il se pose le besoin de pouvoir prendre la meilleure décision en situation d'incertitude. Le calcul des Probabilités est la branche des mathématiques qui s'occupe des phénomènes aléatoires, c.-à-d. ceux dans lesquels intervient le hasard. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 19 Comme souligné au début, la première des exigences en probabilités consiste à associer à chaque expérience aléatoire son ensemble de toutes les issues possibles. Exemples : -Le jet d'un dé cubique est une expérience aléatoire dont l'ensemble fondamental est . -Le jet d'une pièce de monnaie est une expérience aléatoire dont l'ensemble fondamental est Certains faits liés à toute expérience aléatoire peuvent ou ne pas se produire. On les appelle évènements. En reconsidérant l'expérience du jet d'un dé cubique, considérons l'évènement A: la face amenée est paire. Des six faces possibles seules les faces 2,4 et 6 sont favorables à l'évènement A. On écrit ainsi . De manière générale, tout évènement est une partie de l'ensemble fondamental. En supposant que le dé jeté est parfaitement équilibré, chaque face possède naturellement une chance sur six d'apparaître et la situation peut être représentée par le tableau suivant : qui définit une loi équirépartie sur . Comme nous avons 3 chances sur six de réaliser A on peut écrire Cet exemple, quoique très élémentaire, nous permet d'introduire le formalisme de probabilité sur un ensemble fini: Considérons une expérience aléatoire conduisant à un ensemble fondamental fini . -Les éléments de l'expérience aléatoire. sont les résultats ou encore les issues possibles de ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 20 -Un évènement est, dans ce cas, tout sous-ensemble de l'ensemble fondamental. L'ensemble et lui-même sont des évènements particuliers respectivement appelés évènement impossible et évènement certain. En effet, l'évènement impossible n'a aucune chance de se réaliser tandis que l'évènement certain est celui dont on sait qu'il se réalisera. En généralisant l'exemple ci-dessus, on comprend qu'une loi de probabilité sur $\Omega$, est définie par la donnée d'un tableau: On peut combiner des évènements (sous-ensembles) à l'aide des opérations ensemblistes usuelles pour obtenir d'autres évènements : i) est l'évènement qui se produit si au moins l'un des évènements A ou B se produit. ii) est l'évènement qui se produit si simultanément les évènements A et B se produisent. iii) est l'évènement contraire à A. un ensemble fondamental fini et . Soit Une probabilité sur propriétés suivantes: la classe des évènements, c.-à-d. est une fonction vérifiant les i) ii) Si iii) En général, si alors : est une suite d'évènements deux à deux disjoints, Les conséquences naturelles de cette définition sont les suivantes: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 21 i) ii) Si iii) Si est l'évènement contraire à A alors iv) v) En particulier, lorsqu'une loi équirépartie est définie sur un ensemble fini, la probabilité d'un évènement est le rapport entre le nombre de cas favorables à l'évènement sur celui de tous les cas possibles : Remarque : Il arrive qu'une expérience aléatoire conduise à un ensemble fondamental infini non dénombrable. Définir une probabilité sur un tel ensemble nécessite quelques précautions mathématiques supplémentaires et surtout une généralisation des notions précédentes. Quelques exemples d'applications sur la notion de Probabilité. I. On choisit au hasard 4 articles d'un lot de 15 articles parmi lesquels 7 sont défectueux. a)Quelle est la probabilité que les 4 articles choisis soient défectueux ? b) Quelle est la probabilité qu'aucun des 4 articles choisis ne soit défectueux ? c) Quelle est la probabilité qu'au moins l'un des quatre articles choisis soit défectueux ? II. On pipe une pièce de monnaie de telle sorte que face apparaisse deux fois plus que pile. Calculer et . III. On tire au hasard une carte d'un jeu ordinaire de 52 cartes. Calculer la probabilité pour que (i) les deux cartes soient des piques, (ii) une carte au moins soit un roi. IV. Un auditoire comporte 10 garçons dont la moitié a les yeux marron et 20 filles dont la moitié également a les yeux marron. Calculer la probabilité p pour qu'une personne tirée au hasard dans cet auditoire soit un garçon ou ait les yeux marron. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 22 I.2.3.Probabilités conditionnelles : Formule des probabilités totales et formule de Bayes Considérons une classe de 30 élèves dont 10 sont des garçons. Si la moitié des garçons fume et que le quart de filles fument également, on peut représenter la situation par le tableau suivant : Total G F 5 5 10 5 15 20 Total 10 20 30 On choisit un élève au hasard. a) Quelle est la probabilité qu’il s’agisse d’un garçon ? b) Quelle est la probabilité qu’il s’agisse d’un fumeur ? c) On choisit un élève au hasard et on constate qu’il s’agit d’une fille. Quelle est la probabilité que l’élève choisi soit fumeur ? Comme on peut le voir dans la résolution de la question c), il arrive que la réalisation d’un évènement modifie la probabilité de la réalisation de l’autre. Cette situation conduit naturellement à l’importante notion de probabilité conditionnelle. Considérons A un évènement de probabilité non nulle. La probabilité conditionnelle de réaliser un évènement B sachant que A est réalisé se note et on a la relation : De manière générale, pour deux évènements A et B des probabilités non nulles, . Toute fois il résulte de la formule que: Illustration : Dans une population donnée, 15% des individus sont atteints de malaria. Parmi les individus atteints de malaria, 20% développent une migraine et parmi les individus non atteints de malaria, 4% développent aussi une migraine. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 23 On prend un individu dans cette population et on considère les évènements: P : l’individu est atteint de malaria M : l’individu souffre d’une migraine a) Donner les valeurs des probabilités suivantes b) Calculer la probabilité que l’individu choisi ne souffre ni de malaria ni de migraine. c) Calculer la probabilité que l’individu souffre d’une migraine. Formule des probabilités totales Dans la résolution de l’illustration précédente on a vu que : La formule des probabilités totales est une généralisation de cette dernière. Pour mieux l’aborder, précisons d’abord la notion suivante: Définition 4 : on dit que constituent un système complet d’évènements si les conditions suivantes sont remplies: i) ii) Pour , iii) En d’autres termes, un système complet d’évènements forme une partition de l’ensemble fondamental . Remarque : Les évènements formant un système complet s’appellent parfois hypothèses. Le résultat suivant est très important et s’appelle formule des probabilités totales: Considérons A un évènement qui peut se réaliser à la suite de la réalisation d’une et d’une seule hypothèse appartenant à un système complet d’évènements. Résultat : la probabilité de l’évènement A est égale à la somme des produits des probabilités de toutes les hypothèses formant un système complet par les probabilités conditionnelles correspondantes de l’évènement donné A : Exercice : justifier ces résultats à la lumière de ce qui précède. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 24 Illustration classique: et qui la production d’une usine est assurée par trois machines assurent respectivement 50%, 30% et 20% de la production totale. Il est connu que 2% des articles produits par , 3% de ceux produits par et 5% de ceux produits par sont défectueux. Quelle est la probabilité qu’une pièce provenant de cette usine soit de bonne qualité ? Solution : Formule de BAYES Dans cette situation, on a également un système complet d’évènements dont les probabilités sont connues avant l’expérience. C’est pourquoi les sont parfois appelées probabilités à priori. En effectuant l’expérience, on constate la réalisation de l’évènement A, tout en sachant que nos hypothèses attribuaient à cet évènement des probabilités bien déterminées . Il se pose le besoin de déterminer les probabilités de ces hypothèses après expérience (probabilités à postériori). En bref, grâce à la formule des probabilités totales nous savons que mais dans ce cadre, A est déjà réaliser et on voudrait calculer chacune des probabilités . Résultat (Formule de Bayes) : Exercice : justifier cette formule à la lumière de ce qui précède. Illustration: dans une usine, 15% de pièces sont fabriquées par la machine , 20% par la machine , 15% par la machine , 40% par la machine et 10% par la . machine Une étude a montré que 1% des pièces produites par , 1.2% des pièces , 1.4% des pièces produites par la machine , 0.5% des pièces produites par ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, produites par et 1% des pièces produites par 25 sont défectueuses. Un client achète une pièce et constate qu’elle défectueuse. Quelle est la probabilité qu’elle ait été fabriquée par la machine ? Indépendance On dit de deux évènements qu’ils sont indépendants si la réalisation de l’un ne change pas la probabilité de réalisation de l’autre. Symboliquement, les évènements A et B sont indépendants ssi ou encore . Il résulte de ces formules que si les évènements A et B sont indépendants on aura : En général, on dit des évènements qu’ils sont indépendants si Exemples d’applications 1. Deux grossistes produisent des bulbes de tulipes; le premier produit des bulbes à fleur rouge dont 90% donnent une fleur et le second produit des bulbes à fleurs jaunes dont 80% donnent une fleur. Un horticulteur achète 70% de ses bulbes chez le premier grossiste et le reste au second. Un bulbe donne au plus une fleur. Si l’horticulteur choisit un bulbe au hasard dans son stock et le plante, quelle est la probabilité que ce bulbe donne une fleur? 2. Considérons une population composée de 48% d’hommes et 52% de femmes. Il est connu qu’au sein de cette population, 5 hommes sur cent et 25 femmes sur dix mille sont daltoniens4. Trouver la proportion de cette population qui est daltonienne. 3. Considérons trois sites primaires et qui produisent des semences d’une même variété. produit 50%, 35% et 15%. Il est établi que 0.3% de graines provenant de sont défectueux de même pour 0.8% et 1% de graines provenant respectivement de et . 4 Il convient en effet de rappeler que le Daltonisme est déterminé par un gène lié au chromosome X et possède donc une incidence différente suivant les sexes. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 26 On choisit au hasard une graine de la caisse et on constate qu’elle est et ? défectueuse. Quelle est la probabilité qu’elle provienne de 4. Au cours d’une épidémie de grippe ayant atteint un quart de la population on a aléatoirement vacciné le tiers de la population. On constate après qu’un malade sur dix est vacciné. Calculer la probabilité pour un individu vacciné de se retrouver grippé malgré tout. I.3. Variables aléatoires Considérons l’ensemble fondamental associé à une expérience aléatoire donnée. Les éléments de (i.e. les résultats de l’expérience aléatoire) peuvent ne pas être des nombres réels mais la résolution d’une bonne catégorie de problèmes relatifs aux phénomènes aléatoire nécessite qu’on attribue, suivant certaines règles, un nombre spécifique à chaque résultat. Une telle opération s’appelle variable aléatoire. De manière plus formelle, On définit une variable aléatoire sur un ensemble fondamental comme une fonction telle que l’image réciproque de chaque intervalle soit un évènement. Il en résulte que si l’ensemble fondamental est dénombrable, toute fonction réelle définie sur est une variable aléatoire tandis que si est non dénombrable, certaines fonctions à valeurs réelles peuvent ne pas être des variables aléatoires. Exemple : On jette deux fois de suite un dé équilibré et on s’intéresse à la somme des résultats obtenus. Quelle est la probabilité que la somme des résultats obtenus soit égale à 5 ? Il est évident que La situation se modélise par la variable aléatoire définie par et il est trivial que l’ensemble des images possibles est et la probabilité que cette application prenne comme image 5 est : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 27 De ce premier exemple on peut déduire le formalisme général suivant: Soit une variable aléatoire. On appelle loi de probabilité de définie sur l’ensemble image par: la loi La variable aléatoire permet de transporter en quelque sorte la loi de probabilité P définie sur pour trouver la loi de probabilité définie sur mais pour des raisons de simplicité d’écriture on notera indistinctement les deux probabilités. P. On démontre aisément que si X et Y sont des variables aléatoires sur un même ensemble fondamental X+Y est aussi une variable aléatoire et plus exactement, l’ensemble des variables aléatoires associables à une même expérience aléatoire est un espace vectoriel ! Exemple : définir complètement la loi de probabilité associée à la variable aléatoire X de l’exemple précédent. Il existe principalement deux types de variables aléatoires : ‐les les variables aléatoires discrètes : ce sont celles pour lesquelles l’ensemble image est dénombrable. ‐les les variables aléatoires continues : ce sont celles pour lesquelles est un intervalle ou même l’ensemble tout entier. Pour toute variable aléatoire, il existe deux paramètres numériques hautement importants, l’une caractérisant la tendance centrale et l’autre la dispersion : ‐Etant donné un variable aléatoire discrète d’ensemble image , on appelle espérance mathématique de X, la quantité ‐ S’il s’agit d’une variable aléatoire continue dont l’ensemble image est l’intervalle I, en lieu et place de la loi de probabilité P on a l’importante notion de densité de probabilité. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 28 On dit d’une fonction que c’est une densité de probabilité si elle remplit les conditions suivants: i) ii) f est continue sur I et iii) L’espérance mathématique d’une variable continue de densité de probabilité f sur I vaut L’espérance mathématique est la meilleure des caractérisations de la tendance centrale d’une variable aléatoire. ‐ On appelle variance d’une variable aléatoire l’espérance mathématique du carré des écarts par rapport à l’espérance mathématique. On la note et on a donc : La variance est, en tant que somme des termes positifs, toujours positive et mesure la manière dont les valeurs sont dispersées autour de l’espérance mathématique. Plus elle grande, plus les valeurs sont dispersées par rapport à E(X). Cependant, la variance exagère les vrais écarts (à cause des carrés des termes qui s’y trouvent) et pour corriger cette exagération on calcule l’écart-type, qui est la racine carrée de la variance. L’écart-type variable aléatoire. est la meilleure caractérisation de la dispersion d’une Evidemment, dans le cas continue, cette sommation discrète une somme continue , mutatis mutandis. est remplacée par Illustration 1: calculer l’espérance mathématique ainsi que l’écart-type de chacune des lois suivantes : a) 2 3 11 b) 1 3 4 5 0.4 0.1 0.2 0.3 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, Illustration 2 : Pour la variance de manière équivalente (c’est parfois plus simple) utiliser la formule . Justifier. 29 , on peut Avant d’aborder de célèbres exemples, concluons cette synthèse théorique en précisant qu’on comprend mieux le sens central de l’espérance mathématique ainsi que le sens dispersif de la variance en considérant le théorème mathématique suivant: Inégalité de Bienaymé-Tchebychev : soit X une variable aléatoire admettant une espérance mathématique variance Pour toute quantité positive on a : En effet, i) Si X est discrète, X prend par définition les valeurs avec les probabilités pour . ii) Nous savons que Notons . On a : Il en résulte que: Or : On en déduit que: On obtient enfin: et une ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 30 ii) Dans le cas où X est une variable aléatoire continue, la démarche de preuve est la même mais le prix à payer est de remplacer les probabilités par la densité de probabilité de X et les sommations par des intégrales. Aussi bien dans le cas discret que dans le cas continu, il existe des variables aléatoires dont les lois de probabilité (on parle aussi de distributions) sont d’usage très courant et servent alors de modèle à diverses applications. L’application des théorèmes limites à ces lois constitue l’interface entre les probabilités et la statistique. Dans les lignes qui suivent nous décrivons sommairement les plus importantes de ces lois, eu égard à l’utilisation que nous en ferons dans la modélisation de certains problèmes de la seconde partie de ce cours, consacrée à la théorie de l’information. I.4. Distributions statistiques d’usage courant I.4.1. Loi binomiale a) Concepts théoriques Définition 1 :(Epreuve de Bernoulli): Considérons une expérience aléatoire n’ayant que deux issues possibles généralement appelées succès et échec. En posant la probabilité du succès et par conséquent la probabilité de l’échec, on appelle variable de Bernoulli de paramètre p, la variable aléatoire X définie sur en associant 1 au succès et 0 à l’échec. La loi de Bernoulli est donc définie sur l’ensemble par le tableau: 0 1 1‐p p Exercice : Calculer l’espérance mathématique et la variance de la loi de Bernoulli Exemple introductif : On jette trois fois de suite et de manière indépendante un dé équilibré. Calculer la probabilité d’obtenir la face 6 trois fois au cours de ces trois lancers. En généralisant cet exemple, nous concluons que lorsqu’une épreuve de ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 31 Bernoulli de paramètre p est reprise n fois de manière indépendante, la probabilité d’obtenir k succès vaut : Définition 2 : ‐on appelle schéma de Bernoulli, l’expérience qui consiste à répéter n fois une épreuve ayant exactement deux issues possibles, sous l’hypothèse que les n épreuves ainsi obtenues sont indépendantes les unes des autres. ‐ On dit qu’une variable aléatoire X suit la loi binomiale des paramètres et si X est la variable aléatoire définie par le nombre de succès obtenus au cours des n épreuves de Bernoulli pour lesquelles la probabilité de succès est . Dans ce cas, Il est évident que pour une loi binomiale des paramètres n et p on a : I.4.b. Utilisation de pour la loi binomiale : Nous avons vu plus haut que la syntaxe choose(n,k) permet de calculer . permet de Comme pour toutes les distributions importantes, le logiciel répondre aux questions les plus pratiques qu’on peut essayer de résoudre avec la loi binomiale : 1) La syntaxe dbinom(x,n,p) permet de calculer directement 2) La syntaxe pbinom(x,n,p) permet de calculer 3) La syntaxe qbinom(s,n,p) permet de trouver la plus petite valeur de x telle que 4) On peut représenter le diagramme en bâtons de la loi binomiale et il y est évident que les valeurs les autour de l’espérance mathématique ( ) sont les plus probables. A titre d’illustration représentons une loi binomiale consistant au nombre de réponses correctes obtenues par un étudiant qui travaillerait « à l’aveuglette » un questionnaire à choix multiples comportant vingt questions qui comportent chacune six assertions parmi lesquelles une seule est correcte : il s’agit de la loi binomiale des paramètres et . Il suffit pour cela de taper la syntaxe : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 32 > y=0:n > p=1/6 > plot(dbinom(y,20,p),xlim=c(0,20),lwd=3,type="h",main="Densité des probabilité des réussites aux Eetats") > plot(dbinom(y,20,p),xlim=c(0,20),lwd=3,type="h",main="Densité des probabilité des réussites aux Exetats RDC") Le résultat fourni par est : 0.15 0.10 0.00 0.05 dbinom(y, 20, p) 0.20 Densité des probabilité des réussites aux Exetats RDC 0 5 10 15 20 Index Illustration 1: On suppose qu’à la naissance il y a autant de chance d’avoir un garçon que d’avoir une fille. a) Calculer la probabilité d’avoir exactement 5 filles dans une famille de dix enfants b) Calculer la probabilité d’avoir au moins un garçon dans une famille de six enfants ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 33 Illustration 2 : Lors d’un examen à choix multiples, dix questions sont posées et chacune d’elles possède 5 assertions parmi lesquelles une seule est correcte. Lucie n’ayant pas préparé l’examen, décide de le travailler à l’aveuglette. Quelle est la probabilité qu’elle réussisse cet examen (i.e. qu’elle obtienne au moins 5 bonnes réponses sur dix) ? I.4.2. Loi de Poisson b. Notions Dans beaucoup d’applications pratiques on rencontre des variables aléatoires réparties suivant une loi particulière dite loi de Poisson. Rappelons d’abord quelques résultats élémentaires d’Analyse mathématique étudiés l’an dernier: 1. 2. 3. Considérons la variable aléatoire discrète X pouvant prendre les valeurs entières . On dit que la variable aléatoire X est répartie suivant la loi de Poisson si la probabilité qu’elle prenne la valeur m est: où la valeur est le paramètre de la loi de Poisson. Il en résulte que la distribution de Poisson est donnée par le tableau suivant: 0 1 2 S’agit-il vraiment d’une loi de probabilité? m ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, Pour nous en assurer, vérifions l’égalité 34 . Il est naturel, à ce stade, de se poser les deux questions suivantes: 1. Quelle signification peut-on donner au paramètre de la loi de Poisson? 2. Dans quel type de situations doit-on utiliser la loi de Poisson? Ces deux questions sont étroitement liées: pour la première question, il est facile de montrer que le paramètre représente l’espérance mathématique et en même temps la variance de la loi de Poisson. C’est d’ailleurs une spécificité d’une distribution poissonnienne que d’avoir une espérance mathématique qui est égale à la variance: . En effet, En faisant le changement de variable il est naturel que comme m commence par 1, k commence par zéro et le calcul précédent donne: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, Calculons maintenant la variance de la loi de 35 Poisson: Nous savons que la variance est la différence entre le carré de l’espérance mathématique et l’espérance mathématique du carré. Comme nous savons déjà que l’espérance vaut l’espérance du carré: En opérant le changement de variable En définitive: il nous reste à calculer on obtient: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 36 On retient de ces calculs que la variance d’une variable aléatoire distribuée suivant la loi de Poisson est égale à son espérance mathématique . Cette propriété particulière à la loi de Poisson est souvent utilisée dans la Pratique de la Statistique lorsqu’il y a lieu d’établir la vraisemblance de l’hypothèse suivant laquelle une variable aléatoire X est distribuée suivant la loi de Poisson. A cet effet, on détermine à partir des données expérimentales l’espérance et la variance statistiques. La proximité de leurs valeurs peut témoigner en faveur de la loi de Poisson... Imaginons un certain nombre d’évènements distribués dans le temps avec comme densité évènements par unité de temps avec les contraintes suivantes: i) La probabilité pour un intervalle de temps de longueur l de contenir un nombre quelconque d’évènements dépend seulement de la longueur de cet intervalle mais pas de l’instant considéré. ii) Les points sont répartis indépendamment les uns des autres, c’est‐à‐dire que la probabilité pour qu’un nombre quelconque de points se trouve dans un intervalle donné ne dépend pas du nombre de points tombés dans tout autre intervalle ne se recouvrant pas avec l’intervalle considéré. iii) La probabilité pour que deux évènements ou plus tombent dans un petit intervalle est négligeable par rapport à la probabilité d’y trouver un seul évènement (i.e. plusieurs évènements ne peuvent, pratiquement, pas coïncider). Considérons alors la variable aléatoire X qui est égale au nombre de tels évènements qui tombe dans l’intervalle de temps de longueur l. Divisons l’intervalle l en n sous intervalles de longueur chacun. Si n est grand, chaque sous intervalle temps vers un point et d’après la condition ii) on ne peut y trouver pratiquement qu’un point à la fois, avec la probabilité ou alors aucun point avec la probabilité . Ainsi, la probabilité de trouver m points (évènements) dans l’intervalle de temps l vaut, en utilisant la loi binomiale: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 37 Exercice: Dans le calcul ci‐dessus, certains détails ont été escamotés. En élucidant toutes les étapes, justifier l’égalité: b. Loi de Poisson avec En valorisant l’étude faite sur la loi binomiale sous on peut retenir que la loi de Poisson utilise le suffixe pois et que les préfixes r,d,p,q gardent la même signification que pour la loi binomiale (et les autres lois d’ailleurs). Ainsi la fonction : > dpoiss(x, ) calcule l’image de x par la densité de la loi de Poisson de paramètre , >rpoiss(n, ) génère un échantillon de taille n tiré d’une distribution de Poisson de même paramètre, >ppoiss(x, ) calcule la probabilité tandis que >qpoiss(p, ) trouve la plus petite valeur de x telle que . Exercices sur la loi de Poisson: 1. La probabilité d’atteindre la cible par un tireur étant de 0.01, calculer la probabilité qu’au cours de deux cents essais indépendants : a) La cible soit atteinte au moins une fois b) Six fois 2. La densité moyenne des microbes nocifs dans un mètre cube d’air est égale à 100 dans un certain quartier. On prend un échantillon de d’air dans ce quartier. Quelle est la probabilité d’y trouver au moins un microbe? ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 38 I.4.3. Synthèse théorique sur les lois continues Rappel: On dit d’une fonction réelle f définie sur un intervalle I que c’est une densité de probabilité si les conditions suivantes sont remplies: i) ii) f est continue sur I iii) Dans ce cas, chaque évènement est une partie de I et pour un tel évènement , la probabilité pour une variable aléatoire X de densité de probabilité f de tomber dans l’ensemble A est : Il existe toute une zoologie de variables aléatoires continues5 mais nous n’aborderons que principalement deux: la plus simple de toutes (loi uniforme) et la plus populaire de toutes (loi normale de Gauss). I.4.3.1. Loi uniforme Cette loi est pour les lois continues ce qu’est une loi équirépartie pour les lois discrètes. Elle modélise la situation où une particule se déplace aléatoirement sur un segment et peut y être dans n’importe coin avec la même probabilité. Etant donné un segment , la densité uniforme y est définie par: Exercices 1. Verifier que pour la loi uniforme définie ci‐dessus, l’égalité rituelle est vérifiée. 5 Nous encourageons vivement tous les étudiants à approfondir ces notions par de saines lectures... ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 2. Montrer que l’espérance mathématique de la loi uniforme sur tandis que la variance vaut . 39 vaut 3. Une particule se déplace aléatoirement sur l’axe des abscisses entre les pointes d’abscisses et 7. Quelle est la probabilité qu’en un moment donné elle soit à droite de l’origine de cet axe, en supposant que sa position suit la loi uniforme? I.4.3.2. Loi de durée de vie sans vieillissement La loi exponentielle, appelée encore loi de durée de vie sans vieillissement se rencontre dans la modélisation de beaucoup de phénomènes de la nature parmi lesquels on peut partir de la désintégration radioactive comme situation introductive. Comme nous l’apprennent les Physiciens des particules et essentiellement les physiciens nucléaires, la désintégration des noyaux des substances radioactives respecte les hypothèses suivantes: 1. La durée de vie d’un noyau semble régie par une loi de probabilité P à densité f sur identique pour tous les noyaux de l’élément concerné, 2. La désintégration d’un noyau n’affecte pas celle des autres . 3. La probabilité pour un noyau, ayant existé jusqu’à l’instant t, de se désintégrer entre les instant et ne dépend pas de son âge t: c’est pour cette importante raison qu’on parle de la loi de durée de vie sans vieillissement. La loi exponentielle est la loi de probabilité adaptée à la description des situations vérifiant les hypothèses analogues à celles évoquées ci-haut. Considérons un composant électronique (transistor...) qu’on observe à partir de l’instant . Sa durée de vie T peut prendre toute valeur t positive ou nulle. On s’intéresse à la probabilité : qui est la probabilité que le composant soit encore en état de marche à l’instant . Dans le même ordre d’idée, la quantité ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 40 représente la probabilité que le composant cesse d’assurer ses fonctions durant la période . Cherchons l’expression mathématique de ne vieillit pas. en admettant que notre composant , il faut être en état de Il est évident que pour dépasser l’instant fonctionnement à l’instant t et rester en marche durant la période . Considérons les évènements: : l’appareil est encore en état de marche à l’instant et de marche pendant l’intervalle . alors: Comme Comme la fonction G est telle que fonction exponentielle. Il existe donc : l’appareil est en état tel que alors G est une . Comme G est une probabilité alors et il existe par conséquent tel que de sorte que l’on obtient en définitive: Définition: On dit qu’une probabilité P sui la loi exponentielle de paramètre si pour toute valeur Cherchons alors la densité de la loi exponentielle: Si est la densité cherchée, alors: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 41 ce qui implique que Il est facile de vérifier que la fonction définit une densité de probabilité sur étant donné qu’il s’agit d’une fonction continue, positive et que: En résumé, la loi de durée de vie sans vieillissement a comme densité . Pour le cas de la désintégration radioactive, la constante est appelée constante de désintégration par unité de temps et sa valeur est très variable d’une substance radioactive à une autre, comme le montrent ces quelques exemples: 1. Pour l’uranium 238, 2. Pour l’iode 131, 3. Pour le polonium 214, APPLICATION: Notons P la loi de durée de vie sans vieillissement sur de paramètre . ce paramètre est attaché à une substance radioactive, et on admet que, si I est un intervalle contenu dans désigne la probabilité pour un noyau donné de cette substance de se désintégrer à un instant . i) Calculer et préciser ce que représente ce nombre ( t et s désignent des nombres réels positifs ). ii) Calculer en fonction de le temps tel que : Ce nombre est appelé la demi-vie, ou période, de l’élément radioactif considéré. iii) Comme la constante , la demi-vie est très variable d’un élément à l’autre. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 42 a) Le carbone 14 a une demi-vie de 5730 années; calculer sa constante de désintégration annuelle. b) La constante de désintégration annuelle de l’Uranium 238 est de environs. Quelle demi-vie peut-on en déduire pour l’Uranium 238. Remarques sur l’utilisation du logiciel pour la loi exponentielle : De manière synthétique, il convient de souligner que les préfixes d,p,q et r gardent la même signification que pour les lois binomiale et de Poisson en remplaçant les suffixes bin et pois par exp. A titre illustratif, on peut se faire une idée sur la représentation graphique de la densité de la loi exponentielle, en tapant (et en s’efforçant de comprendre le sens de chaque expression tapée) la syntaxe : curve(dexp(x),xlim=c(0,10),col="red",lwd=2,main="Densité de la loi exponentielle ") Le résultat obtenu est : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 43 0.6 0.4 0.0 0.2 dexp(x) 0.8 1.0 loi exponentielle 0 2 4 6 8 10 x I.4.3.3. Loi normale de Laplace‐ ‐Gauss Cette loi joue un rôle de premier plan en théorie des probabilités et dans les applications pratiques. Sa particularité fondamentale est que c’est une loi limite vers laquelle tendent les autres lois pour des conditions se rencontrant fréquemment dans les applications pratiques. La densité de probabilité de la loi normale de moyenne donnée par l’expression : et d’écart-type est ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 44 Exercice: Montrer que cette fonction définit réellement une densité de probabilité. Propriétés: 1) La courbe de cette densité de probabilité est une courbe en cloche symétrique, , correspondant au point . d’ordonnée maximale On peut le remarquer en observant cette densité(obtenue par pqrs) de probabilité de la loi normale de moyenne 175 et d’écart-type 10. Si l’on veut obtenir cette même courbe normale grace au logiciel taper la syntaxe : , il suffit de curve(dnorm(x,mean=170,sd=10),xlim=c(140,210),col="red",lwd=3,main="Loi normale de moyenne 170 et de sd 10") dont les résultats sont : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 45 0.03 0.02 0.01 0.00 dnorm(x, mean = 170, sd = 10) 0.04 Loi normale de moyenne 170 et de sd 10 140 150 160 170 180 190 200 210 x 2) L’espérance mathématique de la loi normale vaut vaut . tandis que sa variance En d’autres termes, en considérant la densité de probabilités ci-dessus on a : 3) En réduisant cette loi (i.e. en la divisant par ) et en la centrant (soustraire ), on obtient la loi normale centrée réduite de moyenne 0 et d’espérance 1. Cette double opération correspond à faire le changement de variable qui conduit à l’intégrale qui, heureusement, est tabulée. Avant d’illustrer cette démarche par quelques exemples, précisons que sous , les préfixes r,d,p,q gardent la même signification déjà explorée lorsqu’ils suivis des suffixes binom, pois et exp correspondant respectivement à la loi binomiale, de Poisson et exponentielle lorsqu’on utilise la fonction norm pour la loi ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 46 normale. Exemples: 1) Admettons que la taille moyenne de l’étudiant d’une université est évaluée à 170 cm avec un écart-type de 4. Une foule de 900 étudiants de cette université se trouve dans un stade. Combien parmi eux (environs), ont une taille supérieure à 177cm? On admet que les tailles sont distribuées normalement. 2) Trente mille étudiants ont passé les examens d’Etat et la note moyenne est de 62% avec un écart-type de 5. Le gouvernement dispose de 4000 bourses et décide de les donner à ceux qui vont se distinguer. Vous êtes consulté pour fixer la note à partir de laquelle la mention Distinction doit être accordée de manière à ce que ces quatre mille bourses suffisent. Proposez cette note en admettant que ces notes varient normalement. REMARQUES : 1) Il est connu que pour une loi normale de moyenne d’écart-type , et C’est pour cette raison qu’on dit que 1.96 est le coefficient de confiance à 95 % (ou au risque de 5 %), pour un test bilatéral. D’autre part C’est pour cette raison qu’on dit que 2.58 est le coefficient de confiance à 99 % (ou au risque de 1 %), pour un test bilatéral. Exercice : Vérifier ces affirmations par le logiciel 2) Il est également connu que pour une loi normale des paramètres cihaut, C’est pour cette raison qu’on dit que 1.645 est le coefficient de confiance à 95 % (ou au risque de 5 %), pour un test unilatéral droit. D’autre part, ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 47 C’est pour cette raison qu’on dit que 2.33 est le coefficient de confiance à 95 % (ou au risque de 5 %), pour un test unilatéral droit. Pour ce qui est des tests unilatéraux gauches, il convient de remarquer que : C’est ainsi que suivant le même schéma, -1.645 et -2.33 sont des coefficients de confiance respectifs à 95 % et à 99 % pour un test unilatéral gauche. Exercices : Vérifier ces affirmations par le logiciel I.5. Approximations Relation entre la loi binomiale et la loi normale Comme le précisent bon nombre d’auteurs, lorsque n est grand et que ni p ni q ne soient trop proches de zéro, la loi binomiale peut être approchée par la distribution normale correspondant à la variable centrée réduite . Cette approximation est d’autant plus fiable que n est croît. Dans la pratique, cette approximation est très bonne lorsque tous les deux supérieurs à 5. et sont Remarque: Comme nous le verrons pour les exercices d’illustration, lorsque l’on fait l’approximation des lois discrètes (Binomiale et Poissonnienne) par la loi normale qui est continue, il est recommandé d’opérer des corrections de continuité en soustrayant 0.5 à la borne inférieure et en additionnant 0.5 à la borne supérieure de l’intervalle pour lequel on veut calculer la probabilité que la loi discrète y prenne des valeurs en l’approchant par la gaussienne. Relation entre la loi binomiale et la loi de Poisson ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 48 Comme souligné ci-haut, lorsque dans la formule de la loi binomiale, on fait croître le nombre n d’essais en faisant tendre la probabilité de succès p vers zéro, on parle d’évènement rare. Dans la pratique, il s’agit d’évènement rare lorsque le nombre n d’expérience vaut au moins 50 avec . Dans ce cas la distribution binomiale est approchée de façon satisfaisante . par la distribution de Poisson de paramètre Disons enfin que lorsque croît, on peut approcher une loi de Poisson par une loi normale de moyenne et de variance conformément aux propriétés élémentaires de la loi de Poisson établies ci-haut en exercices. Exemples I. On a lancé 500 fois une pièce de monnaie équilibrée. Calculer la probabilité pour que le nombre de faces ne s’éloigne pas de la valeur 250 a) de plus de 10 b) de plus de 30 Solution : a) Il s’agit de la probabilité pour que le nombre de faces soit compris entre 240 et 260; ce qui revient à prendre les valeurs 239.5 et 260.5 en considérant les données continues. En passant aux unités centrées réduites, 239.5 donne que 260.5 donne alors La table de la loi normale centrée réduite donne alors II. On a lancé 120 fois un dé équilibré. Trouver la probabilité que 4 apparaisse a) 18 fois ou moins b) 14 fois ou moins Indications : ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 49 a) 0.3557 b) 0.0885 III. On admet que dans un lac, la longueur des truites d’un an est distribuée à peu près normalement autour d’une moyenne avec un écart-type de 1.4. Quelle est la proportion de ces truites qui a) excèdent 12 (longueur légale minimum pour garder une truite pêchée) ? b) excèdent 10 (nouvelle longueur légale proposée) IV. Pour sa fabrication, une entreprise utilise des rondelles dont le diamètre doit impérativement être compris entre 1180 inches et 1220 inches ; toute rondelle de diamètre situé à l’extérieur de cet intervalle est inutilisable. Un premier fournisseur lui propose des rondelles à 3$ les 1000, et dont le diamètre est distribué normalement autour d’une moyenne de 1200 inches avec un écart-type de 10inches. Un deuxième fournisseur propose, lui, des rondelles à 2.6$ les 1000, dont le diamètre est distribué normalement avec une moyenne de 1200 inches et un écart-type de 15 inches. Quelle est le marché le plus avantageux ?(Utiliser comme critère le prix par rondelle utilisable. On supposera que dans les deux cas, le coût du tri des rondelles est le même.) ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 50 II. ELEMENTS DE THEORIE DE L’INFORMATION II.1. Problèmes de base de la théorie de l’Information Après la première partie où il a été essentiellement question de résoudre certains problèmes relatifs aux probabilités en général (formule des probabilités totales et formule de Bayes) et à quelques lois discrètes et continues d’usage courant, nous avons l’outillage nécessaire pour aborder la théorie de l’information. Il s’agit d’une vaste théorie qui sert de fondement et d’outils dans beaucoup de problèmes liés à l’industrie de l’information. Cette théorie, à divers niveaux, permet d’aborder certains problèmes qu’on peut grouper en trois types: Comme souligné dans l’introduction du cours, la théorie de l’information a pour objet, l’étude des lois quantitatives liées à l’obtention, la transmission, le traitement et la conservation de l’Information. L’obtention, le traitement, la conservation, de toute sorte d’information ont lieu dans tout système de commande. Dans le processus de commande il y a toujours échange d’information entre les différentes parties du système. Pour être transmise l’information doit être convenablement codée, c’est‐à‐dire traduite en une langue de symboles ou des signaux spéciaux. L’un des problèmes de la théorie de l’information est la recherche des méthodes les plus économiques de codage permettant de transmettre une information donnée à l’aide d’une quantité minimale de symboles. Dans un nombre considérable de situations, on dispose d’une source (émetteur) à émission continue et d’un canal de transmission par lequel cette information est transmise à un récepteur. Un autre type de problèmes fondamental consiste à trouver le débit du canal de manière à assurer la transmission de toute l’information sans retard ni déformations. Soulignons enfin qu’une autre catégorie de problèmes de la théorie de l’information consiste à déterminer la capacité des mémoires destinées à la conservation de l’information, de trouver les méthodes d’introduction et d’extraction de l’information de la mémoire sous la forme convenable pour l’utilisation directe. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 51 Pour pouvoir aborder tous ces problèmes il est d’abord nécessaire de savoir mesurer le volume de l’information transmise et conservée, la capacité de transmission des canaux et leur sensibilité aux bruits (déformations) II.2. Entropie comme mesure du degré d’incertitude de l’état d’un système physique Nécessité et définitions Toutes les informations que l’on rencontre dans cette théorie sont en réalité un ensemble de données concernant un système physique. Si l’état d’un tel système était connu d’avance du destinataire, toute transmission d’information serait inutile. L’information transmise concerne donc généralement un certain système physique X pouvant occasionnellement se trouver dans un état quelconque: c’est donc un système caractérisé par un certain degré d’incertitude. Il ne fait pas l’ombre d’un doute que les renseignements que l’on obtiendra sur le système seront d’autant plus importants que l’incertitude du système avant la réception de ces renseignements (à priori) était grande. C’est donc tout naturellement que la question suivante s’impose: Que signifie un degré d’incertitude plus ou moins grand et comment peut-il être mesuré? Pour mieux répondre à cette question, il est utile de comparer par intuition deux systèmes simples et très familiers caractérisés chacun par une certaine incertitude. Premier système: Considérons une pièce de monnaie équilibrée qu’on s’apprête à jeter en l’air. Ce système n’a que deux états possibles: pile et face. Second système: Considérons un dé équilibré que l’on doit jeter en l’air. Nous savons bien que ce système n’a que six états possibles: 1,2,3,4,5,6. Lequel de ces deux systèmes possède l’incertitude la plus grande? Il est trivial que c’est le second vu que le nombre de ses états possibles est plus grand. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 52 Toute fois, il ne faudrait pas qu’à cause de ce seul exemple on commette l’erreur de conclure que le degré d’incertitude d’un système ne dépend que du nombre de ses états! Montrons par un autre exemple qu’en général ce n’est pas vrai. Considérons deux systèmes physiques ayant le même nombre d’états: Système 1 : Un dispositif technique dont la probabilité de tomber en panne est de 0.01 et celle d’être en bon état 0.99 Les deux états de ce système sont: tomber en panne et fonctionner normalement. Le degré d’incertitude de ce système est très faible étant donné qu’il est raisonnable de supposer qu’il fonctionnera normalement. Système 2: Pour le jet d’une pièce de monnaie équilibré il y a également deux états (équiprobables) mais on convient que l’incertitude est bien plus grande que dans le système 1. De ce qui précède on conclut que: le degré d’incertitude d’un système physique est déterminé non seulement par le nombre de ses états possibles mais également par la probabilité de ses états. En général, on considère un système X pouvant prendre un nombre fini d’états avec les probabilités respectives où est la probabilité que le système X se trouve dans l’état . Comme pour les variables aléatoires, on arrange ces données sous la forme d’un tableau où la ligne supérieure comporte les états possibles du système tandis que la ligne inférieure comporte les probabilités correspondantes: Il convient de souligner la forte ressemblance entre un système physique à un nombre fini d’états et une variable aléatoire. Cependant il y a aussi une grande différence dans la mesure où pour un système physique, les états ne sont pas forcément de nombres et même lorsque c’est le cas, le degré d’incertitude d’un tel système dépend uniquement du nombre de ses états (et pas de leurs valeurs) ainsi que des probabilités de ces états. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 53 Pour mesurer l’incertitude d’un système physique, on utilise la notion d’entropie; qui est fondamentale dans cette théorie. Définition 1: On appelle entropie d’un système physique, la grandeur Quelles sont les propriétés principales qui font de l’entropie la meilleure caractéristique du degré d’incertitude d’un système? Remarquons tout d’abord que le signe (‐) devant l’expression de H a pour but de nous assurer de la positivité de l’entropie étant donné que les quantités sont négative suite au fait que . Propriétés fondamentales i) L’entropie s’annule lorsque l’un des états est certain ii) Pour un nombre donné d’états, l’entropie est maximale lorsque ces états sont équiprobables et augmente avec le nombre d’états. ii) L’entropie est additive, i.e. lorsque plusieurs systèmes indépendants se trouvent réunis en un seul, leurs entropies s’ajoutent. Une précision s’impose concernant la base du logarithme dans la formule : . On peut prendre un base quelconque car, nous savons depuis notre jeunesse, que la formule : permet le passage du logarithme en base a au logarithme en base b lorsque le besoin se pose. Ainsi, le passage des logarithmes de base 2 aux logarithmes népériens se fait pacifiquement grâce à la formule: Comme le choix d’une base équivaut à une simple multiplication de l’entropie par un nombre constant, on se convient que choisir une base revient à choisir ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 54 une unité de mesure de l’entropie. Si l’on choisit pour base le nombre 10, on parle d’unités décimales d’entropie tandis que si c’est le nombre 2 qui est base on parle d’unités binaires. Existe‐ ‐t‐ ‐il une base meilleure par rapport à d’autres bases possibles? La question semble tendancieuse mais les spécialistes de Théorie de l’Information y répondent par l’affirmative. Ils affirment que 2 est la meilleure base pour une multitude des raisons dont voici deux: ‐ La base 2 s’accorde bien avec les mœurs informatiques étant donné que dans les calculatrices électroniques les informations sont représentées en systèmes binaires. ‐En choisissant 2 comme base des logarithmes, l’unité de mesure de l’entropie est l’entropie d’un système simple X ayant deux états équiprobables: En effet, pour un tel système: Cette unité est appelée unité binaire ou bit (binary digit = chiffre binaire). C’est en fait l’entropie d’un rang d’un nombre binaire pouvant avec la même probabilité être égal à zéro ou à l’unité. Ainsi, suite à ce choix, même lorsqu’aucune précision ne sera donnée, l’écriture signifiera dans toute la suite, sauf indication contraire, . Nous nous servirons de temps en temps du résultat suivant: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 55 Résultats fondamentaux et calculs L’entropie d’un système ayant un nombre fini d’états est maximale lorsque les états sont équiprobables et vaut le logarithme du nombre d’états. En effet, si nous avons un système ayant n états équiprobables, son entropie vaut : Exemple: L’entropie d’un système à 32 états équiprobables est égale à tandis que celle à 8 états équiprobable vaut Considérons un système à n états des probabilités respectives . Son entropie est une fonction à n variables dont nous devons chercher l’extrémum en tenant compte du fait que les variables sont soumises à la contrainte (ce sont des probabilités respectives de tous les états possibles du système). En utilisant la méthode des multiplicateurs indéterminés de Lagrange, on trouve la fonction de Lagrange associée à la situation: En annulant toutes les dérivées partielles on obtient le système: ce qui équivaut au système: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 56 C’est‐à‐dire: Et on aboutit en définitive au fait que : Ainsi l’entropie d’un système ayant un nombre fini d’état est maximale lorsque les états sont équiprobables et on a dans ce cas: Pour faire face à certaines difficultés calculatoires liées au fait que le calcul du logarithme binaire n’est pas explicite sur certaines calculatrices, les spécialistes ont introduit une fonction notée ( lire eta ) d’finie par: de sorte que l’entropie s’exprime aisément en fonction de par la formule: et les choses sont largement facilitées par le fait que la fonction est tabulée pour des valeurs de 0.01 en 0.01 dans la table en annexe II. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 57 Quelques exercices sur l’entropie : 1. Un système physique (appareil) se compose de deux parties I et II. Dans chacune de ces parties un défaut peut survenir indépendamment de l’autre. Après un certain temps de fonctionnement le système peut se trouver dans l’un des quatre états suivants: i) les deux parties fonctionnent ii) la partie I fonctionne mais la partie II est en défaut, iii) La partie I est en défaut et la partie II fonctionne, iv) les deux parties sont en défaut. Une étude ayant fixé les probabilités de ces différents états respectivement à 0.6, 0.25, 0.1 et 0.05, trouver l’entropie de ce système. Proposition de réponse: 1.49 bit 2. Trouver l’entropie d’un système dont l’état est donné par la loi de répartition d’une variable aléatoire discrète X: 0.01 0.01 0.01 0.01 0.96 Proposition de réponse: 0.322 bit 3. Trouver l’entropie maximale d’un système se composant de trois éléments , pouvant se trouver chacun dans quatre états éventuels. Proposition de réponse: 6 bits 4. Trouver l’entropie maximale d’une communication de 5 lettres, le nombre de lettres de l’alphabet étant égal à 32. Proposition de réponse: 25 bits Remarque: Si pour un système physique à n états des probabilités respectives on remplace chacune de ces probabilités par son logarithme pour obtenir une sorte de variable aléatoire discrète dont les valeurs sont avec toujours les comme probabilités correspondantes, la formule peut s’interpréter comme l’espérance mathématique de la variable aléatoire: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 58 Il résulte de ce tableau que: où P(X) est le logarithme de la probabilité d’un état. Cette subtilité d’écrire l’entropie comme une variable aléatoire permet parfois d’avancer en appliquant à l’entropie les propriétés connues sur l’espérance mathématique. II.3.Entropie d’un système composé Dans cette section, il sera question de calculer l’entropie d’un système composé obtenu par réunion de deux systèmes simples. Deux cas sont théoriquement envisageables: i) Soit les systèmes réunis sont indépendants ii)Soit ils son dépendants Réunion de deux ou plusieurs systèmes indépendants Définitions: On appelle réunion de deux systèmes X et Y d’états possibles X et pour Y, un système composé dont les états toutes les combinaisons possibles des états des systèmes X et Y. Le nombre d’états possibles du système (X,Y) vaut probabilité que le système se retrouve dans l’état On dispose parfois les probabilités pour sont et on désigne par : la sous forme d’un tableau. L’entropie d’un système composé est, comme pour le cas simple, égale à la somme prise avec le signe opposé des produits des probabilités de tous les états possibles par leurs logarithmes respectifs: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 59 En utilisant la notation d’entropie comme espérance mathématique on obtient: où , logarithme de la probabilité de l’état du système est considéré comme variable aléatoire. Si les états X et Y sont indépendants, le théorème de multiplication des probabilités des évènements indépendants nous permet d’écrire: et par conséquent on obtient: et en revenant sur l’entropie En définitive on conclut que l’entropie d’un système composé obtenu par réunion de deux systèmes indépendants est égale à la somme de leurs entropies : En généralisant ce résultat au cas des systèmes indépendants obtient: on Cet important résultat est connu sous l’appellation théorème d’addition des entropies et ne peut donc pas s’appliquer si les systèmes composés ne sont pas indépendants. Dans le cas des systèmes dépendants on a l’inégalité: ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 60 Et pour ce dernier cas, la formule exacte exige la notion d’entropie conditionnelle. Entropie conditionnelle et réunion des systèmes dépendants Considérons deux systèmes X et Y, généralement non indépendants: Supposons que le système X se trouve dans l’état et désignons par la probabilité conditionnelle pour le système Y de se trouver dans l’état lorsque le système Y se trouve dans l’état : De cette relation donnant la probabilité conditionnelle, on déduit naturellement la notion d’entropie conditionnelle du système Y lorsque le système X se et en la désignant par on a par définition: trouve dans l’état De manière équivalente, on peut formuler cette entropie conditionnelle sous forme d’espérance mathématique pour avoir: où le symbole représente l’espérance conditionnelle de la grandeur , pour la condition . A ce stade il se pose tout naturellement la question suivante: L’entropie conditionnelle, telle que définie ci-dessus, dépend de l’état système . du Comment calculer l’entropie moyenne ou totale du système Y compte tenu du fait que le système X peut prendre des états différents? En faisant un clin d’œil à la formule : et en remarquant que ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 61 , il s’avère avisé de multiplier chacune des entropies conditionnelles par la probabilité de l’état correspondant et d’additionner tous les résultats obtenus: La quantité ainsi obtenue se note totale: et s’appelle entropie conditionnelle Par moment, on utilisera des versions équivalentes comme ou encore selon les besoins. La grandeur H(Y|X) caractérise le degré d’incertitude du système Y connaissant l’état du système X. C’est l’entropie totale du système Y conditionnellement à X. Illustration corrigée : Cet exemple très simple illustre clairement comment utiliser le formalisme de l’entropie totale conditionnelle et cette démarche est générale. Considérons deux systèmes X et Y réunis en un seul des états sont données par le tableau suivant: 0.1 0 0 0.2 0.3 0.2 dont les probabilités 0 0 0.2 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 62 Solution : En ajoutant les probabilités colonne par colonne on obtient le tableau: 0.1 0 0 0.1 0.2 0.3 0.2 0.7 On obtient les probabilités 0 0 0.2 0.2 : qui se trouvent sur la dernière ligne du dernier tableau. De manière analogue ajoutons les probabilités trouver: colonne par colonne pour 0.1 0.2 0 0.3 0 0.3 0 0.3 0 0.2 0.2 0.4 On obtient les probabilités qui figurent dans la dernière colonne du tableau. Globalement nous avons le tableau: 0.1 0 0 0.1 0.2 0 0.3 0.3 0 0.3 0.2 0.2 0.4 0.7 0.2 Ce dernier tableau nous permet d’avoir les probabilités conditionnelles : 6 en divisant les par on obtient un tableau des probabilités conditionnelles : 6 Souvenez‐vous que implique que ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 1 0 0 0 0 1 A ce stade, l’utilisation de la formule de trouver : permet , les entropies conditionnelles étant nulles pour On peut appliquer la même démarche pour trouver et . on a: En intervertissant X et Y dans la formule De manière symétrique, trouvons le tableau des probabilités conditionnelles en divisant les par pour avoir: 0 0 0 63 1 0 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 64 Pour revenir à la question initiale qui, rappelons-le, consistait à chercher la formule de l’entropie d’un système composé des systèmes X et Y pas forcément indépendants Résultat: L’entropie d’un système composé des systèmes X et Y est égale à l’entropie d’une de ses composantes plus l’entropie conditionnelle de l’autre par rapport à la première: En effet, En guise d’illustration revenons à l’exemple ci dessus où le système composé est donné par le tableau: 0.1 0 0 0.1 0.2 0.3 0.2 0.7 0 0 0.2 0.2 0.3 0.3 0.4 Nous avons calculé les entropies totales conditionnelles et avons trouvé: et Nous tirons de ce tableau les entropies marginales7 qui sont: et En appliquant la formule de l’entropie d’un système composé on obtient: ou encore : 7 Marginal signifie dans ce contexte, relatif à chacun des composants dans un système composé. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, En combinant les relations il en résulte que: 65 et Cette formule signifie tout simplement que le degré d’incertitude d’un système ne peut pas augmenter du fait que l’on connaît l’état d’un autre système. II.4. Entropie et Information Notions Dans les sections précédentes nous avons défini l’entropie comme la mesure de l’incertitude de l’état d’un système physique. Il est évident que si l’on apprend certaines informations sur le système cette incertitude diminue. En fait, plus on a des données, plus ces dernières sont complètes, plus l’information dont on dispose sur le système est grande et moindre est l’incertitude de son état. Il semble donc tout naturel de mesurer la quantité d’information par, la diminution de l’entropie du système dont les données en question précisent l’état. Considérons un système X. En estimant l’information accumulée au fur et à mesure que l’état du système X devient connu, appelons l’entropie à priori du système. A mesure qu’on obtient des données sur le système, l’entropie diminue et lorsque le système devient entièrement connu, l’entropie devient nulle. En notant l’information obtenue avec la détermination de l’état du système X, on peut admettre l’égalité : Cette formule signifie que la quantité d’information acquise lorsque l’état d’un système physique devient entièrement connu est égale à l’entropie de ce système. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 66 On a donc : Comme est la somme des termes , chacun, multiplié par la probabilité , il est naturel de considérer chaque terme comme l’information fournie par une communication particulière selon laquelle le système X se trouve dans l’état . On désigne cette information partielle L’information et on a sera alors l’information moyenne ou totale obtenue de toutes les communications, compte tenue de leurs probabilités respectives. Si tous les états possibles du système du système sont à priori équiprobables , l’information particulières de chacune des communications est égale à l’information moyenne totale. Dans le cas où les états du système ont des probabilités différentes, la plus grande information est contenue dans des communications sur les évènements qui, à priori, étaient les moins probables. Quelques exemples Exemple 1: Une pièce du jeu d’échecs se trouve sur une case d’un échiquier. A priori toutes les positions des pièces sont équiprobables. Déterminer l’information contenue dans la communication indiquant la case occupée par la pièce. Réponse: 6 bits Exemple 2 : Pour les conditions de l’exemple 1, trouver l’information de la communication que la pièce occupe un des coins de l’échiquier. Réponse: 4 bits ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 67 Exemple 3 Trouver l’information particulière d’une contenue dans la communication d’une personne A rencontrée pour la première fois: Aujourd’hui c’est mon anniversaire. Réponse: 8.51 bits Important: Si l’information est mesurée en bits on peut lui donner une interprétation assez simple: c’est le nombre de réponse OUI et NON fournissant la même information. En effet, considérons un système X à deux états respectives et . et des probabilités Pour trouver l’état de ce système il suffit de poser une seule question, par exemple de demander si le système se trouve dans l’état . La réponse OUI ou NON à cette question fournit une certaine information, atteignant la valeur maximale 1 lorsque les deux états a priori sont équiprobables . Ainsi l’information maximale donnée par la réponse OUI ou NON est égale à 1 bit. Il en résulte que si l’information obtenue d’une communication est égale à n bits, elle est équivalentes à l’information donnée par n réponses OUI ou NON à des questions posées de telle sorte que des les OUI et NON soient équiprobables. Dans certains cas simples pour déterminer le contenu d’une information on arrive à poser des questions de telle sorte que les réponses OUI et NON à ces questions soient équiprobables. Dans ces cas l’information se mesure par le nombre de questions posées. Exemple: Quelqu’un a pensé à un nombre entier X tel que . Trouver le nombre minimal de questions auxquelles il faut répondre OUI ou NON pour avoir toute l’information. Solution: Calculons d’abord l’information contenue dans la communication ci‐dessus: toutes les valeurs de X étant a priori équiprobables on a: et bits. on obtient ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 68 Le nombre minimal de questions qu’il faudra poser pour trouver le nombre retenu est donc supérieur ou égal à trois ou alors exactement égal à trois si les questions sont formulées de telle manière que les probabilités des réponses OUI ou NON soient égales. Vérification: Supposons que le nombre retenu est 5. Dans l’ignorance du nombre retenu on peut poser les questions suivantes: Q1: le nombre X est-il inférieur à 5? R1: NOM CONCLUSION: X est l’un des nombres 5, 6, 7 et 8 Q2: Le nombre X est-il inférieur à 7? R2: OUI CONCLUSION: X est l’un des nombres 5, 6 Q3: Le nombre X est-il inférieur à 6? R3: OUI CONCLUSION: X est égal à 5 Exercice: On tire sur une cible n coups indépendants; la probabilité d’atteindre le but avec un coup est égale à 0.3. les résultats du tir ne peuvent être observés directement. Après le k-ième coup on examine la cible pour voir si elle a été atteinte ou non; si oui on ne tire plus dessus. Quelle doit être la valeur de k si l’on veut que la quantité d’information fournie par l’examen de la cible soit maximale? II.5. Introduction aux problèmes du codage des communications: approche qualitative. Dans cette section, nous donnons juste les notions de base en nous limitant volontairement à l’aspect purement théorique. Notions et définitions Lorsqu’on transmet une information on est toujours obligé d’utiliser un code quelconque, c’est‐à‐dire à représenter les messages sous forme d’une suite des signaux. Parmi les exemples les plus connu, on peut citer l’alphabet Morse adopté en télégraphie pour la transmission des communications verbales. Avec ce code on représente une communication quelconque sous la forme d’une combinaison des signaux élémentaires: point, trait, pause (espace entre lettre), ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 69 pause longue(espace entre mots). Définitions: On appelle codage la représentation de l’état d’un système physique à l’aide de l’état d’un autre système. Dans le cas le plus simple de codage, les deux systèmes X et Y (à représenter et représentant) ont un nombre fini d’états possibles. Considérons un certain système X pouvant prendre de manière aléatoires l’un des états . Nous voulons le coder à l’aide d’un autre système Y, dont les états possibles sont . Si on arrivera pas à mettre en correspondance chaque état du système X avec un état de Y. On doit représenter alors chaque état du système X par une combinaison (suite) d’états du système Y. Le choix de ces combinaisons et l’établissement d’une correspondance entre les communications à transmettre et ces combinaisons constitue le codage au sens strict du terme. Les codes se distinguent les uns des autres par le nombre de symboles élémentaires servant à former une combinaison, c’est‐à‐dire par le nombre d’états possibles du système Y. Un code à deux symboles élémentaires (0 et 1) s’appelle binaire et il convient de signaler que les codes binaires sont actuellement trop utilisés dans la pratique, surtout pour l’introduction de l’information dans les calculatrices électroniques fonctionnant en système binaire. Comme une même communication peut être codée de différentes manières, il se pose tout naturellement le problème du code optimal. Il est normal de considérer comme optimal un code assurant la durée minimal de transmission. Si la transmission d’un symbole élémentaire prend le même temps, le code optimal sera celui pour lequel la transmission d’une communication nécessitera un nombre minimal de symboles élémentaires. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 70 Problèmes du codage: approche élémentaire Pour commencer, supposons qu’il y ait lieu de représenter en code binaire les lettres de l’alphabet français de telle sorte qu’à chaque lettre corresponde une certaine combinaison des symboles élémentaires 0 et 1 et que le nombre moyen de ces symboles par lettre du texte soit minimal. Nous avons 26 lettres de l’alphabet français: a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z auxquelles il faut ajouter l’intervalle entre les mots qu’on désigne par ‐ et l’apostrophe ’ ainsi que les lettres é,è,à,ù; ce qui fait un total de 31 lettres. La première idée est d’attribuer aux lettres, sans en changer l’ordre, un numéro de 0 à 30, puis de transformer cette numérotation en système binaire. A titre d’exemple, 25 en système binaire s’écrira 11001. et par conséquent, Comme chacun des nombres de 0 à 30 peut être représenté par un nombre binaire à 5 chiffres on obtient le code suivant: a=00000 b=00001 c=00010 d=00011 ......... z=11001 (-) = 11010 é=11011 è=11100 à=11101 u=11110 Dans ce code il faut exactement cinq chiffres élémentaires pour représenter une lettre. Il se pose alors la question de savoir si ce code est optimal et s’il n’est pas possible de trouver un autre code dans lequel pour une lettre il faut en moyenne moins de symboles élémentaires. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 71 Une lacune évidente est que pour ce code on a utilisé le même nombre de symboles aussi bien pour les lettres fréquents comme a,e,o que pour les lettres rares comme v,w,x,y,z. Il serait plus raisonnable d’utiliser pour les lettres fréquentes moins de symboles que pour les lettres rares. Le problème est que pour établir un tel code il faudrait connaître la fréquence d’emploi des lettres de l’alphabet français. Il existe de telles données tabulées où les lettres sont disposées par ordre décroissant des fréquences. Voici un des tableaux les plus utilisés à cet effet8 : Lettre Fréquence Lettre Fréquence ‐ e a i n t r u f v b q b è g j 0.164 0.145 0.081 0.077 0.063 0.063 0.053 0.053 0.010 0.009 0.009 0.008 0.007 0.005 0.005 0.005 l o s p d c m é à x z y ù w k 0.051 0.043 0.038 0.028 0.028 0.023 0.017 0.012 0.002 0.0004 0.0002 0.0001 0.0001 0.0001 0.0001 En utilisant ce tableau on peut établir le code le plus économique basé sur la quantité d’information. Le code le plus économique est celui pour lequel chaque symbole élémentaire transmet le maximum d’information. Nous avons par ailleurs que l’information est maximale dans le cas où les deux états du système binaire représentant sont équiprobables; cas dans lequel 8 SOURCE: Hélène Ventsel [8] , page 510 ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 72 l’information transmise par chaque symbole vaut 1 bit. C’est la raison pour laquelle, on met à la base du codage optimal la condition que les symboles élémentaires dans un texte codé soient en moyenne également fréquents. II.6. Code de Shannon-Fano (notions élémentaires) Voici en bref, une méthode de construction d’un code optimal connu sous l’appellation: code de Shannon-Fano. Les symboles codés (lettres et combinaisons de lettres) sont répartis en deux groupes à peu près équiprobables: dans le premier groupe de symboles à la première place des combinaisons de code on met 0 tandis que dans le second groupe le nombre binaire commence par 1. Puis de nouveau chaque groupe est divisé en deux sous‐groupes à peu près équiprobables; pour les symboles du premier sous‐groupe on met le zéro à la seconde place; dans le second sous‐groupe l’unité et on réitère le processus autant de fois qu’il sera nécessaire. Illustrons cette méthode sur l’alphabet français. En faisant les fréquences cumulées, on obtient 0.467 au niveau de n et on en déduit que la somme des fréquences des autres lettres de n à k vaut : 1‐ 0.467 = 0.533 Ainsi, les quatre premières lettres auront à la première place du code le signe binaire 0, les autres lettres l’unité. Divisons de nouveau le premier groupe en deux sous‐groupes à peu près équiprobables: de ‐ à e et de a à i. Pour toutes les lettres du premier on mettra 0 à la seconde place et pour toutes celles du second sous‐groupe on mettra l’unité. ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 73 On continue ainsi jusqu’à ce que dans chaque groupe il ne reste qu’une seule lettre qui sera codé par un certain nombre binaire. Le deux tableaux suivants (annexe 3) permettent de comprendre le mécanisme: le tableau noté 18.8.2 permet de comprendre le principe de formation du code et le code lui‐même est donné dans le tableau 18.8.3 En se servant du dernier tableau, on peut coder et décoder n’importe quelle communication. Exemples Exemple 1: En utilisant le code de Shannon-Fano, écrire en code binaire la phrase: théorie de l’information Exemple 2: Décoder par le même mode, la phrase suivante: 1111011111001111000110001111000110001111010111001111000101111111 10001 Remarque importante: Une erreur de codage (confusion accidentelle des signes 0 et 1 ) est dans un tel code funeste car le décodage de toute la partie du texte suivant l’erreur devient impossible. C’est pourquoi ce principe de codage n’est recommandé que lorsque les erreurs de codage et de transmission de la communication sont pratiquement exclues. Il se pose tout de même la question de savoir si un tel code est, en l’absence d’erreur , optimal. Pour répondre à cette question, il convient de chercher l’information moyenne rapportée à chaque symbole élémentaire ( 0 et 1 ) et la comparer à l’information maximale qui est égale à 1 bit. L’information moyenne contenue dans une lettre H(l) du texte transmis est l’entropie d’une lettre: étant la probabilité pour que la lettre prenne un certain état (‐ ‐, a, b, c, ..., z, é, è, à, u). ISIG Goma 2010-2011, Probabilités et Théorie de l’Information (brouillon). Lucien Zihindula Biguru, 74 A partir du tableau des distributions des fréquences des lettres on a: bits par lettre du texte. A partir du tableau 18.8.2 on trouve le nombre moyen de symboles élémentaires par lettre: En divisant par on obtient l’information par symbole élémentaire: Ainsi, l’information rapportée à un symbole est très voisine de sa limite supérieure 1 et donc le code de Shannon Fano est optimal. Il convient de préciser que le codage de Shannon-Fano est loin d’être parfait dans la mesure où il y a toujours, dans un texte sensé, corrélation entre certaines lettres. En français par exemple, après un q il y a presque toujours un u, des combinaisons comme pb sont impossibles...