MODÈLES ET DONNÉES @ L'Harmattan, 1998 ISBN: 2-7384-7383-0 François BA VAUD MODÈLES ET DONNÉES Une introduction à la Statistique uni-, bi- et trivariée L'Harmattan 5-7, rue de l'École Polytechnique 75005 Paris - FRANCE L'Harmattan Inc. 55, rue Saint-Jacques Montréal (Qc) - CANADA H2Y lK9 A vant propos A propos de l'ouvrage: les pages qui suivent ont été rédigées à partir d'un enseignement de Statistique destiné à un public de Sciences Humaines, composé de psychologues, linguistes, géographes, sociologues, criminologues et politologues. Cet ouvrage vise à accompagner un premier enseignement de Statistique formelle, et ne constitue pas en soi un manuel de méthodologie ou d'introduction à la recherche; on imagine que l'étudiant se familiarisera avec ces derniers au moyen de travaux pratiques, de lectures ou de cours supplémentaires! . Quelques sujet: traits caractérisent cet ouvrage par rapport aux très nombreux livres traitant du . Ce livre est un manuel, incluant définitions, exemples et exercices à faire" à la main", c'est-à.-dire avec tables et calculettes, et corrigés. L'abondance de ces derniers ne vise pas à développer la virtuosité technique du lecteur (à l'heure où un simple clic génère une myriade d'analyses), mais cherche plutôt à le familiariser avec les procédures et leurs applications possibles, et à faire la différence entre une simple compréhension passive et une réelle appropriation de l'objet. . . à un niveau ne On n'a pas hésité à utiliser des concepts et notations mathématiques, dépassant toutefois pas celui du baccalauréat littéraire. La concision et la précision que permettent l'écriture formelle expliquent partiellement ce choix, auquel il faut rajouter la volonté délibérée d'utiliser les compétences mathématiques du lecteur, qui existent de toute évidence, même si ce dernier s'en défend. Le premier chapitre, consacré à un bref rappel des notions de base, devrait amplement suffire à rafraîchir les quelques notions utilisées ici. La suite de l'ouvrage ne contient aucune démonstration, et très peu de théorèmes énoncés comme tels. La vertu principale d'un exemple étant sa transparence et non son réalisme, nous n'avons éprouvé aucun remords à recourir, très classiquement, aux objets idéaux (et certes éloignés des préoccupations des Sciences Humaines) que sont les pièces de monnaie et les dés. L'accent est mis sur la compréhension des raisonnements statistiques, en particulier inférentiels, au détriment parfois de l'exhaustivité technique: tôt ou tard, le lecteur rencontrera sur sa route un logiciel statistique effectuant tous les calculs demandés (et bien d'autres encore), et sa compétence déterminante consistera bien plus à garder les idées claires que d'effectuer manuellement les algorithmes avec virtuosité. Cet effort porté sur les concepts inférentiels intéressera, nous l'espérons, les épistémologues, quitte à renvoyer les amateurs impatients de recettes immédiates ver~ d'excellents "cook-books" facilement disponibles. Dans la mesure du possible, l'exposition formelle a été doublée d'un commentaire lsi possible après (ou pendant) la fréquentation de son premier cours de Statistique plutôt qu'avant, pour de simples questions de contenus. 6 . intuitif, ce qui permet de signaler la présence éventuelle ou paradoxales, si fréquentes en Statistique. de situations contres-intuitives Cet ouvrage peut se lire à deux niveaux: le premier contient le matériel typique d'une première année de Statistique, et beaucoup de lecteurs s'en contenteront. Le second, contenant les sections précédées d'une astérisque (*), se compose de développements plus approfondis, ou de parties plus ardues composées de "spécialités" diverses, que l'on trouve généralement exposées dans des ouvrages plus avancés. Parmi ces dernières, mentionnons les notions d'entropie et de divergence, de hasard "sauvage" et de distributions parétiennes, de théorie de détection du signal, de transformations de variables, de relations entre trois variables et de sélection de modèles, ainsi qu'une introduction à l'analyse des séries temporelles numériques et catégorielles. Aux étudiants: revendiquant un statut scientifique complet pour leur discipline, les professionnels en Sciences Humaines se doivent d'assurer la formation des étudiants et chercheurs à la collecte, à l'analyse et à l'interprétation des données, en bref à la Statistique appliquée. C'est le début d'une aventure passionnante pour les uns, parmi lesquels figure l'auteur, et d'un cauchemar pour les autres, dont de nombreux étudiants, qui ne s'attendaient pas du tout à ce coup-Ià. Avant de pouvoir mener l'étudiant devra en principe . . . . se familiariser son utilisation exemple) . à bien une recherche complète dans toutes les règles de l'art, avec la face externe ou méthodologique de la Statistique qui est celle de dans une discipline donnée (telle que la Psychologie ou la Géographie par se familiariser avec la face interne ou mathématique ou encore statistique au sens propre de la Statistique quLest celle de son organisation et de sa validité interne, et à qui le présent ouvrage est consacré. en particulier, maîtriser de très nombreuses et diverses difficultés ment justifier tel calcul, et comment l'effectuer) que conceptuelles et assurer l'emploi de méthodes et raisonnements valides). tant techniques (com(comment comprendre pouvoir revenir à l'objet de départ, Le. savoir critiquer, sélectionner et retranscrire les résultats de ses analyses en termes intelligibles et pertinents, sans se noyer (et noyer son public) dans une foule d'indicateurs et de tests statistiques mal digérés. Longue est la route pour le néophyte: pour parvenir à boucler ce cycle, l'étudiant devra se faire tour à tour, et à des degrés divers, théoricien, observateur, informaticien, mathématicien et épistémologue. La diversité des compétences associées à la pratique de la Statistique, attrayante pour le spécialiste, constitue un obstacle supplémentaire pour le débutant, qui aura à mettre au point sa propre méthode d'apprentissage. . Pour éviter tout malentendu, l'étude de la Statistique précisons que l'auteur ne croit pas que est facile, rapide, et couronnée de succès dès la première tentative. . toute capacité à comprendre la moindre formule ou à effectuer le moindre calcul est irrémédiablement détruite chez les malheureux qui entreprennent des études de Sciences Humaines. 7 . . l'introjection massive de nouvelles notions, jamais critiquées, et la régurgitation incessante des mêmes formules suffit à assimiler concepts et méthodes statistiques, sans efforts de digestion ni même nécessité de penser. il ne faut jamais alterner les stratégies d'apprentissage, mais choisir une fois pour toutes entre une attitude" locale" , volontariste et obstinée, interprétant toute instruction au pied de la lettre, ou une attitude" globale" , souple et légère, visant uniquement la synthèse sans jamais s'arrêter sur les détails. . on peut assimiler concepts et méthodes statistiques cours ou par contact tactile avec des photocopies. par osmose, par simple présence au L'expérience montre que, le premier moment de stupeur passé, la plupart des personnes parviennent à surmonter leurs réticences initiales, à mener à bien leurs analyses et à les interpréter correctement. Malgré nos voeux les plus chers, cette compétence n'est pas universelle: il existe une minorité d'étudiants pour lequel un enseignement de statistique constitue un supplice certain (et réciproque, assurons-le). Faut-il alors absolument passer par là? La vie offre en effet bien d'autres joies que celles de la Statistique. Dans les cas d'incompatibilité majeure, consacrer ses ressources à d'autres activités plus inspirantes et inspirées constitue ultimement un service rendu à l'humanité. Hélas, la plupart des règlements obligent l'étudiant réfractaire à suivre un tel enseignement; qu'il essaie alors de prendre son malheur avec philosophie, et se réconforte peut-être par la pensée que de telles infortunes, pas plus que les séances chez le dentiste, ne sauraient durer éternellement. De telles détresses peuvent provoquer chez lui rancoeur et sentiment de révolte: qu'il les décharge alors de façon non violente, en tapant sur un matelas par exemple. Le plus souvent cependant, c'est la dépression et la mésestime de soi qui guettent le lecteur en perdition; nous l'exhortons alors très sincèrement à ne pas sombrer dans le désespoir: ne rien comprendre à la Statistique n'empêche en rien quiconque d'être une personne respectable, aimable, et digne d'estime. François Bavaud octobre 1998 Remerciements: à Roland Capel, Denis Monod et Jean-Pierre Müller pour des échanges nombreux et stimulants. Merci à Jean-Marc Faillétaz et Jean-Philippe Antonietti pour leur contribution aux exercices, et à Olivier Zuchuat et David Carrillo, pour leur contribution supplémentaire à la typographie et à la relecture du texte. Le document doit beaucoup aux questions et remarques des étudiants, à qui va toute ma gratitude. Chapitre 1 Rappels mathématiques 1.1 Définitions et théorèmes Les énoncés ou propositions . . mathématiques sont de deux sortes, à savoir soit de l'ordre de la définition d'un objet ou d'une propriété, comme dans l'énoncé "soit f(x) la fonction (1-x)2". Les axiomes, qui sont des enoncés dont la vérité, postulée à priori, n'est pas matière à discussion, sont par là de même nature que les définitions. Définitions et axiomes apparaissent en principe au début de tout traité formel de mathématiques. soit de l'ordre du théorème, lequel consiste (au sens large) de toute proposition vraie, mais dont la vérité découle plus ou moins directement de celle des définitions et axiomes initiaux. Le procédé permettant de faire découler la vérité des propositions dérivées ou théorèmes à partir de celle des axiomes ou définitions constitue une démonstration ou preuve. Cette démarche, qualifiée de déductive, est fort bien balisée et étayée d'un point de vue logique, en contraste avec la démarche inductive que l'on abordera plus loin avec la pratique des tests statistiques dite aussi statistique inférentielle. Afin de distinguer entre les deux types d'énoncés (définitions et théorèmes), il est commode d'ajouter dans le cas d'une définition le signe":" entre l'objet à définir et l'égalité le définissant; ainsi, l'expression" f(x) := (1 - x)2" indique une définition (en l'occurrence celle de f(x)), équivalente à "soit f(x) la fonction (1 - x)2". Par contre, "f(x) = 1 - 2x + x2" indique un théorème, susceptible d'être par exemple démontré à partir de la définition" f(x) := (1 - x)2" et de quelques manipulations mathématiques simples. 1.2 Algèbre, points, 1.2.1 Arithmétique fonctions La pratique manuelle de la statistique, Le. avec tables et calculettes (que l'on oppose ici à la pratique informatique de la statistique), requiert une connaissance minimale de l'arithmétique et de l'algèbre; en dehors des quatre opérations + - x l, il s'agit essentiellement de pouvoir calculer des racines carrées et des élévations à la puissance xn. Les factorielles n! et coefficients binomiaux également ( ) ~ acquérir .;x intervenant dans le cas de la loi binomiale (ou retrouver) une familiarité minimale seront définis plus loin. Il faudra avec les logarithmes (ex: entropie, CHAPITRE 1. RAPPELS MATHEMATIQUES 10 transformation des scores, modèles log-linéaires), et la fonction exponentielle exp(x) (ex: Loi de Poisson); les fonctions trigonométriques sin(x) et cos(x) interviendront dans les applications plus avancées (ex: séries temporelles, données directionnelles, interprétation géométrique de la corrélation). Bien que, dans la pratique statistique, toutes ces fonctions soient intégrées dans un logiciel ad hoc, et donc invisibles en tant que telles à l'utilisateur, il est nécessaire d'avoir fait au moins une fois tous les calculs à la main (i.e. au moins à l'aide d'une calculette), au risque de perdre contact avec la signification réelle d'une opération statistique et de ne pas pouvoir conserver une distance critique adéquate face à une sortie de logiciel. Les nombres que manipule le statisticien sont, en toute généralité, des nombres réels (i.e. pouvant être mis en correspondance exacte avec les points d'une droite munie d'une origine (le zéro) et d'une unité (+1)), arrondis à une certaine décimale. Cet arrondi peut résulter d'une imprécision de mesure (par exemple l'âge d'une personne défini à un an près) ou d'une imprécision de calcul; il est bien entendu souhaitable de conserver autant de précision que possible (sauf contre-indication explicite, telle qu'un regroupement des nombres en classes pour améliorer la lisibilité); cependant l'erreur à absolument éviter est d'avoir une précision de calcul supérieure à la précision de la mesure: il est par exemple absurde de donner comme résultat final une distance de 16.09 miles entre deux localités dont on sait qu'elles sont "distantes de dix kilomètres". Ou bien, avoir lu dans une édition datant de 1970 que le système solaire a 5 milliards d'années n'autorise pas de dire en l'an 2000 que le système solaire a 5'000'000'030 années. De même, si 4 personnes sur 15 sont favorables à un changement, déclarer un taux d'acceptation de 26.66% est soit maladroit soit franchement coupable, puisqu'une telle précision (portant sur la quatrième décimale) ne peut être obtenue, au sens strict, que sur un échantillon d'au moins 1/0.0001 = 10000 individus. Les nombres sont ordonnés par les relations ">" (plus grand que), "~" (plus grand ou égal que), (plus petit que), "~" (plus petit ou égal que). Les nombres strictement positifs "<" sont les réels> 0, les nombres positifs sont les réels 2: 0 (définition analogue pour les négatifs). La multiplication (ou la division) de deux nombres de même signe (i.e. tous deux positifs ou négatifs) donne un nombre positif; la multiplication (ou la division) de deux nombres de signe opposé donne un nombre négatif. La valeur absolue d'un nombre x, notée lxi, est égale à x si x ~ 0, et à -x sinon. Par exemple, 131= 3 et I - 31 = 3. L'expérience montre que la division ou la multiplication par 0 ou par 00 (l'infini, qu'il faut s'efforcer de penser comme une limite plutôt que comme un nombre réel qu'il n'est pas) peut prêter à confusion. a=/:O désignant un nombre fini, on a toujours: a'O=O Par contre, les opérations des réels: ~ suivantes -? 00 _? 00 Points et coordonnées 0-' 1.2.2 a.oo=oo o . 00 ~=o 00 ~=:f:oo o sont soit indeterminées, =7 00=7 aD soit impraticables = 1 (1.1) dans l'ensemble vnombre strictement négatif =7 (1.2) Chaque fois que faire se peut, les résultats numériques seront représentés graphiquement, pour la raison simple et fondamentale que le système nerveux humain est très performant pour reconnaître des formes (patterns), et très inefficace pour appréhender globalement un tableau 1.2. ALGEBRE, POINTS, FONCTIONS Il de chiffres. Une des représentations graphiques les plus simples consiste à représenter des points définis par deux coordonnées (nombres) (x, y) sur un "repère Oxy", à savoir sur un plan défini par deux axes orientés (l'axe des x, horizontal, définissant l'abscisse du point, et l'axe des y, vertical, définissant l'ordonnée du point). L'origine (le point (0,0)) est généralement placée à l'intersection des axes, sur lesquels figureront également les échelles, qui peuvent différer quant à la graduation choisie: y B= (i) . (~ A= x o Figure 1: coordonnées 1.2.3 Fonctions Les mêmes conventions s'appliquent y de correspondance =f des points dans un repère plan (x) est une règle également pour la représentation qui à un certain nombre des fonctions: x associe une fonction un nombre y. Par exemple, f(x) = x3 et g(x) = vx font respectivement correspondre à un nombre x son cube et sa racine carrée. En calculant un nombre suffisant de valeurs telles que f(O) = 0, f(0.5) = 0.125, f(l) = 1, f(1.5) = 3.375, ..., il devient possible d'esquisser le graphe de la fonction I(x), passant par les points (0,0), (0.5,0.125), (1, 1), (1.5,3.375), y ... : f( x)=x3 x Figure 2: graphes des fonctions dans un repère plan Une fonction est dite continue si son graphe peut être tracé sans discontinuités, i.e. sans lever le crayon. Une fonction est croissante si son graphe "monte" (Le. si à des valeurs plus élevées de x correspondent des valeurs plus élevées de y, ou encore si sa pente est positive). La décroissance d'une fonction se définit de façon analogue. CHAPITRE 1. RAPPELS MATHEMATIQUES 12 Une possède tout x) Une part et fonction f continue et strictement monotone (Le. strictement croissante ou décroissante) f(x), ou encore f-l(f(x)) un inverse f-l, défini par f-l(y) = x (pour = X ssi1 Y = ou bien f(f-l(y» = y (pour tout y). fonction est symétrique par rapport à un point a de l'axe des x si les parties situées de d'autre de a se correspondent comme dans un miroir. Une fonction est paire si elle est f(x). Si symétrique par rapport à l'origine; algébriquement, une telle fonction vérifie f( -x) = la partie d'une fonction pour x ~ 0 correspond à la partie pour x ~ 0 par une double reflection à travers l'axe des y puis l'axe des x, la fonction est dite impaire. Algébriquement, une telle fonction vérifie f( -x) = - f(x). y paire impaire x Figure 3: fonctions paires et impaires Un maximum (local) d'une fonction continue est un point a de l'axe des x tel que la fonction soit croissante pour x S a et décroissante pour x ~ a, d~ moins dans un voisinage de a, Le. dans une région suffisamment petite contenant a. La notion de minimum se définit de façon analogue. Une fonction est dite convexe (respectivement concave) si sa courbure est orientée vers le haut (respectivement vers le bas). Un fonction régulière est convexe dans le voisinage d'un minimum, et concave dans le voisinage d'un maximum. Les points de transition convexe +-+ concave sont appelés points d'inflexion. y concave conycxe - Figure 4: maximum, - -.. minimum, point d'inflexion Les concepts précédents (croissance, convexité, maximum, ..,) peuvent également être définis à l'aide de la notion de dérivée d'une fonction; ce dernier concept, qui ne concerne guère lnssi" = "si et seulement si"; en anglais: "iff" = "if and only if'. L'énoncé "si A, alors B" est équivalent à A B", et l'énoncé" " => A ssi B" est équivalent à " A # B". 1.2. ALGEBRE, POINTS, FONCTIONS 13 l'utilisateur de statistique, n'est pas rappelé ici; il en est de même pour le calcul intégral: les valeurs des intégrales dont on fait usage sont soit tabulées (ce sont les tables statistiques normales, du t, du X2, du F,...) soit calculées automatiquement par un logiciel statistique. 1.2.4 Fonctions linéaires; droites Les fonctions les plus simples et les plus utilisées en statistique sont les fonctions linéaires, de forme I (x) = ax + b, où a et b sont deux nombres réels quelconques bien définis, les paramètres de la fonction2. Toute fonction linéaire correspond géométriquement à une droite et inversement. Pour représenter une fonction linéaire, par exemple I(x) = 2x - 1, il suffit donc de déterminer deux points arbitraires et de tracer la droite. Dans l'exemple, 1(0) = -1 et 1(1) = 1: la droite passe donc par les points (0, -1) et (1,1): y x Figure 5: graphe d'une droite dans un repère plan Le paramètre a s'appelle pente de la droite y = ax + b: la droite est croissante ssi a > 0, et décroissante ssi a < O. Lorsque a = 0, 01).a la fonction constante I(x) = b, qui associe à tout nombre réel X la valeur b. Le paramètre b donne la "distance (verticale) à l'origine". La droite passe au-dessus de l'origine ssi b > O. Lorsque b = 0, la droite passe par l'origine. Dans ce cas, on a alors proportionnalité stricte entre les valeurs de y et celles de x. 1.2.5 Logarithmes et exponentielles Les fonction non-linéaires les plus utilisées en statistique sont le logarithme loga(x) et son inverse, l'exponentielle aX. L'expression loga(x) désigne le logarithme en base a ~ 1 du nombre x > 0, qui est l'exposant y auquel il faut élever a pour obtenir x. Autrement dit: y = loga(x) <=> aY =x (1.3) Par exemple, le logarithme de 32 en base 2 est 5, car 25 = 32. Les bases les plus utilisées sont les Changer de base revient à multiplier le logarithme bases a = 2, a = 10 et a = e := 2.71828 par une constante (comme pour un changement d'unités en physique): 10gb(X) = logb(a) loga(x). Si le choix de la base est sous-entendu, ou si la propriété dont il est question ne dépend pas de la base, on peut noter log x au lieu de loga(x). L'écriture ln x réfère à loge(x) (logarithme népérien ou naturel). La fonction logarithme loga(x) est croissante, concave, et définie pour x > O. On a 10ga(I) = 0 et loga(a) = 1. Aussi, limx-+o loga(x) = -00, limx-+o x loga(x) = 0 2un usage plus strict réserve l'appellation "linéaire" aux seules fonctions du type f(x) = ax. CHAPITRE 1. RAPPELS MATHEMATIQUES 14 et limx_oo loga(x) transformer log(xy) 1.2.6 = 00. le produit + log(y) log(~) log(x) -log(y) y = signe et signe = log(x) Indices, La propriété essentielle du logarithme (quelle que soit sa base) est de en somme, le quotient en différence, et la puissance en produit: somme, log(xY) = y log(x) (1.4) produit Afin de représenter une série de nombres, par exemple les âges X respectifs de 10 individus, la notation indicée est souvent fort commode: Xi (lu "x indice i" ou simplement" X i") désignera l'âge du i-ème individu. La somme des âges de tous les 10 individus s'écrira alors: (1.5) Xl + X2 + X3 + X4 + Xs + X6 + X7 + X8 + Xg + XIO Afin de simplifier cette écriture, on introduit le "signe somme" majuscule"), et l'on écrit (1.5) sous la forme: E (inspiré du caractère "sigma 10 (1.6) L:Xi i=l De façon générale, Ei=k ai désigne la somme de tous les ai, en commençant par l'individu numéro i = k et en terminant par le numéro i = n (on suppose que k ~ n). Il est à noter que l'expression ne dépend pas de la lettre utilisée comme indice, qui est alors qualifiée d'indice muet: on a toujours = E'1=k aj, Ei=k llï ak,...,an. quelles que soient les valeurs de k, de n et de la série De façon analogue, la notation lli=k ai désigne le produit de tous les ai, en commençant l'individu numéro i = k et en terminant par le numéro i = n, à savoir akak+lak+2...an-lan' 1.2.7 Factorielles et coefficients Pour tout n figurant Définition: un entier supérieur binomiaux ou égal à 2, on a la définition La fonction n! (lue "n factorielle") suivante: est définie par n! := n. (n - 1) . (n - 2) . ... . 3 . 2 . 1 Exemple: 4! On définit = 4 .3 .2 = d'autre part 24, 5! = 5 . 4 . 3 . 2 = 120. O! := 1. Par par construction, (n + I)! = (n + 1) (1.7) . nI quel que soit l'entier n ~ O. La quantité n! constitue le nombre de permutations (Le. de classements ordinaux) d'un ensemble de n individus: il y a par exemple 6t = 720 façons d'attribuer 6 maisons distinctes à 6 individus, ou 5! = 120 ordres d'arrivée possibles sans ex-aequo d'une course de 5 concurrents. Définition: dent ( ) ( ) (:) = ~ = 4, ( )= ~ = 6. binomial Exemple: n et k désignant de1.£Xentiers avec n ~ 0 et n ~ k ~ 0, on définit le coeffi~ comme ~ et ~ := (n~~)!k!' 1.3. ENSEMBLES 15 L'interprétation du coefficient () ~ binomial (appelé aussi" nombre de combinaisons de n objets pris k à k") la plus utile en statistique est la suivante: considérons n lancers d'une pièce de monnaie, et appelons k le nombre total de "pile" produits (n - k est donc le nombre de "face"). ( ) Alors ~ représente lancers. Par exemple, il y a (à savoir: "PPPF", "PPFP", fois pile en 4 lancers le nombre de séquences (:) = 4 séquences "PFPP", distinctes "FPPP"), et La symétrie pile ~ possibles ( )= (;) = ~ 3 fois pile en 4 lancers 1 seule séquence contenant 4 10 sortes de familles de par l'ordre des naissances fille - garçon. sans spécifier k = nombre de "pile", il y a en tout ~k ). Finalement, n de n lancers (puisqu'à Ces lancers sont constitués lancers distincts contenant k fois "pile" en n face (ou fille +-+ garçon) du comptage des séquences est reflétée dans la ( )= ( 2n séquences "face"). +-+ contenant De même, il y a (à savoir: "PPPP"). 5 enfants dont 3 filles (et 2 garçons), se distinguant propriété distinctes avec k =l "pile", chaque ( ) de ~ coup on a les deux lancers distincts ... , et finalement de avec k (:) possibilités = 0 "pile", lancers distincts "pile" de ou ( ) avec k ~ = n "pile". Donc, en utilisant le signe" somme" , on a: (1.8) Ë(~)=2n L'équation ci-après): (1.8) est en fait un cas particulier de l'identité quels que soient n (entier), x et y (réels), t() k=O n k xkyn-k binomiale (dans le cas x on a: = (x+y)n =y = 1 (1.9) Cette identité est à l'origine de la terminologie" coefficients binomiaux": par exemple, dans le développement du binôme (x + y)4 = x4 + 4x3y + 6x2y2 + 4xy3 + y4, on retrouve les coefficients ( ) = 1, ( : ) = 4, ( ) = 6, etc... ~ ~ 1.3 Ensembles 1.3.1 Ensembles fermés, ouverts, dénombrables, non dénombrables Un ensemble est une collection d'individus. Ces individus sont des objets de même nature (quelconque), tels que des personnes, COmlTIUnes,livres, propositions, constellations, nombres, etc... La notation de ces derniers est codifiée: {2, 3, 4} désigne l'ensemble formé des trois nombres 2,3 et 4, tandis que [2,4] désigne l'intervalle de tous les nombres réels compris entre 2 et 4 inclus (intervalle ferme), et (2,4) (ou ]2, 4[) désigne l'intervalle de tous les nombres réels compris entre 2 et 4 non inclus (intervalle ouvert). CHAPITRE 1. RAPPELS MATHEMATIQUES 16 Un ensemble A peut être fini (s'il contient un nombre fini d'éléments). La notation ~(A) ou lAI (cardinal de A) désigne le nombre de ses éléments. Lorsqu'un ensemble est infini, il peut être infini dénombrable (s'il est possible de donner une énumération de ses éléments telle que n'importe quel élément choisi d'avance apparaisse en en temps fini, comme dans l'ensemble des entiers naturels N={O, 1,2,3, ...}), ou infini non dénombrable (si une telle énumération n'est pas possible, comme dans l'ensemble R des nombres réels). 1.3.2 Intersection, union, inclusion Un ensemble A est inclus dans un ensemble B (noté A c B) ssi tous les éléments de A appartiennent à B. On dit alors que A est un sous-ensemble de B. L'intersection de deux ensembles A et B (notée AnB) est l'ensemble formé de tous les éléments appartenant à A et à B. L'union de deux ensembles A et B (notée A U B) est l'ensemble formé de tous les éléments appartenant à A ou à B (ou les deux: il s'agit ici du "ou" non exclusif). Formellement, on a donc: Au B := {xix E A ou x E B} An B := {xix E A et x E B} (1.10) à (x désigne un élément quelconque, le signe" E" (" appartient à") désigne l'appartenance un ensemble (et ft la non-appartenance), le signe "1" se lit "tel que"). A \ B désigne l'ensemble formé des éléments appartenant à A mais pas à B. La différence symétrique de deux ensembles A et B (notée ALlB) est l'ensemble formé de tous les éléments appartenant à A ou bien à B (mais pas les deux: il s'agit ici du "ou" exclusif): A \ B := {xix E A et x tf. B} ALlB := {xix E A ou bien x E B} (1.11) Dans une situation donnée, on appelle référentiel (souvent noté 0) l'ensemble contenant tous les éléments pertinents dans le contexte (par exemple: "tous les nombres réels", "tous les habitants de telle ville", etc...). Une fois le référentiel fixé, il est possible de définir le complémentaire d'un ensemble A, noté AC ou A, constitué de tous les éléments (de 0) n'appartenant pas à A. Par construction, le complémenta.ire de 0 ne contient aucun élément: on appelle cet ensemble (noté 0) l'ensemble vide. Par construction, quel que soit A c 0, on a A u A = 0 et A n A = 0. Deux ensembles A et B sont dits disjoints ou exclusifs s'ils n'ont pas d'éléments en commun, i.e. si A n B = 0. 1.3.3 Partitions, diagrammes de Venn Une collection d'ensembles A := {Al,' .., Am} constitue une partition de 0 ssi: . les {Aj} sont mutuellement exclusifs: Aj n Ak . les {Aj} sont exhaustifs: Al U A2 U U Am = 0 pour = Uj=lAj tous j i= k. = n. '" Si A est une partition partition. de n, chaque élément de n appartient à un et un seul ensemble Aj de la Le diagramme de Venn permet de représenter graphiquement les ensembles par une surface '-CQnnexe (i.e. d'un seul tenant) contenant les éléments de l'ensemble. Le référentiel, incluant tous les élénlents, sera généralement figuré par un rectangle. Le diagramme en figure 6 indique immédiatement que DcA, E c C, A n E = B n E = 0, etc... De plus, les ensembles A, B 1.4. PROBABILITES 17 et C entretiennent entre eux une relation tout à fait générale, Le. ils peuvent comporter une intersection commune, trois intersections deux à deux et trois parties propres (n'appartenant qu'à eux-mêmes). On a également hachuré l'ensemble AnBnC et quadrillé l'ensemble AnBn D = B n D. n Figure 6: diagramme 1.4 de Venn Probabilités La notion de vraisemblance d'un événement A, ou celle de sa propension à se produire, modélisées par le concept de probabilité de l'événement A. Les événements eux-mêmes modélisés par des ensembles: si A: = "il pleut mardi" et si B: = "il pleut jeudi", on a . . . A nB = "il pleut mardi et jeudi" A uB = "il pleut mardi ou jeudi" , A = "il ne sont sont pleut pas mardi" . A => B = "le fait qu'il pleuve mardi entraîne qu'il pleuve jeudi" par "si A, alors B" , ou encore simplement" A c B") (que l'on énonce aussi . A {:} B = "le fait qu'il pleuve mardi entraîne qu'il pleuve jeudi et réciproquement" (que l'on énonce aussi par" A si et seulement si B" ou plus succintement encore par" A ssi B" ou "A = B") 1.4.1 Axiomes de probabilité La probabilité de A, notée peA), est un nombre réel dans [0,1], telle qu'une probabilité de 1 qualifie un événement certain, une probabilité de 0 qualifie un événement impossible, et que ce nombre est d'autant plus grand que l'événement a de chances de se produire. Toute fonction de probabilité P(.) doit a priori satisfaire aux règles minimales de cohérence ou axiomes suivants: 1. pen) = 1, P(0) = 0 2. peA U B) = peA) + PCB)- peA n B) quels que soient Ac n et Ben 3. peA) = 1 - peA) quel que soit Ac n CHAPITRE 1. RAPPELS MATHEMATIQUES 18 La première règle énonce que le référentiel peut être identifié à un événement certain, et l'ensemble vide à un événement impossible. La seconde (dite principe d"'inc1usion-exc1usion") permet de passer de la probabilité d'une union à celle d'une intersection et vice-versa. La troisième fonnalise le fait que de dire qu'un événement a par exemple 2% de chances de se produire revient à dire qu'il a 98% de chances de ne pas se produire. Les règles ci-dessus permettent par exemple de généraliser le principe d'inclusion-exclusion dans le cas de trois ensembles: = P(A)+P(B)+P(C)-p(AnB)-p(AnC)-p(BnC)+p(AnBnC) P(AUBUC) (1.12) quels que soient A B et C. 1.4.2 Probabilités empiriques et théoriques Les règles ci-dessus ne sont cependant pas suffisantes pour déterminer la probabilité d'un événement A donné. Pour ce faire, il faut se placer dans l'une des deux situations suivantes: . l'événement A possède un caractère répétitif; on évaluera alors P(A) par la probabilité empirique ou fréquence: P ()A nombre de fois où A s'est produit n(A) = nombrede foisoù A s'est produit ou non =: n(A) n(A) + n(A) = n(n) (1.13) Par exemple, il y a eu en Suisse 62181 décès en 1990, sur une population totale de 6'750'700 habitants. La probabilité annuelle de décès (toutes catégories d'individus confondues) est donc . de P(décès) = 62181/6750700 le référentiel de sous-ensembles = 0.00921 = 0.921%. n et l'événement A peuvent tous deux être partitionnés par une collection ou cas équiprobables; on évaluera alors P(A) par la probabilité théorique: P(A) = nombre de cas favorables (où A se produit) nombre de cas possibles n(A) = n(O) (1.14) Par exemple, la probabilité de tirer un roi d'un jeu de 52 cartes est de P(roi) = 4/52 = 0.077 = 7.7%. L'équiprobabilité des cas est généralement justifiée par des raisons de symétrie ("il n'y a pas plus de chances de tirer un roi qu'un as d'un jeu bien mélangé de 52 cartes"): cette équiprobabilité, aussi naturelle qu'elle puisse sembler, n'en constitue pas moins un modèle de la réalité, modèle qui peut se révéler adéquat ou non. Dans le cas dUf'lancer d'une pièce de monnaie, il s'agit de bien faire la distinction entre une probabilité théorique de P(pile) = 0.5, suggérée par des considérations de symétrie évidente, et une probabilité empirique ou fréquence de par exemple P(pile) = 0.499, chiffre obtenu dans le cas d'une expérience portant sur 1000 lancers dont 499 auraient donné "pile". De même, il faut distinguer entre l'effectif empirique n(A) de (1.13) qui est un nombre observé et l'effectif théorique n(A) de (1.14) qui est un nombre postulé ou attendu. Cette distinction entre données et modèle, sur laquelle on reviendra longuement, constitue la distinction de base en statistique et modélisation: ne pas en percevoir la nature risque d'en compromettre sérieusement l'apprentissage. En l'absence de répétition (nécessaire au calcul d'une fréquence empirique), ou de collection de cas supposés équiprobables (nécessaire à la constitution d'un modèle), il est tout simplement impossible d'évaluer une probabilité, comlne par exemple celle de la probabilité de l'apparition de l'homme à travers l'évolution, ou celle d'une fin du monde thermonucléaire. 1.4. PROBABILITES 1.4.3 19 Indépendance Définition: entre deux événements deux événements A et B sont dits indépendants P(A)P(B) est une propriété ssi P(A n B) très particulière, Attention! p(AnB) = pas réalisée: deux événements ne sont pas indépendants en général. = P(A)P(B). qui n'est généralement Exemple: le référentiel associé à un seul lancer d'un dé équilibré (c'est-à dire dont les six est 0 = {l, 2, 3, 4, 5, 6}. Considérons les événements A = {2,4,6}, B = {l, 2, 3}, et C = {l, 2}. On a P(A n B) = P( {2}) = k, tandis que peA) = ~ et PCB) = 1: comme !! ;f ~, les événements A et B sont dépendants. Par contre, peA n C) = P( {2}) = I, tandis que P (A) P (C) = = ~: A et C sont donc indépendants. faces sont équiprobables) !i 1.4.4 Probabilité conditionnelle; formule de Bayes Une notion essentielle dans le calcul des probabilités est celle de probabilité conditionnelle. Définition: on note P(AIB) la probabilité conditionnelle que A se réalise sachant B s'est réalisé. De l'identité P(A n B) = P(B) P(AIB), on déduit: P(AIB) = que P(A n B) PCB) qui est toujours vraie. Si de plus les événements A et B sont indépendants, alors peA n B) = , , P(A~P~B) (A) : deux evenements P(A)P(B) et dans ce cas P (ABI ) = P(1nf) P sont PB = PB = indépendants ssi la probabilité que l'un se produise n'est pas affectée par la connaissance que l'autre se produise ou non. Notons que l'on a toujours P(AIO) = peA), P(AIA) = 1 et P(AI0) = "indéterminé". L'identité (toujours vraie) P(B) s'illustre aisément = P(BIA)P(A) + P(BIA)P(A) (1.15) par un schéma en arbre: B B B B Figure 7: schéma en arbre, permettant de reconstruire la formule (1.15) en notant que l'on peut arriver en B par deux chemins, à savoir le chemin passant par A et celui passant par .il. CHAPITRE 1. RAPPELS MATHEMATIQUES 20 Enfin, de la définition mule de Bayes: de la probabilité conditionnelle suivante, dite For- P(A) = P(B) P(BIA) P(AIB) Les équations découle l'identité (1.15) et (1.16) permettent (1.16) de résoudre un type de problème courant, comme: Problème: "Les prévisions météorologiques d'une certaine région sont fiables à 80% en cas de beau temps, et à 90% en cas de mauvais temps. Sachant que le mauvais temps règne à 90%, quelle est la chance qu'une prévision de beau temps soit correcte? " Solution: Posons A = "il fait beau temps" et B = "du beau temps est annoncé". Les données sont respectivement = 0.8, P(BIA) P(BIA) = 0.9 et P(A) = 0.9. On cherche P(AIB), égal à ~P(BIA) par (1.16). Dans cette dernière expression, seule P(B) est momentanément inconnue; par (1.15), elle se trouve en fait être égale à P(BIA)P(A) + P(BIA)P(A) = 0.8. (10.9) + (1-0.9) .0.9 = 0.17 (on a utilisé P(A) = 1- P(A) et P(BIA) = I-P(BIA); attention! en général, P(BIA) # 1 - P(BIA)). Finalement, on trouve P(AIB) = ~AO.8 = 0.47: malgré une fiabilité des prédictions relativement bonne, il s'agit de rester prudent lorsque du beau temps est annoncé. 1.5 Exercices 1. Etant donné Xl = 2, X2 2:f::: 1 Xi 2:f=l (Xi = -1, 2:::::0 Xi+1 + 1) Et=l X3 = -1, X4 = 4, Xs = 1 calculer: 2:f= 1 X~ Ef:::l x~ * k 2. Placer sur un repère Oxy les points: A Que vaut l'aire du triangle ( ) = B= =~ ( ) c=(n -;1 ABC? 3. Placer sur un repère Oxy les droites: y dl : y d2: d3 : d4 : ds; Déterminer 4. Esquisser l'aire du triangle délimité le graphe des fonctions =X = -x + 1 X= 0 y= 3 Y= x + 1 par dl, d3, d4. continues fl(X), f2(X), et 13(X) sachant que: . Il (x) est symétrique par rapport à x = 3, et croissante pour x > 3; . 12(x) est négative, concave, sauf en X = -1 et x = - 2 où elle possède deux minima; . 5. f3(X) est impaire, (a) Calculer: a) 4! croissante, b) avec limx-+oof3(x) (:) c) ( ~) = 4.