59 Cahier de Mathématiques Appliquées no 2 Statistique descriptive B. Ycart Le point de vue adopté ici est orienté vers les applications en médecine, et s’appuie largement sur l’utilisation des logiciels de calcul, qui permettent l’expérimentation indispensable à la compréhension de la statistique. L’étude de la statistique descriptive prépare aux techniques plus probabilistes utilisées pour l’estimation paramétrique et les tests. C’est la raison pour laquelle l’accent est mis ici sur la notion de distribution empirique plutôt que sur les différentes techniques graphiques de représentation des données. Les livres de statistique sont nombreux. Plus ou moins théoriques, plus ou moins spécialisés dans tel ou tel domaine d’application, il est difficile d’en recommander un en particulier. Ce qui suit a été préparé à partir des références suivantes. J.L. Devore : Probability and statistics for engineering and the sciences. Brooks/Cole, Pacific Grove 1991. G. Saporta : Probabilités, Analyse des données et Statistique. Technip, Paris, 1990. Les “cahiers de mathématiques appliquées” doivent beaucoup aux relectures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie SevestreGhalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur du Centre des Publications Universitaires de la Tunisie. 60 Cahier de Mathématiques Appliquées no 2 Table des matières 1 Données unidimensionnelles 1.1 Echantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . 61 61 64 66 2 Distribution empirique 2.1 Statistique et probabilités . 2.2 Représentations graphiques 2.3 Quantiles . . . . . . . . . . 2.4 Modèles probabilistes . . . . 2.5 Ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 72 73 75 79 3 Données bidimensionnelles 3.1 Représentations bidimensionnelles 3.2 Covariance . . . . . . . . . . . . . 3.3 Régression linéaire simple . . . . . 3.4 Régressions multiples . . . . . . . . 3.5 Rapport de cotes . . . . . . . . . . 3.6 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 83 86 90 92 94 4 Exercices . . . . . . . . . . . . . . . 97 Statistique descriptive 1 1.1 61 Données unidimensionnelles Echantillons A la base de toute étude statistique, il y a une population, formée d’individus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en termes de population humaine. Les individus sont des personnes, et les caractères observés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques (groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête d’opinion). Même si nous choisirons prioritairement nos exemples dans les caractères humains, il faut garder à l’esprit des notions de population et de caractère plus générales. Voici quelques exemples. Population Eléments chimiques Galaxies Etoiles Chromosomes Gènes Villes Pays Films Mois de l’année Caractère Nombre d’isotopes Nombre d’étoiles Magnitude Nombre de gènes Nombre de bases protéiques Taux d’imposition Produit intérieur brut Recettes Montant des exportations Un caractère est dit : – qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin, couleur des yeux, vote pour un candidat). – ordinal, si les valeurs peuvent seulement être ordonnées : leurs différences ne sont pas interprétables (opinions exprimées sur une échelle de valeurs) – quantitatif, quand les valeurs sont numériques (mesures physiques, physiologiques, économiques). Les valeurs que peut prendre un caractère s’appellent les modalités. Pour des raisons de facilité de traitement informatique ou mathématique, on cherche à se ramener à des caractères quantitatifs par un codage. Si le caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus simple est celui d’un référendum, où il n’y a que deux modalités codées 0 et 1. Pour un nombre quelconque m de modalités, on pourra les coder par un vecteur de m booléens : si la valeur observée sur un individu est l, le vecteur associé à cet individu a toutes ses coordonnées nulles sauf la l-ième qui vaut 1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur les premiers entiers. Il faut se souvenir que le codage est arbitraire et que les résultats numériques que l’on obtient après codage peuvent dépendre de celuici. Des techniques spécifiques permettent de traiter plus particulièrement les Cahier de Mathématiques Appliquées no 2 62 caractères qualitatifs et ordinaux. Nous nous limiterons ici pour l’essentiel aux caractères quantitatifs. La statistique intervient quand il est impossible ou inutile d’observer un caractère sur l’ensemble de la population. On l’observe alors sur une souspopulation de taille réduite, en espérant tirer de l’observation des conclusions généralisables à toute la population. Si les données d’un caractère quantitatif sont recueillies sur n individus, le résultat est un n-uplet de nombres, entiers ou décimaux, (x1 , . . . , xn ), que l’on appelle échantillon ou série statistique, de taille n. On réserve plutôt le terme d’échantillon au résultat de n expériences menées indépendamment les unes des autres, et dans des conditions identiques (lancers de dés, mesure du poids de n nouveaux-nés,. . . ). On appellera série statistique le résultat de n expériences qui ne sont pas interchangeables. Le cas le plus fréquent est celui où la population est constituée d’instants successifs (relevés quotidiens de températures, chiffres mensuels du chômage,. . . ). On parle alors de série chronologique (figure 1). Milliers de cas 900 + 800 700 + 600 + 500 + + 400 + + + + + 300 + + ++ + + + + ++ 200 + + + ++ + + ++ 100 + + + + ++++ + + ++ ++ +++ ++++ + ++++++ ++++++++++++ + +++ +++++++++++++++ + ++++++++++++ + + + + + + + + + + ++++++ ++ + 0 . 0 52 104 + + + + + + + ++ ++ + +++ ++++++ +++++++ ++++++++++++++++++++++++ 156 + + + + ++ + + ++ ++++++++++++++++++++++++++++ + +++ ++++ +++ + ++ +++++++++++++ +++++++++++++++++++++++ 208 Semaines 260 Figure 1 – Série chronologique : cas de grippe en France par semaine sur 5 ans. On distingue souvent les caractères discrets (ceux qui ne prennent que peu de modalités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont a priori différentes). La frontière entre continu et discret est beaucoup moins claire en pratique qu’en théorie. Tout recueil de données se fait avec une certaine précision, et dans une certaine unité. Si une taille est mesurée avec une précision de l’ordre du centimètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient aucune information et doit être éliminé. Cela signifie que la taille en centimètres est Statistique descriptive 63 une valeur entière, donc un caractère discret, même si on le modélise par une loi normale qui est une loi continue. D’autre part, différentes techniques statistiques (histogrammes, distance du chi-deux) imposent de regrouper les données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités étant les différentes classes. Tailles 130 + + 128 + 126 + 124 + + + + + + + 122 + + + 120 ++ + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + + + + + + + + + + + 108 + + + 110 + + + + + + + + + + + 112 + + + 118 114 + + + + + + + + 106 + 104 Individus + 102 + 100 0 10 20 30 40 50 60 70 80 90 100 Figure 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres. Une fois recueilli, l’échantillon (x1 , . . . , xn ) se présente comme une liste de nombres peu lisible, dont la principale caractéristique est une plus ou moins grande variabilité. Le traitement statistique va maintenant consister à étudier cette variabilité, pour en extraire l’information qu’elle contient, à savoir ce qui est généralisable à l’ensemble de la population. Les techniques de statistique descriptive auront pour but de compresser l’échantillon, de le résumer par des quantités calculées et des représentations graphiques, afin d’extraire l’information qu’il contient. On ne traite pas un échantillon sans avoir une question précise à lui poser. Etant donné un échantillon de tailles de filles de 18 ans, le traitement ne sera pas le même selon que l’on sera un nutritionniste qui cherche à étudier l’influence du régime alimentaire sur la croissance, ou un fabriquant de vêtements qui cherche à dimensionner ses patrons. Le mot “statistique” a deux sens différents : • C’est un ensemble de données chiffrées sur un phénomène variable (les statistiques du commerce extérieur, les statistiques du chômage). • C’est une discipline scientifique dont le but est d’extraire de l’information d’un échantillon en vue d’une prédiction ou d’une décision. Cahier de Mathématiques Appliquées no 2 64 1.2 Moyenne empirique La statistique la plus évidente à calculer sur un échantillon numérique, celle dont l’interprétation est la plus intuitive, est la moyenne empirique. Définition 1.1 La moyenne empirique d’un échantillon est la somme de ses éléments divisée par leur nombre. Si l’échantillon est noté (x1 , . . . , xn ), sa moyenne empirique est : x= 1 (x1 + · · · + xn ) . n La moyenne est donc le centre de gravité des données, affectées de coefficients égaux pour chaque individu. Elle peut être considérée comme une valeur centrale, même si elle n’est pas égale à une des modalités. Tailles 130 + + 128 + 126 + 124 + + + + + + + 122 + + + 120 ++ + + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + + + + + + + + + + + + + + + 110 108 + + + + + + + + + 112 + + + + 118 114 + + + + + + 106 + 104 Individus + 102 + 100 0 10 20 30 40 50 60 70 80 90 100 Figure 3 – Moyenne d’un échantillon de 100 tailles d’enfants de 6 ans La moyenne est associative. Si on réunit deux échantillons, de tailles respectives nx et ny , de moyennes respectives x et y, alors la moyenne du nouvel échantillon sera (nx x + ny y)/(nx + ny ). Si (x1 , . . . , xn ) est un échantillon et si on pose pour tout i = 1, . . . , n, yi = axi + b, où a et b sont deux constantes, alors la moyenne empirique de l’échantillon (y1 , . . . , yn ) est y = ax + b. En particulier, si a = 1 et b = −x, le nouvel échantillon a une moyenne nulle. Centrer les données c’est leur retrancher la moyenne empirique de manière à la ramener à 0. Un cas particulier important est celui des données binaires. On est souvent amené à construire un échantillon binaire à partir d’un échantillon numérique, ne serait-ce que pour le regroupement en classes. Soit A un sous ensemble Statistique descriptive 65 de IR (un intervalle dans le cas d’une classe). Notons 11A (x) sa fonction indicatrice qui vaut 1 si x ∈ A, 0 sinon. Si (x1 , . . . , xn ) est un échantillon à valeurs réelles, alors (11A (x1 ), . . . , 11A (xn )) est un échantillon binaire, dont la moyenne empirique est appelée la fréquence empirique de A. C’est simplement la proportion des valeurs de (x1 , . . . , xn ) qui appartiennent à A. Un des inconvénients de la moyenne empirique, vue comme valeur centrale d’un échantillon, est d’être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante. Qu’elle soit ou non le résultat d’une erreur dans le recueil ou la transcription, on ne peut pas la considérer comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient de l’ordre de 10, sauf une, qui est de l’ordre de 1000. La moyenne empirique sera de l’ordre de 100, c’est-à-dire très éloignée de la plupart des valeurs de l’échantillon. Pour palier cet inconvénient, on peut décider de ne pas tenir compte des valeurs extrêmes dans le calcul de la moyenne. On obtient alors une moyenne élaguée. Définition 1.2 Soit (x1 , . . . , xn ) un échantillon et α un réel compris entre 0 et 1. La moyenne élaguée de niveau 1 − α est la moyenne empirique de l’échantillon privé d’un nombre de valeurs extrêmes égal à la partie entière de nα. Elle sera dite élaguée à gauche, à droite ou bilatéralement selon que seulement les valeurs les plus petites, seulement les plus grandes, ou bien à la fois les plus petites et les plus grandes, auront été supprimées. Remarque : En statistique, les réels α compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il faut donc lire α comme “une faible proportion”, et 1−α comme “une forte proportion”. Comme technique de première approche pour le lissage des séries chronologiques, on utilise les moyennes mobiles, qui sont des moyennes arithmétiques de valeurs autour de la date d’intérêt. Définition 1.3 Soit (x1 , . . . , xn ) une série chronologique et k ≥ 0 un entier. On appelle série des moyennes mobiles d’ordre k, la série (mk+1 , . . . , mn−k ) définie pour tout h = k+1, . . . , n−k, par : h+k X 1 xl . mh = 2k + 1 l=h−k L’inconvénient des moyennes mobiles est d’associer à une date donnée une moyenne arithmétique qui ne donne pas plus de poids à la donnée originale correspondant à cette date qu’aux autres. On utilise parfois une pondération décroissant exponentiellement avec l’éloignement dans le temps, réalisant ainsi un lissage exponentiel. Définition 1.4 Soit (x1 , . . . , xn ) une série chronologique, k un entier et ρ un réel strictement compris entre 0 et 1. Le lissage exponentiel de la série, d’ordre Cahier de Mathématiques Appliquées no 2 66 Nombre de cas(milliers) 900 + 800 700 + 600 + 500 + + 400 + + + + + 300 + + ++ + + + + ++ 200 + + + ++ + ++ + + + + + + + ++ + + ++ ++++++++++++++++++++++++++++ + +++ ++++ +++ + ++ +++++++++++++ +++++++++++++++++++++++ + 100 + + + + ++++ + + ++ ++ +++ ++++++++ ++++++ + + + + + + + + + + + + +++++++++++++++ + +++ + +++++++++++++++++++++ ++++++ + + + + ++ ++ +++++++++ + ++++++ + ++++++++++++++++++++++++ + 0 . 0 52 104 156 208 Semaine 260 Figure 4 – Cas de grippe en France sur 5 ans et moyennes mobiles d’ordre 6 (trait plein). k et de poids ρ, est la série (rk+1 , . . . , rn−k ) définie pour tout h = k+1, . . . , n−k par : +k X 1−ρ ρ|l| xh+l . rh = 1 + ρ − 2ρk+1 l=−k 1.3 Variance empirique Les notions de variance et d’écart-type servent à quantifier la variabilité d’un échantillon en mesurant sa dispersion autour de la moyenne. La définition est la suivante : Définition 1.5 Soit (x1 , . . . , xn ) un échantillon et x sa moyenne empirique. On appelle variance de l’échantillon la quantité, notée s2 , définie par : n s2 = 1X (xi − x)2 . n i=1 On appelle écart-type de l’échantillon la racine carrée de la variance. L’avantage de l’écart-type sur la variance est qu’il s’exprime, comme la moyenne, dans la même unité que les données. On utilise parfois le coefficient de variation, qui est le rapport de l’écart-type sur la moyenne. Pour mesurer la dispersion d’un échantillon autour de sa moyenne, on pourrait trouver plus naturelle une autre mesure d’écart, par exemple l’écart Statistique descriptive 67 Tailles 130 + + 128 + 126 + 124 + + + + + + + 122 + + + 120 ++ + + + + + + + ++ + ++ + + + 116 + + + + + + + + + + + + + + + + + + + ++ + + + + + + + ++ + + + + + + + + + + + + 110 + + + + + + + 108 + + + + + + 112 + + + 118 114 + + + + + + + + 106 + 104 Individus + 102 + 100 0 10 20 30 40 50 60 70 80 90 100 Figure 5 – Tailles d’enfants de 6 ans. La zone grisée correspond à la moyenne, plus ou moins un écart-type. absolu moyen dont nous parlerons plus loin. La raison pour laquelle la définition ci-dessus est préférable tient dans la proposition suivante. Proposition 1.6 Soit (x1 , . . . , xn ) un échantillon numérique. Considérons l’application EQ (erreur quadratique) qui à un nombre m associe : n EQ(m) = 1X (xi − m)2 . n i=1 L’application EQ admet un minimum absolu pour m = x. La valeur de ce minimum est la variance de l’échantillon. La choix de la variance pour mesurer la dispersion d’un échantillon est donc cohérent avec celui de la moyenne empirique comme valeur centrale. Nous verrons plus loin qu’un phénomène analogue a lieu pour l’écart absolu moyen et la médiane. Démonstration : La fonction EQ(m) est un polynôme de degré deux en m : n EQ(m) = m2 − 2mx + 1X 2 x . n i=0 i Elle est décroissante puis croissante et atteint son minimum au point où la dérivée s’annule, à savoir m = x. Cahier de Mathématiques Appliquées no 2 68 En pratique, on calcule en général simultanément moyenne et variance grâce à la formule suivante. Proposition 1.7 On a : 2 s = n 1 X n x2i − x2 . i=1 Démonstration : Il suffit de développer les carrés dans la définition de s2 : n s2 = 1X (xi − x)2 n i=1 n = = = = 1X 2 (x − 2xi x + x2 ) n i=1 i n 1 X n 1 X x2i − 2x xi + x2 n i=1 n i=1 n 1 X n i=1 n 1 X n x2i − 2x2 + x2 x2i − x2 . i=1 Dans le cas particulier des données binaires, codées sur 0 et 1, la moyenne est la fréquence de 1 et la variance n’apporte aucune information supplémentaire. En effet, si tous les xi valent 0 ou 1, alors x2i = xi et donc : s2 = x − x2 = x(1 − x) . Dans le cas général, l’algorithme de calcul est le suivant. somme1 ←− 0 somme2 ←− 0 Pour i de 1 à n somme1 ←− somme1+xi somme2 ←− somme2+x2i finPour moyenne ←− somme1/n variance ←− somme2/n−moyenne∗moyenne Pour les très grands échantillons, il faut prendre garde à l’imprécision des sommes cumulées. Pour éviter des erreurs, on aura intérêt à travailler en Statistique descriptive 69 double précision ou même à remplacer la boucle par deux boucles emboîtées. Dans certains cas, on pourra simplifier les calculs en utilisant l’invariance par translation. Si pour tout i = 1, . . . , n on pose yi = axi + b, alors la variance de (y1 , . . . , yn ) est a2 s2 . Soit par exemple l’échantillon suivant : (98765420 , 98765430 , 98765410 , 98765400) . Il est plus facile et plus stable numériquement de calculer la moyenne et la variance de l’échantillon (2, 3, 1, 0). Une fois la moyenne calculée, nous avons vu qu’on pouvait centrer les données pour se ramener à une moyenne nulle. La variance des données centrées est la même que celle de l’échantillon initial. Une fois cette variance calculée, on peut réduire les données centrées en les divisant par l’écart-type. On obtient ainsi un nouvel échantillon dont la moyenne est nulle et la variance égale à 1. On parle d’échantillon réduit. Remarquons que les données réduites sont des nombres sans unité. On peut donc comparer deux échantillons réduits même si les données initiales n’étaient pas exprimées dans la même unité. L’inconvénient de l’écart-type tel qu’il a été défini jusque là, est qu’il a tendance à sous-estimer légèrement l’écart des données par rapport à leur moyenne. La raison mathématique de ce défaut est liée à la notion de biais d’un estimateur. On peut en saisir la raison intuitive sur un exemple simple. Supposons que l’on joue trois fois à un jeu dont l’enjeu est 1 franc. Chaque résultat vaut donc +1 (gain) ou −1 (perte). Si le jeu est équitable, on s’attend à ce que la moyenne vaille 0 et l’écart-type 1. Or sur trois parties, les résultats possibles à l’ordre près sont les suivants. (x1 , x2 , x3 ) x s2 (−1, −1, −1) −1 0 (−1, −1, 1) − 31 (−1, 1, 1) (1, 1, 1) 1 3 8 9 8 9 1 0 En aucun cas l’écart-type empirique ne peut atteindre 1. Le moyen de corriger cette sous-estimation systématique est de multiplier la variance par n/(n−1), où n est la taille de l’échantillon. On parle alors de variance non biaisée. C’est la raison de la présence sur certaines calculatrices de deux touches deqcalcul n de l’écart-type, une marquée σn (notre s), l’autre σn−1 qui retourne s n−1 . Contrairement à la moyenne, la variance n’est pas associative. Si on regroupe les données d’un échantillon par classes, selon un caractère discret par exemple, la variance se partage en une composante correspondant à la variabilité à l’intérieur des classes, et une composante de variabilité entre classes. Proposition 1.8 On considère une série statistique de taille n dont les valeurs sont partitionnées en k échantillons de tailles respectives n1 , . . . , nk , Cahier de Mathématiques Appliquées no 2 70 avec n1 + · · · + nk = n. On note : (h) (h) • (x1 , . . . , xnh ) les données de la h-ième classe, (h) la moyenne empirique de la h-ième classe, • x • v (h) la variance empirique de la h-ième classe, • x la moyenne Pk de l’échantillon global, • vintra = h=1 nnh v (h) la moyenne des variances (variance intra-classes), Pk • vinter = h=1 nnh (x(h) − x)2 la variance des moyennes (variance inter-classes), • s2 la variance de l’échantillon global. Alors : s2 = vintra + vinter . Supposons par exemple que les données recueillies soient des dosages hormonaux et que les classes correspondent à des traitements différents appliqués aux patients. On cherche à savoir si la variabilité observée dans les données est uniquement due au hasard, ou s’il existe effectivement des différences significatives (imputables aux traitements) entre les classes. La moyenne des variances (pondérée par les effectifs) résume la variabilité à l’intérieur des classes, d’où le nom de variance intra-classes ou variance résiduelle. La variance des moyennes décrit les différences entre classes qui peuvent être dues aux traitements, d’où le nom de variance inter-classes ou variance expliquée. Si les traitements ont effectivement un effet sur les dosages, on s’attend à ce que la variance expliquée soit supérieure à la variance résiduelle. Cette décomposition de la variance d’un échantillon en variance expliquée et variance résiduelle est à la base d’une technique d’analyse de données souvent utilisée, l’analyse de variance ou ANOVA. Démonstration : Ecrivons : s2 = k nh 1 XX (h) (xi − x)2 n i=1 h=1 = k X h=1 = nh nh 1 X (h) (x − x(h) + x(h) − x)2 n nh i=1 i nh nh k k X X nh 1 X nh 1 X (h) (h) (xi − x(h) )2 + 2 (x − x(h) )(x(h) − x) n nh i=1 n nh i=1 i h=1 h=1 nh k X nh 1 X + (x(h) − x)2 n nh i=1 h=1 = vintra + 0 + vinter . Statistique descriptive 71 Taux Taux 1000 1000 Ο Ο Ο 900 Ο 800 700 Ο 800 700 Ο Ο + + Ο 600 + 500 + + + + + 400 + + + + + + + + + ++ ++ + ++ 200 ++ + + Ο Ο 600 Ο + Ο Ο Ο + ΟΟ Ο 500 Ο + + + + + Ο Ο Ο + + Ο Ο Ο Ο Ο + Ο Ο Ο Ο Ο Ο Ο + Ο Ο Ο ++ Ο Ο + + ΟΟ Ο Ο Ο Ο ΟΟ Ο Ο + + ΟΟ Ο Ο ΟΟ ++ + Ο Ο Ο ΟΟ Ο Ο Ο Ο + + Ο Ο Ο Ο + Ο Ο +Ο Ο Ο ++ Ο + Ο Ο Ο ΟΟ ΟΟ Ο ΟΟ + +++ ΟΟΟ + Ο Ο Ο ++ + Ο + + ++ Ο ++ ΟΟ + + Ο Ο Ο Ο Ο + + Ο + + + 400 + + + + + + + ++ + + + ++ + + + + ++ ++ + ++ 200 ++ Individus + + + Ο Ο Ο Ο Ο Ο + ΟΟ Ο Ο Ο + +++ Ο Ο + + Ο Ο Ο Ο Ο + Ο Ο Ο Ο Ο Ο Ο + Ο Ο Ο ++ Ο Ο + + ΟΟ Ο Ο Ο Ο ΟΟ Ο Ο + + ΟΟ Ο Ο ΟΟ ++ + Ο Ο Ο ΟΟ Ο Ο Ο Ο + + Ο Ο Ο Ο + Ο Ο +Ο Ο Ο ++ Ο + Ο Ο Ο ΟΟ ΟΟ Ο ΟΟ + +++ ΟΟΟ + Ο Ο Ο ++ + Ο + + ++ Ο ++ ΟΟ + + Ο Ο Ο Ο Ο + + Ο + + + + + + ++ + + + Ο Ο + ++ + + ++ 300 Ο Ο + + Ο + +++ + + + ++ + + ++ + + + ++ + Ο Ο + ++ + + ++ + + Ο Ο + + 300 Ο 900 Individus + 100 100 0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200 Figure 6 – Taux de cholestérol en mg/dl sous traitement (+) et sous placebo (o). Dans la figure de gauche, la zone grisée correspond à la moyenne plus ou moins un écart-type pour l’échantillon global. Dans la figure de droite, les deux échantillons sont séparés. 2 2.1 Distribution empirique Statistique et probabilités Les traitements statistiques relèvent d’un aller-retour permanent entre les données, qui sont des collections de chiffres mesurés, et les modèles probabilistes qui n’ont aucune réalité physique, mais fournissent des outils pour décrire la variabilité de ces données. Dans cette démarche, un premier pas consiste à associer à l’échantillon une loi de probabilité fictive. La distribution empirique associée à un échantillon est la loi de probabilité sur l’ensemble des modalités qui affecte chaque observation du poids 1/n. L’idée est la suivante. Supposons que l’on souhaite augmenter artificiellement le nombre de données. Le moyen le plus simple serait de tirer au hasard de nouvelles données parmi les valeurs observées, en respectant leurs fréquences. En d’autres termes, on simulerait la distribution empirique. Définition 2.1 Soit (x1 , . . . , xn ) un échantillon, c1 , . . . , ck les valeurs distinctes prises par les xi et pour h = 1, . . . , k : nh = n X 11c h (xi ) , i=1 l’effectif de la valeur ch . La distribution empirique de l’échantillon est la loi de probabilité Pb sur l’ensemble {c1 , . . . , ck }, telle que : nh . Pb(ch ) = n La moyenne, la variance et l’écart-type peuvent être vus comme des caractéristiques probabilistes de la distribution empirique. La moyenne de l’échantillon est l’espérance de sa distribution empirique. Cahier de Mathématiques Appliquées no 2 72 Pour un caractère discret, le mode de la distribution empirique est la valeur qui a la fréquence la plus élevée. Pour un caractère continu regroupé en classes d’amplitudes égales, on parle de classe modale. Une distribution empirique est dite unimodale si la fréquence maximale est significativement plus grande que les autres. Elle peut être bimodale ou multimodale dans d’autres cas. Pour étudier une distribution empirique, la première étape consiste à trier les données par ordre croissant, à savoir écrire ses statistiques d’ordre. Définition 2.2 Soit (x1 , . . . , xn ) un échantillon numérique. On appelle statistiques d’ordre de l’échantillon, les valeurs x(1) , . . . , x(n) égales aux xi rangées par ordre croissant : x(1) = min {xi } ≤ x(2) ≤ · · · ≤ x(n) = max {xi } . i=1,...,n i=1,...,n Voici par exemple un échantillon de taille 10 et ses 10 statistiques d’ordre. 5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ; 1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 . La fonction de répartition empirique est la fonction de répartition de la distribution empirique. Définition 2.3 La fonction de répartition empirique est la fonction, notée Fb, de IR dans [0, 1], qui vaut : 0 pour x < x(1) .. . Fb(x) = ni pour x(i) ≤ x < x(i+1) .. . 1 pour x ≥ x(n) . En d’autres termes, Fb(x) est la proportion d’éléments de l’échantillon qui sont inférieurs ou égaux à x. 2.2 Représentations graphiques Représenter graphiquement la fonction de répartition empirique (en général on trace seulement les points de coordonnées (x(i) , i/n)), donne une première idée de la distribution empirique. Dans le cas où l’échantillon est discret (le nombre de valeurs différentes k est faible devant la taille de l’échantillon n), on représentera la distribution empirique par un diagramme en bâtons. Il consiste à représenter les valeurs différentes c1 , . . . , ck en abscisse, avec au-dessus de chacune une barre verticale de hauteur égale à sa fréquence empirique f (ch ). Dans le cas où le Statistique descriptive 73 nombre de valeurs différentes est très faible (inférieur à 10), et surtout pour des échantillons qualitatifs, on utilise aussi des représentations en camembert (pie-chart) ou en barres. Elles consistent à diviser un disque ou un rectangle proportionnellement aux différentes fréquences. La représentation correspondant au diagramme en bâtons pour un échantillon considéré comme continu (lorsque presque toutes les valeurs sont différentes), est l’histogramme. On choisit un nombre de classes k et un intervalle de représentation [a0 , ak ] que l’on a découpé en k intervalles [a0 , a1 ], ]a1 , a2 ],. . . , ]ak−1 , ak ]. On remplace alors la distribution empirique par une nouvelle loi de probabilité qui pour tout h = 1, . . . , k, charge l’intervalle ]ah−1 , ah ] avec sa fréquence empirique Pb(]ah−1 , ah ]) : n 1X 11]ah−1 ,ah ] (xi ) . Pb(]ah−1 , ah ]) = n i=1 Tracer un histogramme consiste à représenter les classes en abscisses, avec au dessus de la h-ième un rectangle de hauteur fh /(ah−1 − ah ), donc de surface égale à fh . Cette représentation est celle d’une densité de probabilité, constante sur chacune des classes. Représenter un histogramme implique un certain a priori sur les données. On décide en effet que la fréquence de chacune des classes est bien sa fréquence empirique dans l’échantillon, mais que la distribution des données à l’intérieur de chaque intervalle est aléatoire, de loi uniforme sur cet intervalle. 0.10 Frequences 0.10 0.09 0.09 0.08 0.08 0.07 0.07 0.06 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.02 Frequences 0.02 0.01 Tailles 0.00 0.01 Tailles 0.00 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Figure 7 – Tailles d’enfants de 6 ans. Histogramme régulier et non régulier. 2.3 Quantiles La fonction quantile d’une loi de probabilité est l’inverse (généralisé) de sa fonction de répartition. Si F désigne la fonction de répartition, la fonction quantile Q est la fonction qui à u ∈]0, 1[ associe : Q(u) = inf{x : F (x) ≥ u} . La fonction quantile empirique d’un échantillon est la fonction quantile de sa distribution empirique. Cahier de Mathématiques Appliquées no 2 74 Définition 2.4 Soit x = (x1 , . . . , xn ) un échantillon et (x(1) , . . . , x(n) ) le vecteur de ses statistiques d’ordre. La fonction quantile empirique de l’échanb qui, pour tout i = 1, . . . , n, vaut x(i) sur l’intervalle tillon est la fonction Q i−1 i ] n , n ]. i−1 i b ∀u ∈] , ] , Q(u) = x(i) . n n b Pour certaines valeurs de u, on donne un nom particulier aux quantiles Q(u). u 0.5 0.25, 0.75 0.1, . . . , 0.9 0.01, . . . , 0.99 b Q(u) Médiane Quartiles Déciles Centiles La médiane est une valeur centrale de l’échantillon : il y a autant de valeurs qui lui sont inférieures que supérieures. Si la distribution empirique de l’échantillon est peu dissymétrique, comme par exemple pour un échantillon simulé à partir d’une loi uniforme ou normale, la moyenne et la médiane sont proches. Si l’échantillon est dissymétrique, avec une distribution très étalée vers la droite, la médiane pourra être nettement plus petite que la moyenne. Contrairement à la moyenne, la médiane est insensible aux valeurs aberrantes. Elle possède une propriété d’optimalité par rapport à l’écart absolu moyen. Proposition 2.5 Soit x = (x1 , . . . , xn ) un échantillon de réels. Soit EA (écart absolu) la fonction qui à un nombre m associe : n EA(m) = 1X |xi − m| . n i=1 b Cette fonction admet un minimum absolu en m = Q(0.5) (la médiane). La valeur de ce minimum est appelé écart absolu moyen. Démonstration : Pour éviter d’alourdir les écritures, nous supposerons que les valeurs xi sont toutes différentes. Le graphe de la fonction EA est constitué de segments de droites. Sur l’intervalle [x(i) , x(i+1) ], elle vaut : EA(m) = i n X X 1 (2i − n)m − x(j) + x(j) . n j=i+1 j=1 La pente (2i−n)/n est d’abord négative (pour i ≤ n/2), puis positive (pour b i > n/2). Si n est impair la médiane Q(0.5) = x( n−1 ) est le seul minimum. Si 2 n est pair, le minimum est atteint sur tout l’intervalle [x( n2 ) , x( n2 +1) [ contenant b Q(0.5) et sur lequel la pente s’annule. Statistique descriptive 75 Il y a une part d’arbitraire dans la définition de la fonction quantile pour une distribution empirique : pour tous les points de l’intervalle [x(i) , x(i+1) [ la fonction de répartition vaut i/n. Ce sont surtout des raisons théoriques qui b nous ont fait choisir x(i) plutôt qu’un autre point comme valeur de Q(i/n). Ce peut être un assez mauvais choix en pratique. Considérons l’échantillon suivant, de taille 6. 1, 2, 3, 7, 8, 9 . La médiane telle que nous l’avons définie vaut 3. Or comme valeur centrale, le milieu de l’intervalle [3, 7], à savoir 5, s’impose clairement. Dans le cas d’échantillons de taille paire, l’intervalle [x( n2 ) , x( n2 +1) [ s’appelle l’intervalle médian. La médiane est parfois définie comme le milieu de l’intervalle médian. Ce problème ne se pose que dans le cas de petits échantillons et pour b les quantiles Q(u) pour lesquels u est de la forme i/n (le plus souvent la médiane). Nous le négligerons désormais et nous conserverons la définition 2.4. Même sur de très gros échantillons, les quantiles sont peu coûteux à calculer puisqu’il suffit de trier l’échantillon par ordre croissant pour calculer les statistiques d’ordre et donc tous les quantiles simultanément. Ils fournissent une visualisation facile de la distribution empirique. Nous avons vu que la médiane est une valeur centrale. Pour mesurer la dispersion, on peut calculer l’étendue, qui est la différence entre la plus petite et la plus grande valeur. Mais cette étendue reflète plus les valeurs extrêmes que la localisation de la majorité des données. On appréhende mieux la dispersion d’un échantillon par les intervalles inter-quartiles et inter-déciles. Définition 2.6 On appelle intervalle inter-quartiles l’intervalle b b [Q(0.25), Q(0.75)] qui contient la moitié centrale des valeurs de l’échantillon. b b On appelle intervalle inter-déciles l’intervalle [Q(0.1), Q(0.9)] qui contient 80% des valeurs centrales de l’échantillon. Ces intervalles sont à la base d’une représentation très compacte de la distribution empirique : le diagramme en boîte (ou boîte à moustaches, box plot, box-and-whisker plot). Il n’y a pas de définition standardisée de cette représentation. Elle consiste en une boîte rectangulaire dont les deux extrémités sont les quartiles. Ces extrémités se prolongent par des traits terminés par des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les auteurs. Nous proposons de la fixer aux déciles extrêmes. On représente aussi la médiane par un trait dans la boîte, et parfois les valeurs extrêmes par des points (voir figure 8). 2.4 Modèles probabilistes Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant : Cahier de Mathématiques Appliquées no 2 76 b b Q(1) max{xi } b Q(0.9) décile supérieur b Q(0.75) quartile supérieur b Q(0.5) médiane b Q(0.25) quartile inférieur b b Q(0.1) décile inférieur b Q(0) min{xi } Figure 8 – Diagramme en boîte. Tailles 130 + + 128 + 126 + 124 + + + + + + + 122 + + + 120 ++ + + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + + + + + + + + + + + + + + + 110 108 + + + + + + + + + 112 + + + + 118 114 + + + + + + 106 + 104 Individus + 102 + 100 0 10 20 30 40 50 60 70 80 90 100 Figure 9 – Tailles d’enfants de 6 ans. La zone grisée correspond à l’intervalle b b inter-quartiles. La médiane est en trait plein, les déciles Q(0.1) et Q(0.9) en pointillés. Statistique descriptive 77 Les données observées sont des réalisations de variables aléatoires. Quand le résultat d’une expérience n’est pas reproductible exactement, on suppose qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d’extraire des données ce qui est reproductible et qui peut donc fonder une prédiction ou une décision. Quand on traite des données, on sait bien que si un deuxième échantillon était recueilli dans les mêmes conditions, celui-ci serait différent du premier. Mais on espère que le deuxième échantillon ressemblerait au premier au sens où sa moyenne, sa variance, ses quantiles, seraient peu modifiés. L’observation d’échantillons successifs produits par un algorithme de simulation permet de se faire une bonne idée de cette ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche à l’humain (mesures de tailles, dosages sanguins, etc. . . ), la ressemblance d’échantillons distincts est validée par une longue expérience. En médecine, on sait bien qu’il n’y a pas deux individus qui présentent exactement les mêmes réactions. Mais un comptage du nombre moyen de globules rouges par litre de sang, effectué sur quelques centaines d’individus, variera peu si on le renouvelle sur une autre population. Dans cette situation, comme dans de nombreuses autres, les comptages effectués sur des individus différents seront considérés comme des tirages indépendants d’une même loi de probabilité. Cette loi de probabilité décrit la variabilité du phénomène. On considère en quelque sorte que l’échantillon aurait pu être produit en répétant des simulations indépendantes de la loi. Prenons l’exemple des tailles des filles de 18 ans (mesurées en centimètres ou bien en tailles vestimentaires). Parler de la taille des filles de 18 ans n’a de sens que dans un contexte probabiliste : deux filles différentes n’auront jamais exactement la même taille. On effectue en fait deux hypothèses de modélisation qui n’ont aucune base concrète : 1. On peut associer à toute fille de 18 ans une mesure précise de sa taille. 2. Les tailles des filles de 18 ans sont des réalisations de variables aléatoires indépendantes et de même loi. Bien que fondées sur des objets abstraits, les conséquences mathématiques que l’on peut tirer des hypothèses de modélisation mènent à des prédictions et à des prises de décisions économiques ou politiques, qui sont tout à fait concrètes et seront validées par confrontation avec la réalité. Par exemple la distribution des tailles des filles de 18 ans a des conséquences évidentes sur l’industrie du prêt-à-porter. Si un fabriquant de vêtements cible sa production sur les adolescentes, il devra ajuster ses patrons à la taille de ses acheteuses potentielles : la répartition des vêtements produits entre les tailles les plus courantes, du 36 au 40, ne seront pas égales. Le fabriquant produira probablement plus de robes en 36 qu’en 40. Cette répartition ne serait pas la même pour des modèles destinés à des personnes âgées. Quand considère-t-on qu’un échantillon peut être modélisé par une suite de variables indépendantes ? Pour l’essentiel quand il est évident que l’ordre 78 Cahier de Mathématiques Appliquées no 2 dans lequel on prend les individus n’a pas d’importance. C’est le cas pour toutes les mesures physiologiques sur une population humaine. Ce n’est pas le cas pour une série chronologique où les individus sont des instants successifs qui ne sont clairement pas interchangeables, et donc pas indépendants. D’ailleurs il serait sans intérêt de considérer par exemple les taux de chômage mensuels sur les trois dernières années comme des réalisations de 36 variables aléatoires indépendantes, puisque le but de l’observation est précisément de détecter une tendance dans ces chiffres, c’est-à-dire une dépendance permettant de prévoir partiellement les chiffres à venir. Dans ce cas, l’idée de base de la modélisation consistera à dire qu’il existe une fonction déterministe “cachée” qui permet de prévoir en partie le futur en fonction du passé. Les observations mensuelles sont vues comme des perturbations aléatoires de cette fonction déterministe. Dans le modèle interviendra alors la fonction déterministe cachée et un certain n-uplet de variables aléatoires indépendantes et de même loi, modélisant les perturbations aléatoires. Une situation analogue est celle où un caractère autre que celui qui est mesuré, a une influence sur la variable d’intérêt. Par exemple, si on soupçonne que le nombre de cigarettes fumées par jour a une influence sur le taux de cholestérol, on considérera que les taux de cholestérol mesurés sont des réalisations d’une variable aléatoire dont la loi dépend du nombre de cigarettes. On supposera qu’il existe une dépendance déterministe “cachée” à deviner, et que l’on observe sur chaque individu cette dépendance, perturbée par un facteur dû au pur hasard. Là encore, ce sont les perturbations aléatoires qui seront modélisées par un n-uplet de variables aléatoires indépendantes et de même loi. Dans toutes les situations où des résultats expérimentaux ne peuvent pas être considérés comme exactement reproductibles, on se ramène à un modèle contenant un n-uplet de variables aléatoires indépendantes et de même loi. Un choix important est le type de la loi, discret ou continu. Quand il s’agit d’observer un caractère qualitatif, comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique, le choix d’un modèle discret est imposé par la nature des données. Le choix entre modèle discret ou continu n’est pas toujours aussi clair. Reprenons l’exemple des tailles des filles de 18 ans. On peut mesurer ces tailles au centimètre près, en étant conscient de l’imprécision inhérente aux mesures. Si les résultats observés sur un échantillon de 1000 individus prennent suffisamment de valeurs différentes, on choisira une loi continue (par exemple une loi normale). Différentes techniques statistiques pourront imposer par la suite un regroupement en classes des données (tracés d’histogrammes, distance du chi-deux,. . . ). Pour le fabriquant de vêtements, les données brutes sont de peu d’intérêt. Il cherchera au contraire à traduire les observations en tailles vestimentaires, ce qui impose un autre type de regroupement en classes et un modèle discret. Statistique descriptive 2.5 79 Ajustement Quand les hypothèses de modélisation conduisent à supposer que x1 , . . . , xn sont des réalisations de variables indépendantes et de même loi, la loi des grands nombres justifie que l’on considère cette loi comme proche de la distribution empirique. Toutes les caractéristiques usuelles de la distribution empirique seront proches des caractéristiques analogues de la loi théorique. On appelle problème d’ajustement le problème consistant à trouver, parmi une famille de lois de probabilité, celle qui se rapproche le plus d’une distribution empirique observée sur un échantillon. Il est fréquent que l’on soit amené à effectuer une transformation des données avant l’ajustement. Par exemple dans les dosages médicaux, les lois log-normales apparaissent souvent. Une variable aléatoire suit une loi log-normale si son logarithme suit une loi normale. Plutôt que d’ajuster directement avec une loi log-normale, on commencera par transformer l’échantillon en remplaçant les données par leurs logarithmes, puis on ajustera le nouvel échantillon par une loi normale. Nous nous contenterons dans un premier temps d’approches visuelles, nous introduirons ensuite des mesures quantitatives permettant d’évaluer des distances entre un modèle théorique et une distribution empirique. Le cas le plus fréquent dans les applications est celui d’un échantillon continu. La première approche consiste à superposer sur un même graphique un histogramme des données avec la densité f de la loi théorique. Au-dessus d’une classe [ah−1 , ah [, l’histogramme représente un rectangle de surface égale à la fréquence empirique de cette classe. Si l’échantillon était produit par simulation de la loi théorique, cette fréquence empirique serait proche de la probabilité théorique qui est l’intégrale de la densité sur la classe. Donc l’histogramme serait proche de la valeur moyenne de la densité sur la classe, à savoir : Z ah 1 f (x) dx . ah − ah−1 ah−1 Un peu d’habitude permet de reconnaître à l’œil quand un histogramme est trop éloigné d’une densité pour que l’ajustement soit bon. L’inconvénient de l’histogramme est qu’il comporte une part importante d’arbitraire dans le choix des classes. Une autre solution consiste à superposer la fonction de répartition de la loi théorique avec la fonction de répartition empirique Fb. La justification provient encore de la loi des grands nombres. Au point x, la fonction de répartition empirique a pour valeur la proportion des données qui sont inférieures à x. Si les données avaient été simulées à partir de la loi théorique, cette proportion devrait être proche de la valeur correspondante de la fonction de répartition théorique. On préfère en général effectuer un changement d’axes qui donne une représentation équivalente mais plus facile à contrôler visuellement : c’est l’ajustement par quantiles ou QQ-plot. Désignons par Q la fonction quantile de la loi théorique. Au lieu de représenter les points de coordonnées (x(i) , i/n) pour la fonction de répartition empirique, le QQ-plot consiste à représenter Cahier de Mathématiques Appliquées no 2 80 0.10 Frequences 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 Tailles 0.00 100 103 106 109 112 115 118 121 124 127 130 Figure 10 – Tailles d’enfants de 6 ans. Superposition d’un histogramme et de la densité de la loi normale de même moyenne et même variance. Frequences cumulees 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Tailles 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Figure 11 – Tailles d’enfants de 6 ans. Superposition de la fonction de répartition empirique et de la fonction de répartition de la loi normale de même moyenne et même variance. les points (x(i) , Q(i/n)). Si l’ajustement est correct, la fonction quantile empi- Statistique descriptive 81 rique de l’échantillon devrait être proche de la fonction quantile théorique. En particulier les points (x(i) , Q(i/n)) seront proches de la première bissectrice, ce qui est facile à visualiser (figure 12). 130 Quantiles 128 + 126 + 124 122 120 118 116 114 112 110 108 106 104 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Tailles 102 100 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Figure 12 – Tailles d’enfants de 6 ans. Ajustement par quantiles de la loi normale de même moyenne et même variance. Superposition de la première bissectrice. Pour utiles qu’elles soient, les méthodes graphiques ne constituent pas une réponse mathématique au problème de l’ajustement. Pour quantifier l’éloignement de la distribution empirique par rapport à une loi théorique, on utilise des distances entre lois de probabilités. Nous introduisons deux de ces distances, la distance du khi-deux et la distance de Kolmogorov-Smirnov. La distance du khi-deux concerne uniquement les lois discrètes, mais on peut l’utiliser aussi pour des échantillons continus regroupés en classes. Définition 2.7 Soit {c1 , . . . , cr } un ensemble fini fixé. Soit P = (P (ch )) , h = 1, . . . , r et P ∗ = (P ∗ (ch )) , h = 1, . . . , r deux lois de probabilité sur cet ensemble. On appelle distance du khi-deux de P ∗ par rapport à P , et on note Dχ2 (P, P ∗ ), la quantité : Dχ2 (P, P ∗ ) = r X (P (ch ) − P ∗ (ch ))2 . P (ch ) h=1 La “distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques entre les valeurs de P et P ∗ . Ce n’est pas une distance au sens usuel du terme, puisqu’elle n’est même pas symétrique. En pratique, on l’utilise Cahier de Mathématiques Appliquées no 2 82 toujours dans le cas où P est une distribution théorique et P ∗ est la distribution empirique Pb. Pour un échantillon fixé, le meilleur ajustement sera celui pour lequel la distance du khi-deux est la plus faible. L’autre notion de distance couramment utilisée pour les ajustements est la distance de Kolmogorov-Smirnov qui est plus générale que la précédente. C’est la distance de la norme uniforme entre fonctions de répartition. Définition 2.8 Soient F et F ∗ deux fonctions de répartition de lois de probabilité (fonctions de IR dans [0, 1]). On appelle distance de KolmogorovSmirnov de F et F ∗ , et on note DKS (F, F ∗ ), la quantité : DKS (F, F ∗ ) = sup |F (x) − F ∗ (x)| . x∈IR En pratique, on utilise cette distance dans le cas où F est la fonction de répartition de la loi théorique et F ∗ = Fb est la fonction de répartition empirique. Rappelons que la fonction de répartition empirique de l’échantillon (x1 , . . . , xn ) est la fonction en escalier qui vaut 0 avant x(1) , i/n entre x(i) et x(i+1) , et 1 après x(n) (les x(i) sont les statistiques d’ordre de l’échantillon). Toute fonction de répartition est croissante. La fonction de répartition empirique étant constante entre deux valeurs successives des statistiques d’ordre, il suffira pour calculer la distance de Kolmogorov-Smirnov, d’évaluer la différence entre F et Fb aux points x(i) . DKS (F, Fb) = max i=1,...,n 3 3.1 n i−1 o i . F (x(i) ) − , F (x(i) ) − n n Données bidimensionnelles Représentations bidimensionnelles Il est fréquent que plusieurs caractères soient observés sur la même population. Dans une enquête d’opinion, les personnes sondées peuvent avoir à répondre simultanément à plusieurs dizaines de questions. Sur un échantillon sanguin, on mesure couramment une dizaine de variables (numérations globulaires, taux de cholestérol,. . . ). Une étude descriptive de chaque caractère pris séparément permet de résumer les caractéristiques de leurs distributions empiriques. Pour concentrer sur un même graphique l’ensemble des distributions empiriques, on peut tracer parallèlement le diagramme en boîte de chacun des caractères. Mais étudier les caractères séparément ne fournit aucune indication sur leurs relations éventuelles : on oublie que les échantillons ont été recueillis sur les mêmes individus. Le problème consiste donc à étudier simultanément les caractères sans perdre l’information qu’ils ont été observés sur les mêmes individus. Si plusieurs caractères x, y, z, . . . ont été mesurés sur une même population, on peut voir les données xi , yi , zi , . . . correspondant à un individu i Statistique descriptive 83 comme les coordonnées d’un point dans IRd , où d est le nombre de caractères. L’ensemble de ces points constitue un “nuage de points” dans IRd . Pour d = 2 ou d = 3, on peut représenter graphiquement ce nuage de points (figure 13). Au-delà c’est impossible et on est obligé de le projeter sur des sous-espaces de dimension 2 ou 3. Les différentes techniques de projection sont l’objet de l’“analyse multidimensionnelle de données” (analyse discriminante, analyse en composantes principales, analyse factorielle des correspondances, etc. . . ). Poids 30 + + 28 + + ++ + + 26 + + + ++ + 24 + + + 22 +++ + + 20 + + + + + + + + +++ + + + ++ + + + + + + ++ + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 18 + ++ + +++ + + 16 + 14 12 Tailles 10 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Figure 13 – Nuage de points : tailles et poids d’enfants de 6 ans. Dans le cas où 2 caractères quantitatifs x et y sont observés, on peut regrouper leurs valeurs en classes et représenter en perspective un histogramme bidimensionnel : l’ensemble des couples de valeurs est partitionné en rectangles au-dessus desquels on représente un parallélépipède dont le volume est la fréquence empirique du rectangle, à savoir le nombre de couples (xi , yi ) qui appartiennent au rectangle, divisé par la taille de l’échantillon. Si l’un des caractères est qualitatif, par exemple x, tracer un histogramme bidimensionnel n’a pas vraiment de sens. On préfère souvent superposer des histogrammes unidimensionnels des valeurs de y, pour chacune des modalités de x. Si x est binaire et y continu, par exemple x est le sexe et y est l’âge, on représente souvent le caractère quantitatif en ordonnée et on trace deux histogrammes horizontaux en vis à vis, obtenant ainsi une “pyramide des âges”. Cahier de Mathématiques Appliquées no 2 84 3.2 Covariance Si deux caractères quantitatifs x et y sont mesurés sur n individus, on peut considérer l’échantillon bidimensionnel comme un nuage de n points dans IR2 . Différentes caractéristiques statistiques permettent de résumer l’information contenue dans sa forme. Si x et y désignent les moyennes empiriques des deux caractères, le point (x, y) est le centre de gravité du nuage. Les variances empiriques s2x et s2y traduisent la dispersion des abscisses et des ordonnées. Pour aller plus loin dans la description, il faut calculer la covariance. Définition 3.1 On appelle covariance de x et y, et on note cxy , la quantité : n cxy = 1X (xi − x)(yi − y) . n i=1 Cette définition étend celle de la variance dans la mesure où s2x = cxx . La covariance est symétrique (cxy = cyx ) et bilinéaire : si x et x0 sont deux échantillons de taille n, a et a0 deux réels et x∗ = ax + a0 x0 , alors : cx∗ y = acxy + a0 cx0 y . Comme conséquence de la bilinéarité, on a : s2x+y = s2x + s2y + 2cxy . Pour le calcul pratique, on utilise la formule suivante : Proposition 3.2 La covariance de x et y s’écrit : n cxy = 1X xi yi − x y . n i=1 La covariance est la moyenne des produits moins le produit des moyennes. Démonstration : Il suffit de développer les produits : n cxy = 1X (xi − x)(yi − y) n i=1 n = = 1X (xi yi − xyi − xi y + x y) n i=1 n 1 X n xi yi − x y . i=1 La covariance se compare au produit des écarts-types par l’inégalité de Cauchy-Schwarz. Statistique descriptive 85 Proposition 3.3 On a : |cxy | ≤ sx sy . (3.1) Démonstration : Choisissons une constante a quelconque et calculons la variance de ax + y : s2ax+y = a2 s2x + 2acxy + s2y . Cette quantité est positive ou nulle pour tout a. Donc le discriminant de l’expression, vue comme un trinôme en a, est nécessairement négatif. Il vaut : c2xy − s2x s2y , d’où le résultat. Remarquons que le discriminant est nul si et seulement si s2ax+y peut s’annuler, c’est-à-dire s’il existe a tel que ax + y soit constant. Donc l’inégalité 3.1 ne peut être une égalité que s’il existe une relation affine entre x et y. Au vu de l’inégalité 3.1, il est naturel de diviser la covariance par le produit des écarts-types, pour définir le coefficient de corrélation (les écart-types sont supposés non nuls). Définition 3.4 On appelle coefficient de corrélation de x et y, et on note rxy , la quantité : cxy . rxy = sx sy Quels que soient l’unité et les ordres de grandeur de x et y, le coefficient de corrélation est un nombre sans unité, compris entre −1 et 1. Il traduit la plus ou moins grande dépendance linéaire de x et y ou, géométriquement, le plus ou moins grand aplatissement du nuage de points. Nous avons vu que l’inégalité 3.1 ne pouvait être une égalité que si x est constant ou si y est de la forme ax + b. Si a est positif, le coefficient de corrélation de x avec ax + b est égal à +1, il est égal à −1 si a est négatif. Un coefficient de corrélation nul ou proche de 0 signifie qu’il n’y a pas de relation linéaire entre les caractères. Mais il n’entraîne aucune notion d’indépendance plus générale. Considérons par exemple les deux échantillons : x = ( −3 −2 −1 0 1 2 3 ) y=( 3 2 10123). Leur coefficient de corrélation est nul, et pourtant x et y sont liés par une relation fonctionnelle (yi = |xi |). Quand le coefficient de corrélation est proche de 1 ou −1, les caractères sont dits “fortement corrélés”. Il faut prendre garde à la confusion fréquente entre corrélation et causalité. Que deux phénomènes soient corrélés n’implique en aucune façon que l’un soit cause de l’autre. Très souvent, une forte corrélation indique que les deux caractères dépendent d’un troisième, qui Cahier de Mathématiques Appliquées no 2 86 n’a pas été mesuré. Ce troisième caractère est appelé “facteur de confusion”. Qu’il existe une corrélation forte entre le rendement des impôts en Angleterre et la criminalité au Japon, indique que les deux sont liés à l’augmentation globale de la population. Le prix du blé et la population des rongeurs sont négativement corrélés car les deux dépendent du niveau de la récolte de blé. Il arrive qu’une forte corrélation traduise bien une vraie causalité, comme entre le nombre de cigarettes fumées par jour et l’apparition d’un cancer du poumon. Mais ce n’est pas la statistique qui démontre la causalité, elle permet seulement de la détecter. L’influence de la consommation de tabac sur l’apparition d’un cancer n’est scientifiquement démontrée que dans la mesure où on a pu analyser les mécanismes physiologiques et biochimiques qui font que les goudrons et la nicotine induisent des erreurs dans la reproduction du code génétique des cellules. 3.3 Régression linéaire simple Dans un problème de régression, les caractères ne sont pas considérés de la même façon. L’un d’eux est le caractère “à expliquer”, les autres sont “explicatifs”. Nous considérons d’abord le cas de deux caractères x (explicatif) et y (à expliquer). “Expliquer” signifie ici exprimer une dépendance fonctionnelle de y comme fonction de x, de manière à prévoir la valeur de y connaissant celle de x. Si pour tout individu i, yi = f (xi ), et si on observe une valeur xn+1 du caractère x sur un nouvel individu, on donnera f (xn+1 ) comme prédiction du caractère y sur ce même individu. La situation idéale où y = f (x) n’est jamais rencontrée en pratique. On cherchera plutôt, dans une famille fixée de fonctions, celle pour laquelle les yi sont les plus proches des f (xi ). La proximité se mesure en général par l’erreur quadratique moyenne : n EQ(f ) = 1X (yi − f (xi ))2 . n i=1 (3.2) On parle alors de régression au sens des moindres carrés. Les différences entre les valeurs observées yi et les valeurs prédites par le modèle f (xi ) s’appellent les résidus. Si le modèle est ajusté de sorte que la série des résidus soit centrée (de moyenne nulle), alors l’erreur quadratique EQ(f ) est la variance des résidus. La régression linéaire simple consiste à chercher f parmi les applications affines. La solution s’exprime simplement à l’aide des caractéristiques numériques de x et y. Proposition 3.5 Soient x et y deux échantillons recueillis sur une même population de taille n. Notons EQ(a, b) la fonction de IR2 dans IR+ définie par : n 1X EQ(a, b) = (yi − axi − b)2 . n i=1 Statistique descriptive 87 Si s2x 6= 0 (le caractère x n’est pas constant), la fonction EQ(a, b) admet un minimum pour : cxy ax . b a = 2 et bb = y − b sx La valeur de ce minimum est : 2 EQ(b a, bb) = s2y (1 − rxy ). Définition 3.6 On appelle droite de régression linéaire de y sur x la droite d’équation y = b ax + bb. Démonstration : Si a est fixé, EQ(a, b) est un polynôme de degré 2 en b. Il atteint son minimum pour b = b(a) tel que la dérivée s’annule. Soit : n ∂EQ(a, b) 2X =− (yi − axi − b) = −2(y − ax − b) = 0 ∂b n i=1 On a donc b(a) = y − ax. Reportons cette valeur dans EQ(a, b) : n EQ(a, b(a)) = 1X ((yi − y) − a(xi − x))2 . n i=1 Cette fonction est un polynôme de degré 2 en a, qui atteint son minimum au point b a où sa dérivée s’annule, à savoir : n − 2X (xi − x)((yi − y) − b a(xi − x)) = 0 , n i=1 soit en développant : −2cxy + 2b as2x = 0 . Posons donc : b a= cxy s2x et bb = b(b a) = y − b ax . On a bien pour tout (a, b) : EQ(b a, bb) ≤ EQ(a, b(a)) ≤ EQ(a, b) . La valeur du minimum est : n 1X cxy EQ(b a, bb) = ((yi − y) − 2 (xi − x))2 n i=1 sx = s2y − 2 = s2y − c2xy 2 c2xy + s s2x s4x x c2xy s2x 2 = s2y (1 − rxy ). Cahier de Mathématiques Appliquées no 2 88 Comme on pouvait s’y attendre l’erreur quadratique minimale est d’autant plus faible que la corrélation est forte. Il est important de noter la dissymétrie des rôles de x et y. Par rapport au nuage de points, la droite de régression linéaire de y sur x minimise la somme des distances verticales des points à la droite. La droite de régression linéaire de x sur y minimise la somme des distances horizontales. Les deux droites se coupent au centre de gravité (x, y) du nuage de points. L’écart entre les deux est d’autant plus grand que la corrélation est faible. La prédiction est la première application de la régression linéaire. Voici les tailles en centimètres (échantillon x) et poids en kilogrammes (y) de 10 enfants de 6 ans. Enfant Taille Poids 1 121 25 2 123 22 3 108 19 4 118 24 5 111 19 6 109 18 7 114 20 8 103 15 9 110 20 10 115 21 Les caractéristiques numériques prennent les valeurs suivantes : bb x y s2x s2y rxy b a EQ(b a, bb) 113.2 20.3 34.76 7.61 0.9 0.42 −27.38 1.44 Poids 30 28 26 + + 24 + 22 + + 20 + + + + 18 16 + 14 12 Tailles 10 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Figure 14 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire. Effectuer une régression linéaire signifie que l’on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire Statistique descriptive 89 constitue un modèle de prédiction. Par exemple, on affirmera que le poids moyen d’un enfant de 6 ans mesurant 120 centimètres sera de b a120+bb = 23.16 kg. Evidemment cette prédiction n’est pas infaillible. Elle donne un ordre de grandeur. La valeur qobservée s’en écartera probablement et l’erreur prévisible a, bb) = 1.2 kg. sera de l’ordre de EQ(b Comme seconde application, on peut étendre l’ajustement par quantiles à des familles de lois invariantes par transformation affine, comme les lois normales. Soit y un échantillon continu de taille n dont on souhaite vérifier qu’il pourrait être issu d’une loi normale N (µ, σ 2 ), les paramètres µ et σ 2 étant inconnus. Pour i = 1, . . . , n, notons comme d’habitude y(i) les statistiques d’ordre. Si l’hypothèse de normalité est pertinente, alors y(i) doit être proche du quantile QN (µ,σ2 ) (i/n) de la loi N (µ, σ 2 ). Rappelons que si une variable aléatoire X suit la loi N (0, 1), alors Y = σX + µ suit la loi N (µ, σ 2 ). Ceci revient à dire que pour tout u ∈ [0, 1] : QN (µ,σ2 ) (u) = σQN (0,1) (u) + µ . Notons xi = QN (0,1) (i/n) les valeurs de la fonction quantile de la loi N (0, 1) aux points i/n. Si l’hypothèse de normalité est vérifiée, les points de coordonnées (xi , y(i) ) devraient être proches de la droite d’équation y = σx + µ. Une régression linéaire des y(i) sur les xi fournit à la fois une estimation de σ et µ et une indication sur la qualité de l’ajustement. Avant les logiciels de calcul, on vendait du papier “gausso-arithmétique”, gradué en abscisses selon les quantiles de la loi N (0, 1). Il suffisait de reporter en ordonnée les valeurs des y(i) pour tracer à la main la droite de régression linéaire, qui porte le nom de “droite de Henry”, du nom du colonel qui a inventé cette méthode au siècle dernier pour étudier la portée des canons (figure 15). Le problème de la régression est de déterminer dans une famille de fonctions donnée, quelle est la fonction qui minimise l’erreur quadratique (3.2). Or il est fréquent qu’il n’y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents. Fonctions y = aebx y = axb y = a + b/x y = 1/(1 + e−(ax+b) ) Transformation y 0 = log(y) 0 y = log(y) x0 = log(x) x0 = 1/x 0 y = log(y/(1−y)) Forme affine y 0 = log(a) + bx y 0 = log(a) + bx0 y = a + bx0 y 0 = ax + b Comme exemple d’application, nous reprenons le problème de l’ajustement par les quantiles, pour la famille des lois de Weibull qui sont souvent utilisées pour modéliser des durées de survie ou des durées de fonctionnement en fiabilité. La fonction quantile de la loi de Weibull W(a, λ) est : 1/a 1 . QW(a,λ) (u) = − log(1 − u) λ Cahier de Mathématiques Appliquées no 2 90 130 Tailles + 128 + 126 + 124 ++ + + + ++ +++ +++++++ +++++++ +++ ++++++++++ +++++++++++ ++++++ ++++++++++ +++++ ++++++ ++++ +++++ ++ +++ 122 120 118 116 114 112 110 108 + + ++ 106 + 104 102 Quantiles + + 100 -3.0 -2.6 -2.2 -1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 2.2 2.6 3.0 Figure 15 – Tailles d’enfants de 6 ans. Quantiles de la loi normale N (0, 1) et statistiques d’ordre. Superposition de la droite de Henry. Soit y un échantillon que l’on souhaite ajuster par une loi de Weibull, de paramètres a et λ inconnus. Pour i = 1, . . . , n, la statistique d’ordre y(i) doit être proche du quantile QW(a,λ) (i/n). y(i) ≈ soit : log(y(i) ) ≈ 1/a 1 i , − log(1 − ) λ n i 1 1 1 log − log(1 − ) + log . a n a λ Posons xi = log(− log(1 − i/n)) et yi0 = log(y(i) ). Les points (xi , yi0 ) devraient être proches de la droite d’équation y = (1/a)x + (1/a) log(1/λ). Une régression linéaire fournira non seulement des valeurs pour a et λ, mais aussi une indication sur la qualité de l’ajustement. Avant les logiciels de calcul, il existait du “papier Weibull”, gradué de manière à automatiser ce cas particulier de régression non linéaire. 3.4 Régressions multiples Le principe de la régression au sens des moindres carrés, tel qu’il a été décrit au paragraphe précédent, est très général. Etant donné un caractère y “à expliquer” et des caractères x(1) , . . . , x(k) “explicatifs”, mesurés sur une même population de taille n, on cherche à isoler dans une famille de fonctions Statistique descriptive 91 à plusieurs paramètres, une fonction f qui “explique” y par la relation : y = f (x(1) , . . . , x(k) ) . Comme critère de choix, on minimise sur toutes les fonctions de la famille l’erreur quadratique définie par : n EQ(f ) = 1X (1) (k) (yi − f (xi , . . . , xi ))2 . n i=1 Dans certains cas classiques, on sait résoudre explicitement ce problème de minimisation, et la solution est implémentée dans les environnements de calculs statistiques. C’est le cas pour les exemples que nous donnons ci-dessous. Quand une résolution explicite est impossible, on a recours à des algorithmes de minimisation, comme l’algorithme du gradient. Régression linéaire multiple. C’est la généralisation directe de la régression linéaire simple du paragraphe précédent. Les fonctions f sont affines : f (x(1) , . . . , x(k) ) = a0 + a1 x(1) + · · · + ak x(k) . L’erreur quadratique à minimiser est une fonction des k + 1 paramètres inconnus a0 , a1 , . . . , ak : n EQ(a0 , . . . , ak ) = 1X (1) (k) (yi − (a0 + a1 xi + · · · + ak xi ))2 . n i=1 On peut toujours faire passer un hyperplan par k points dans un espace de dimension k + 1. Si la taille n de la population est inférieure ou égale à k, l’erreur quadratique minimale est donc 0. En pratique, la régression ne pourra être significative que si n est beaucoup plus grand que k. Régression polynomiale simple. On peut la voir comme une autre généralisation de la régression linéaire simple, ou comme un cas particulier de régression linéaire multiple. Un seul caractère, x, est explicatif. Les fonctions f sont les polynômes de degré k. f (x) = a0 + a1 x + · · · + ak xk . On peut considérer que les caractères x, . . . , xk sont explicatifs pour se ramener au cas précédent. Les familles des polynômes de degrés successifs sont emboîtées. Pour un même ensemble de données, l’erreur quadratique diminuera donc si on augmente k, pour s’annuler quand k dépasse n. Mais si k est trop grand, la régression ne sera pas significative. En pratique, il est rare qu’une régression polynomiale aille au-delà du degré 3. Cahier de Mathématiques Appliquées no 2 92 Régression polynomiale multiple. Quand plusieurs caractères sont explicatifs, on peut encore effectuer une régression sur une famille de polynômes en les différents caractères, de degré fixé. Les termes faisant intervenir des 0 produits du type x(h) x(h ) seront interprétés comme des termes d’interaction entre les caractères explicatifs. En pratique, on se limite à des polynômes de degré 1 ou 2. Voici pour deux caractères explicatifs x(1) et x(2) , les modèles les plus fréquemment utilisés. • Modèle d’ordre 1, sans interaction : y = a0 + a1 x(1) + a2 x(2) . • Modèle d’ordre 2, sans interaction : y = a0 + a1 x(1) + a2 x(2) + a3 (x(1) )2 + a4 (x(2) )2 . • Modèle d’ordre 1, avec interaction : y = a0 + a1 x(1) + a2 x(2) + a3 x(1) x(2) . • Modèle d’ordre 2, avec interaction : y = a0 + a1 x(1) + a2 x(2) + a3 (x(1) )2 + a4 (x(2) )2 + a5 x(1) x(2) . 3.5 Rapport de cotes Ce paragraphe traite uniquement du cas de deux caractères binaires, indicateurs de deux événements différents dont on souhaite étudier la dépendance. C’est un cas que l’on rencontre en médecine, chaque fois qu’est posé le problème d’une détection thérapeutique. Appelons M (pour maladie) le premier événement et S (pour symptôme) le second. Le symptôme peut être un taux élevé d’une certaine substance ou la réaction positive à un test de dépistage, comme un alcootest. Sur chaque individu d’une population de taille n, on a observé la présence ou l’absence de la maladie et du symptôme. On dispose donc des 4 résultats suivants : • nM S : nombre d’individus malades et présentant le symptôme, • nM S : nombre d’individus malades ne présentant pas le symptôme, • nM S : nombre d’individus non malades et présentant le symptôme, • nM S : nombre d’individus non malades ne présentant pas le symptôme. Le problème est d’extraire de ces données de quoi étayer un diagnostic : avec quelle certitude peut-on annoncer à un individu qu’il est malade si on a constaté le symptôme sur lui ? En d’autres termes, peut-on donner une valeur à la probabilité qu’un individu soit malade sachant qu’il a le symptôme. Cette probabilité théorique, notée IP[M | S] s’appelle la valeur positive prédictive du symptôme. On peut la relier à d’autres quantités par la formule de Bayes : IP[M | S] = IP[S | M ]IP[M ] . IP[S | M ]IP[M ] + IP[S | M ]IP[M ] Statistique descriptive 93 La probabilité IP[M ], qui représente la proportion de malades dans la population est souvent très faible, et difficile à estimer de façon fiable. Une des raisons est que la maladie n’est détectée que parmi les personnes qui se présentent à une consultation, et qui par là même ne sont pas représentatives de l’ensemble de la population. Dans l’exemple de l’alcootest il est même impossible de définir la proportion des individus qui ont trop bu, car elle dépend de l’heure de la journée, du lieu, etc. . . Les probabilités conditionnelles du symptôme sachant la maladie sont en général les seules accessibles. Définition 3.7 On appelle : • sensibilité la probabilité IP[S | M ] (probabilité qu’un individu malade ait le symptôme), • spécificité la probabilité IP[S | M ] (probabilité qu’un individu non malade n’ait pas le symptôme). Dans un cas idéal, ces deux quantités devraient valoir 1. Un alcootest parfait devrait être positif sur tout individu ayant trop bu, et ne jamais accuser à tort un conducteur sobre. En pratique, la sensibilité et la spécificité sont inférieures à 1, avec des différences importantes selon les tests. Pour une maladie sans traitement connu, il peut être plus grave d’alarmer à tort une personne non atteinte, que de ne pas détecter un patient atteint. On choisira donc des tests à très forte spécificité, quitte à ce que leur sensibilité soit moins bonne. A l’inverse, pour une maladie potentiellement grave mais facilement soignable, on utilisera des tests à forte sensibilité. Une forte sensibilité et une forte spécificité ne garantissent pas que la valeur positive prédictive soit bonne, si la proportion de malades est faible. Supposons par exemple IP[S | M ] = IP[S | M ] = 0.9 et IP[M ] = 0.01. D’après la formule de Bayes, la valeur positive prédictive vaut : 0.9 0.01 1 = . 0.9 0.01 + 0.1 0.99 12 Concrètement, sur 12 personnes présentant le symptôme, 11 ne sont pas malades. Si on s’arrête à ce chiffre, il semble inquiétant. Mais si on calcule de même IP[M | S], on trouve 1/892. La proportion de malades parmi les individus qui présentent le symptôme est tout de même beaucoup plus forte que parmi les autres. On dira que le symptôme est en faveur de la maladie. La question se pose donc d’évaluer l’efficacité du symptôme dans la détection de la maladie, par un nombre qui ne dépende pas de IP[M ]. On utilise pour cela le rapport de cotes (odds-ratio en anglais). La cote (au sens des parieurs) d’un événement est le rapport de la probabilité de l’événement à celle de son complémentaire. La cote de la maladie peut se calculer parmi les individus ayant le symptôme (IP[M | S]/IP[M | S]) et parmi ceux qui ne l’ont pas (IP[M | S]/IP[M | S]). Le rapport de cotes théorique est le quotient de ces deux quantités. IP[M | S] = RC = IP[M | S]/IP[M | S] IP[M ∩ S] IP[M ∩ S] = . IP[M | S]/IP[M | S] IP[M ∩ S] IP[M ∩ S] 94 Cahier de Mathématiques Appliquées no 2 Le rapport de cotes vaut 1 si la maladie et le symptôme sont indépendants, il est supérieur à 1 si le symptôme est en faveur de la maladie. Quand des observations ont été menées sur un échantillon, on peut approcher les probabilités théoriques par des fréquences empiriques. Ceci conduit à la définition du rapport de cotes empirique. Définition 3.8 On appelle rapport de cotes empirique la quantité : d = nM S nM S . RC nM S nM S d Quand le dénominateur est nul, on convient de remplacer la définition de RC par : d = (nM S + 0.5) (nM S + 0.5) . RC (nM S + 0.5) (nM S + 0.5) Exemple : Supposons que pour un échantillon de n = 10000 individus, la répartition soit la suivante : M M total S 90 990 1080 S 10 8910 8920 total 100 9900 10000 La cote (empirique) des malades parmi les individus ayant le symptôme est : nM S /nS 1 = . nM S /nS 11 Il y a 1 malade pour 11 non malades parmi les individus ayant le symptôme. Pour ceux qui n’ont pas le symptôme, la cote est : nM S /nS 1 = . nM S /nS 891 Il y a 1 malade pour 891 non malades parmi les individus n’ayant pas le symptôme. Le rapport de cotes empirique vaut : d = 1/11 = 81 . RC 1/891 Le symptôme est donc bien en faveur de la maladie. 3.6 Tableau de contingence Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population, s’ils sont discrets ou bien continus et regroupés en classes. Les deux caractères sont x et y, la taille de l’échantillon est n. Les modalités ou classes de x seront notées c1 , . . . , cr , celles de y sont notées d1 , . . . , ds . On note : Statistique descriptive 95 • nhk l’effectif conjoint de ch et dk : c’est le nombre d’individus pour lesquelsPx prend la valeur ch et y la valeur dk , s • nh• = k=1 nhk l’effectif marginal de ch : c’est le nombre d’individus pour lesquels x prend la valeur ch , Pr • n•k = h=1 nhk l’effectif marginal de dk : c’est le nombre d’individus pour lesquels y prend la valeur dk . On représente ces valeurs dans un tableau à double entrée, dit tableau de contingence : x \ y d1 . . . dk . . . ds total c1 n11 . . . n1k . . . n1s n1• .. .. .. .. .. . . . . . ch nh1 . . . nhk . . . nhs nh• .. .. .. .. .. . . . . . cr nr1 . . . nrk . . . nrs nr• total n•1 . . . n•k . . . n•s n Chaque ligne et chaque colonne correspond à un sous-échantillon particulier. La ligne d’indice h est la répartition sur d1 , . . . , ds , des individus pour lesquels le caractère x prend la valeur ch . La colonne d’indice k est la répartition sur c1 , . . . , cr , des individus pour lesquels le caractère y prend la valeur dk . En divisant les lignes et les colonnes par leurs sommes, on obtient sur chacune des distributions empiriques constituées de fréquences conditionnelles. Pour h = 1, . . . , r et k = 1, . . . , s, on les notera : nhk nhk fk|h = et fh|k = . nh• n•k Ces distributions empiriques conditionnelles s’appellent les profils-lignes et profils-colonnes. L’enjeu principal est d’étudier la dépendance des deux caractères. Deux caractères sont indépendants si la valeur de l’un n’influe pas sur les distributions des valeurs de l’autre. Si c’est le cas, les profils-lignes seront tous peu différents de la distribution empirique de y, et les profilscolonnes de celle de x : nhk n•k nhk nh• fk|h = ≈ f•k = et fh|k = ≈ fh• = . nh• n n•k n C’est équivalent à dire que les fréquences conjointes doivent être proches des produits de fréquences marginales : nhk nh• n•k fhk = ≈ fh• f•k = . n n n Les fréquences conjointes d’une part, et les produits de fréquences marginales d’autre part, constituent deux distributions de probabilité sur l’ensemble produit {c1 , . . . , cr } × {d1 , . . . , ds }. Un des moyens de quantifier leur proximité est de calculer la distance du khi-deux de l’une par rapport à l’autre. Dans ce cas particulier, on parle de khi-deux de contingence. Cahier de Mathématiques Appliquées no 2 96 Proposition 3.9 La distance du khi-deux de contingence de la distribution empirique (fhk ) à la distribution théorique (fh• f•k ) vaut : Dχ2 = r X s X (fhk − fh• f•k )2 fh• f•k h=1 k=1 r X s X = −1 + h=1 k=1 n2hk . nh• n•k Démonstration : La première expression est l’application directe de la définition 2.7. Pour passer à la seconde, on développe le carré. Dχ2 = = r X s X h=1 k=1 r X s X r s r s 2 XX XX fhk −2 fhk + fh• f•k fh• f•k h=1 k=1 2 fhk fh• f•k h=1 k=1 r X s X = −1 + h=1 k=1 h=1 k=1 −2 +1 n2hk . nh• n•k La distance du khi-deux vaut 0 si les deux caractères sont indépendants. Elle est maximale s’il existe une dépendance systématique. Supposons r = s et y = f (x), pour une certaine fonction bijective f . Sur chaque ligne et chaque colonne du tableau de contingence, une seule case est non nulle et la distance du khi-deux vaut (r−1). Statistique descriptive 4 97 Exercices Rien ne remplace le traitement de problèmes réels pour affiner ce “sens des données” qui fait le bon statisticien. L’observation d’échantillons simulés à l’aide d’un environnement de calcul comme Scilab, fournit une base expérimentale certes artificielle, mais suffisante pour bien cerner les notions les plus élémentaires. Dans les exercices qui suivent, les valeurs proposées pour les tailles d’échantillons ainsi que pour les paramètres des lois ne sont qu’indicatives. Elles pourront être modulées en fonction de la puissance de calcul disponible. Exercice 1 Pour les lois de probabilité P suivantes : • Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) . • Lois sur {0, . . . , 4} définies par les probabilités suivantes : 0 0.2 0.3 0.6 0.9 • • • • Lois Lois Lois Lois 1 0.2 0.3 0.1 0.025 2 0.2 0.3 0.1 0.025 3 0.2 0.05 0.1 0.025 4 0.2 0.05 0.1 0.025 uniformes U(0, 1) , U(0, 100) . exponentielles E(1) , E(0.1) . normales N (0, 1) , N (10, 100) . Gamma G(10, 1) , G(100, 1) . 1. Simuler un échantillon x de taille 1000 de la loi P . Pour i = 1, . . . , 1000, on note x(i) l’échantillon des i premières valeurs de x. 2. Calculer et représenter graphiquement les valeurs de la différence entre la moyenne empirique x(i) et l’espérance de la loi P . 3. Idem pour les différences entre les variances empiriques des échantillons x(i) et la variance théorique de la loi P . Idem pour les médianes et les quartiles, empiriques et théoriques. 4. Superposer sur un même graphique la fonction de répartition de la loi P et la fonction de répartition empirique de l’échantillon x(i) , pour i = 100, i = 500 et i = 1000. Exercice 2 Pour les lois de probabilité P suivantes : • Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) . • Lois sur {0, . . . , 4} définies par les probabilités suivantes : 0 0.2 0.3 0.6 0.9 1 0.2 0.3 0.1 0.025 2 0.2 0.3 0.1 0.025 3 0.2 0.05 0.1 0.025 4 0.2 0.05 0.1 0.025 Cahier de Mathématiques Appliquées no 2 98 • • • • Lois Lois Lois Lois uniformes U(0, 1) , U(0, 100) . exponentielles E(1) , E(0.1) . normales N (0, 1) , N (10, 100) . Gamma G(10, 1) , G(100, 1) . 1. Simuler 1000 échantillons de taille 100 de la loi P . 2. On note x∗ l’échantillon des 1000 moyennes empiriques, centrées et réduites. Superposer sur un même graphique un histogramme de l’échantillon x∗ et la densité de la loi normale N (0, 1). Superposer sur un même graphique la fonction de répartition empirique de l’échantillon x∗ et la fonction de répartition de la loi normale N (0, 1). 3. Idem pour l’échantillon des 1000 variances empiriques, centrées et réduites. 4. Idem pour l’échantillon des 1000 écarts-types empiriques, centrés et réduits. 5. Idem pour l’échantillon des 1000 médianes empiriques, centrées et réduites. Exercice 3 1. Choisir deux réels a et b. Simuler un échantillon e de taille 100 de la loi normale N (0, 1). Soit x l’échantillon défini par xi = ia + b + ei . 2. Calculer pour l’échantillon x les moyennes mobiles d’ordre 1, 2, 3. 3. Représenter sur un même graphique la droite d’équation y = ax + b, (k) (k) les points de coordonnées (i, xi ), et les points (i, mi ) où les mi sont les moyennes mobiles d’ordre k = 1, 2, 3. Exercice 4 Pour les lois de probabilité P suivantes : • Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) . • Lois sur {0, . . . , 4} définies par les probabilités suivantes : 0 0.2 0.3 0.6 0.9 • • • • Lois Lois Lois Lois 1 0.2 0.3 0.1 0.025 2 0.2 0.3 0.1 0.025 3 0.2 0.05 0.1 0.025 4 0.2 0.05 0.1 0.025 uniformes U(0, 1) , U(0, 100) . exponentielles E(1) , E(0.1) . normales N (0, 1) , N (10, 100) . Gamma G(10, 1) , G(100, 1) . 1. Simuler 1000 échantillons de taille 10 de la loi P . On note x l’échantillon des 1000 variances empiriques, et x∗ l’échantillon des 1000 variances empiriques non biaisées (x∗i = 10 9 xi ). Statistique descriptive 99 2. Calculer x, x∗ et la variance théorique de la loi P . 3. Représenter sur le même graphique un histogramme de x et un histogramme de x∗ . Représenter sur le même graphique la variance théorique de la loi P par un trait vertical. Exercice 5 1. Pour i = 1, 2, 3, simuler un échantillon x(i) de taille 1000 de la loi normale N (i, 1). Calculer les 3 moyennes et les 3 variances empiriques. 2. Calculer les variances inter-classes et intra-classes ainsi que la variance de l’échantillon global. 3. Représenter un histogramme de l’échantillon global. 4. Reprendre les mêmes calculs avec 3 échantillons de taille 1000 des lois N (0.1, 1), N (0.2, 1) et N (0.3, 1). 5. Reprendre les mêmes calculs avec 3 échantillons de taille 1000 des lois N (10, 1), N (20, 1) et N (30, 1). Exercice 6 La fonction quantile de la loi de Cauchy est définie par : Q(u) = tan(πu − π/2) , pour tout u ∈]0, 1[. 1. Montrer que Q(α) = −Q(1 − α). Pour α < 0.5, on note qα = Q(1 − α). Montrer que : IE[X | X ∈] − qα , qα ] ] = 0 . 2. Calculer qα pour α = 0.025, 0.005. 3. Simuler un échantillon de taille 5000 de la loi de Cauchy. Pour tout n de 100 à 5000 par pas de 100, calculer la moyenne empirique ainsi que les moyennes élaguées bilatérales de niveau 0.95 et 0.99. Représenter ces quantités sur un même graphique, et comparer. Exercice 7 La loi de Paréto P(a) a pour fonction de répartition : F (x) = (1 − x−a )11[1,+∞[ . 1. Quelles sont les valeurs de a pour lesquelles l’espérance de la loi P(a) existe ? Même question pour la variance. 2. Pour tout α > 0, soit qα = Q(1 − α) le quantile d’ordre 1 − α de la loi P(a). Si X suit la loi P(a), calculer : IE[X | X ≤ qα ] . 3. Simuler un échantillon de taille 5000 de la loi P(1). Pour tout n de 100 à 5000, calculer la moyenne empirique ainsi que les moyennes élaguées unilatérales de niveau 0.95 et 0.99. Représenter ces quantités sur un même graphique, comparer avec les valeurs théoriques. 4. Reprendre la question précédente en remplaçant la loi P(1) par la loi P(2). Cahier de Mathématiques Appliquées no 2 100 Exercice • Lois • Lois • Lois • Lois • Lois • Lois 8 Pour les lois de probabilité P suivantes : uniformes U(0, 1) , U(0, 100) . exponentielles E(1) , E(0.1) . normales N (0, 1) , N (10, 100) . Gamma G(10, 1) , G(100, 1) . de Student T (1) , T (100) . de Fisher F(2, 2) , F(20, 20) . 1. Simuler un échantillon x de taille 1000 de la loi P . 2. Pour i = 0, . . . , 20, on note : ai = min{x} + i (max{x} − min{x}) . 20 Calculer les fréquences empiriques des 20 classes [ai−1 , ai ] (i = 1, . . . , 20). Superposer sur un même graphique un histogramme de ces fréquences empiriques et la densité de la loi P . 3. Idem si les ai sont les statistiques d’ordre d’un échantillon de taille 21 de la loi uniforme U(min{x}, max{x}). 4. Idem si les ai sont les statistiques d’ordre d’un échantillon de taille 21 de la loi P . Exercice 9 Pour les lois de probabilité P suivantes : • Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) . • Lois sur {0, . . . , 4} définies par les probabilités suivantes : 0 0.2 0.3 0.6 0.9 1 0.2 0.3 0.1 0.025 2 0.2 0.3 0.1 0.025 3 0.2 0.05 0.1 0.025 4 0.2 0.05 0.1 0.025 1. Simuler 100 échantillons de taille 1000 de la loi P . Pour chacun des 100 échantillons, calculer la distance du khi-deux de sa distribution empirique par rapport à la distribution théorique P . Soit x l’échantillon de taille 100 des valeurs prises par la distance du khi-deux, multipliées par 1000. 2. Superposer sur un même graphique un histogramme de l’échantillon x, et la densité de la loi de khi-deux à 4 degrés de liberté. 3. Superposer sur un même graphique la fonction de répartition empirique de l’échantillon x et la fonction de répartition FX 2 (4) de la loi de khideux à 4 degrés de liberté. 4. Ajustement par quantiles : former le vecteur y, des centiles de la loi de khi-deux : QX 2 (4) (i/100) , i = 1, . . . , 99. Représenter sur un même graphique le nuage des points (x(i) , yi ) et la première bissectrice. Statistique descriptive 101 Exercice 10 1. Simuler 100 échantillons de taille 1000 de la loi uniforme U(0, 1). 2. Pour chacun des 100 échantillons, calculer la distance de KolmogorovSmirnov entre la distribution empirique et la distribution théorique U(0, 1). Soit y l’échantillon de taille 100 des√valeurs prises par la distance de Kolmogorov-Smirnov, multipliées par 1000. 3. On considère la fonction FKS , définie sur ]0, +∞[ par : FKS (t) = 1 + 2 +∞ X (−1)k e−2k 2 2 t . k=1 Pour i = 1, . . . , 100, soit yi0 = FKS (y(i) ). Calculer une approximation des yi0 . 4. Soit x le vecteur (i/100) , i = 1, . . . , 100. Représenter sur un même graphique le nuage des points (xi , yi0 ) et la première bissectrice. 5. Calculer le coefficient de corrélation linéaire de x et y 0 . Exercice 11 Soient X et U deux variables aléatoires indépendantes de loi N p(0, 1). Soit ρ un réel strictement compris entre −1 et 1, et Y = ρX + 1 − ρ2 U . 1. Montrer que la covariance de X et Y est ρ. 2. Pour les valeurs de ρ comprises entre −0.9 et 0.9 par pas de 0.3 : simuler deux échantillons x et u de taille 1000 p de la loi N (0, 1), et calculer l’échantillon y défini par yi = ρxi + 1 − ρ2 ui . Calculer le coefficient de corrélation linéaire empirique de x et y. Représenter le nuage des points de coordonnées (xi , yi ). 3. Reprendre les mêmes √ calculs en remplaçant la loi normale N (0, 1) par la loi uniforme U(0, 12). Exercice 12 Choisir deux réels a et b. Simuler un échantillon e = (ei ), de taille 100 de la loi normale N (0, 1). Pour tout i = 1, . . . , 100, posons xi = i et yi = ai + b + ei , et notons x et y les échantillons correspondants. 1. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x. Représenter sur le même graphique les points de coordonnées (xi , yi ), la droite de régression linéaire, et la droite d’équation y = ax + b. 2. Reprendre les mêmes calculs pour un échantillon e de taille 1000 de la loi normale N (0, 0.1). 3. Reprendre les mêmes calculs pour un échantillon e de taille 100 de la loi uniforme U(0, 1). 4. Reprendre les mêmes calculs pour un échantillon e de taille 1000 de la loi N (0, 10). 102 Cahier de Mathématiques Appliquées no 2 Exercice 13 Choisir deux réels a et b. Simuler deux échantillons x = (xi ) et e = (ei ), de taille 100 de la loi normale N (0, 1). Pour tout i = 1, . . . , 100, soit yi = axi + b + ei , et y l’échantillon correspondant. 1. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x. Représenter sur le même graphique les points de coordonnées (xi , yi ), la droite de régression linéaire et la droite d’équation y = ax + b. 2. Reprendre les mêmes calculs pour un échantillon x de taille 100 de la loi normale N (0, 10) et un échantillon e de taille 100 de la loi normale N (0, 1). 3. Reprendre les mêmes calculs pour un échantillon x de taille 100 de la loi normale N (0, 0.1) et un échantillon e de taille 100 de la loi normale N (0, 1). 4. Reprendre les questions précédentes en remplaçant la taille des échantillons par 1000. Exercice • Lois • Lois • Lois • Lois • Lois • Lois 14 Pour les lois de probabilité P suivantes : uniformes U(0, 1) , U(0, 100) . exponentielles E(1) , E(0.1) . normales N (0, 1) , N (10, 100) . Gamma G(10, 1) , G(100, 1) . de Student T (1) , T (100) . de Fisher F(2, 2) , F(20, 20) . 1. Simuler un échantillon x de taille 1000 de la loi P . 2. Superposer sur un même graphique un histogramme de l’échantillon obtenu et la densité de la loi P . 3. Superposer sur un même graphique la fonction de répartition empirique de l’échantillon y et la fonction de répartition FP de la loi P . 4. Ajustement par quantiles : former le vecteur y, des images par la fonction quantile QP des valeurs (i/1000) , i = 1, . . . , 999. Représenter sur un même graphique le nuage des points (x(i) , yi ) et la première bissectrice. 5. Calculer la distance de Kolmogorov-Smirnov de la loi empirique de l’échantillon x à la loi P . Exercice • Lois • Lois • Lois • Lois 15 Pour les lois de probabilité P suivantes : binomiales B(30, 0.5) , B(30, 0.1) , B(100, 0.1) . de Poisson P(30) , P(100) . de Student T (10) , T (30) , T (100) . Gamma G(10, 1) , G(30, 1) , G(100, 1) . 1. Simuler un échantillon de taille 100 de la loi P . Soit y l’échantillon formé des 99 premières statistiques d’ordre des valeurs simulées. Soit x = (QN (0,1) (i/100)) , i = 1, . . . , 99, le vecteur des centiles de la loi N (0, 1). Statistique descriptive 103 2. Calculer x, s2x , y, s2y , cxy , rxy . 3. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x. Représenter le nuage des points (xi , yi ) et la droite de régression linéaire sur le même graphique. 4. Comparer les valeurs de bb et b a à l’espérance et à l’écart-type de la loi P. 5. Représenter sur le même graphique un histogramme de l’échantillon y et la densité de la loi normale de même espérance et de même variance que la loi P . Exercice 16 Choisir deux réels c et d tels que c < d. Simuler un échantillon de taille 100 de la loi uniforme U(c, d). Soit y l’échantillon des statistiques d’ordre des valeurs simulées et x = (i/100) , i = 1, . . . , 100. 1. Calculer x, s2x , y, s2y , cxy , rxy . 2. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x. Représenter le nuage des points (xi , yi ) et la droite de régression linéaire sur le même graphique. 3. Comparer les valeurs de bb et b a à c et d−c. Exercice 17 Choisir deux réels µ et σ > 0. Simuler un échantillon de taille 100 de la loi normale N (µ, σ 2 ). Soit y l’échantillon des 99 premières statistiques d’ordre des valeurs simulées. Soit x = (QN (0,1) (i/100)) , i = 1, . . . , 99, le vecteur des centiles de la loi N (0, 1). 1. Calculer x, s2x , y, s2y , cxy , rxy . 2. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x. Représenter le nuage des points (xi , yi ) et la droite de régression linéaire sur le même graphique. 3. Comparer les valeurs de bb et b a à µ et σ. Exercice 18 Choisir deux réels c > 0 et λ > 0. Simuler un échantillon e de taille 100 de la loi de Weibull W(c, λ). Soit y = (log(e(i) ) , i = 1, . . . , 99, où les e(i) sont les 99 premières statistiques d’ordre des valeurs simulées. Soit x = (log(− log(1 − i/100))) , i = 1, . . . , 99. 1. Calculer x, s2x , y, s2y , cxy , rxy . 2. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x. Représenter le nuage des points (xi , yi ) et la droite de régression linéaire sur le même graphique. 3. Comparer les valeurs de b a et bb à (1/c) et (1/c) log(1/λ). Exercice 19 Choisir trois réels a0 , a1 et a2 . Simuler deux échantillons x(1) et x(2) de taille 1000 de la loi normale N (0, 100), et un échantillon e de taille 1000 de la loi normale N (0, 1). Soit y = (yi ) l’échantillon défini pour (1) (2) i = 1, . . . , 100 par yi = a0 + a1 xi + a2 xi + ei . 104 Cahier de Mathématiques Appliquées no 2 1. Calculer les coefficients de la régression linéaire de y sur x(1) et x(2) , et comparer à a0 , a1 et a2 . (1) (2) 2. Représenter le nuage des points (xi , xi , yi ). Exercice 20 Choisir trois réels a0 , a1 et a2 . Simuler un échantillon x de taille 1000 de la loi normale N (0, 100), et un échantillon e de taille 1000 de la loi normale N (0, 1). Soit y = (yi ) l’échantillon défini pour i = 1, . . . , 100 par yi = a0 + a1 xi + a2 x2i + ei . 1. Calculer les coefficients des régressions polynomiales de degrés 2, 3 et 4, et comparer à a0 , a1 et a2 . 2. Représenter le nuage des points (xi , yi ) et la courbe d’équation y = a0 + a1 x + a2 x2 sur le même graphique. 3. Reprendre les mêmes calculs en choisissant 4 réels a0 , a1 , a2 et a3 pour l’échantillon y = (yi ) défini par yi = a0 + a1 xi + a2 x2i + a3 x3i + ei . Exercice 21 Simuler deux échantillons indépendants, m = (mi ) et u = (ui ), de taille 1000 de la loi de Bernoulli B(1, 0.1). Soit ρ un réel strictement compris entre 0 et 1. Soit e = (ei ) un échantillon de la loi de Bernoulli de paramètre ρ. On contruit l’échantillon s de la manière suivante : pour i = 1, . . . , 1000, si ei = 0 alors si = mi , sinon, si = ui . Répéter les calculs suivants pour ρ = 0.01, 0.1, 0.5, 0.9, 0.99. 1. Calculer la table de contingence du couple (s, m). 2. Calculer la sensibilité, la spécificité et la valeur positive prédictive empiriques de s pour m. 3. Calculer le rapport de cotes de m par rapport à s. 4. Reprendre les calculs précédents pour la règle de simulation suivante : si ei = 0 alors si = mi , sinon, si = 1 − mi . Exercice 22 Simuler deux échantillons indépendants, x = (xi ) et u = (ui ), de taille 1000 de la loi binomiale B(5, 0.3). Soit ρ un réel strictement compris entre 0 et 1. Soit e = (ei ) un échantillon de la loi de Bernoulli de paramètre ρ. On contruit l’échantillon y de la manière suivante : pour i = 1, . . . , 1000, si ei = 0 alors yi = ui , sinon, yi = xi . Répéter les calculs suivants pour ρ = 0.01, 0.1, 0.5, 0.9, 0.99. 1. Calculer la table de contingence du couple (x, y). 2. Calculer la table des profils-lignes et des profils-colonnes. 3. Calculer la distance du khi-deux de contingence de cette table. Statistique descriptive 105 Lois discrètes classiques Loi Probabilités Espérance Variance paramètre(s) support n+1 2 n2 − 1 12 n ∈ IN∗ 1 n {1, . . . , n} Bernoulli B(1, p) 1 − p, p p p(1 − p) p ∈]0, 1[ {0, 1} np np(1 − p) 1 p 1−p p2 λ λ Uniforme U({1, . . . , n}) Binomiale B(n, p) n k n ∈ IN∗ , p ∈]0, 1[ k ∈ {0, . . . , n} Géométrique G(p) p(1 − p)k−1 p ∈]0, 1[ k ∈ IN∗ k p (1 − p)n−k λk k! k ∈ IN e−λ Poisson P(λ) λ ∈ IR+∗ Hypergéométrique HG(N, m, n) n ∈ IN∗ , 1 ≤ m, n ≤ N Binomiale Négative BN (n, p) n ∈ IN∗ , p ∈]0, 1[ m k N −m n−k N n nm N N −n m n N −1 N 1− 0 ≤ k ≤ min(m, n) n+k−1 k n p (1 − p)k k ∈ IN ! n n! = . k k! (n − k)! n −n p n(1 − p) p2 m N Cahier de Mathématiques Appliquées no 2 106 Lois continues classiques Loi Densité paramètre(s) support Uniforme U(a, b) 1 b−a a ∈ IR , b ∈ IR a < b x ∈]a, b[ Exponentielle E(λ) λe−λx λ ∈ IR+∗ x ∈ IR+∗ Normale N (µ, σ 2 ) σ − √1 e 2π x ∈ IR Weibull W(a, λ) aλxa−1 e−λx a, λ ∈ IR+∗ x ∈ IR+∗ Gamma G(a, λ) λa xa−1 e−λx Γ(a) a, λ ∈ IR+∗ x ∈ IR+∗ n ∈ IN n ∗ − 1 √ e xσ 2π µ ∈ IR , σ 2 ∈ IR+∗ 1 λ2 µ σ2 1 2 λ− a Γ( a1 + 1) λ− a (Γ( a2 + 1)− (Γ( a1 + 1))2 ) a λ a λ2 n 2n a a+b ab (a+b)2 (a+b+1) +∗ − x)b−1 (log(x)−µ)2 2σ 2 eµ+ n ∈ IN∗ 1+ x2 n − n+1 2 x ∈ IR Fisher F(n, m) σ2 2 2 2 e2µ+σ (eσ − 1) x ∈ IR+∗ Γ( n+1 2 ) √ nπΓ( n 2) Student T (n) n Kx−1+ 2 (m + nx)− n, m ∈ IN∗ n+m 2 x ∈ IR+∗ +∞ Z Γ(a) = √ 1 λ x ∈]0, 1[ Log-Normale LN (µ, σ 2 ) Γ( 12 ) = (b−a)2 12 x Γ(a+b) a−1 x (1 Γ(a)Γ(b) a, b ∈ IR+∗ b−a 2 x 2 −1 e− 2 x ∈ IR Béta B(a, b) a n 1 2 2 Γ( n ) 2 Variance (x−µ)2 2σ 2 µ ∈ IR , σ 2 ∈ IR+∗ Khi-deux X 2 (n) Espérance e−x xa−1 dx 0 n n−2 si n > 1 si n > 2 m m−2 n+m−2 2m2 n (m−2)2 (m−4) si m > 2 si m > 4 pour a ∈ IR+∗ , 0 π, Γ(a) = (a − 1)Γ(a − 1) , a ∈]1, +∞[, Γ(n) = (n − 1)!, n ∈ IN∗ . Index ajustement, 79 par quantiles, 79, 81, 89 ANOVA, 70 bimodale, 72 box plot, 75 caractère, 61 binaire, 64, 92 continu, 62, 78 discret, 62, 78 explicatif, 86, 90 ordinal, 61 qualitatif, 61 quantitatif, 61 centiles, 74 centrer, 64 codage, 61 coefficient de corrélation, 85 de variation, 66 covariance, 83 déciles, 74 inter-, 75 diagramme en bâtons, 72 en boîte, 75 dispersion, 66, 75 distance de Kolmogorov-Smirnov, 82 du khi-deux, 81 du khi-deux de contingence, 96 distribution empirique, 71 droite de Henry, 89 de régression, 87, 88 écart absolu moyen, 67, 74 écart-type, 66 effectif, 71 erreur quadratique, 67, 86, 91 étendue, 75 fonction de répartition empirique, 72, 79 quantile empirique, 73 fréquence empirique, 65, 72, 73, 79, 83 Henry droite de, 89 histogramme, 73, 79, 83 individu, 61 lissage, 65 exponentiel, 65 marginal, 95 médiane, 74 modèle probabiliste, 75 modalité, 61, 71 mode, 72 moindres carrés, 86 moyenne, 64 élaguée, 65 empirique, 64 mobile, 65 multimodale, 72 nuage de points, 83 odds-ratio, 93 population, 61 profil -colonne, 95 -ligne, 95 QQ-plot, 79, 81 quantiles, 74 quartiles, 74 inter-, 75 rapport de cotes, 92–94 réduire, 69 régression droite de, 87, 88 linéaire multiple, 91 linéaire simple, 86 non linéaire, 89 polynomiale multiple, 91 polynomiale simple, 91 107 108 résidus, 86 sensibilité, 93 série chronologique, 62, 65 statistique, 62 spécificité, 93 statistique, 63 statistiques d’ordre, 72 tableau de contingence, 94 unimodale, 72 valeur aberrante, 65 valeur positive prédictive, 92 variabilité, 63, 66, 77 variance, 66 analyse de, 70 expliquée, 70 non biaisée, 69 résiduelle, 70 Cahier de Mathématiques Appliquées no 2