Principes et Méthodes de la Biostatistique Chapitre 3 VARIABLES ALEATOIRES A– DEFINITION ET CARACTERISTIQUES DES VARIABLES ALEATOIRES Première approche Soit une épreuve dont les résultats possibles sont des valeurs numériques ; un exemple immédiat est celui du jet d'un dé. Les éventualités sont les valeurs {1, 2, 3, 4, 5, 6}. Si on adopte le 1 modèle du dé "parfait", les probabilités de chacune de ces valeurs sont 6 ; un modèle plus général est d'attribuer à ces valeurs des probabilités {p1, ..., p6} dont la somme est égale à 1. On a ainsi défini une variable aléatoire X dont la distribution (ou la loi) est caractérisée par l'ensemble des valeurs qu'elle peut prendre {x1, x2, ...} et les probabilités correspondantes {p1, p2, ...}. Les pi sont nécessairement positifs ou nuls et leur somme est égale à 1 puisque les événements xi sont incompatibles. Il existe deux types de variables aléatoires que nous allons maintenant préciser. Variables aléatoires discrètes Les plus simples des variables aléatoires sont celles qui ne peuvent prendre qu'un nombre n fini de valeurs, comme dans l'exemple précédent du dé. Les valeurs xi que peut prendre X sont en nombre fini et n ∑pi = 1 . i=1 Une variable aléatoire très simple de ce type est la variable de Bernoulli de paramètre p ; c'est une variable que ne peut prendre que 2 valeurs possibles {1 et 0} avec les probabilités p et q = 1 - p. Cette variable intervient chaque fois que l'on étudie un caractère qui ne peut prendre que 2 modalités auxquelles on attribue les valeurs numériques 0 et 1. Un cas un peu plus général est celui où l'ensemble des valeurs possibles que peut prendre X est infini, tout en restant dénombrable. Un exemple très important est celui de la loi de Poisson, étudiée plus loin. Alors, les valeurs possibles sont {x1, x2, ...} avec les probabilités {p1, p2, ...}. La somme (infinie) des pi doit être égale à 1. Considérons l'exemple suivant : on joue une série de parties de pile ou face, la probabilité de gagner une partie étant p. Le jeu s'arrête dès qu'on a gagné ; on s'intéresse au nombre N de parties jouées avant que le jeu ne cesse. N est évidemment une variable aléatoire qui peut prendre les valeurs 1 (on gagne à la première partie), 2 (on perd à la première mais on gagne à la deuxième), 3, etc... N peut donc prendre toutes les valeurs entières à partir de 1 ; l'ensemble des valeurs possibles est bien infini. Cherchons les probabilités correspondantes : Variables aléatoires 8 Principes et Méthodes de la Biostatistique p1=Pr{N=1}=Pr{Gain au premier jeu}=p ; p2 = Pr(N = 2) = Pr{Perte puis gain} = qp ; pi = Pr{N = i} = {(i - 1) Pertes puis gain} = qi-1p. ∞ ∑pi i=1 ∞ p = p ∑qi-1 = p(1 + q + q2 + ...) = 1 - q = 1 1 On a bien défini une variable aléatoire qui peut prendre une infinité discrète de valeurs. Variables aléatoires continues Ce cas est un peu plus délicat que le précédent et nous le présenterons sous une forme intuitive et assez peu rigoureuse. X peut maintenant prendre toutes les valeurs possibles d'un (ou plusieurs) intervalle, par exemple toutes les valeurs comprises entre les 2 nombres 0 ou 1, ou même dans le cas plus général, toutes les valeurs de l'ensemble R des réels, de - ∞ à + ∞. La loi ou la distribution de la variable aléatoire X est alors donnée par sa densité de probabilité f(x) en chaque point x, dont la définition (peu rigoureuse, mais concrète) est la suivante : soit un petit intervalle (x, x + dx) ; f(x) est la quantité telle que Pr[x < X < x + dx] = f(x) dx Par exemple, si f(7) = 3.1, Pr[7 < X < 7 + dx] = 3.1 dx (dx petit). La figure 1 représente une densité de probabilité f(x). f(x) dx étant une probabilité, la densité f(x) est nécessairement positive (ou nulle). f(x) f(x) dx est l'aire d'un petit rectangle de base dx et de hauteur f(x). x x + dx a b x Cherchons la probabilité que X soit comprise entre 2 nombres a et b donnés. On voit sur la figure que cette probabilité est la surface sous la courbe f(x), comprise entre les abscisses a et b, ou de b façon plus formelle Pr[a < X < b] =⌠ ⌡f(x) dx . Puisque X est nécessairement compris entre a +∞ - ∞ et + ∞, ⌠ ⌡f(x) dx = 1 ; la surface sous la courbe est égale à 1. C'est la deuxième condition à -∞ laquelle doit satisfaire f(x) pour être une densité de probabilité. Cherchons maintenant ce que vaut Pr[X ≤ x] en fonction de x. Cette fonction F(x) est la fonction de répartition de X. Variables aléatoires 9 Principes et Méthodes de la Biostatistique x C'est la surface sous la courbe, à gauche de x. F(x) = ⌡ ⌠f(u) du . F(- ∞)= 0 puisque X est -∞ nécessairement plus grand que - ∞ ; de la même façon, F(+ ∞) = 1 puisque X est nécessairement plus petit que + ∞. Enfin, F(x) comme fonction de x est croissante (ou du moins non décroissante) puisque si a < b, la surface à gauche de a ne peut être plus grande que celle à gauche de b. En résumé une fonction de répartition F(x) est nécessairement croissante (ou du moins non décroissante) de la valeur 0 à la valeur 1. b Revenant à Pr[a < X ≤ b] = ⌠ ⌡f(x) dx , c'est aussi Pr[X ≤ b] - Pr[X ≤ a] = F(b) - F(a). On a voit alors que F(x) est la primitive de f(x) et qu'inversement f(x) est la dérivée de F(x). Un exemple : La distribution uniforme X est une variable aléatoire qui peut prendre n'importe quelle valeur de l'intervalle [0, 1]. Sa densité est constante sur cet intervalle, et nulle en dehors (puisque X ne peut prendre que des valeurs sur [0, 1]). f(x) a donc l'allure suivante ; puisque la surface sous f(x) doit être égale à 1, f(x) vaut 1 sur l'intervalle [0, 1] et 0 ailleurs. Cherchons F(x) en fonction de x, nous souvenant que F(x) = Pr[X ≤ x] = aire sous f(x) à gauche de x. f(x) 1 Pour x ≤ 0, F(x) = 0 ; 0 x 1 Pour x ≥ 1 F(x) = 1 ; Pour 0 ≤ x ≤1, la surface à gauche de x est x. On remarque que F(x) = x est bien la primitive de f(x) = 1. F(x) a donc l'allure suivante : nulle de - ∞ à 0, égale à x de 0 à 1, et de valeur 1 de 1 à + ∞. F(X) 0 Variables aléatoires 1 x 10 Principes et Méthodes de la Biostatistique Un autre exemple : La distribution exponentielle X est une variable aléatoire qui peut prendre n'importe quelle valeur de [0, +∞]. Sa fonction de répartition F(x) = 1 - e-λx ; quelle est sa densité ? On doit d'abord vérifier que F(x) est une fonction de répartition : elle vaut 0 pour x = 0, 1 d F(x) pour x = +∞ et elle est croissante de 0 à +∞. f(x) = = λe-λx . dt Une remarque : La fonction de répartition F(x) = Pr [X ≤ x] peut également être définie pour des variables discrètes mais elle est surtout utilisée pour les variables continues, à cause de la relation simple que la lie à la densité de probabilité. Caractéristiques d'une variable aléatoire X Nous en définissons 2 qui sont les plus utiles, mais il y en a évidemment beaucoup d'autres. Moyenne ou espérance mathématique E(X) Par définition, c'est E(X) = ∑ pixi = µ pour les variables discrètes i et E(X) = ⌠x ⌡ f(x) dx = µ pour les variables continues. Variance σ2 C'est par définition E{(X - µ)2} ; Il faut bien comprendre ce que signifie cette expression en apparence compliquée : X étant une variable aléatoire, X - µ en est une autre et également (X - µ)2. La variance de X est l'espérance mathématique de cette dernière variable aléatoire. Supposons X discret de distribution x1 x 2 x 3 L p1 p 2 p 3 L Les valeurs possibles de X - µ sont x1 - µ, x2 - µ, x3 - µ,…avec les mêmes probabilités p1, p2... et celles de (X - µ)2 sont (x1 - µ)2, (x2 - µ)2, (x3 - µ)2,…avec les mêmes probabilités p1, p2... Donc σ2 = E (X - µ)2 = ∑pi (xi - µ)2 (cas discret) ⌠(x ⌡ - µ)2 f(x) dx (cas continu) Pour le calcul de σ2, on utilise souvent la formule σ2 = E(X2) - µ2. 2 2 En effet ∑pi (xi - µ)2 = ∑pi (xi - 2xi µ + µ2) = ∑pi xi - 2µ ∑pi xi + µ2 ∑pi 2 = ∑pi xi - 2µ2 + µ2 (on se rappelle que ∑pi = 1). 2 Comme ∑pi xi = E(X2), on a bien la formule annoncée. Variables aléatoires 11 Principes et Méthodes de la Biostatistique On appelle écart-type σ la racine carrée (positive) de la variance. Alors que l’espérance mathématique est un paramètre de position, la variance est un paramètre de dispersion. Moins les valeurs possibles de X sont dispersées (moins X est variable), plus faible est σ2. En effet, si les xi sont concentrés, ils sont près de la moyenne µ et les valeurs de (xi - µ)2 sont petites, entraînant un σ2 petit. A l’extrême, si X n’est pas aléatoire (prend toujours la même valeur) la variance est nulle. Moyenne et variance de la variable de Bernoulli de paramètre p E(X) = p x 1 + q x 0 = p σ2 = E(X2) - [E(X)]2 = p x 1 + q.0 - p2 = pq La variance est nulle si p ou q sont nuls ou égaux à 1 : en effet, dans ces deux cas, le résultat est certain (toujours 1 ou toujours 0). Notions sur les distributions bivariées Nous n'avons jusqu'ici considéré qu'une seule variable aléatoire X. Mais de nombreux problèmes, en particulier celui de la mesure de la dépendance entre 2 variables, nous conduisent à étudier la distribution conjointe de 2 variables aléatoires, disons X et Y. Nous considérons le cas le plus simple, X et Y sont deux variables discrètes, pouvant prendre un nombre fini de valeurs possibles x1, x2, ... xk avec les probabilité p1, p2, ... pk pour X et y1, y2, ... yl avec les probabilités q1, q2, ... ql pour Y (attention, ici les q ne sont pas les compléments à 1 des p). Par définition, la distribution conjointe de X et Y est l'ensemble des valeurs πij telles que πij = Pr[X = xi et Y = yj] Ces valeurs sont indiquées dans le tableau ci-dessous XY X1 X2 .. . xi y1 y2 ... yj yl . . . . . . . . . . . … … … . . … … … … … πij xk Soit la somme des probabilités qui figurent dans la première ligne du tableau : c'est Pr[X = x1 et Y = y1] +...+ Pr[X = x1 et Y = yl] = Pr[X = x1 et {Y = y1 ou Y = y2 ou ... Y = yl}] puisque les évènements entre crochets sont incompatibles. Mais l'événement {Y = y1 ou Y = y2 ... ou Y = yl} est réalisé, puisque Y prend nécessairement une de ces valeurs. Variables aléatoires 12 Principes et Méthodes de la Biostatistique Finalement la somme de la ligne est Pr[X = x1] = p1 ce qui était à peu près évident a priori. Les pi et qj définissent les distributions marginales de X et Y. X et Y sont indépendants si Pr[X = xi et Y = yj] = Pr[X = xi] x Pr[Y = yj], quels que soient xi et yj (définition de l'indépendance de 2 évènements), donc si πij = pi qj. Si tel n'est pas le cas, X et Y sont 2 variables aléatoires dépendantes. Covariance de 2 variables aléatoires µx et µy étant les espérances mathématiques de X et Y, µx = ∑pi xi et µy = ∑qj yj, la covariance des 2 variables est par définition E ((X − µ x )(Y − µ y ) ) Là encore, il faut bien comprendre la signification de cette expression. Le produit des 2 variables aléatoires X - µx et Y - µy est une variable aléatoire Z, dont l'espérance mathématique est la covariance de X et Y. Les valeurs possibles du produit (X - µx) (Y - µy) sont toutes les valeurs (xi - µx) (yj - µy) avec les probabilités πij, donc Covariance (X, Y) = ∑ πij (xi - µx) (yj - µy) Il n'est pas difficile de montrer que le deuxième membre vaut ∑ πij xi yj - µx µy, donc Covariance (X, Y) = E(XY) - µx µy. Un résultat très important est que si deux variables aléatoires X et Y sont indépendantes, alors leur covariance est nulle ; en effet, si X et Y sont indépendants πij = pi qj et dans ce cas ∑πij xi yj = ∑ pi qj xi yj ij ij = ∑ p i x i i x ∑ p j y j = µx µy. j La réciproque n'est pas vraie : la covariance de X et Y peut être nulle sans que X et Y soient indépendantes ; cependant dans un cas très important, qui sera détaillé à la fin du cours, celui où le couple (XY) est binormal, la nullité de la covariance entraîne l'indépendance des 2 variables aléatoires. Un exemple : Soit la distribution bivariée ci-dessous : -1 1 -1 1/4 0 1/4 1 1 1 µx = - 4 + 2 = 4 0 0 1/4 1/4 1 1 µY = - 2 + 2 = 0 1 1/4 1/4 1/2 1/2 1/2 X Variables aléatoires Y 13 Principes et Méthodes de la Biostatistique Le tableau ci-dessous donne les valeurs du produit XY -1 1 -1 1 -1 0 0 0 ∑ πij xi yj = 1/4 (1) + 1/4 (- 1) + 1/4 (1) = 1/4 1 -1 1 Cov (XY) = 1/4 X Y Elle n'est pas nulle, ce qui prouve que X et Y ne sont pas indépendantes, ce que l'on savait déjà puisque πij ≠ pi qj B- OPERATIONS SUR LES VARIABLES ALEATOIRES Transformation linéaire d’une variable aléatoire Soit X une variable aléatoire. A partir de X, fabriquons une nouvelle variable aléatoire Y, définie par Y=aX+b où a et b sont deux nombres donnés. On cherche la moyenne et la variance de Y en fonction de la moyenne µX de X et de sa variance σX2 . Supposons X discrète, c’est-à-dire que X peut prendre les valeurs x1, x2, ..., avec les probabilités p1, p2,..., les pi vérifiant Σpi=1. Les valeurs que peut prendre Y sont ax1+b, ax2+b,... avec les mêmes probabilités. On en déduit : µY=E(Y)=Σpi(axi+b)= aΣpixi+bΣpi= aµX+b. Ce résultat était quasi-évident. En ce qui concerne la variance de Y, σY2=Σpi(axi+b-aµX-b)2= Σpia2(xi-µx)2=a2 Σpi(xi-µx)2=a2 σX2 et pour les écarts-types σ Y = a σ X (attention à prendre la valeur absolue de a, un écart-type étant nécessairement positif). On notera que b n’intervient pas dans le calcul de la variance de Y : en effet, il correspond à un simple changement d’origine. Les calculs sont identiques si la variable X est continue. Addition de variables aléatoires Soit X et Y deux variables aléatoires. X peut prendre les valeurs x1, x2,... avec les probabilités p1, p2,… Y peut prendre les valeurs y1, y2,.. avec les probabilités q1, q2... La loi du couple est définie par πij=Pr{X=xi et Y=yj). Définissons la variable aléatoire Z=X+Y. Elle peut prendre les valeurs xi+yj. avec les probabilités πij. Donc E(Z)= ∑ π ij ( xi + y j ) = ∑π i, j ij ∑ x ∑π i i j ij + ∑ y j ∑π ij . Mais j i ∑π ij n’est autre que pi et j n’est autre que qj. Le premier terme est donc E(X) et le second E(Y) ; finalement, i E(X+Y)=E(X)+E(Y). L’espérance de la somme est la somme des espérances. Variables aléatoires 14 Principes et Méthodes de la Biostatistique Remarquons que ce résultat est valable que les variables aléatoires soient indépendantes ou pas. Comme conséquence, soit des variables aléatoires X1, X2,..,Xn de même moyenne µ. La nµ X + ... + X n variable aléatoire « moyenne », Y = 1 a pour espérance E(Y)= = µ . L’espérance n n de la moyenne de n variables d’espérance µ est µ. Venons en maintenant à la variance de la somme Z de X et Y. Par définition, var(X+Y)=E{(X+Y)2}-{E(X+Y)}2. E{(X+Y)2}=E(X2+Y2+2XY)=E(X2)+E(Y2)+2E(XY), puisque l’espérance de la somme est la somme des espérances. {E(X+Y)}2={E(X)+E(Y)}2={E(X)}2+{E(Y)}2+2E(X)E(Y). On voit donc que var(X+Y)=var(X)+var(Y)+ 2{(E(XY)-E(X)E(Y)}. Le dernier terme a été nommé plus haut covariance de X et Y. Le résultat final est donc var(X+Y)=var(X)+var(Y)+2cov(X,Y). On a dit que si X et Y sont indépendantes, leur covariance est nulle : donc, la variance de la somme de deux variables indépendantes est la somme des variances. Utilisons ce résultat pour calculer la variance de Y, moyenne de n Xi ; si les Xi sont nσ 2 σ 2 . indépendantes de moyenne µ et de variance σ2, var(Y)= 2 = n n Si n est grand, la variance de Y est petite ; Y n’est « presque plus » aléatoire. Concrètement, ceci signifie que Y est très peu variable autour de sa moyenne µ. On vérifiera que le résultat var(X+Y)=var(X)+var(Y)+2cov(X,Y) peut se généraliser de la façon suivante : var(aX+bY)=a2var(X)+b2var(Y)+2ab cov(X,Y). A SAVOIR x1, x 2 ,... Distributions de probabilités : Variable discrète p1, p2 ,... Variable continue : Pr{x<X<x+dx}=f(x)dx (f(x) est la densité). Espérance mathématique E(X)=µ= ∑ pi x i ou Variance de X : σ 2 = E(X − µ )2 = E( X 2 ∫ xf (x)dx ) − {E(X)} = ∑ p 2 i x 22 − µ 2 (ou ∫ x 2 f ( x)dx − µ 2 ) Cov(X,Y)=E(XY)-E(X)E(Y) E(aX+b)=aE(X)+b ; var(aX+b)=a2 var(X) E(X+Y)=E(X)+E(Y) ; var(X+Y)=var(X)+var(Y)+2cov(X,Y) Variables aléatoires 15