Principes et Méthodes de la Biostatistique
Variables aléatoires 8
Chapitre 3
VARIABLES ALEATOIRES
A– DEFINITION ET CARACTERISTIQUES DES
VARIABLES ALEATOIRES
Première approche
Soit une épreuve dont les résultats possibles sont des valeurs numériques ; un exemple
immédiat est celui du jet d'un dé. Les éventualités sont les valeurs {1, 2, 3, 4, 5, 6}. Si on adopte le
modèle du dé "parfait", les probabilités de chacune de ces valeurs sont 1
6 ; un modèle plus général
est d'attribuer à ces valeurs des probabilités {p1, ..., p6} dont la somme est égale à 1. On a ainsi
défini une variable aléatoire X dont la distribution (ou la loi) est caractérisée par l'ensemble des
valeurs qu'elle peut prendre {x1, x2, ...} et les probabilités correspondantes {p1, p2, ...}. Les pi sont
nécessairement positifs ou nuls et leur somme est égale à 1 puisque les événements xi sont
incompatibles.
Il existe deux types de variables aléatoires que nous allons maintenant préciser.
Variables aléatoires discrètes
Les plus simples des variables aléatoires sont celles qui ne peuvent prendre qu'un nombre n
fini de valeurs, comme dans l'exemple précédent du dé. Les valeurs xi que peut prendre X sont en
nombre fini et
i=1
n
pi = 1 .
Une variable aléatoire très simple de ce type est la variable de Bernoulli de paramètre p ;
c'est une variable que ne peut prendre que 2 valeurs possibles {1 et 0} avec les probabilités p et q
= 1 - p. Cette variable intervient chaque fois que l'on étudie un caractère qui ne peut prendre que 2
modalités auxquelles on attribue les valeurs numériques 0 et 1.
Un cas un peu plus général est celui où l'ensemble des valeurs possibles que peut prendre X
est infini, tout en restant dénombrable. Un exemple très important est celui de la loi de Poisson,
étudiée plus loin. Alors, les valeurs possibles sont {x1, x2, ...} avec les probabilités {p1, p2, ...}. La
somme (infinie) des pi doit être égale à 1.
Considérons l'exemple suivant : on joue une série de parties de pile ou face, la probabilité de
gagner une partie étant p. Le jeu s'arrête dès qu'on a gagné ; on s'intéresse au nombre N de parties
jouées avant que le jeu ne cesse. N est évidemment une variable aléatoire qui peut prendre les
valeurs 1 (on gagne à la première partie), 2 (on perd à la première mais on gagne à la deuxième),
3, etc... N peut donc prendre toutes les valeurs entières à partir de 1 ; l'ensemble des valeurs
possibles est bien infini. Cherchons les probabilités correspondantes :
Principes et Méthodes de la Biostatistique
Variables aléatoires 9
p1=Pr{N=1}=Pr{Gain au premier jeu}=p ; p2 = Pr(N = 2) = Pr{Perte puis gain} = qp ; pi =
Pr{N = i} = {(i - 1) Pertes puis gain} = qi-1p.
i=1
pi = p
1
qi-1 = p(1 + q + q2 + ...) = p
1 - q = 1
On a bien défini une variable aléatoire qui peut prendre une infinité discrète de valeurs.
Variables aléatoires continues
Ce cas est un peu plus délicat que le précédent et nous le présenterons sous une forme
intuitive et assez peu rigoureuse.
X peut maintenant prendre toutes les valeurs possibles d'un (ou plusieurs) intervalle, par
exemple toutes les valeurs comprises entre les 2 nombres 0 ou 1, ou même dans le cas plus
général, toutes les valeurs de l'ensemble R des réels, de - à + .
La loi ou la distribution de la variable aléatoire X est alors donnée par sa densité de
probabilité f(x) en chaque point x, dont la définition (peu rigoureuse, mais concrète) est la suivante :
soit un petit intervalle (x, x + dx) ; f(x) est la quantité telle que
Pr[x < X < x + dx] = f(x) dx
Par exemple, si f(7) = 3.1, Pr[7 < X < 7 + dx] = 3.1 dx (dx petit).
La figure 1 représente une densité de probabilité f(x). f(x) dx étant une probabilité, la
f(x)
xx + dx a b x
densité f(x) est nécessairement positive
(ou nulle).
f(x) dx est l'aire d'un petit rectangle de
base dx et de hauteur f(x).
Cherchons la probabilité que X soit
comprise entre 2 nombres a et b donnés.
On voit sur la figure que cette
probabilité est la surface sous la courbe
f(x), comprise entre les abscisses a et b,
ou de
façon plus formelle Pr[a < X < b] =
a
b
f(x) dx . Puisque X est nécessairement compris entre
- et + ,
-
+
f(x) dx = 1 ; la surface sous la courbe est égale à 1. C'est la deuxième condition à
laquelle doit satisfaire f(x) pour être une densité de probabilité. Cherchons maintenant ce que vaut
Pr[X x] en fonction de x. Cette fonction F(x) est la fonction de répartition de X.
Principes et Méthodes de la Biostatistique
Variables aléatoires 10
C'est la surface sous la courbe, à gauche de x. F(x) =
-
x
f(u) du . F(- )= 0 puisque X est
nécessairement plus grand que - ; de la même façon, F(+ ) = 1 puisque X est nécessairement
plus petit que + . Enfin, F(x) comme fonction de x est croissante (ou du moins non décroissante)
puisque si a < b, la surface à gauche de a ne peut être plus grande que celle à gauche de b.
En résumé une fonction de répartition F(x) est nécessairement croissante (ou du moins non
décroissante) de la valeur 0 à la valeur 1.
Revenant à Pr[a < X b] =
a
b
f(x) dx , c'est aussi Pr[X b] - Pr[X a] = F(b) - F(a). On
voit alors que F(x) est la primitive de f(x) et qu'inversement f(x) est la dérivée de F(x).
Un exemple : La distribution uniforme
X est une variable aléatoire qui peut prendre n'importe quelle valeur de l'intervalle [0, 1]. Sa
densité est constante sur cet intervalle, et nulle en dehors (puisque X ne peut prendre que des
valeurs sur [0, 1]). f(x) a donc l'allure suivante ; puisque la surface sous f(x) doit être égale à 1,
f(x) vaut 1 sur l'intervalle [0, 1] et 0 ailleurs.
1
0x1
f(x)
Cherchons F(x) en fonction de x, nous
souvenant que F(x) = Pr[X x] = aire
sous f(x) à gauche de x.
Pour x 0, F(x) = 0 ;
Pour x 1 F(x) = 1 ;
Pour 0 x 1, la surface à gauche de x
est x. On remarque que F(x) = x est bien
la primitive de f(x) = 1.
F(x) a donc l'allure suivante : nulle de - à 0, égale à x de 0 à 1, et de valeur 1 de 1 à + .
0 1
x
F(X)
Principes et Méthodes de la Biostatistique
Variables aléatoires 11
Un autre exemple : La distribution exponentielle
X est une variable aléatoire qui peut prendre n'importe quelle valeur de [0, +]. Sa fonction
de répartition F(x) = 1 - e-λx ; quelle est sa densité ?
On doit d'abord vérifier que F(x) est une fonction de répartition : elle vaut 0 pour x = 0, 1
pour x = + et elle est croissante de 0 à +. f(x) = d F(x)
dt = λe-λx .
Une remarque :
La fonction de répartition F(x) = Pr [X x] peut également être définie pour des variables
discrètes mais elle est surtout utilisée pour les variables continues, à cause de la relation simple
que la lie à la densité de probabilité.
Caractéristiques d'une variable aléatoire X
Nous en définissons 2 qui sont les plus utiles, mais il y en a évidemment beaucoup d'autres.
Moyenne ou espérance mathématique E(X)
Par définition, c'est E(X) =
i
pixi = µ pour les variables discrètes
et E(X) =
x f(x) dx = µ pour les variables continues.
Variance σ2
C'est par définition E{(X - µ)2} ;
Il faut bien comprendre ce que signifie cette expression en apparence compliquée : X étant
une variable aléatoire, X - µ en est une autre et également (X - µ)2. La variance de X est
l'espérance mathématique de cette dernière variable aléatoire.
Supposons X discret de distribution p 3
x 3
p2
x2
p1
x1
L
L
Les valeurs possibles de X - µ sont x1 - µ, x2 - µ, x3 - µ,…avec les mêmes probabilités
p1, p2... et celles de (X - µ)2 sont (x1 - µ)2, (x2 - µ)2, (x3 - µ)2,…avec les mêmes probabilités
p1, p2...
Donc σ2 = E (X - µ)2 = pi (xi - µ)2 (cas discret)
(x - µ)2 f(x) dx (cas continu)
Pour le calcul de σ2, on utilise souvent la formule σ2 = E(X2) - µ2.
En effet pi (xi - µ)2 = pi (x2
i - 2xi µ + µ2) = pi x2
i - 2µ pi xi + µ2 pi
= pi x2
i - 2µ2 + µ2 (on se rappelle que pi = 1).
Comme pi x2
i = E(X2), on a bien la formule annoncée.
Principes et Méthodes de la Biostatistique
Variables aléatoires 12
On appelle écart-type σ la racine carrée (positive) de la variance. Alors que l’espérance
mathématique est un paramètre de position, la variance est un paramètre de dispersion. Moins les
valeurs possibles de X sont dispersées (moins X est variable), plus faible est σ2. En effet, si les xi
sont concentrés, ils sont près de la moyenne µ et les valeurs de (xi - µ)2 sont petites, entraînant un
σ2 petit. A l’extrême, si X n’est pas aléatoire (prend toujours la même valeur) la variance est nulle.
Moyenne et variance de la variable de Bernoulli de paramètre p
E(X) = p x 1 + q x 0 = p
σ2 = E(X2) - [E(X)]2 = p x 1 + q.0 - p2 = pq
La variance est nulle si p ou q sont nuls ou égaux à 1 : en effet, dans ces deux cas, le résultat
est certain (toujours 1 ou toujours 0).
Notions sur les distributions bivariées
Nous n'avons jusqu'ici considéré qu'une seule variable aléatoire X. Mais de nombreux
problèmes, en particulier celui de la mesure de la dépendance entre 2 variables, nous conduisent à
étudier la distribution conjointe de 2 variables aléatoires, disons X et Y.
Nous considérons le cas le plus simple, X et Y sont deux variables discrètes, pouvant
prendre un nombre fini de valeurs possibles x1, x2, ... xk avec les probabilité p1, p2, ... pk pour X et
y1, y2, ... yl avec les probabilités q1, q2, ... ql pour Y (attention, ici les q ne sont pas les
compléments à 1 des p).
Par définition, la distribution conjointe de X et Y est l'ensemble des valeurs πij telles que
πij = Pr[X = xi et Y = yj]
Ces valeurs sont indiquées dans le tableau ci-dessous
XY y1 y2 . . . yj y
l
X1
X2
.
.
.
xi ………..…………… πij
xk
Soit la somme des probabilités qui figurent dans la première ligne du tableau : c'est
Pr[X = x1 et Y = y1] +...+ Pr[X = x1 et Y = yl] = Pr[X = x1 et {Y = y
1 ou Y = y2
ou ... Y = yl}] puisque les évènements entre crochets sont incompatibles. Mais l'événement {Y =
y1 ou Y = y2 ... ou Y = yl} est réalisé, puisque Y prend nécessairement une de ces valeurs.
.
.
.
.
.
.
.
.
.
.
.
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !