Distribution d`une variable alatoire, moyenne et variance

publicité
Distribution d'une variable aléatoire, moyenne et variance
Une variable X est dite aléatoire si elle peut prendre plusieurs valeurs affectées chacune d'une
probabilité. Une variable aléatoire est continue si elle peut prendre des valeurs réelles dans un
certain intervalle; elle est discrète si elle peut prendre certaines valeurs bien précises affectées
chacune d'une probabilité.
La distribution d'une variable est l'ensemble des probabilités pi associées aux
différentes valeurs possibles Xi. Pour une variable continue, on parle aussi de densité de
probabilité.
Une distribution se caractérise par une moyenne ou espérance E(X) et une variance
V(X) (Remarques : 1) E(X) et V(X) sont des constantes et non des variables aléatoires; 2) si X
est en mètres, E(X) est en mètres et V(X) en mètres carrés; 3) les formules sont en grisé pour
le cas de variables continues)
Espérance E(X) = Σi pi Xi
Variance
[ = ∫ x f(x) dx ]
V(X) = E[(X-E(X))2] = E(X2)-E(X)2 = Σi pi Xi2 - E(X)2 [ = ∫ x2 f(x)dx - E(X)2 ]
Ecart-type σ(X)= √V(X)
si X est une variable aléatoire constante (qui prend une seule valeur µ avec probabilité 1), sa
variance est nulle et sa moyenne est égale à la constante µ en question.
Distribution de deux variables X et Y : covariances et corrélations
La distribution conjointe de deux variables X et Y est l'ensemble des probabilités associées
aux couples de valeurs Xi, Yi .
La connaissance de l'espérance et de la variance de X et de Y ne suffit pas à caractériser
l'association possible entre les valeurs de X et Y. Pour cela on utilise la covariance, qui
quantifie le fait que X et Y tendent avoir des valeurs élevées toutes les deux ou faibles toutes
les deux (covariance positive) ou au contraire que l'une a des valeurs élevées quand l'autre a
des valeurs faibles (covariance négative).
Covariance COV (X,Y) = E(XY) - E(X) E(Y) = Σi pi Xi Yi - E(X)E(Y) [=∫ ∫ x y f(x,y) dxdy]
Les covariances ont une unité; par exemple si X est en mètres et Y en secondes, COV(X,Y)
est en mètres.secondes.
Règles de calcul sur les covariances : les covariances s'utilisent un peu comme des
multiplications, on peut utiliser les règles suivantes
COV(X,X)=V(X)
COV(X,Y)=COV(Y,X)
COV(X,Y+Z)= COV(X,Y)+COV(X,Z)
COV(X,a)=0 (a est une constante)
COV(a X, Y) = a COV(X,Y)
"Deux variables X et Y sont indépendantes" est synonyme de "COV(X,Y)=0".
La corrélation est une covariance standardisée en divisant par les écarts-types, elle est
forcément comprise entre -1 et 1 et n'a pas d'unité
Corrélation r(X,Y) = r(Y,X) = COV(X,Y) / [ σ(X)σ(Y)]
Moyenne et variance d'une somme de deux variables
La somme de deux variables aléatoires est elle même une variable aléatoire. On peut montrer
facilement les égalités suivantes
E(X+Y) = E(X)+E(Y)
V(X+Y) = V(X) + V(Y) + 2 COV(X,Y)
V(a X) = a2 V(X)
Prédiction de Y connaissant X
L'existence d'une covariance (ou corrélation) non nulle entre Y et X permet de prédire
l'une en connaissant l'autre, avec une certaine marge d'erreur, d'autant plus faible que r(X,Y)
est proche de 1 ou de -1. La prédiction la plus simple qu'on puisse faire est une régression
linéaire = faire une droite qui prédit les valeurs de Y en fonction de X. On appelle cette droite
une régression linéaire de Y sur X. Attention la droite qui prédit Y en fonction de X n'est pas
la même que celle qui prédit X en fonction de Y. Les deux régressions sont différentes.
Régression linéaire de Y sur X
b(Y,X) = COV(Y,X)/V(X)
b(Y,X) est la pente de la droite permettant de prédire Y connaissant X avec un
minimum d'erreur sur Y (cette erreur est quantifiée par la somme des écarts entre les points
prédits et les Y réels, mis au carré). Si X est en mètres et Y en secondes, b(Y,X) est en
secondes par mètre.
Cette droite de régression passe par le point E(X), E(Y) et a pour pente b(Y,X). Notre
modèle prédictif s'écrira donc
Y - E(Y) = b(Y,X) [X - E(X)] + ε
où ε est la variable aléatoire représentant le résidu de la régression, c'est à dire l'écart entre le
Y prédit et le Y réel. Cette variable a les propriétés suivantes par construction :
E(ε)=0
COV(ε,X)=0
Téléchargement