Variables aléatoires

publicité
Distribution de probabilités
Rappel:
Liste empirique de fréquences, il s’agit de valeur observée dans l’échantillon.
Distribution de probabilités :fréquence relative (idéale) avec laquelle on s’attend à voir
les observations (valeur des variables) par rapport à un modèle THEORIQUE.
L’idée est de comparer les données empiriques avec un modèle théorique et voir si ça
colle.
Dans une distribution empirique on se base sur le compte des valeurs observées
Distribution de probabilité : on se base sur un modèle théorique.
Quels sont les paramètres pouvant caractérisés une distribution théorique (afin de pouvoir
reproduire les expériences, ou comparer les distributions)
A) L’espace d’échantillonnage :  : il s’agit de l’ensemble de tous les résultats possibles
(d’une expérience). Chacun des résultats possibles est appelé : évènement simple
Ex : je jette un dé
={1 ,2,3,4,5,6}
Je tire un 1 ou 2 ou 3, … tirer une valeur est un évènement simple
Ex :Avoir deux enfants
={FG,FF,GF,GG}
Ex : combien de porcins vivants dans la portée
={0,1,2,3,4,…
Avoir 1 porc vivant est un évènement simple. Le nombre d’évènements simples peut-être
infini (pas borné à droite)
Ex :  peut appartenir à N (nombre des entiers positifs)
B) Le deuxième paramètre dont on a besoin pour définir notre modèle théorique est la
probabilité associée à chaque évènement simple.

{0, 1, 2, 3, …
{p0,p1,p2,p3,…
p0 étant la probabilité de l’évènement simple 0.
Rmk : Propriété d’une probabilité :
0<=pi<=1
n
p
i 1
Ex : Jet de dé
={1,2,3,4,5,6)
p={1/6,1/6,…,1/6)
 pi  1
E1={1} et p1=1/6
i
1
E2={2} et p2=1/6 …
Distribution empirique
J’aurais lancé le dé un très grand nombre de fois et compter le nombre de fois que X=1,
2, 3,4,5,6 arrivait.
Si on calcule la fréquence relative pour chaque valeur de X, si le modèle théorique est
correct alors fi doit plus ou moins être égal à pi
(Le but étant de trouver un modèle théorique qui s’adapte le mieux aux fréquences que
l’on a trouvé)
Variable Aléatoire
Il s’agit d’une variable qui peut prendre différente valeurs avec une probabilité donnée.
Ex : X représente le résultat d’un jet de dé, on peut dire que X est une variable aléatoire
Ex : X est la taille des personnes d’un échantillon
Les différentes valeurs que peut prendre la variable sont les évènements simples
(on associe une valeur de la variable à un évènement simple)
Ex : pour la taille, on prend tous les valeurs réelles entre 1m30 et 2m80.
A chacune des valeurs possibles de la variable on associe une probabilité.
On peut donc définir la distribution de probabilité de la variable X.
On note aussi les variables aléatoires (va). On parle de variable aléatoire car on ajoute les
notions de probabilités correspondantes aux valeurs de la variable.
Exercice :
Imaginons qu’une vache mette au monde un veau :
Exp : Sexe du veau {0=femelle,1=mâle}
On associe la probal p0 à 0 et la probabilité p1 à 1. De plus
p0+p1=1 (définition d’une probabilité)
=> p0=p1=0.5
Rappel :
On classe les variables aléatoires en fonction de leurs caractéristiques, on va donc
marquer la différence entre les variables qualitatives (nominales ou ordinales) et
quantitatives (continues [ex : poids] ou discrètes [ex : porcins vivants]).
Variable qualitatives ordinales :
Ex : 3 catégories en fonction de l’état de santé d’un cheval de course {Bon, Moyen,
Mauvais}
Qualitative nominale :
Race des animaux par exemple.
Pour chacun de ces types de variables on va choisir un modèle théorique de distribution
de probabilité.
Rmk : Espérance d’une variable aléatoire : (Expected value) : valeur moyenne à
laquelle on s’attend si on répète un grand nombre de fois l’expérience. Il s’agit d’une
valeur théorique (on n’est pas obligé de la retrouvé dans la distribution).
Variables discrètes :
On note l’espérance d’une variable discrète de la manière suivante :
n
E ( X )   xi p ( xi )
i 1
p(xi) : représente la probabilité de la variable aléatoire, si elle vaut 0, elle n’intervient pas
dans l’espérance.
Cette notation ressemble à celle d’une moyenne. p(xi) représentant la fréquence relative
de xi, si on effectue l’expérience un très grand nombre de fois.
Définition générale :
Soit g() est une fonction réelle que l’on applique à x.
Et j’ai une variable y qui a l’espace d’échantillonnage suivant :
={y0,y1,y2, …, yn}
Auquel correspond un ensemble de proba :
{p0,p1,p2,…, pn}
Avec n qui tend vers l’infini.
Rmk :Dans ce cas même si n tend vers l’infini, il s’agit de valeurs infinies dénombrables.
Car on sait les compter par opposition aux valeurs indénombrables, que l’on ne sait pas
compter. Exemple :
On mesure 2 temps lors d’une course :t0 et t1, plus on veut être précis plus il faut
diminuer l’intervalle t0 et t1. Combien y a-t-il de temps possible entre 10 et 11s. C’est
impossible à dire, on pourra toujours trouver un intervalle de temps plus petit que celui
choisit. Impossible à dénombrer entre deux valeurs proches.
Pour appliquer g à x, en gros on remplace les xi d’au dessus par g(yi) :
n
E ( g (Y ))   pi g ( y i )
i 1
Cette formule est intéressante, elle permet de retrouver le cas particulier de la moyenne
où g(y)=1.y (g(y) est la fonction identité qui consiste à multiplier par 1 la variable y)
E(Y)=p0.y0+p1.y1+…+pn.yn
Il est également possible de calculer l’espérance de la moyenne des écarts à la
moyenne (ce que l’on appelle communément la variance):
En choisissant :
g ( y)  ( y  u y ) 2
E ( g ( y ))  E (( y  u y ) 2 )
On élève les paramètres calculés via l’échantillon au rang de la population (à condition
que le modèle théorique soit correct)
E (( y  u y ) 2 )   ( yi  u y ) 2 pi
y
On retrouve une définition analogue de la variance pour la population. En résolvant le
carré on peut très vite arrivé à la formule suivante :
n
n
n
i 1
i 1
i 1
 yi2 pi  2 yi pi u y   pi u y2
Rappel
n
p
i 1
i
 1 ; définition d’une distribution probabilité
n
n
 yi2 pi  2u y2  u y2   yi2 pi  u y2
i 1
i 1
 E (Y )  ( E (Y ))
2
2
Propriétés de l’espérance
Si y est var alors si z  a  by
Cas d’utilisation de ce z, convertir des unités en d’autres (ex : y est exprimé en inch, et je
veux l’exprimer en centimètre, je vais utiliser z qui s’exprimera en cm, et qui sera défini
par la conversion des inch vers les cm).
E ( Z )  a  bE (Y )
Alors
u z  a  bu y
Par contre,
Var ( z )  b 2Var ( y )
 z2  b 2 y2
Sigma représente l’écart type de la population (en général on utilise les lettres latines
pour l’échantillon et les lettres grecques pour la population)
Le paramètre a, n’influence pas la variance, par contre le coefficient b passe au carré, la
variance n’est pas un opérateur linéaire.
Construction des modèles théoriques
Variable aléatoire discrète
La distribution binomiale :
On considère une expérience ne pouvant avoir que deux résultats possibles. Ex une vache
va vêler le veau est soit M soit F.
Ex : si on lance un dé, le résultat est pair ou impair.
Si je tire une carte, c’est un cœur ou ce n’est pas un cœur
On va alors parler de succès ou d’échec pour caractériser les deux résultats
Le succès ou l’échec est une interprétation statistique, ex : diagnostiquer une maladie
peut-être considéré comme un succès de l’expérience, pour le patient, ce n’est pas
vraiment un succès.
Si je réalise une expérience, je peux avoir soit un succès, soit un échec, et je peux établir
la probabilité ps du succès ou pe de l’échec.
X étant le résultat de l’expérience, il reste à définir l’espace d’échantillonnage
  {0,1}
Si p est ps alors nonp = pe = 1-ps = 1-p. (on l’appelle parfois q)
On calcule les paramètres de cette distribution de succès/echec :
2
u x   pi xi  (1  p).0  p.1  p
i 1
2
 x2   ( xi  u x ) 2 pi  (0  p) 2 (1  p)  (1  p) 2 p
i 1
 p (1  p)  (1  2 p  p 2 ) p
2
 p2  p3  p  2 p2  p3
  p2  p
 p(1  p)
On s’intéresse maintenant à la réalisation multiple de cette expérience :
p sera donc la proportion de fois que l’on obtiendra un succès si on fait un très grand
nombre de fois l’expérience :
nombre de succès
P( succes ) 
nombre de fois que l ' on fait l ' exp érience
Dans le cas du dé, si on joue 24000 fois à pile ou face, on remarquera que p(succes)->0.5,
donc p(echec)->0.5
Dans la distribution binomiale, X n’est plus la valeur 0 pour échec et 1 pour succès mais
le nombre de fois que j’ai obtenu un succès en faisant n fois mon expérience.
On répète cette expérience de façon indépendante (dans les mêmes conditions)
Ex : si je tire une carte dans un jeu, je remet la carte avant de recommencer l’expérience.
L’espace d’échantillonnage =   {0,1,2,..., n} . On remarque qu’ici l’espace d’épreuve est
borné, il n’est pas infini.
Comment calculer la distribution de probabilité associée :
Partons de l’exemple du jeu de carte :
« Je tire cinq fois une carte dans un jeu de 52 cartes, à chaque tirage, je remets la carte, E
est l’évènement avoir un cœur, la probabilité de E est de ¼, la probabilité de ne pas avoir
un cœur, c’est à dire de non E est de ¾.
Je défini X=0 comme étant la probabilité de n’obtenir aucun cœur après cinq expérience :
P( E et E et E et E et E )  P(1 / 4) 5
Je défini X=1 comme étant la probabilité d’avoir un seul cœur après cinq tirages (en
ayant remis la carte)
P( X  1)  P(( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E )
ou ( E et E et E et E et E ) ou ( E et E et E et E et E ))
P( X  1)  (1 / 4  (3 / 4) 4 )  ...  5(1 / 4)(3 / 4) 4
Je vois que l’ordre n’a pas d’importance, puisqu’on ne s’intéresse pas au moment du
tirage pendant lequel on aura un cœur
P( X  2)  P(( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E )
ou ( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ... ou ..
On voit qu’ici on a plus que cinq possibilités il s’agit en fait de l’ensemble des listes que
l’on peut fabriquer au moyen de 2 éléments parmi cinq lorsque l’ordre n’a pas
d’importance. Cette valeur est égale à la combinaison de x éléments pris parmi n et
n!
l’analyse combinatoire définit cela comme étant : C nx 
(n  x)! x!
P( X  x)  C nx p x (1  p) n  x
Dans le cas qui nous intéresse :
n!
P( X  x) 
p x (1  p) n  x
(n  x)! x!
Voilà donc la distribution de probabilité d’une distribution binomiale, distribution d’une
variable X qui compte le nombre de succès parmi n expériences indépendantes ne
pouvant avoir que deux résultats possibles dont le succès de réussite est associé à la
probabilité p.
X ~ Bin(n,p) : on lira que X suit une loi binomiale de n expérience avec une probabilité p
de succès pour chacune des expériences.
n et p étant les paramètres de la distribution.
Ex : X ~ Bin(10, 0.80)
X pourra prendre des valeurs de 0 à 10 représentants le nombre de succès que j’aurais
obtenus parmi mes 10 expériences.
  {0,1,2,3,4,5,6,7,8,9,10}
Quelle est la probabilité d’avoir 5 expériences positives parmi mes dix expériences :
10!
P( X  5) 
(0.80) 5 (0.20) 5  0.0264
(5)!(5)!
Graphique représentant la probabilité de toutes les valeurs prises par la variable X.
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9
10
Ce graphique représente donc la distribution binomiale.
Paramètres de la distribution binomiale
11
Si l’on considère toutes les valeurs que peut prendre X, on définit la variable X’
Je considère que le résultat de n expériences, c’est le résultat de la première + le résultat,
de la seconde, … plus le résultat de la enième.
X=X1+X2+X3+…+Xn
L’expérience est la somme de petites expériences qui ont comme résultat 0 ou 1
Avec Xi peut prendre la valeur 0 (échec) ou 1 (succès) (variable binaire)
u x  E ( X 1  X 2  X 3  ...  Xn)
 E ( X 1)  E ( X 2)  ...  E ( Xn)
Or, nous avons vu que E(X1), lors d’une expérience unique valait p
u x  p  p  p  ...  p  np
n
 x2   var( Xi)
i 1
Parceque toutes les expériences sont indépendantes
 x2  var( X 1)  var( X 2)  var( X 3)  ...  var( Xn)
 p(1  p)  p(1  p)  ...  p(1  p)  np(1  p)
Exemple : Etude de la prise de poids chez les chats castrés.
Xi vaut 1 si le chat a pris du poids (succès)
0 si pas de prise de poids (échec)
i représente l’expérience.
Que vaut par exemple : P(X1=1)= p^1 (1-p)^1-1=p qu’on ne connait pas.
1 prend un chat dans un échantillon de 1
On prend un grand échantillon de chats castrés et on mesure ceux qui ont pris du poids.
La fréquence relative nous donnera donc une idée sur la probabilité.
chats qui ont grossi
 p  0.80
Dans ce cas de figure
N
Si on a dix chats castrés quel est la probabilité qu’au maximum cinq chats aient pris du
poids.
X est le nombre de chats qui ont pris du poids
P(X<=5)=P(X=0 ou X=1 ou X=2 ou X=3 ou X=4 ou X=5) =
P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4)+P(X=5)
X représente donc le nombre total de succès quand on répète l’expérience N fois.
=> Le modèle binomiale devrait coller à X
X ~ Bin(10,0.8)
P(X<=5)=0+0+0+0.0007+0.006+0.026=0.0327
La probabilité d’en trouver peu qui ont pris du poids sur l’échantillon est faible, puisque
la probabilité pour une expérience est grande.
Rmk : La forme P(X<=5) est souvent appelée fonction de répartition pour X=x
=> F(X=5)=P(X<=5)
F(X=x) est la probabilité que P(X<=x)
La distribution de Poisson
Si n est très grand (exemple une urne contenant des boules numérotées). Si le nombre de
boules dans l’urne tend vers l’infini la probabilité de tirer une boule de numéro particulier
est pratiquement nulle.
Nous allons poser que   lim n  np , si cette limite existe elle donne un nombre réel.
Repartons de la distribution binomiale :
n!
P( X  x) 
p x q n x
(n  x)! x!
n(n  1)( n  2)...( n  x  1).( n  x)( n  x  1)...1 x

p (1  p) n  x
(( n  x)( n  x  1)...1) x!
n(n  1)( n  2)..( n  x  1) x

p (1  p) n  x
x!
Je met n en évidence dans le premier membre
1
1
x 1
n x (1  )(1  )...(1 
)
n
2
n
xn

p x (1  p) n  x
x!
Si je fait tendre n vers l’infini il me reste
(np) x .1.(1  p) n
lim n  f ( x) 
x!
En n infini (1-p)^n-x vaut a peu près la même chose que (1-p)^n et (1-1/in)=1-0=1.
lim n  f ( x) 
x
lim n  (1  p) n
x!
Calculons cette limite en posant :
1
p
y
De plus multipliant l’exposant par p/p
lim( 1  p )  lim( 1  p)
n
np
p

 lim( 1  p) p
1
 lim(( 1  ) y ) 
y
Limite en n->l’infini => que p ->0 ce qui implique que y tend vers l’infini
1
Or lim y  (1  ) y  e
y
En replaçant la valeur de cette limite dans f(x) on obtient :
x
e 
x!
Dans la pratique on remarquera que E(X) dans le cas d’une distribution de Poisson vaut
ux  
Distribution qui s’applique lorsque X compte un nombre de succès qui interviennent au
hasard et indépendamment dans le temps (ou l’espace) avec un taux moyen de u par unité
de temps (ou d’espace).
P( X  x) 
X va compter le nombre d’évènements (qui ont un succès)
Ex : caisse de magasin, la caisse est fermée mais les clients arrivent tout de même à un
taux de 1 client/10min
Ou encore (si dans l’espace)
Le nombre de parasites qui se développent sur de la viande avariées avec un taux de u par
m^2.
Définition de cette distribution :
  {1,2,3,..., 
L’espace d’échantillonnage n’est pas borné, donc revient à prendre un nombre
d’expérience égal à l’infini. (pas de maximum contrairement à la binomiale ou le
maximum est n)
e u x
P( X  x) 
u
x!
Paramètres :
Si X ~ POIS(u)
E(X)=u
Var(X)=u
Il s’agit d’une distribution assez rare où la variance suit la moyenne => si on a une grande
moyenne on a de grands écarts.
Ex :
X ~ POIS(3.2)
Quel est la probabilité de trouver 2 succès.
On remplace dans la formule :
e 3.2
P( X  2) 
3.2 2  0.209
2
Comme il s’agit d’une probabilité :
 P(X )  1
Distribution de probabilité de variables continues
X est une variable indénombrable
=>  est difficile à déterminer puisque qu’entre 0 et 1 on a déjà une infinité de valeurs
possibles.
Il peut donc s’agir de R ou de R+. Difficile de déterminer l’espace d’échantillonnage, il
est en tout cas impossible de le lister.
Ex : les données brutes de pélicans :
Valeur qui représente l’épaisseur de l coquille, cette variable appartient à R+
On va donc considérer l’espace d’épreuve comme étant R+
Détermination de la probabilité associée
Comme l’espace d’échantillonnage est impossible à lister, il est aussi très difficile de
lister la fréquence à laquelle apparaisse chacune de ces valeurs non listables.
Ex : si je fais un tir sur cible, la probabilité d’atteindre, le point de coordonnées
(pi,sqrt(2)) est pratiquement nulle. Parler de probabilité dans le cas de variables continues
n’a donc pas beaucoup de sens.
On va plutôt parler de répartition de probabilité. En effet la probabilité que x (l’abscisse)
soit plus petit que pi à de nouveau du sens.
P(X<=x)=F(X)
Pour tout x appartenant à [a,b] avec a<b
P(x<=b)=P(x appartient à [a,b])+P(x<=a)
P(x appartient à [a,b])=P(x<=b)-P(x<=a)
=F(b)-F(a)
Si je considère l’intervalle a,b très petit, compris entre x et x+deltax à la limite en deltax
tend vers 0 je pourrais écrire que
P(x appartient [x,x+dx])=F(x+dx)-F(x)
Si je multiplie haut et bas par dx
P(x appartient [x,x+dx])=F’(x)dx
Cette fonction s’appelle la densité de probabilité.
Pour obtenir cette densité de probabilité sur un intervalle plus grand, il suffit de calculer
l’intégrale sur cet intervalle.
P( x  a, b)   F ' ( x)dx    ( x)dx
b
a
a
a
 ( x) é tan t la densité de probabilit é
P(t   , x)    (t )dt  F ( x)  P( X  x)
x

Comme les probabilités sont incalculables du au fait que l’espace d’échantillonnage est
indénombrable, on va donc utiliser une fonction de probabilité que l’on appelle la densité
de probabilité.
Propriété :
 ( x)  0



 ( x)dx  1
La surface sous tendue par la fonction de densité de probabilité vaut 1.
Si ces propriétés ne sont pas respectées c’est que la fonction n’est pas une fonction de
densité de probabilité.
(x)
Rmk : Différence entre la théorie et la pratique, en pratique on a jamais de distribution
continue (du par exemple à la sensibilité des instruments de mesure)
Dans le cas de la distribution discrète je peux calculer P(X=3) ou P(X=0)
Dans le cas de la distribution continue je dois fixer un intervalle, exemple, rechercher la
probabilité que les élèves se trouvent entre une taille de 1.70 et 1.80
Lorsque l’on calcule la probabilité sur l’intervalle [a,b] on utilise la formule suivante :
P( x  a, b)    ( x)dx
b
a
Propriété des distributions de probabilités continues :
E ( X )   x ( x)dx  u x

On peut retrouver l’analogie avec les variables discrètes :
n
E ( X )   xi pi
i 1
Les ordinateurs calculent d’ailleurs les intégrales au moyen de la formule des variables
discrètes (c’est ce que l’on appelle la discrétisation de l’intégrale).
Il faut aussi éviter de choisir des distributions de probabilité trop farfelue car dans ce cas,
les intégrales peuvent donner des résultats infinis.
Si on reprend la définition générale de l’espérance de E(g(x)) on peut écrire :
E ( g ( x))   g ( x) ( x)dx

si g ( x)  1  on retrouve u x
g ( x)  ( x  u x ) 2
E ( g ( x))   ( x  u x ) 2 ( x)dx

Téléchargement