PROBABILITÉ

publicité
Probabilité
Introduction
Il y a deux sortes d’aléatoires, le premier est lié au hasard, lorsqu’on tire à pile ou face
une pièce ordinaire le résultat est aléatoire, il est aussi bien pile que face. Nous avons
dans ce cas une connaissance intuitive de la loi d’incertitude qui gouverne le résultat
obtenu.
L’autre type d’aléatoire émerge lorsque la loi elle-même est inconnue. Imaginez que la
pièce lancée serait un peu tordue, il sera alors peu vraisemblable qu’il y ait autant de
chances d’obtenir pile que face. Nous ne jouons pas à quelle loi correspond l’état de la
nature.
Pour connaître l’état de la nature, le statisticien pourrait lancer la pièce plusieurs fois et
noter les résultats obtenus pour estimer l’état de la nature.
Que signifie « lancer plusieurs fois »?. Pour l’instant il suffit de savoir que la réponse
dépendra de :
1) le coût de chaque lancer de pièce
2) le coût associé à une mauvaise décision
Par exemple, s’il en coûte 25¢ par lancer, on peut être porté à prendre peu
d’observations par rapport à une situation où il en coûterait 1¢.
D’autre part si un jeu prévoit un gain de 2 000 $ si la pièce tombe face contre une perte
de 1 000 $ si la pièce tombe pile, il sera payant de tirer un plus grand nombre
d’observations de façon à avoir une meilleure estimation de l’état de la matrice et
permettre de prendre la bonne décision que si le jeu prévoit un gain de 2 $ contre une
perte de 1 $.
1
Probabilité et variable aléatoire
Supposons qu’on lance deux dés, un dé rouge et un dé vert et qu’on s’intéresse à la
somme des deux faces supérieures des dés, on observe que le nombre 7 apparaît
comme somme environ 30% des lancers.
Si on porte attention au geste de lancer les dés, on peut le considérer comme la
réalisation d’une expérience dont le résultat n’est pas connu à l’avance. Associé à ce
résultat il y a un nombre X, soit la somme des faces supérieures qui est déterminée par
le résultat de l’expérience et est appelée une « variable aléatoire ».
Puisque la fréquence à laquelle X est égale à 7 semble se produire environ 30% des
lancers, nous sommes tentés de prétendre que la probabilité que X égale sept est 0,3.
Si la proportion des lancers où X est égale à sept tend à se rapprocher près de 0,3
lorsque l’expérience est répétée plusieurs fois dans les mêmes conditions nous dirons
alors que la probabilité que X égale 7 est 0,3 et noterons : PX  7  0,3 .
Les manufacturiers de dés font de grands efforts pour obtenir des dés bien balancés.
Un dé bien balancé doit présenter chaque face aussi souvent qu’une autre. Si on décrit
le résultat d’un lancer de deux dés par deux nombres, où le premier correspond au dé
vert et le second dé rouge, tous les résultats suivants :
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
devraient s’observés aussi souvent l’un que l’autre. De ces 36 résultats possibles les 6
suivants :
(1,6), (2,5), (3,4), (4,3), (5,2), (6,1) produisent une somme de 7.
2
Conséquemment si les dés sont bien balancés, on devrait s’attendre à ce de X = 7
environ 6/36 = 1/6 des lancers soit 16,67% au lieu de 30%.
Par la suite lorsque nous parlerons d’un dé bien balancé (ou honnête), nous
postulerons que chaque face a une probabilité 1/6 d’apparaître.
Imaginons maintenant une surface circulaire dont la circonférence a été graduée de 0 à
1 à espaces réguliers de telle façon que 0,5 est à l’opposé du 0 sur le « cadran ».
0
.1
.9
.8
.2
.7
.3
.4
.6
.5
Une longue tige (pointeur) est fixée au centre du dispositif et lorsque lancée peut
tourner librement plusieurs tours avant de s’arrêter.
Si on traite la rotation du pointeur comme une expérience, une variable d’intérêt est la
valeur X du nombre indiqué par le pointeur lorsqu’il a cessé de tourner. Maintenant si
on reçoit un ourson en peluche à chaque fois que X s’arrête entre 0.4 et 0.6, soit :
0.4  X  0.6 il y a un intérêt à savoir à quelle fréquence X satisfera cette condition. En
fait pour un mécanisme bien balancé P0.4  X  0.6  0.20
proportionnelle à la longueur de l’intervalle.
puisque la probabilité est
Comme l’exemple précédent nous
pourrions faire tourner le pointeur un grand nombre de fois et noter les résultats
obtenus ! Puisque toutes les valeurs de X sur l’intervalle 0, 1 sont possibles on parlera
d’une distribution continue, la valeur 0,23339 est aussi plausible que la valeur
0,8881122.
3
Distributions
Dans l’exemple précédent nous étions intéressés à savoir si X vérifie une condition ou
non, soit X = 7. Si on utilise les dés d’autre façon on peut être intéressé aux autres
possibilités ex. X = 2, X = 3, etc.
On s’intéressera alors à la distribution de Probabilité de la variable aléatoire.
La distribution de probabilité d’une variable aléatoire X est la règle qui assigne une
probabilité à chaque définition de X pour illustration prenons X = « le nombre de faces
obtenues lors du lancer de deux pièces de monnaies idéales ». Les résultats possibles
de l’expérience peuvent être notés (F, F), (F, P), (P, F), (P, P) de ces résultats possibles
des valeurs correspondantes de X sont 2, 1, 1, 0 respectivement. Ainsi nous avons
PX  2  1 / 4
PX  1  1 / 2
PX  0  1 / 4
PX  1 ou 2  3 / 4
PX  0 ou 2  1 / 2
PX  0 ou 1  3 / 4
PX  0 , 1 ou 2  1
Dans cette expérience il n’y a pas d’autre façon de définir X, les valeurs ci-dessus
représentent la distribution de probabilité de X.
Pour l’exemple des dés « honnêtes » nous donnons quelques probabilités qui
caractérisent la distribution de probabilité X :
PX  2  1 / 36
PX  3  2 / 36
PX  12  1 / 36
PX  2, 3 ou 12  4 / 36
PX  7 ou 11  8/36
4
Pour l’exemple du pointeur idéal quelques-unes des probabilités qui caractérisent la
distribution de probabilité de X seraient :
P0.4  X  0.6  0.2
P0.30  X  0.32 ou 0.40  X  0.42  0.04
P0.30  X  0.32  0.02
P0.9999  X  1  0.0001
PX  0.2  0
Dans cet exemple, il est clairement impossible de donner la liste des conditions qui
peuvent être imposées à X et les probabilités correspondantes, par contre la façon de
les obtenir et la méthode à appliquer pour obtenir d’autres conditions sont claires.
Une façon importante de résumer l’information de la distribution de probabilité est la
« fonction de distribution cumulée ».
La fonction de distribution cumulée F donne la probabilité pour des conditions de la
forme : X  a .
Pour l’exemple des pièces de monnaie
PX  0  1 / 4
PX  1  3 / 4
PX  2  1
en détail
PX  a  0 pour a  0
PX  a  1 / 4 pour 0  a  1
PX  a  3 / 4 pour 1  a  2
PX  a  1 pour 2  a
5
Le graphique distribution cumulée
1
.75
.5
F
P X  a 
.25
0
-.5
0
0.5
1
1.5
2
2.5
Notez les sauts à 0, 1, 2 sont illustrés par des points pour illustrer que ces valeurs sont
inclues au segment de droite.
La fonction de distribution cumulée pour les dés honnêtes présente un gain
considérable de concision par rapport à la liste des probabilités. Il est possible de
reconstituer à partir de ce graphique toute l’information de la distribution de probabilité.
Les sauts pour chaque valeur de somme représentent
retrouver P X  2, 3 ou 12 il suffit d’additionner :
P X  2, P X  3, etc. Pour
P X  2  P X  3  P X  12 .
Dans le cas continu l’utilisation de la fonction de distribution cumulée est d’un grand
avantage. Pour notre problème du pointeur idéal la fonction de distribution cumulée.
6
distribution cumulée pointeur
1.2
1
P(X<=x)
0.8
0.6
Series2
0.4
0.2
0
-0.5
0
0.5
1
1.5
x
Pour calculer les probabilités à partir de la fonction cumulée, il suffit d’effectuer la
différence de probabilité entre 2 points de la courbe.
7
Ex. : Pour trouver : P  0.3  X  0.5 ,il suffit d’identifier les deux points sur la droite et
ensuite les reporter sur l’axe vertical et d’effectuer P  X  5  P X  0.3 pour trouver
P  0.3  X  0.5  20
Fonction de densité de probabilité – cas discret
Face à une variable aléatoire discrète, tel le nombre de faces obtenues du lancer de
deux pièces ou de la somme de deux dés, on peut tout aussi bien et il est souvent plus
pratique
de
résoudre
la
distribution
de
probabilité
par
les
valeurs
de :
P  X  0, P  X  1, P  X  2 . Il est clair que la fonction de distribution cumulée peut se
déduire de ces valeurs car
P  X  0  P  X  0  1 / 4
P  X  1  P  X  0 P  X  1 1 / 4  1 / 2  3 / 4
P  X  2  P  X  0  P  X  1  P  X  2  1 / 4  1 / 2  1 / 4  1
dans le cas du nombre de faces.
En général, si X est une variable aléatoire discrète, les valeurs qu’elle prendra peuvent
être identifiées par x1, x2, x3, … . La fonction de densité de probabilité discrète (parfois
nommée fonction de masses de probabilité) est définie par : P  X  x i .
Notez que la valeur de la fonction de densité n’est rien d’autre que la hauteur du saut
dans la fonction de distribution cumulée.
8
Voici les deux fonctions de densité de probabilité des deux exemples discrets utilisés.
deux faces
0,6
0,5
0,4
0,3
deux faces
0,2
0,1
0
-1
0
1
2
3
deux des
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
deux des
0
1
2
3
4
5
6
7
8
9
10 11 12 13
La fonction de densité possède la propriété importante que la somme de ses valeurs
est 1. Ce qui peut être écrit sous la forme :
 P  X  x   P  X  x  P  X  x  P  X  x    1
i
i
2
3
i
cela veut aussi dire, d’un point de vue probabilité, que la probabilité d’observer une des
valeurs possible est 1.
9
Pour terminer, mentionnons qu’une variable discrète peut admettre une infinité de
valeurs possibles.
Considérons l’expérience qui consiste à lancer une pièce de
monnaie jusqu’à ce qu’on obtienne une face, soit X : « le nombre de lancer ». Lors du
premier lancer la probabilité d’obtenir face sera 1/2 ce qui signifie :
P  X  1  1 / 2 .
Nous aurons X  2 , si au premier lancer nous avons obtenu pile suivi de face au
second, 1 / 2  1 / 2  1 / 4
alors
P  X  2  1 / 4 .
Au troisième lancer
P , P, F ,
soit
1 / 2  1 / 2  1 / 2  1 / 8 alors P  X  3  1 / 8 , et aussi P  X  4  1 / 16 et ainsi de suite.
Il est clair que X peut prendre n’importe quelle valeur entière positive bien qu’il est peu
vraisemblable qu’elle soit très grande.
Notez aussi que 1/2 + 1/4 + 1/8 + !/16 + … représente la somme d’une progression
géométrique dont le résultat est 1.
Fonction de densité de probabilité – cas continu
Une variable aléatoire continue se caractérise par l’existence d’une fonction de densité
de probabilité qui a les propriétés suivantes :
1) Sur un graphique, la courbe ne va jamais sous l’axe horizontal
i.e. Toutes les valeurs de la fonction sont positives.
2) La surface totale sous la courbe est de 1.
Ainsi P  0,5  X  1.0 est la surface entre la courbe et l’axe horizontal entre les valeurs
-0,5 et 1,0 d’abscisse
10
0,045
0,04
0,035
0,03
0,025
Série2
0,02
0,015
0,01
0,005
8
2,
6
4
2
1,
2,
8
1,
2
4
4
-0
,
0,
8
-0
,
0,
2
-1
,
0
6
-1
,
-2
0
Puisque la surface sous la courbe entre deux points représente la probabilité que X s’y
trouve on remarquera que
P   1.1  X  0.9  0,07916  P 1.4  X  1.6  0,01877
bien que dans chaque cas l’intervalle soit de largeur 0,2.
Dans l’exemple du pointeur, X peut tout aussi bien se retrouver à l’intérieur d’un
intervalle entre 0 et 1 que dans tout autre de même taille. Dans ce cas, la densité sera
de 1 pour toute valeur d’abscisse entre 0 et 1 et sera nulle pour toute autre valeur
d’abscisse.
densite
1,2
1
P(X=x)
0,8
Série1
0,6
0,4
0,2
0
-0,5
0
0,5
1
1,5
x
11
distribution cumulée pointeur
1,2
1
P(X<=x)
0,8
0,6
Série2
0,4
0,2
0
-0,5
0
0,5
1
1,5
x
On peut aussi noter que la probabilité que le pointeur s’arrête à l’intérieur de n’importe
quel intervalle entre 0 et 1 est la longueur de l’intervalle (l’amplitude). Cette distribution
porte le nom de distribution uniforme entre 0 et 1 et sera d’une importance particulière
en simulation.
Supposons maintenant qu’on fasse tourner le pointeur 100 fois et qu’on note à chaque
fois le résultat obtenu, que nous décidions de tracer un histogramme des résultats en
utilisant
(0.00, 0.20) , (0.20, 0.40), … comme bornes de chaque classe. Puisque
P 0,00  X  20  0,2
nous pouvons nous attendre à ce qu’environ 20% des
observations se retrouvent dans cet intervalle, et de même pour chacun des intervalles.
Population et échantillon aléatoire
Si nous cherchons à obtenir un échantillon de 100 âges des étudiants au B.A.A., 1 re
année pour en faire l’histogramme, on nous demande de prendre un échantillon
aléatoire de taille n = 100 âges de la population des âges des 900 étudiants du B.A.A.,
1re année. Bien que 100 observations donne plus d’information que 2 observations,
cela ne nous informe pas sur la façon d’obtenir les observations. Supposons qu’on
numérote chaque étudiant de 1 à 900 et que nous tirions un échantillon de taille 2.
12
a) nous pourrions lancer un dé, à 900 faces, numérotées de 1 à 900 et obtenir
l’âge de l’étudiant qui porte le numéro inscrit sur la face inférieure du dé et
répéter l’expérience.
b) même procédure que précédemment sauf que si le même résultat est obtenu,
il est ignoré, et le dé est relancé jusqu’à obtenir un résultat différent.
c) on obtient une première observation en lançant le dé et ensuite le N + 1er où
N est le résultat obtenu au dé. (si N = 900, on prend le 1er).
La méthode a) se nomme échantillon aléatoire avec remise
La méthode b) se nomme échantillon aléatoire sans remise
La méthode c) se nomme échantillon aléatoire systématique
Note : On aurait pu tout aussi bien numéroter des bouts de papier de 1 à 900, les
mettre dans un chapeau et tirer un numéro, avec la méthode a) le numéro tiré est remis
dans le chapeau alors qu’avec la méthode b) il ne sera pas remis dans le chapeau.
(d’où les termes avec et sans remise)
Lorsque l’échantillon est avec remise, les propriétés suivantes sont satisfaites :
1- chaque étudiant a la même chance d’être tiré.
2- le premier tiré n’influence pas le second.
Lorsque l’échantillon se fait sans remise :
1- chaque étudiant a autant de chance d’être tiré.
Toutefois
2- chaque paire distincte d’étudiant a autant de chance d’être tiré.
13
L’échantillonnage avec remise a le désavantage que lorsque la population est petite, la
remise a tendance à donner moins d’information puisqu’il est possible de tirer deux fois
le même individu. Malgré ce désavantage, la méthode avec remise est souvent utilisée
parce qu’elle est mathématiquement plus facile à traiter.
Lorsque la taille de la population est grande par rapport à la taille de l’échantillon les
deux méthodes avec et sans remise tendent à avoir les mêmes propriétés. Ainsi même
lorsque l’échantillon est pris sans remise dans une population de grande taille, les
calculs seront effectués comme si l’échantillon avait été pris avec remise.
Pour ce qui est de la 3e méthode, bien qu’elle possède la 1re propriété, elle peut
produire des échantillons qui ne possèdent pas la seconde propriété. Supposons que
les étudiants soient ordonnés selon leur numéro matricule (nous savons que les
premiers chiffres représentent l’année et le mois d’admission).
Selon le premier
nombre tiré, les deux individus successifs auront des âges plus élevés (matricules
petits) ou plus faibles. Les données auront tendance à sortir moins d’information que
celles obtenues des deux autres méthodes et nous ne saurons pas dans quelle mesure
le premier résultat a influencé le second.
À partir de l’exemple précédent nous pourrons voir que tirer un échantillon avec remise
de 2 observations est équivalent à répéter deux fois une expérience dont le résultat est
une variable aléatoire qui a une distribution de probabilité déterminée par la population.
Cet énoncé est aussi approximativement vrai pour un échantillon sans remise
provenant d’une population de grande taille. En règle générale, de nombreux auteurs
considèrent que l’approximation reste valable si n
N
 10% i.e. si le taux de sondage est
inférieur à 10%.
Ainsi, le nombre sur la face supérieure d’un dé bien balancé peut être traité comme une
observation obtenue d’un échantillon aléatoire provenant d’une population de 6
nombres de 1 à 6. Nous pouvons aussi le traiter comme une observation obtenue par
échantillonnage aléatoire d’une population de 600 nombres dont 1/6 sont des 1, 1/6
14
sont des 2, etc.. En pratique nous parlerons de cette expérience comme un échantillon
d’une population infinie où 1/6 des individus sont des 1. 1/6 sont des 2, etc.
Cette pratique est particulièrement utile lorsque nous sommes en présence d’une
expérience dont le résultat a une distribution de probabilité continue.
Nous
considérerons cette expérience comme un échantillonnage d’une population de taille
infinie où la proportion des éléments entre a et b est égale à Pa    b .
Population normale
Une famille spéciale de populations ou distributions d’une grande importance en
statistique est la famille des distributions normales.
Pour des raisons théoriques dont
nous discuterons plus tard, ces distributions se présentent souvent.
Un exemple où une distribution normale se produit souvent est celle où un grand
nombre d’étudiants doivent se présenter à une même épreuve (« examen du
Ministère »). Pour un étudiant sélectionné au hasard de la population des étudiants qui
ont complété l’épreuve, la note obtenue aura la distribution de densité et la distribution
cumulée suivante : (les nombres en abscisse sont arbitraires et placés ainsi pour fins de
discussion et d’exemple)
loi Normale- densité
0,045
0,04
0,035
0,03
0,025
0,02
0,015
0,01
0,005
0
0
10
20
30
40
50
60
70
80
90
100
Loi Normale(=60, =10).
15
loi Normale-Fonction cumulée
1,2
1
0,8
0,6
0,4
0,2
0
0
10
20
30
40
50
60
70
80
90
100
pour chaque nombre  et pour chaque valeur positive  il y a une fonction de densité
normale qui possède une forme de « cloche ». Le nombre  (Mu grec) représente le
lieu du « centre » de la distribution, l’endroit où la densité est maximale. Si on accroît
 , toute la fonction de densité sera déplacée vers la droite. Entre  et   
il y a
34% de la surface, ainsi P          0,34 .
Si  est accru alors la courbe s’abaisse. Voir fichier normale.xls
16
loi normale fct densite(disp=2)
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
0
10
20
30
40
50
60
70
80
90
100
Loi Normale(=60,=20).
La valeur de  (sigma minuscule grec) est une mesure de variabilité des observations
de la population.
Pour le résultat d’examen   60 et   10 .
Alors 34% de la population ont des
résultats entre 60 et 70, 84% ont des résultats plus petits ou égaux à 70.
Exemples
Si on désire calculer la proportion de la population qui a obtenu certains résultats à
l’épreuve :
1) moins de 90
2) plus de 90
3) entre 50 et 70
4) au moins 20 points de part et d’autre du centre
1) P X  90
Le nombre 90 est à 30 unités de   60 , puisque   10 , 90 se trouve à 3 de  .
Alors PX  90  PX    3   0,9987 .
17
2) P X  90
Les notes qui ne sont pas plus petites ou égales à 90 sont plus grandes que 90.
Alors P X  90  1  P X  90  0,0013 .
3) P 50  X  70
ici 70  60  10     et 50  60  10     .


Alors P X  70  P X      0,8413 et pX  50  0,1587 .
Alors P 50  X  70  PX  70  P X  50  0,8413  0,1586  0,6827 .
4) On cherche d’abord P 40  X  80  P   2  X    2   0,9546 .
Puis la probabilité P X  40 ou P X  80 sera 1  0,9546  0,0454 .
Parce que la distribution normale joue un rôle important en statistique, il est souvent
utile de générer des observations correspondantes à une loi normale. Il est possible de
construire une telle série d’observations à partir de nombres aléatoires.
Voici la méthode : prendre un nombre aléatoire à partir d’une distribution uniforme 0, 1
- localiser ce nombre dans la distribution cumulée normale (0, 1) et rapporter la valeur
de ( Z ).
Exemple : Alea ( )
0,8416
Inverse normale standard 0,8416
1
La valeur de X sera   1 et pour reprendre l’exemple précédent :
X  60  1 10  70 . Voir fichier normale.xls feuille2
18
Ensembles et fonctions
Les notions d’ensemble et de fonction apparaissent à plusieurs endroits, et comme la
prose, est utilisée par plusieurs personnes à leur insu.
Toute collection telle que les résultats possibles d’une expérience qui consiste à lancer
deux pièces, est nommée un ensemble.
éléments de l’ensemble.
Les items de la collection sont nommés
Si un ensemble est constitué exclusivement de certains
éléments d’un autre ensemble il sera alors un sous-ensemble de cet autre ensemble.
Par exemple,
F , F  , F , P
est un sous-ensemble de
 F , F  , F , P , P, F  , P, P,
on représente généralement un ensemble en plaçant ces éléments entre accolades.
On distingue un élément et l’ensemble constitué de cet élément; ainsi F, F  est un
élément de l’ensemble
 F, F .
Deux ensembles sont mutuellement exclusifs s’ils n’ont aucun élément en commun.
Par exemple,
 F , F  , F , P et P, P sont mutuellement exclusifs.
Certains sujets et exemples traités précédemment comptaient des ensembles :
l’ensemble
 1 ,  2
,  3  des états possibles de la nature
 d1 ,
d2 , d3 des décisions
Z1 ,
Z ,22 , Z3 des conséquences (observations)
l’ensemble des regrets
l’ensemble de tous les nombres
l’ensemble des entiers positifs
l’ensemble des paires de nombres où le premier est une abscisse, et le second une
ordonnée (cet ensemble est nommé le « plan »).
19
Certaines notations et abréviations pour les ensembles sont souvent utiles à utiliser.
Nous utilisons
tous
les
 x : x possède une propriété spécifiée
éléments
 x: x est un
qui
possèdent
la
pour représenter l’ensemble de
propriété
chat  est l’ensemble des chats et
spécifiée.
 x : 3  x  4
Par
exemple,
est l’ensemble des
nombres entre 3 et 4 incluant 3 et 4. Le symbole x est utilisé ici pour représenter un
élément typique de l’ensemble mais n’a pas de signification spéciale (ce qui n’est pas le
cas si l’ensemble considéré est celui des lettres de l’alphabet!). Si on remplaçait x par
y
dans ce qu’on vient d’énoncer nous aurions le même ensemble donc.
 y : y est un chat est encore l’ensemble des chats.
Dans l’expérience du lancer de deux pièces de monnaies, nous étions intéressés au
nombre de faces obtenues lors du lancer des pièces.
Pour chacun des résultats
possibles de l’expérience il y a un nombre qui représente le nombre correspondant de
faces obtenues.
Une correspondance, règle ou cartographie qui associe à chaque
élément d’un ensemble un élément d’un autre ensemble est nommé une fonction. De
façon plus explicite, nous l’appellerons parfois en fonction du premier ensemble vers le
second ensemble. L’élément du second ensemble qui correspond à une valeur donnée
du premier ensemble se nomme l’image de cet élément par la fonction.
Dans certains cas la fonction sera représentée par un tableau. Par exemple, le tableau
suivant représente la fonction du « nombre de faces »
f1 = Nombre de faces obtenues lors du lancer de deux pièces de monnaies
Résultats possibles
F, F 
F, P
P, F 
P, P
Valeurs de f1
2
1
1
0
Cette fonction f1 ne représente rien d’autre que la variable aléatoire dont nous avons
déjà discuté. Cette fonction f1 est une fonction sur l’ensemble des résultats possibles
vers l’ensemble des nombres.
20
Certaines fonctions ne peuvent être représentées de façon aussi simple ; considérons
une fonction f 2 qui fait correspondre à chaque nombre entre 0 et 1 le carré de ce
nombre. Il y a un nombre infini d’éléments dans l’ensemble de tous les nombres entre
0 et 1 et un tableau représentant f 2 ne serait jamais terminé.
Nous pourrions représenter approximativement cette fonction par un graphique de
coordonnées x , y  où serait un nombre entre 0 et 1 et y  x 2
f2(x)=x2
1.2
1
0.8
0.6
Series2
0.4
0.2
1
9
8
0.
7
0.
6
0.
5
0.
4
0.
3
0.
2
0.
1
0.
0.
0
0
Cette représentation n’est que partielle à cause des limites dans 1) le tracé des points
et 2) le nombre de points qu’on peut tracer.
Une représentation résumée qui est très pratique consiste à décrire f 2 par :
f 2  x   x 2 pour 0  x  1
Ici f2 x  signifie la valeur de f 2 qui correspond à un nombre quelconque x entre 0 et 1.
En général, si f est une fonction sur A vers B, f x représente la valeur de f i.e.
l’élément de B correspond à un élément x de A. Ainsi, f1F , F   2 , f2 0.5  0,25 .
21
Quelques autres fonctions
f3 x   1  2 x pour x quelconque. (droite de pente 2)
f 4 x   4 pour x quelconque (constante = 4)
f5 x   x pour x quelconque (droite de pente = 1)
f6 x   mère de x pour une personne x quelconque
Parfois la description de la fonction n’est pas aussi simple. Par exemple, considérons
f 2 décrit par :
 f7 x   x pour 0  x  1

f7 x   2  x pour 1  x  2
f x   0 pour toute valeur qui ne sont pas entre 0 et 2.
7
Voici pour la représentation graphique de f 7
1,2
1
0,8
0,6
Série2
0,4
0,2
0
0
0,5
1
1,5
2
22
Récapitulation en utilisant le langage acquis. On peut s’intéresser à certains sousensembles d’un ensemble  de tous les résultats possibles d’une expérience. Par
exemple,
dans
l’expérience
de
lancer
des
pièces
on
peut
s’intéresser
à
E1   F , P , P, F  qui est l’ensemble des résultats pour lesquels face n’apparaît
exactement qu’une seule fois.
Soit E un sous-ensemble de  . Alors que l’expérience est répétée un grand nombre de
fois, dans des circonstances similaires, la proportion de fois où le résultat de
l’expérience est un élément de E aura tendance à s’approcher d’un nombre.
Ce
nombre sera appelé probabilité de E et noté PE .
Cette fonction notée P est nommée distribution de probabilité de l’expérience. On note
que P est une fonction sur l’ensemble des sous-ensembles E de  vers les nombres
Réels entre 0 et 1.
Une variable aléatoire est représentée par une autre fonction g qui associe un nombre à
chaque résultat possible de l’expérience. Si on nomme A le résultat de l’expérience, la
valeur de la variable aléatoire est x  g  A . Alors si l’expérience mentionnée plus haut,
lorsque menée, donne A  F , P, la variable aléatoire f (le nombre de faces…) aura la
valeur X  f1 A  1.
Lorsqu’il n’y a pas à craindre de confusion, il est de pratique courante de nommer X la
variable aléatoire, bien que, à strictement parler, X est la valeur de la variable et non la
variable aléatoire. Par exemple, on parle de la distribution de probabilité de la variable
aléatoire X qui est définie comme la règle qui assigne des probabilités aux ensembles
de résultats qui peuvent être exprimées en terme de conditions sur X , donc des
valeurs de X . La distribution de probabilité de la variable aléatoire X généralement
une version résumée de la distribution de probabilité de l’expérience.
23
La distribution de probabilité de la variable aléatoire X est résumée de façon concise
par la fonction de distribution cumulée F qui se définie par :
F a  PX  a  PA : A est un résultat tel que X  g  A a pour tout nombre a.
Dans le cas discret, où les valeurs possibles de X sont distinctes les unes des autres,
la distribution de probabilité est résumée efficacement par la fonction de densité de
probabilité f définie par :
f x   P  X  x  .
Dans le cas continu la fonction de densité de probabilité f se définie à partir de ses
propriétés :
1) f x   0 pour tout x .
2) la surface entre l’axe horizontal et la courbe de coordonnée x , f x  est 1.
3) P a  X  b  surface entre l’axe horizontal et la courbe entre les abscisses a et b.
24
Distribution de probabilité de l’expérience du lancer de 2 pièces équilibrées.
Événement E
P{E}
{}
0
{(F,F)}
1/4
{(F,P)}
1/4
{(P,F)}
1/4
{(P,P)}
1/4
{(F,F), (F,P)}
1/2
{(F,F), (P,F)}
1/2
{(F,F), (P,P)}
1/2
{(F,P), (P,F)}
1/2
{(F,P), (P,P)}
1/2
{(P,F), (P,P)}
1/2
{(F,F), (F,P), (P,F)}
3/4
{(F,F), (F,P), (P,P)}
3/4
{(F,F), (P,F), (P,P)}
3/4
{(F,F), (P,F), (P,P)}
3/4
{(F,P), (P,F), (P,P)}
3/4
{(F,F), (F,P), (P,F), (P,P)}
1
Distribution de la Variable Aléatoire X: « Le nombre de faces obtenues lors du lancer de deux
pièces de monnaie. »
X
P(X=x)
{X=0} = {(F,F)}
1/4
{X=1} = {(F,P), (P,F)}
1/2
{X=0 ou 1} = {(F,F), (F,P), (P,F)}
3/4
{X=0 ou 2} = {(F,F), (P,P)}
1/2
{X=1 ou 2} = {(F,P), (P,F), (P,P)}
3/4
{X=0 ou 1 ou 2} = {(F,F), (F,P), (P,F), (P,P)}
1
25
Dans le cas discret, où les valeurs possibles de X sont les unes des autres, la
distribution de probabilité est distincte résumée efficacement par la fonction de densité
de probabilité F définie par :
f x   P  X  x 
Dans le cas continu la fonction de densité de probabilité f se définie à partir de ses
propriétés :
1)
f x   0 pour tout x.
2)
La surface entre l’axe horizontal et la courbe de coordonnée x , f x  est 1
3)
P a  X  b = surface entre l’axe horizontal et la courbe entre les
abscisses a et b.
La fonction de densité de l’exemple du pointeur idéal f 8 est définie par
f8 x   1 pour 0  x  1
f8 x   0 pour tout autre nombre.
La fonction de densité de probabilité pour la distribution normale est définie par
f x  
1
e
2  2
  x   2
2 2
pour toute valeur de x*.
lorsque   0 et   1 l’expression devient
x
1
e
2
2
2
* le nombre e = 2.71828… se présente tellement souvent en mathématique qu’on lui a
donné un symbole particulier e un peu comme  = 3.14159…
26
La probabilité fait référence à la fréquence à terme d’une longue série de répétition
d’une expérience menée dans des circonstances similaires. Supposons que l’ensemble
 soit l’ensemble des résultats possibles, cet ensemble n’est rien d’autre que
l’événement qui contient tous les résultats de l’expérience et dont la probabilité de
réalisation est 1, on le nomme encore « événement certain ». Ensemble fondamental
de
probabilité
et
les
membres
de
l’ensemble
sont
nommés
« événements
élémentaires », pour l’exemple des deux pièces cet ensemble est
   P , P  , P.F. , F.P. , P , P   * Voir dernier ensemble sur distribution Événement.
Nous utiliserons cet ensemble pour illustrer la notation.
1- Un ensemble A est un sous-ensemble de B si B contient tous les éléments de A.
L’ensemble
 P , P  est un sous-ensemble de F , P  , P , P .
2- Le complément d’un ensemble, noté A (parfois noté A1 , Ac) d’un
ensemble
A
est l’ensemble de tous les éléments de  qui ne sont pas élément de A..
ainsi
P , P    F , F  , F , P  , P , F 
le complément de « obtenir deux piles » sera : « ne pas obtenir deux piles ».
Le complément de « obtenir deux cotés semblables » sera : « obtenir deux côtés
différents » et noté
F , F  , P , P     F , P  , P , F  .
3- Que sera le complément de  ? Puisqu’il n’y a aucun élément en dehors de  cet
ensemble n’a pas de complément. En pratique, pour éliminer cette difficulté nous
introduisons un ensemble spécial, l’ensemble vide noté 0 qui est un ensemble sans
élément alors nous pouvons écrire :
0 , 0
27
4- L’union de plusieurs ensembles A 1, A 2, A 3, …, A n est l’ensemble A des éléments qui
sont dans au moins un des ensembles A
1
,
A
21,
… .
L’union sera noté
A  A1  A 2  A 3  A n
par exemple
 P, P     P, P  , P, F     P, F  ,  F , P     P, P  , P, F  , F , P  .
En règle générale si A 1 ou A
2
ou A
3
…. ou A n. Le « ou » utilisé ici est inclusif. Il
signifie A 1 ou A 2 ou les deux.
5- Deux ensembles sont disjoints si ils n’ont aucun élément en commun.
28
Téléchargement