Les probabilités Les probabilités représentent l`essence même des

publicité
Les probabilités
Les probabilités représentent l’essence même des statistiques. L’approche fréquentiste et
bayésienne sont basées sur la notion de probabilité. Il devient donc important de bien
saisir les nuances des probabilités. A cet effet, nous attacherons une attention particulière
sur l’identification des caractéristiques propres aux probabilités ainsi qu’aux différentes
caractéristiques des distributions.
Distinctions entre le caractère empirique et théorique des variables. Une variable est
empirique lorsqu’elle est observée et elle est dite théorique lorsqu’elle anticipée. Prenons
l’exemple d’un dé à six faces. Chaque coté porte un chiffre de 1 à 6. En théorie, si le dé
est bien équilibré, chaque chiffre à une chance égale et connue de « sortir » à chaque
tirage. Cette chance est égale à 1/6. Aussi, si nous répétons le lancé du dé 300 fois nous
nous attendons, en théorie, à avoir les résultats suivants :
Chiffre
Résultat théorique
1
2
3
4
5
6
Total
50
50
50
50
50
50
300
Le chiffre 50 représente 1/6 du total tel que
300
= 50
6
Ce chiffre représente la valeur théorique ou la fréquence que l’on s’attend à avoir si on
répète 300 fois l’expérience. Bien entendu il est très rare que le nombre théorique est
exactement le même que la fréquence observée que certains appellent également
variables empiriques. Cette distinction entre la fréquence théorique et la fréquence
observée nous servira éventuellement dans le calcul du Khi carré.
La notion du OU et du ET
La première étape consiste à identifier les différentes situations qui peuvent se présenter.
Il s’agit en fait de répondre à trois questions :
1) Est-ce que le calcul est basé sur un échantillon ou sur l’ensemble de la population?
2) Est-ce que l’ordre de sélection est important ou non?
3) Est-ce qu’il y a remise ou non?
Pour ce dernier cas il s’agit de déterminer si l’élément peut être sélectionné encore. Par
exemple, un individu est sélectionné au hasard pour participer à une enquête et ce dernier
pourrait être sélectionné encore une fois. Le tableau récapitulatif qui suit illustre le tout :
Tableau des formules
Sans remise
(NPR)
Avec remise
Arrangement
Permutation (ordre
(ordre important et
important et
échantillon)
population)
N!
N!
(N-k)!
Nk
Nn
Combinaison
(Ordre pas
important)
N!
k! * (N-k)!
(N+k-1)!
k! * (N-1)!
Légende: N = Nombre dans la population et k = Nombre de sélection
(NCR)
NpR et NcR représentent les fonctions sur la calculatrice.
Nous introduisons ici le symbole ! qui représente le factoriel. Le factoriel indique que le
chiffre est multiplié par ses précédents. Par exemple 6! = 6*5*4*3*2*1 = 720 alors que
10! = 10*9*8*7*6*5*4*3*2*1 = 3628800
Exemple :
Dans un bureau il y a quatre employés soit : André, Bernard, Carole et Denise. Le patron
décide de former des équipes de deux personnes. Pour constituer les équipes le patron
décide d’inscrire le nom des quatre employés sur un bout de papier et de mettre le tout
dans un chapeau. Combien d’équipes de 2 personnes le patron peut–il faire avec ces 4
employés s’il n’y a aucune remise de nom, c'est-à-dire que le nom une fois sélectionné ne
peut être pigé de nouveau, et que l’ordre n’est pas important ?
La formule utilisée serait:
N!
k!( N − k )!
Nous avons ainsi pour notre exemple :
N!
=
k!( N − k )!
4!
=
2!(4 − 2)!
4 * 3 * 2 *1 24
=
=6
2*2
4
Il y aurait donc 6 équipes possibles. En utilisant la fonction NcR sur votre calculatrice
vous obtiendrez ce résultat. (Vous inscrivez 6 puis la fonction NcR puis 2)
On peut illustrer cette réponse de la façon suivante :
André
Bernard
Carole
Diane
André
X
X
X
X
Bernard
1
X
X
X
Carole
2
4
X
X
Diane
3
5
6
X
L’ordre n’étant pas important les équipes André/Bernard et Bernard/André sont
équivalentes et forment une seule et même équipe. Les équipes avec le même nom sont
impossibles puisqu’il n’y a pas remise.
Si l’ordre est important, par exemple le premier nom sélectionné doit faire une tâche
supplémentaire, alors nous utiliserions la formule suivante :
4!
4 * 3 * 2 *1 24
N!
= =12
=
=
(N − k )! (4 − 2)!
2 *1
2
On peut illustrer cette réponse de la façon suivante :
André
Bernard
Carole
Diane
André
X
4
7
10
Bernard
1
X
8
11
Carole
2
5
X
12
Diane
3
6
9
X
En utilisant la fonction NpR sur votre calculatrice vous obtiendrez ce résultat.
S’il est possible que l’employé sélectionné soit de nouveau éligible nous aurions alors
une sélection avec remise. L’employé pourrait, théoriquement, ainsi faire équipe avec luimême. Si l’ordre est important (ne demandez pas pourquoi !) alors nous aurions Nk
équipes. Dans ce cas ci 42 ou 16 équipes tel que le tableau suivant illustre. C’est 42 parce
qu’il y a 4 personnes et nous désirons des équipes de deux personnes. Le tableau qui suit
illustre les résultats :
André
Bernard
Carole
Diane
André
1
5
9
13
Bernard
2
6
10
14
Carole
3
7
11
15
S’il y a remise mais que l’ordre n’est pas important alors nous aurions :
( N + k − 1)! (4 + 2 − 1)!
5!
120
=
= 10
=
=
k!( N − 1)!
2!(4 − 1)!
2!(3!) 12
Diane
4
8
12
16
On peut illustrer cette réponse de la façon suivante :
André
Bernard
Carole
Diane
André
1
X
X
X
Bernard
2
5
X
X
Carole
3
6
8
X
Diane
4
7
9
10
Lorsqu’on utilise toute la population
Si tous les éléments d’une population sont utilisés nous utiliseront les formules qui
suivent.
Supposons que lors d’une réunion, le patron veut connaître le nombre de façons
différentes que les employés peuvent se placer devant lui. Ici tous les employés doivent
donc être sélectionnés. (toute la population est ainsi utilisée). Il y a donc N ! manières
différentes de placer les employés. 4 ! = 24
Si l’employé peut être sélectionné à chaque tirage (avec remise) nous aurions alors NN
manières ou 44 = 256
Il est évident que l’utilisation de l’un ou l’autre de ces calculs dépend de la situation.
Les distributions
Il est important de souligner qu’il existe plusieurs types de distributions probabilistes.
Également connu sous le nom de Loi discrètes, ces distributions ont un ensemble de
possibilités qui respectent certaines conditions. Il s’agit donc de reconnaître ces
conditions afin d’être en mesure d’appliquer correctement la loi qui s’y rattache. Nous
nous attarderons cependant aux principales d’entres elles et qui sont au nombre de six.
La distribution binomiale
Afin d’identifier si on a affaire à une distribution binomiale retenons les deux premières
lettre soit bi. Bi veut dire deux. On a affaire à une distribution binomiale lorsqu’il y a
deux possibilités de résultats. Par exemple, un appareil fonctionne ou ne fonctionne pas;
soit nous sommes un homme soit une femme; la réponse à un examen est vraie ou fausse,
nous sommes pour ou contre, un produit est défectueux ou fonctionne, etc.
La formule d’une distribution binomiale est la suivante :
n x
n− x
 ( p ) (1 − p )
 x
n
x
signifie le nombre de sélection ou l’échantillon total
la partie de l’échantillon qui possède la caractéristique recherchée
p
1-p
n-x
la probabilité connue de la caractéristique de la partie de l’échantillon recherché
la probabilité de l’autre partie de l’échantillon. Le 1 représentant ici 100%
La différence entre la taille de l’échantillon et le nombre de sélection qui possède
la caractéristique recherchée
Exemple :
Supposons que l’on désire interroger 20 personnes. Nous voulons connaître la probabilité
que sur ces 20 personnes il y ait exactement 12 femmes. Supposons également que nous
savons que dans la population à l’étude 52% des personnes sont des femmes. Nous
aurions donc :
n = 20 (Nous désirons un échantillon de 20 personnes)
x = 12 (nous désirons 12 femmes)
p = ,52 (il y a 52% de femmes dans la population)
1-p = ,48 (puisqu’il il y a 52% de femmes il y a donc 48% d’hommes (100% - 52% =
48%)
Ainsi :
n x
 ( p ) (1 − p )n − x
 x
 20 
 (.52)12 (1 − .52)20−12
12 
 20 
12
8
 (.52) (.48)
12 
 20 
N!
  = nCr =
k!( N − k )!
12 
2.43290200818
20!
2.43290200818
2.43290200818
=125970
=
=
=
=
12!(20 − 12)! 479001600(8)! 479001600 * 40320 1.93133445113
(Avec la calculatrice on obtient ce résultat en utilisant la touche NcR). Ceci signifie qu’il
y a 125970 combinaisons différentes de douze femmes à partir de 20 personnes.
n
NOTE : Lorsque les chiffres sont entre parenthèses comme   il faut faire nCr et
 x
ainsi calculer le nombre de combinaisons.
Nous avons donc maintenant :
(
125970 (.52) (.48)
12
8
)
Tel que :
(.52)12 = .000390877
(.48)8 = .002817928
 20 
12
8
donc :  (.52) (.48) = 125970((.000390877 )(.002817928)) = 125970 (.000001101)
12 
= .13875 ou 13,9%
Rappel : Pour une binomiale il faut :
-
qu’il y ait deux possibilités
que l’on connaisse la proportion (%) dans la population à l’étude
que le total en haut des parenthèses doit être égal à l’échantillon (ici nous avons
12 + 8 = 20)
Pour notre exemple nous avons mentionné que nous désirions EXACTEMENT 12
femmes. Si la question avait été 12 OU 13 femmes alors nous aurions dû additionner les
deux probabilités. Il est important de bien examiner la question et d’appliquer la règle du
OU et du ET. Lorsque la question comporte la notion du OU on additionne et lorsque la
question comporte ET on multiplie.
Hypergéométrique
On utilise l’hypergéométrique lorsqu’on possède des informations sur la taille de la
population. Ainsi, pour reprendre notre exemple précédent plutôt que de connaître la
proportion de femmes (52%) nous connaissons le nombre exact de femmes dans la
population à l’étude. Supposons qu’il y a 200 personnes dans une salle et que de ce
nombre il y a 52% de femmes. Nous pouvons conclure qu’il y a 104 femmes (52% * 200
= 104). S’il y a 104 femmes alors il y a 96 hommes. Nous connaissons donc la population
totale et les sous populations. Ainsi, pour répondre à la question quelle est la probabilité
que sur un échantillon de 20 personnes nous ayons exactement 12 femmes nous
procéderions de la façon suivante à l’aide la formule de l’hypergéométrique.1
Cette formule est :
 N 1  N 2 
 

 x  n − x 
N
 
n 
1
Il est important de noter qu’il est possible d’utiliser l’hypergéométrique pour plus de deux sous
populations.
Tel que :
N1 = La sous population 1 (ici le nombre de femmes - 104)
N2 = La sous population 2 (ici le nombre d’hommes - 96)
n = La taille de l’échantillon total (ici un échantillon de 20 personnes)
x = La taille du sous échantillon de la population 1 (ici nous désirons 12 femmes)
n-x = La taille du sous échantillon de la population 2 (ici nous désirons 8 hommes (2012=8)
Nous aurions donc :
 N 1  N 2 
 

 x  n − x  =
N
 
n 
104  96 

 
12  8 
 200 


 20 
N
Rappelons que l’expression entre parenthèse   signifie NcR. Aussi pour notre
n 
exemple nous aurions 104NcR12 multiplié par 96NcR8 (la question demande 12 femmes
ET 8 hommes) et divisé par 200NcR20 ce qui nous donne :
104  96 

 
12  8  = 0,1420 ou 14,2% On remarquera qu’il y a une différence entre le calcul de
 200 


 20 
la Binomiale (13,9%) et de l’Hypergéométrique. Plus la population N sera grande plus les
deux résultats seront semblables.
Supposons que la taille de la population est de 100 plutôt que de 200. Nous aurions alors :
 52  48 
  
12  8  = 0,14529 ou 14,5%
100 


 20 
NOTE : Vous remarquerez que le total des deux sous populations (ici 52+48) est égal au
total de la population (ici 100) et que le total des deux sous échantillons (ici 12+8) est
égal à l’Échantillon total (ici 20). Il est important que les chiffres concordent.
On utilise l’hypergéométrique dans le calcul de certaines loteries. Par exemple :
Nous savons que la probabilité de gagner le gros lot à la 6/49 est :
49!
N!
=
= 13983816 = 1/13983816 = ,000000072
k!( N − k )! 6!(49 − 6)!
Il n’y a qu’une seule combinaison gagnante et il y a 13983816 combinaisons au total.
6/6 = nCr =
Nous utiliserons l’hypergéométrique pour calculer la probabilité de gagner le deuxième
prix soit 5 bons numéros plus le numéro complémentaire (qui représente un septième
chiffre sélectionné par la société de loterie) nous aurions alors :
 6 1 42 
   
5 1 0
5/6 + =     = ,0000000429
 49 
 
6 
Si nous décomposons la formule nous avons :
 6 1 42 
   
 5 1 0  tel que
 49 
 
6 
 6
  = La société de loterie sélectionne 6 chiffres et le 5 représente cinq de ces chiffres sur
5
votre billet. Il y a donc 6NcR5 combinaisons de 5 chiffres à partir des 6 chiffres qui ont
été sélectionné par la société de loterie. Habituellement on exprime 6 NcR5 de la façon
suivante: C 56 . Ici, le résultat est 6.
1
  = Il n’y a qu’un seul numéro complémentaire et ce numéro doit également apparaître
1
sur notre billet. Nous avons donc 1NcR1 ce qui donne 1. En fait il n’y a qu’une seule
façon que cela se produise.
 42 
  = Une fois tous les chiffres sélectionnés il reste encore 42 boules dans le boulier.
0 
Cependant tous les numéros qui apparaissent sur notre billet ont été sélectionnés. Il en
reste donc zéro.
 49 
Nous avons calculé précédemment   qui représente toutes les combinaisons possibles.
6 
Nous avons donc ici
6 *1 *1
6
=
= ,000000429
13983816 13983816
Remarquez que le total de chiffre en haut de la parenthèse donne 49 (6+1+42), ce qui
représente le total de boules dans le boulier, et que le total du bas de la parenthèse donne
6 (5+1+0). Ce chiffre représente le total de chiffres sur le billet.
La probabilité d’avoir 5 bons chiffres mais pas le numéro complémentaire est pour sa
part :
 6 1  42 
   
5 0 1
5/6 =     = ,000018021
 49 
 
6 
Rappel. On utilise l’hypergéométrique lorsque l’on connaît la population et les sous
populations. Une erreur fréquente consiste à oublier des éléments dans le calcul. Pour
notre exemple ci haut nous devons avoir 6+1+42 = 49 et 5+0+1 = 6 On retrouve ces
deux chiffres au dénominateur.
La loi géométrique
La loi géométrique contrairement à la loi binomiale ou hypergéométrique dépend des
résultats obtenus. On répète l’épreuve jusqu’au moment ou on enregistre un premier
succès. La formule est la suivante : P(1) = pqn-1 tel que :
p représente la probabilité d’un succès
q représente la probabilité d’un échec
x représente le succès
n représente le nombre d’essais
On utilise n-1 puisque nous désirons un seul succès
Nous avons également la formule suivante : P(x) = p (1-p)n-1
Reprenons notre exemple. Nous savons que 52% des personnes présentes dans une salle
sont des femmes. Nous désirons poser une question à la première femme qui sera
sélectionnée. Quelle est la probabilité que la première femme sélectionnée soit la
troisième personne interrogée? Si tel est le cas nous savons également que les deux
premières personnes interrogées seront des hommes.
Nous aurons donc : P(1) (,52)1 (,48)2 = 0,1198 ou 11,98%
On utilise ce calcul dans certains jeux. Supposons que deux personnes jouent à pile ou
face. Le joueur gagne dès que la pièce de monnaie tombe sur face. Pour avoir le droit de
jouer le participant doit mettre une mise de $2. S’il gagne il reprend son $2 plus $1.
Quelle est la probabilité que le joueur gagne au troisième tour? Le joueur aurait donc
échoué aux deux premiers tours avant d’avoir un succès. Nous savons au départ que le
joueur a une chance sur deux de gagner. Nous aurions donc :
P(1) = (,50)1 (,50)3-1
P(1) = (,50)1 (,50)2
P(1) = (,50) (,25)
P(1) = 0,125
Il y a 12,5% des chances que le joueur gagne au troisième tour.
En terme de gains ou de pertes ceci se traduirait par ceci :
Situation 1
Mise
$2
Résultat
Gain
Gain/(Perte)
$3
Probabilité
(,50)1 (,50)0 = ,5
Ici le joueur a dépensé $2 pour gagner $3 et il aura un dollar de plus qu’au départ. Le
joueur a une chance sur deux que cela arrive.
Situation 2
Mise
$2
$2
Résultat
Perte
Gain
Gain/(Perte)
($ 2)
$3
Probabilité
(,50)1 (,50)1 = ,25
Ici le joueur a dépensé $4 pour gagner $3. Une perte pour le joueur de $1. Il y a 25% des
chances que cela arrive.
Situation 3
Mise
$2
$2
$2
Résultat
Perte
Perte
Gain
Gain/(Perte)
($ 2)
($ 2)
$3
Probablité
(,50)1 (,50)2 = ,125
Ici le joueur a dépensé $6 pour gagner $3. Une perte pour le joueur de $3. Il y a 12,5%
des chances que cela arrive.
En fait si le joueur ne gagne pas la première fois il sera perdant et la maison (casino ou
autre) sera gagnant.
La binomiale négative
On utilise la loi binomiale négative lorsqu’on désire un ne succès. Contrairement à la loi
géométrique ou on arrête dès le premier succès. La formule est la suivante :
 x − 1 n
 p (1 − p ) x − n
P ( x) = 
 n − 1
Pour démontrer la différence entre les différentes distributions, y compris la binomiale
négative, prenons l’exemple suivant.
Exemple intégrant plusieurs distributions
Supposons que vous croisez une copine sur la rue. Elle est maintenant en couple et ce
dernier a décidé de fonder une famille. Vous lui demandez :
-
Combien d’enfants avez-vous l’intention d’avoir?
Nous en voulons 4. Et mon conjoint aimerait beaucoup avoir un garçon.
Quelle est la probabilité qu’il n’y ait qu’un seul garçon parmi les enfants du couple?
Ici peu importe que le garçon soit le premier, deuxième, troisième ou quatrième enfant.
Enfin supposons que la probabilité d’avoir un garçon, pour notre exemple est de 48%.
Telle qu’émise la question implique l’utilisation de la binomiale. Tout ce que nous
voulons savoir c’est la probabilité que le couple ait un seul garçon sur les 4 enfants.2
n x
n− x
La formule de la binomiale est donc :  ( p ) (1 − p )
 x
Telle que (pour notre exemple) :
n
x
p
1-p
n-x
signifie le nombre d’enfants (ici 4)
le nombre de garçon (ici 1)
la probabilité connue d’avoir un garçon (ici 48%)
la probabilité d’avoir une fille (ici 1-0,48 = 52%). Le 1 représentant ici 100%
La différence entre le nombre d’enfants (4) et le nombre de garçon (1)
Nous aurions également pu poser la question différemment soit : Quelle est la probabilité
que le couple ait 3 filles et un garçon?
Le calcul est :
n x
 ( p ) (1 − p )n − x
 x
 4
 (0,48)1 (1 − 0,48)4−1
1 
2
Bien entendu nous aurions pu demander une seule fille….
 4
 (0,48)1 (0,52)3
1 
Il y a C14 manières différentes que la couple ait un garçon soit :
1er enfant
Garçon
Fille
Fille
Fille
2e enfant
Fille
Garçon
Fille
Fille
3e enfant
Fille
Fille
Garçon
Fille
4e enfant
Fille
Fille
Fille
Garçon
Il y a donc 4 manières différentes d’avoir un garçon sur quatre enfants. La probabilité
d’avoir un garçon ET une fille ET une fille ET une fille, pour notre exemple est donc :
(0,48)1 (0,52)3 = 0,48 * 0,1406083 = 0,06749184 ET ceci peut se produire 4 fois. Nous
avons donc une probabilité de 0,06749184 * 4 = 0,26996736 ou 27%.
N’oublions pas que le ET indique la multiplication.
Si la question avait été : Quelle est la probabilité que le couple ait un OU deux garçons
alors nous aurions :
 4
 (0,48)1 (0,52)3 = 0,26996736
1 
OU
 4
 (0,48)2 (0,52 )2 = 0,37380096
 2
La probabilité que le couple ait un OU deux garçons est donc de :
0,26996736 + 0,37380096 = 0,64376832 ou 64,38%
L’ensemble de toutes les probabilités doit donner 100%. Ainsi, la probabilité d’avoir :
 4
0
4
aucun garçon P(0) =  (0,48) (0,52 ) = 0,07311616
0
Détails du calcul :
4nCr0 =1 Il y a en effet une seule possibilité d’avoir aucun garçon soit :
FFFF
(0,48)0 = 1
(0,52)4 = 0,07311616 puisque (0,52)4 = 0,52*0,52*0,52*0,52
3
0,52 * 0,52 * 0,52 = 0,140608
 4
1
3
un garçon P(1) =  (0,48) (0,52) = 0,269967369
1
 
Détails du calcul :
4nCr1 =4 Il y a en effet 4 possibilités d’avoir un garçon soit :
GFFF
FGFF
FFGF
FFFG
(0,48)1 = 0,48
(0,52)3 = 0,140608 puisque (0,52)4 = 0,52*0,52*0,52
Donc : (0,48) * (0,140608) = 0,06749184
4*0,06749184 = 0,269967369 ou 27%
 4
2
2
deux garçons P(2) =  (0,48) (0,52 ) = 0,37380096
 2
Détails du calcul :
4nCr2 = 6 Il y a en effet 6 possibilités d’avoir deux garçons soit :
GGFF
GFGF
GFFG
FGFG
FFGG
FGGF
(0,48)2 = 0,2304 puisque (0,48)2 = 0,48*0,48
(0,52)2 = 0,2704 puisque (0,52)2 = 0,52*0,52
Donc : (0,2304) * (0,2704) = 0,06230016
6*0,06230016 = 0,37380096 ou 37,4%
 4
3
1
trois garçons P(3) =  (0,48) (0,52 ) = 0,23003136
3
Détails du calcul :
4nCr3 = 4 Il y a en effet quatre possibilités d’avoir trois garçons soit :
GGGF
GFGG
GGFG
FGGG
(0,48)3 = 0,110592 puisque (0,48)3 = 0,48*0,48*,48
(0,52)1 = 0,52
Donc : (0,110592) * (0,52) = 0,05750784
4*0,05750784 = 0,23003136 ou 23%
 4
4
0
quatre garçons P(4) =  (0,48) (0,52 ) = 0,05308416
4
 
Détails du calcul :
4nCr4 = 1 Il y a en effet une seule possibilité d’avoir 4 garçons soit :
GGGG
(0,48)3 = 0,110592 puisque (0,48)3 = 0,48*0,48*,48
(0,52)1 = 0,52
Donc : (0,110592) * (0,52) = 0,05750784
4*0,05750784 = 0,23003136 ou 23%
Nous avons donc :
0,07311616 + 0,269967369 + 0,37380096 + 0,23003136 + 0,05308416 =
= 1,00 ou 100%
Notez qu’il est possible de calculer les probabilités pour les filles avec les résultats
précédents puisque la probabilité d’avoir 4 garçons est égale à la probabilité d’avoir
aucune fille et ainsi de suite.
 4
4
0
aucune fille P(0) =  (0,48) (0,52 ) = 0,05308416
0
 
Variation dans la situation – La Géométrique
Rappelons la situation. Vous avez croisé une copine sur la rue et vous lui avez
demandé combien d’enfant(s) elle et son copain avaient l’intention d’avoir. Elle vous a
répondu :
- Nous en voulons 4. Et mon conjoint aimerait beaucoup avoir un garçon.
Avec cette réponse le rang du garçon n’a aucune importance. Cependant si la réponse
avait été :
-
Mon conjoint m’a dit que l’on va arrêter aussitôt que nous aurons un garçon.
Donc ici si le premier enfant est un garçon votre copine aura un enfant. Cependant si elle
vous signale qu’elle aimerait bien avoir 4 enfants alors quelle est la probabilité que votre
copine ait effectivement 4 enfants compte tenu que le couple arrêtera d’avoir des enfants
aussitôt qu’ils auront un garçon? Pour que cela se réalise il faut absolument que le
quatrième enfant soit un garçon. Ici nous devons utiliser la loi géométrique. Nous
arrêtons au premier « succès ».
La formule pour la distribution géométrique est : pqn-1
Aussi la question devient qu’elle ait la probabilité que le couple ait quatre enfants compte
tenu qu’il arrêtera dès qu’il aura un garçon?
Pour que cela arrive il faut que les trois premiers enfants soient des filles. En supposant
que la probabilité d’avoir un garçon est de 48% et de 52% pour une fille nous avons
alors :
(,48)1 (.52)3 = (,48)(.140608) = 0.06749184 . Il y a donc 6,7% des chances que le couple
ait 4 enfants sachant que le quatrième enfant sera un garçon. Il n’y a pas de nCr puisqu’il
n’y a qu’une seule possibilité soit FFFG.
Variation dans la situation – La binomiale négative
Si dans la conversation la réponse de votre copine avait été :
- Nous aurons des enfants jusqu’au moment ou nous aurons deux garçons (ou deux filles).
Votre copine vous réaffirme son désir d’avoir 4 enfants. Quelle est donc la probabilité
que le couple de votre copine ait 4 enfants dont deux garçons et que le 4e enfant sera un
garçon puisque le couple arrêtera d’avoir des enfants au deuxième garçon. Le quatrième
enfant doit être un garçon puisque le couple arrêtera d’avoir des enfants au moment de la
venu d’un deuxième garçon. Par ailleurs, l’autre garçon peut, théoriquement, être le
premier, le deuxième ou le troisième. Nous avons donc :
 x − 1 n
 p (1 − p ) x − n
P ( x) = 
 n − 1
Tel que :
x représente le nombre d’enfant (pour l’exemple 4)
n représente le nombre de garçon (pour notre exemple 2)
p représente la probabilité d’avoir un garçon (pour notre exemple (,5)
q représente la probabilité d’avoir une fille (pour notre exemple (,5)
Nous avons x-1 et n-1 parce que nous savons que le dernier enfant sera un garçon. Il
s’agit alors de calculer la probabilité pour le premier garçon. Donc :
 x − 1 n
 p (1 − p ) x − n
P ( x) = 
 n − 1
 4 − 1
(,48)2 (1−,48)4− 2
P (4) = 
 2 − 1
 3
2
2
P(4) =  (,48) (,52)
1 
 3
P(4) =  (,2304)(,2704)
1 
 3
P (4) =  (0,6230016)
1 
P (4) = 3(0,06230016 ) (En effet 3NcR1 = 3)
P (4) = 0,18690048 ou 18,7%
Vous remarquerez que les probabilités changent en fonction de la spécificité de la
question et/ou du problème. Ainsi la probabilité qu’un couple qui a 4 enfants dont 2
garçons est de 37,4% alors que la probabilité qu’un couple ait 4 enfants dont deux 2
garçons mais que le 4e enfant est un garçon est de 18,7%.
La distribution de Poisson
On utilise la Poisson lorsqu’il y a une moyenne (identifiée par la lettre grecque lambda λ)
qui est fixe dans l’espace ou le temps.
La formule est la suivante :
e −λ * λx
x!
e représente la constante 2.71828182….
λ représente la moyenne
x représente l’évènement
Exemple : Supposons qu’un professeur fait le pari qu’il n’y aura pas de A+ dans son
cours. Pour faire cela il déduira 2 points par fautes. Ce que le professeur omet de
mentionner c’est qu’il sait qu’en moyenne les étudiants font une demi faute par page.
Supposons que le professeur exige un travail de 20 pages et que pour obtenir un A+ il
faut une note de 96%. Quelle est la probabilité qu’un étudiant ait 2 fautes ou moins et ait
encore une chance d’obtenir un A+?
Nous avons donc une moyenne par page de 0,5 faute. Pour un travail de 20 pages ceci
équivaut à une moyenne de 10 fautes. Nous savons que lambda (λ) représente la moyenne
de fautes pour le travail Donc λ = 10. Quelle est la probabilité qu’un étudiant ait 2 fautes
ou moins. Nous devons donc calculer la probabilité de 0, 1 et 2 fautes.
e −λ * λx
x!
−10
e *10 0
P(0) =
= .0000454
0!
+
e −10 *101
= .000453999
P(1) =
1!
+
e −10 *10 2
= ,002269996
P(2) =
2!
P(x) =
(Il existe une fonction ex sur votre calculatrice. Il est important d’inscrire la moyenne puis
le signe négatif (et non le signe de la soustraction) pour exécuter la première partie de la
formule)
La probabilité qu’un étudiant ait 2 fautes ou moins est de .002769395 ou moins de 1%.
(On doit additionner les trois résultats). Le professeur va très probablement gagner son
pari : aucun étudiant aura un A+.
Rappel. On utilise la Poisson lorsqu’il y a une moyenne fixe et invariable dans le temps
et/ou l’espace.
La multinomiale
Contrairement à la binomiale ou seul deux résultats sont possibles, la loi multinomiale
s’applique lorsqu’il y a plus de deux résultats possibles. Ceci est habituellement le cas
dans les sondages électoraux ou il y a plus de deux partis. La formule de la multinomiale
est la suivante :
n!
p x1 p x2 .... p xk
x1!x 2 !...x k !
Tel que
n représente la taille de l’échantillon
x1; x2; xk représentent le nombre dans l’échantillon qui ont la caractéristique 1, 2…k
p x1 p x2 .... p xk représente les proportions des différents résultats possibles
Par exemple, supposons qu’il y a trois partis politiques en lice (A,B et C) et que nous
connaissons la proportion dans l’intention de vote pour chacun de ces partis
(respectivement de 41%, 32% et 27%). Quelle est la probabilité que sur un échantillon de
10 personnes on retrouve exactement 4 partisans du parti A; et 3 du parti B et 3 du parti
C?
Nous aurions donc
n!
p x1 p x2 .... p xk
x1!x 2 !...x k !
10!
3
3
(,41) 4 (,32) (,27 )
4!3!3!
3628800
(,02825761)(,106666667 )(,019683)
864
4200 X ,000059327 = 0,2491 ou 24,9%
Ce calcul est important lors de la planification des enquêtes spécialisées.
Cote Z et valeur de Z (Z)
Il y a deux utilisations au calcul du Z. La première sert à « normaliser » les observations
alors que la seconde sert à calculer la probabilité d’un évènement. Dans les deux cas la
formule est la même :
Z=
xi − x
s
Tel que :
xi représente la valeur
x représente la moyenne (note en utilisant la lettre grecque µ il s’agirait alors de la
moyenne de la population)
s représente l’écart type (note en utilisant σ il s’agirait alors de l’écart type de la
population)
Exemple de la cote Z
Il s’agit en fait de rendre comparable des résultats qui proviennent d’observations
différentes.
Supposons que vous devez analyser la performance dans un cours de statistiques de
quatre étudiants qui étudient dans quatre universités différentes. Vous pourriez utiliser les
résultats de ces quatre étudiants (la note finale par exemple)4. Cependant, comme ces
quatre étudiants ne viennent pas de la même université il faut « normaliser » les notes ou
4
Cet exemple est tiré du livre d’Alain Gilles Éléments de méthodologie et d’analyse statistique pour les
sciences sociales, McGraw Hill, 1994 pp.188-189
les rendre comparables entre elles. En effet est-ce qu’un étudiant qui a obtenu une note de
93 est, par rapport à ses confrères de classe, plus performant qu’un étudiant qui a obtenu
85 dans une autre classe? C’est ce que le Z permet de mesurer. Plus le résultat est loin de
0 plus la « performance » est supérieure quand le Z est positif ou inférieur quand le Z est
négatif. Afin d’illustrer ceci supposons les quatre étudiants suivants :
Étudiant
Note
Moyenne du groupe
A
B
C
D
93
85
82
75
88
80
87
80
Écart type
σ ou S
18.9
13.7
12
13.2
Quel étudiant a le mieux performé par rapport à son groupe? On utilise la formule
x −x
du Z : i
tel que :
s
ZA =
(93 − 88)
= + 0,26
18,9
(85 − 80) = + 0,36
ZB =
13,7
(82 − 87 ) = - 0,42
ZC =
12
(75 − 85) = - 0,38
ZD =
13,2
On remarquera que tous les étudiants ont une différence de + ou - 5 points par rapport à la
moyenne de leur groupe respectif. On ne peut donc utiliser cette différence pour identifier
le plus « performant ». Cependant lorsqu’on examine les résultats des différents Z on
remarque que c’est l’étudiant B qui obtient le Z le plus élevé. C’est donc lui qui a le
mieux réussi par rapport à ses collègues. Ainsi, l’étudiant qui a obtenu 93 a été moins
performant (avec un Z de + 0,26 comparativement à +0,36 pour l’étudiant B) Également,
l’étudiant C même s’il a obtenu une note de 82 a une moins bonne cote Z (-0,42) que
l’étudiant D (-0,38). Rappelons que plus le Z s’éloigne de 0 plus il y a écart dans la
« performance ». Voici le tableau comparatif des résultats bruts et du Z.
Étudiant
Note
A
B
C
D
93
85
82
75
Rang selon
la note
1
2
3
4
Z
+0,26
+0,36
-0,42
-0,38
Rang selon
Le Z
2
1
4
3
La valeur du Z
On utilise également le Z afin de mesurer la superficie en pourcentage sous une courbe
normale. Remarquez qu’il est nécessaire d’avoir une courbe normale pour utiliser le Z
x −x
x −x
dans ce cas5. On utilise la même formule soit Z = i
ou Z = i
s
σ
Exemple :
Supposons que les ampoules produites par un manufacturier ont une durée de vie
moyenne de 2000 heures. Supposons également que l’écart-type est de 250 heures (S).
Combien d’ampoules auront une durée de vie d’au moins 1750 heures? On sait que la
production suit une courbe normale. Dans une courbe normale 50% des observations se
retrouvent entre la moyenne et la limite inférieure et 50% des observations se retrouvent
entre la moyenne et la limite supérieure. Pour notre exemple 1750 se retrouve avant la
moyenne de 2000. Il s’agit donc à l’aide du Z de calculer la superficie entre 1750 heures
et 2000 heures. Si nous appliquons la formule du Z nous avons :
xi − x 1750 − 2000 − 250
=
=
= -1 Le Z = -1. Pour interpréter ce résultat nous
s
250
250
devons utiliser la table du Z (ce qui n’était pas le cas avec la cote Z). Avec un Z de +1,00
ou de -1,00, la table nous donne une superficie de 34,13%. Il y aurait donc 34,13% des
ampoules dont la durée de vie se situe entre 1750 et 2000 heures. On peut illustrer cette
situation par le graphique suivant :
Z =
50%
50%
34,13%
1750
2000
Si la question est de savoir quelle est la probabilité que l’ampoule dure 1750 heures ou
plus alors nous avons 34,13% entre 1750 et la moyenne et 50% entre la moyenne et la
limite supérieure donc 34,13% + 50% = 84,13%.
5
Dans le cas contraire, avec une courbe asymétrique, nous devrions utiliser le théorème de Chebyshev.
Si, au contraire, nous désirons savoir combien d’ampoules, en pourcentage, brûlerons
1750 heures et moins nous aurions comme résultat, toujours avec la même moyenne et le
même écart-type: 50% – 34,13% = 15,87%
Autre exemple :
Avec les mêmes données que pour l’exemple précédent, une moyenne de 2000 heures et
un écart-type de 250 heures, nous désirons savoir combien d’ampoules brûleront entre
1750 heures et 2250 heures. Nous avons donc :
1750 − 2000
= -1
250
2250 − 2000
= +1
Z2250 =
250
Z1750 =
Nous aurions donc 68,26% des ampoules entre ces mesures.
34,13% 34,13%
1750
2000 2250
Enfin si nous désirons mesurer le pourcentage entre 1750 heures et 1785 heures nous
devrions faire le calcul suivant :
1750 − 2000
= -1
250
1785 − 2000
= - 0.86
Z1785 =
250
Z1750 =
Nous savons déjà que Z=1 représente 34,13% entre 1750 heures et la moyenne de 2000
heures. La table nous indique que pour un Z de -0,86 la superficie est de 30,51%. Il y
aurait donc entre 1785 heures et 2000 heures 30,51% des ampoules. Nous désirons
connaître combien, toujours en pourcentage, il y a d’ampoules entre 1750 et 1785 heures
tel qu’illustré dans le graphique ci bas. Il s’agit donc de calculer la différence entre les
deux Z tel que : 34,13% - 30,51% = 3,62%. Il y a donc 3,62% des ampoules entre 1750 et
1785 heures.
30,51%
3,62%
34,13
1750
2000
1785
Nous aurons l’occasion de revenir sur l’utilité du Z ultérieurement. Mentionnons
seulement que + ou – 1 Z = 68,26% de la superficie et que +ou- 2 Z = 95,44%. Ces deux
chiffres sont d’importants points de références à la fois pour les tests statistiques et pour
les sondages.
Téléchargement