X - UQAM

publicité
1
Premier chapitre :
Distributions
Avant propos
Le mot « statistique » au singulier, désigne un ensemble de techniques et d’instruments
scientifiques servant à expliquer et à interpréter les phénomènes pour lesquels une étude
exhaustive s’avère impossible à cause de leur grand nombre ou leur complexité. Elle se
compose des méthodes permettant de recueillir, de classer et d’organiser, de présenter, de
traiter et d’analyser des observations relatives à ces phénomènes pour en tirer ensuite des
conclusions et prendre des décisions. Au pluriel, le mot « statistiques » désigne un
ensemble de données numériques concernant une catégorie de faits et utilisables selon
des méthodes d’interprétation de la statistique.
Bref, le mot « statistiques » désigne des collections de nombres constituant l’information
brute tandis que le mot « statistique » est constitué par un ensemble de méthodes et
techniques qui a pour but d’analyser et d’interpréter cette information afin de mieux
connaître le phénomène en question, de prendre des décisions plus éclairées et
d’envisager des actions plus appropriées.
L’étude statistique d’un phénomène s’effectue, disons, en trois étapes :
1. La collecte des données qui consiste à recueillir les informations adéquates mais
partielles sur le phénomène. Elles serviront ultérieurement de base d’étude. Ces
données sont habituellement obtenues selon un plan de sondage établi d’avance.
2. La statistique descriptive qui précise des techniques permettant de dépouiller les
renseignements obtenus, de les mettre en ordre, de les schématiser en les
présentant sous forme de tableaux ou de graphiques et d’en dégager les
caractéristiques essentielles (moyenne, proportion,…)
3. La statistique inférentielle qui permet de tirer des conclusions sur tout le
phénomène à partir des informations partielles recueillies en autant que certaines
règles et conventions auront été respectées. Ces conclusions comportent une
marge d’erreur statistique qui peut être calculée.
Section 1.1 :
Variables et Distributions
Les types de variables.
Les méthodes et les techniques s’appliquent à des
informations écrites sous forme numérique. Ces informations correspondent à des
variables (ou des caractères) parmi lesquelles on différencie les variables qualitatives (ou
catégoriques) et les variables quantitatives.
2
Une variable qualitative (ou catégorique) exprime une propriété ou une qualité ou une
manière d’être des unités statistiques et cette propriété (ou qualité ou manière d’être)
s’observe mais ne se mesure pas.
Une variable quantitative exprime un aspect quantifiable ou numériquement mesurable
dont les valeurs de la variable varient d’un individu à l’autre et dont les opérations de
calcul ( addition, moyenne etc.) ont du sens.
Exemple
Prenons l’ensemble (ou base) de données suivant:
Code Permanent
Ahmx23127102
Doms12127181
Hamn31018423
…
Pobm19096512
Youh20027606
Sexe
M
M
F
…
F
M
Note Stat. (/100)
65
52
78
…
82
90
Chaque colonne représente ce qu’on appelle une variable, laquelle mesure la
caractéristique d’un objet.
Exemple:
•
•
Variable catégorique: Sexe représente deux valeurs M et F
Variable quantitative : Note de l’étudiant(e).
Les nombres ou les lettres qui y figurent sont des valeurs de la variable. La
correspondance entre ces valeurs et leurs fréquences (ou effectifs) est ce qu’on appelle
une distribution.
La première étape de l’analyse descriptive consiste à construire alors la distribution de
fréquences qui est un tableau qui comporte au moins deux lignes (ou colonnes). Dans la
première ligne ( ou colonne) sont écrites les valeurs de la variable considérée et dans la
seconde sont écrites les fréquences de chaque valeur de cette variable. On peut ajouter
une troisième ligne (ou colonne) dans laquelle figurent les fréquences relatives de chaque
valeur de variable.
Exemple d’une distribution de la variable (catégorique) Sexe :
La distribution présentée en fonction des fréquences :
Sexe
M F Total
Fréquence 20 30 50
3
La distribution présentée en fonction des fréquences relatives:
Sexe
Fréquence relative
M
F
Total
20/50 0.60 1
Notes:
•
•
La fréquence relative d’une valeur de la variable est égale à la fréquence associée
à cette valeur divisée par la somme des toutes les fréquences.
La somme des fréquences relatives est toujours égale à 1.
Représentation graphique:
On peut représenter graphiquement la distribution de chaque variable. Ce graphique nous
permet de saisir et d’observer en un coup d’œil les caractéristiques de cette distribution.
C’est ce qu’on appelle: l’analyse exploratoire des données. (Exploratory data
analysis: EDA).
On considérera ici:
• Diagramme à bâtons (bar graph)
Le diagramme à bâtons consiste en une représentation graphique indiquant en ordonnée
la liste des diverses valeurs de la variable étudiée. À la droite de chaque valeur de la
variable on construit horizontalement des rectangles de même largeur et dont les
longueurs sont égales ou proportionnelles aux nombres de cas (fréquences) ou
pourcentages des valeurs des variables représentées. Notons que les rectangles ne peuvent
en aucun cas être accolés.
Exemple:
Voici la distribution du nombre de professeurs dans une faculté de sciences :
Département
Fréquence
Mathématiques
Informatique
Physique/Chimie
Biologie/Géologie
Total
183
127
23
54
387
Fréquence
relative
0.47
0.33
0.06
0.14
1
4
Procédure « Minitab » pour construire un diagramme à bâtons : Graph>Chart :
Nous obtenons alors:
Fréquence
200
100
0
Bio./Géo.
Info.
Math.
Département
Phy./Ch.
5
• Diagramme en pointes de tarte: «Pie Chart»
Le diagramme en pointes de tarte consiste en un cercle dont l’aire est décomposée en
secteurs circulaires et l’angle au centre de chaque secteur représente la proportion d’une
des valeurs correspondantes à la variable considérée. Pour obtenir cette configuration, il
faut donc déterminer l’angle au centre de chaque secteur circulaire, angle qui est
proportionnel aux nombres de cas ou aux pourcentages représentés.
Prenons l’exemple ci dessus et par Minitab: Graph>Pie Chart,
6
nous obtenons:
diagramme en pointes de tarte
Infor.
(127, 32.8%)
BG
( 54, 14.0%)
PC
Math.
( 23, 5.9%)
(183, 47.3%)
• Tige et feuille: (Stem-and-leaf plot)
Un diagramme tige et feuille est une autre façon de résumer un ensemble de données. Il
est souvent employé dans l'analyse de données exploratoires pour illustrer les dispositifs
principaux de la distribution des données sous une forme commode et facilement
dessinée. Ce diagramme tige et feuille est un diagramme plus instructif pour les bases de
données relativement petites (moins de 100 unités).
Comme que le nom l’indique, nous représentons chaque élément de la base de donnée à
l'aide de deux parties, une tige et une feuille. Considérons l'ensemble suivant, une série de
notes d'un examen de statistique :
92, 87, 91, 85, 76, 87, 98, 90, 70, 54.
Pour créer un diagramme tige et feuille, nous employons le chiffre des dizaines de chaque
note comme tige et le chiffre d'unités comme feuille. Dans ce cas-ci, les notes peuvent
être représentées par 9|2, 8|7, 9|1 et ainsi de suite.
Nous voulons maintenant créer un arbre qui contient les tiges et les feuilles. Nous devons
décider d'abord comment arranger les tiges, croissantes ou décroissantes. Supposons que
nous les arrangeons croissantes. Le chiffre 5 est le plus petit des dizaines et le plus grand
est 9. Notre ensemble de tiges affichées dans l’ordre croissant ressemble à ceci:
7
Notons que bien qu'il n'y ait eu aucune note représentée avec une tige de 6, nous avons
inclus ce chiffre dans les tiges afin de rendre égaux les incréments entre les tiges.
Concernant les feuilles, nous les ordonnons à partir des plus petites jusqu’aux plus
grandes horizontalement et nous incluons les copies multiples de la même valeur partout
où elle apparaît. Voici les dix notes d’examens disposées dans un diagramme tige et
feuille :
Dans le but de déterminer le diagramme le plus pertinent et pour étendre ces données
pour une meilleure vue de la distribution, voici trois diagrammes tige et feuille différents
pour une série de données de taille, en centimètres, de 8 personnes::
141, 143, 143, 145, 145, 146, 146, 148, 150, 151, 152, 153, 153, 154, 155, 156, 157, 157,
157, 157, 158, 159.
8
Un diagramme dos à dos de tige et feuille peut être employé pour comparer deux bases
de données. Ci-dessous, nous représentons les notes de deux groupes du cours de
statistiques Mat4680 d’une session précédente en utilisant le diagramme dos à dos de tige
et feuille:
Groupe 11
Groupe 10
3 1|2|5
4 4 3 3|3|8 9
9 9 6 6 4|4|3 3 3 4 7
7 5 5 4 4 4 4 2 2 1|5|4 4 4 6 6 8 8 8
9 9 8 7 7 7 3 3 2 1 1 1|6|1 2 4 4 5 5 7 9 9 9
9 8 7 5 5 2|7|3 3 4 6 6 6
6 6 6 3 1 1 |8|2 5 9
3 4 2|9|1
Utilisation de « Minitab »
Les données suivantes représentent des mesures de contenu d'oxyde de carbone (en mg)
pour 25 marques des cigarettes: 13.6, 16.6, 23.5, 10.2, 5.4, 15, 9, 12.3, 16.3, 15.4, 13.0,
14.4, 10, 10.2, 9.5, 1.5, 18.5, 12.6, 17.5, 4.9, 15.9, 8.5, 10.6, 13.9, 14.9
Pour ces données (créées en utilisant la commande de « stem-and-leaf »), MINITAB
tronque d'abord les données en arrondissant vers le plus proche nombre entier.
L'ensemble de données résultant est le suivant: 1, 4, 5, 8, 9, 9, 10, 10, 10, 10, 12, 12, 13,
13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 18, 23.
La première colonne du « stemplot » de MINITAB compte le nombre de valeurs à partir
du dessus vers le bas et du bas jusqu' à la valeur centrale, appelée médiane (voir cidessous).
Le nombre dans les parenthèses représente le nombre de valeurs dans la ligne contenant
la médiane.
La deuxième colonne trace les tiges, c’est-à-dire les dizaines de milligrammes de contenu
d'oxyde de carbone.
Puisque l'intervalle des données est petit (les valeurs pour les tiges sont 0, 1, et 2),
MINITAB par défaut, divise la troisième colonne, qui trace des milligrammes en tant que
feuilles, en cinquièmes. Pour changer le nombre de lignes, il suffit d’utiliser la commande
« Increment » du Minitab (Voir l’aide de Minitab).
9
La commande de Minitab « Graph > Stem-and-Leaf » ou également la commande
« Graph > Character Graphs > Stem-and-Leaf »:
donne le résultat suivant :
Character Stem-and-Leaf Display
Stem-and-leaf of C1
25
Leaf Unit = 1.0
1
1
3
3
6
10
(5)
10
5
2
1
1
0
0
0
0
0
1
1
1
1
1
2
2
1
45
899
0000
22333
44555
667
8
3
N
=
Le « stemplot » illustre que la majorité
des mesures se situent dans les dizaines,
avec seulement 6 des 25 valeurs moins
de 10 mg et seulement une des valeurs
plus grande que 20 mg.
10
• L’histogramme:
L’illustration au moyen d’histogramme permet de visualiser les données qui sont
mesurées sur une échelle d'intervalle. Il est souvent employé dans l'analyse de données
exploratoires pour illustrer les caractéristiques de la distribution des données.
Un histogramme divise l'intervalle des valeurs possibles en classes ou groupes. Pour
chaque classe ou groupe, un rectangle est construit avec une longueur de base égale à
l'intervalle des valeurs dans ce groupe spécifique et une zone proportionnelle au nombre
d'observations tombant dans ce groupe.
Exemple:
Considérons la liste des notes d'un examen pour 24 étudiants inscrits dans un cours de
statistiques.
51, 46, 31, 35, 37, 51, 56, 43, 48, 52, 33, 42, 37, 27, 57, 65, 36, 37, 55, 42, 51,49, 56, 45.
Dressons un tableau de distribution pour cette série de données en divisant notre
intervalle en 6 classes de mesures de longueur égale, disons :21-28, 29-36, 37-44, 45-52,
53-60, 61-68 :
Classe
Fréquence
21< x < 29
29< x < 37
37< x < 45
45< x < 53
53< x < 61
61< x < 69
Total
1
4
6
8
4
1
24
Fréquence
relative
4.1%
16.6%
25%
33.3%
16.6%
4.1%
1
Les deux diagrammes, le côté gauche étant un histogramme de fréquences et le côté
droit un histogramme de fréquences relatives, sont créés en utilisant la commande de
MINITAB « Graph > Histogram » qui présente les données divisées en 6 classes (il faut
le préciser puisque le défaut de Minitab est de 11 classes) :
11
8
30
Fréquence Relative
7
Fréquence
6
5
4
3
2
20
10
1
0
0
25
33
41
49
57
65
Note
25
33
41
49
57
65
Note
Qu’est-ce qui distingue les deux histogrammes ci-haut ? Malgré le fait que ces
histogrammes représentent les fréquences et les fréquences relatives respectivement, les
diagrammes demeurent identiques.
• Diagramme en boîte (Moustache)
Un « boxplot » est une façon d’analyser des données mesurées sur une échelle
d'intervalle. Il est souvent utilisé dans l'analyse de données exploratoires. C'est un type de
graphique qui est employé pour montrer la forme de la distribution, sa valeur centrale et
sa variabilité. L'image produite comprend les valeurs les plus extrêmes dans la base de
données (valeurs maximum et minimum), les premier et troisième quartiles et la
médiane. Cette partie sera étudiée plus en profondeur après la partie concernant les
mesures de tendance centrale.
12
Section 1.2:
Description numérique d’une distribution
Mesure de tendance centrale:
C’est un indice de la position d’une série de données ou d’une distribution. Nous
chercherons un nombre qui représentera le mieux le centre des données. Le mode, la
médiane et la moyenne seront étudiés.
• La moyenne d’une série de données :
Soit n le nombre de données qui sont représentées par:
x1 , x2 , x3 ,...xn
et leur moyenne est définie par:
x=
qu’on note:
x1 + x2 + x3 + ... + xn
n
x
x=∑ i
n
Exemple:
Considérons la liste des notes des 24 étudiants ci-dessus, la moyenne étant alors :
= (1/24)*( 51+46+31+….+56+45)
= 45.08
x
• La médiane d’une série des données :
La médiane est la donnée centrale d’une série lorsque les données sont rangées en ordre
croissant ou décroissant.
Exemple::
Pour la série : 1-5-7-9-11, la médiane est 7.
Lorsque les données sont en nombres pairs, la médiane est la moyenne des données
centrales.
Exemple:
Pour la série : 1-5-7-9-11-15, la médiane est (7+9)/2 = 8.
Pour l’exemple de la liste des notes, la médiane est (45+46)/2 = 45.5
• Le mode:
C’est la valeur ayant la plus grande fréquence. C’est la valeur qui apparaît souvent dans
une série de données.
13
Exemple:
Pour la série : 1-5-7-7-11-15, le mode est 7.
Pour l’exemple de la liste des notes, on trouve deux modes 37 et 51. On dit alors que la
distribution est bi-modale.
Mesures de dispersion: les quantiles.
Q
Le premier quantile 1 est la donnée centrale d’une série de données rangées en ordre
croissant, entre la première observation et la médiane.
Le troisième quantile
Q3
est la donnée centrale d’une série de données rangées en
ordre croissant, entre la médiane et la dernière observation.
• L’écart interquartile: IQR
L’écart interquartile est la différence entre le 3-ième et le 1-er quantile:
IQR =
Q1
est
Q3 - Q1
l’observation en deçà duquel se trouve 25% des observations,
Q3
est
l’observation en deçà duquel se trouve 75% des observations et IQR est la distance dans
laquelle se trouve 50% des observations.
Exemple
Voir page 45 :
M=$28,
Q1 =$19
Q3 =$45
IQR=$26
• Diagramme en boîte (Moustache)
Définissons d’abord les valeurs extrêmes pour une distribution. Ce sont toutes les valeurs
qui s’écartent des valeurs suivantes :
Q1 -1.5*IQR
et
Q3 +1.5*IQR
Exemple
(19-1.5*26, 45+1.5*26)=(-$20, 84)
14
Les valeurs extrêmes sont donc des valeurs de la distribution en dehors de cet intervalle,
ces dernières sont $86 et $93.
Nous n’allons pas nous en tenir à ces limites de cet intervalle (la première est négative);
nous présenterons plutôt les plus petites et plus grandes valeurs de la distribution
comprises dans cet intervalle (-$20, 84), qui sont 3 et 83. Nous présenterons donc les cinq
repères suivants:
$3
$19
$28
$45
$83
Ces chiffres peuvent être représentés par ce graphique:
que nous appelons diagramme en boite ou moustache.
• La variance:
Considérons les deux séries suivantes:
La série 1 :
40
50
50
50
60
La série 2 :
0
30
50
50
100
et
Elles ont le même mode, la même moyenne, la même médiane et le même nombre de
données. Les deux séries diffèrent par l’écartement (ou l’éparpillement) des données par
rapport au centre. Donc un indice de la dispersion par rapport à la moyenne s’impose. Les
principales caractéristiques de dispersion qui seront examinées ci-dessous sont la
variance et l’écart type, dont l’une est le carré de l’autre.
15
x , x2 , x3 ,...xn , de moyenne x , la variance est définie
Pour une série de données 1
comme suit:
1
∑ ( xi − x) 2
n −1
2
n
=
( x2 − x )
n −1
s2 =
où
x2 =
1
2
x
∑ i
n
Remarque: la valeur de la variance est petite lorsque les résultats de la série sont
les uns des autres et grandes si les résultats sont très éparpillés.
L’écart type est la racine carrée de la variance:
(Rmq: s a la même unité que les données…)
s = s2 .
Exemple.
Supposez que 10 étudiants d’un certain groupe ont les tailles suivantes (en pouces):
60, 72, 64, 67, 70, 68, 71, 68, 73, 59.
La moyenne est 67.2 et la variance est de :
s² = 1/9[(59-67.2)² + (60-67.2)² + 64-67.2)² + (67-67.2)² + .... + (73-67.2)²]
= 1/9[67.24 + 51.84 + 9.4 + 0.04 + .... + 33.64]
= 1/9[208.76]
= 23.2
L’écart type est égal à s = 4.8.
près
16
La commande «Stat>Basic statistics>display descriptive statistics» par MINITAB
fournit un sommaire numérique pour les données qui incluent la moyenne, la médiane,
l'écart type (StDev abrégé), le minimum et les valeurs maximum ainsi que les premier et
troisième quartiles (
Q1 et Q3 abrégés). La sortie pour l’exemple de la liste de l’examen
des 24 étudiants est montrée ci-dessous :
Descriptive Statistics
Variable
C1
N
24
Mean
45.08
Median
45.50
TrMean
45.00
Variable
C1
Minimum
27.00
Maximum
65.00
Q1
37.00
Q3
51.75
StDev
9.62
SE Mean
1.96
17
• Transformation des données de mesure (linéaire) :
Considérons la série de données suivante :
X:
La moyenne est :
2
5
7
9
12
x =7 et la variance est : sx2 =14.5.
Une autre série comme :
Y:
La moyenne est :
y
2012 2030 2042 2054 2072
2
=2042 et la variance est : y =522.
s
Nous remarquons que chaque terme de la variable X est multiplié par 6 et augmenté de
2000, c’est -à -dire pour chacun des
xi :
xi :
!
yi =2000+6* xi
Cette relation entre ces deux variables est ce qu’on appelle une transformation linéaire :
X : ! Y=a+b*X
Ici nous avons : a=2000 , b=6.
Le but de la transformation linéaire est d’être en mesure d’utiliser les valeurs de la
moyenne et de la variance d’une première série pour calculer directement ces valeurs
pour une deuxième série.
2
Considérons X une série de données de moyenne et de variance x et la série Y ainsi
que la relation entre les deux séries Y=a+b*X. La moyenne et la variance pour la
deuxième série sont respectivement :
x
s
y =a+b* x
s 2y = b 2 * sx2 .
À partir de notre exemple, nous avons calculé
x
=7,
sx2 =14.5
y et s 2y pour la variable Y :
y ( =2000+6* x ) = 2042
=
522
s 2y (=36* sx2 )
transformation Y=2000+6*X, nous avons
et à partir de la
18
Une transformation particulière est dont a=-(
x /s) et b=(1/s), c.- à –d. :
Z=-( x /s)+(1/s)*X,
qu’on écrit:
Z=
X −x
s
et qu’on appelle cote Z.
Section 1.3 :
La loi Normale
Parmi toutes les distributions qui se rencontrent en pratique, un certain nombre d’entre
elles se rapprochent, à des degrés divers, de certaines distributions théoriques classiques
que l’on peut considérer comme modèles mathématiques valables des variables en
question. De toutes les distributions classiques, une est particulièrement importante : on
l’appelle la distribution normale.
Comme exemple, considérons la variable « taille » définie sur la population de tous les
adultes canadiens. Si toutes les tailles sont comprises entre 1 mètre et 2.5 mètres (disons),
cette variable peut prendre 1501 valeurs (en supposant que la taille d’un individu est
connue au millimètre près) :
1-1.001-1.002-1.003….2.143-2.144….2.497-2.498-2.499-2.5
Si l’on connaît la fréquence de ces valeurs, on pourrait tracer l’histogramme de la
distribution des tailles canadiennes. Cet histogramme serait formé de 1501 petits
rectangles étroits.
L’histogramme ci-dessous est construit à partir d’une simulation statistique en utilisant
Minitab, on se basant sur des principes et des méthodes qu’on abordera dans les chapitres
à venir.
19
400
Fréquence
300
200
100
0
1.5
1.6
1.7
Taille
1.8
1.9
C’est une courbe plus au moins en forme de cloche et symétrique. Une distribution
normale (introduite par Gauss,1777-1855) peut donc être utilisée comme une bonne
approximation car elle est symétrique, moyennement aplatie et en forme de cloche. C’est
pourquoi on parle parfois de la « cloche de Gauss ».
• Courbe de densité :
Comme la variable aléatoire X (exemple de la taille) peut prendre une infinité de valeurs,
on associe à chaque valeur x de X, une fonction de densité f(x), qui est :
1
2
positive (c’est la hauteur de chaque verticale depuis l’axe des x jusqu’à la
courbe)
la surface totale au dessous de la courbe de f est égale à 1
20
Pour la loi normale, elle est caractérisée par deux paramètres à savoir la moyenne
« mu » et la variance
σ2
« sigma-carrée ». La loi se dénote par : X ~ N(
• Remarque :
a. Le sommet de la courbe se trouve à x=
µ.
µ
µ , σ 2)
µ
b. La courbe est symétrique par rapport à l’axe vertical x= .
c. La surface entre la courbe et l’axe horizontal est égale à 1.
d. On peut dire qu’il y a une famille de distribution normale. À chaque valeur
2
et de
correspond un membre de cette distribution.
particulière de
e. La fonction densité est donnée par :
µ
Le cas où
standard
µ =0 et σ
σ
=1 : la loi est notée : Z ~ N(
µ =0, σ
=1) et elle est dite
21
Si un ensemble de données suit une distribution normale de moyenne 0 et d'écart type 1,
alors
1. 68% des observations sont contenues dans l'intervalle (-1.1)
2. 95% des observations se situent dans l’intervalle de 2 écarts types de la
moyenne, représentées dans l'intervalle (-2.2)
3. 99,7% des observations se situent dans l’intervalle 3 écarts type de la
moyenne, qui correspond à l'intervalle (-3.3).
Pour une distribution normale de moyenne
•
µ et de varianceσ 2 :
Règle 68 – 95 – 99.7
1 Environ 68% des effectifs sont contenus dans un intervalle d’une d’écarts
types à la moyenne.
2 Environ 95% des effectifs sont contenus dans un intervalle de deux écarts
types à la moyenne.
3 Environ 99.7% des effectifs sont contenus dans un intervalle de trois
écarts types à la moyenne.
22
Voici un exemple pour la loi X ~ N(
µ =64.5 , σ
=2.5)
• La loi normale standard :
Des données de n'importe quelle distribution normale peuvent être transformées en
données suivant la distribution normale standard en soustrayant la moyenne et en divisant
par l'écart type
x−µ
σ
Règle :
Si X ~ N(
µ , σ 2 ) alors :
Z=
Exemple
Si X~N(100,225) alors Z=
X −µ
σ
~ N(0,1)
X − 100
~ N(0,1).
15
23
• La table de la loi normale standard:
La fréquence relative des observations Z qui sont au-dessous d’une valeur z , Z=z , est
représenté par l’aire sous la courbe de la densité. Cette aire est donnée par des tables
statistiques dont la colonne de gauche donne la valeur de z à une décimale, la seconde
décimale étant donnée par la ligne du haut en se déplaçant horizontalement.
Exemple :
1. Aire ( Z
-2.15 ) = 0.0158, c’est à dire la fréquence relative des
observations dont les valeurs sont inférieures à –2.15 est 0.0158.
≤
Il y a 1.58 % des observations au-dessous de Z=-2.15.
2. Aire (Z
≤ 1.96) = 0.9750
Par symétrie :
Aire ( Z
Exemple :
1.28 )= Aire ( Z
Aire ( Z
≥
≥ a ) = Aire ( Z ≤ -a )
≤ -1.28)=0.1003
La surface entre deux nombres donnés a et b est donc :
Aire (a Z b) = Aire (Z b) - Aire (Z
≤ ≤
Exemple :
Aire (-1 Z
≤
≤ ≤ 1.7 )= Aire (Z ≤ 1.7) - Aire (Z ≤ -1) = 0.7967
≤ a)
24
• Calcul de l’aire sous une courbe normale X ~ N( µ , σ ) :
2
Pour trouver l’aire entre a et b :
Aire (a
≤ X ≤ b)
il suffit de trouver la cote Z pour a et pour b, disons
z1=
a−µ
σ
et
z2 =
b−µ
σ
puis de calculer ( comme Z est une loi normale standard) :
z ≤ Z ≤ z2 )
Aire ( 1
en utilisant la table de la loi normale standard.
• Graphique des quantiles normaux :
Exemple :
L'ensemble de données utilisées dans cet exemple inclut 61 observations de provinces
canadiennes et états américains. Cet ensemble représente les revenus médians
(‘000$CAN). Voir la base de données :
ftp://monet.stat.uqam.ca/mat4680/Donnees/NiveauVie.MTW
La commande de MINITAB « Display Descriptive Statistics» a produit le sommaire
numérique des données suivant:
Results for: NiveauVie.MTW
Descriptive Statistics: C2
Variable
C2
N
61
Mean
32.734
Median
31.800
TrMean
32.527
Variable
C2
Minimum
25.900
Maximum
43.300
Q1
30.150
Q3
35.600
StDev
4.141
SE Mean
0.530
25
La commande « Boxplot » donne :
C2
45
35
25
La commande « stem-and-leaf » donne :
Stem-and-Leaf Display: C2
Stem-and-leaf of C2
Leaf Unit = 1.0
1
9
14
(17)
30
20
11
7
5
2
2
2
2
3
3
3
3
3
4
4
N
5
67777777
88889
00000011111111111
2222223333
445555555
6677
88
001
33
= 61
26
La normalité des données peut être évaluée en utilisant la commande de MINITAB
«Stat>Basic Statistics>Normality Test».
Normal Probability Plot for C2
ML Estimates - 95% CI
99
ML Estimates
95
Mean
32.7344
StDev
4.10725
90
Goodness of Fit
Percent
80
AD*
70
60
50
40
30
0.995
20
10
5
1
24
34
44
Data
Ce diagramme indique que les données semblent suivre une distribution normale car tous
les ponts du graphe se trouvent autour de la droite avec un degré de confiance ( goodness
of fit) de l’ordre de 99.5%.
Règle :
Un graphe de quantile est considéré normal quand les points se trouvent près de la
droite. Lorsque les points dévient de la droite de façon systématique, ce graphe
indique alors une distribution non normale. Les points qui se trouvent loin de la droite
constituent ce qu’on appelle les points extrêmes de l’ensemble des données.
Téléchargement