Acrobat

publicité
M. Ingenbleek
1997-1998
1 Introduction..............................................................................................................1-1
Un peu d'histoire............................................................................................................1-1
Survol méthodologique .................................................................................................1-2
Les étapes d'une analyse statistique...............................................................................1-2
Collecte des données..................................................................................................1-3
Analyse des données ..................................................................................................1-3
Inférence et conclusion ..............................................................................................1-3
Remarque...................................................................................................................1-3
Rappels mathématiques .............................................................................................1-4
2 Distribution des fréquences et diagrammes ..........................................................2-1
Distribution des fréquences ...........................................................................................2-1
Fonction de répartition ..................................................................................................2-6
Autres représentations ...................................................................................................2-7
3 Quantiles...................................................................................................................3-1
Introduction ...................................................................................................................3-1
Définition ......................................................................................................................3-3
Quartiles et déciles ........................................................................................................3-3
4 Mesures de tendance centrale.................................................................................4-1
Introduction ...................................................................................................................4-1
Quelques mesures de tendance centrale ........................................................................4-1
La moyenne arithmétique ..........................................................................................4-1
La moyenne harmonique............................................................................................4-2
La moyenne géométrique...........................................................................................4-2
La médiane.................................................................................................................4-2
Le mode .....................................................................................................................4-2
Propriétés.......................................................................................................................4-3
Propriété caractéristique de la moyenne arithmétique ...............................................4-3
Première propriété commune à toutes les mesures....................................................4-3
Deuxième propriété commune...................................................................................4-3
Relation entre la moyenne et la médiane ...................................................................4-4
5 Mesures de dispersion .............................................................................................5-1
Introduction ...................................................................................................................5-1
Quelques mesures de dispersion....................................................................................5-1
L'étendue....................................................................................................................5-1
L'intervalle inter-quartile ...........................................................................................5-1
L'écart moyen absolu .................................................................................................5-2
La variance.................................................................................................................5-2
L'écart-type ................................................................................................................5-2
M. Ingenbleek
1997-1998
Propriétés.......................................................................................................................5-2
Propriété de la variance..............................................................................................5-2
Première propriété commune aux mesures de dispersion..........................................5-3
Deuxième propriété commune...................................................................................5-3
6 Tableaux de contingence et mesures de dépendance............................................6-1
Introduction ...................................................................................................................6-1
Tableau de contingence .................................................................................................6-1
Première mesure de dépendance ................................................................................6-3
Calcul pratique...........................................................................................................6-4
Deuxième mesure de dépendance ...............................................................................6-5
Calcul pratique...........................................................................................................6-6
Remarques ...............................................................................................................6-10
Mesure de dépendance entre deux variables ordinales ou cardinales: Rs ...................6-10
7 Diagramme de Pareto et indice de concentration .................................................7-1
Diagramme de Pareto ....................................................................................................7-1
Indice de concentration de Gini.....................................................................................7-2
8 Principales distributions .........................................................................................8-1
Introduction ...................................................................................................................8-1
Lois de probabilité servant à la modélisation ................................................................8-1
Loi binomiale - B(n,p) ...............................................................................................8-2
Binomiale négative ....................................................................................................8-3
Loi de Poisson - ().................................................................................................8-4
Loi normale - N(m,) ................................................................................................8-4
Loi log-normale .........................................................................................................8-5
Loi de Pareto..............................................................................................................8-6
Loi exponentielle .......................................................................................................8-6
Lois utilisées dans les calculs statistiques .....................................................................8-7
Loi normale................................................................................................................8-7
Loi Chi-carrée à n degrés de liberté ...........................................................................8-7
Loi t de Student à n degrés de liberté.........................................................................8-8
Loi de F de Fisher à nl et n2 degrés de liberté ............................................................8-8
Distribution du coefficient de corrélation de Spearmann ..........................................8-9
9 Estimation: principes...............................................................................................9-1
Introduction ...................................................................................................................9-1
Propriété d'un estimateur ...............................................................................................9-1
Estimation convergente..............................................................................................9-1
Estimation sans biais..................................................................................................9-2
Estimation efficace ....................................................................................................9-2
Principe de maximum de vraisemblance.......................................................................9-3
Première étape............................................................................................................9-3
Deuxième étape .........................................................................................................9-3
M. Ingenbleek
1997-1998
Exemple.........................................................................................................................9-4
La fréquence des catastrophes ...................................................................................9-4
Le montant des dommages ........................................................................................9-6
Méthode des moindres carrés ........................................................................................9-9
Intervalle de confiance ..................................................................................................9-9
10 Estimations d'une population normale................................................................10-1
Premier cas: m inconnu, connu ................................................................................10-1
Estimation ................................................................................................................10-1
Propriétés .................................................................................................................10-2
Intervalle de confiance au niveau .........................................................................10-3
Exemple chiffré .......................................................................................................10-4
Deuxième cas: m inconnu, inconnu .........................................................................10-4
Estimations ..............................................................................................................10-5
Propriétés .................................................................................................................10-5
Intervalle de confiance au niveau pour m.............................................................10-7
Intervalle de confiance au niveau pour ² ............................................................10-9
Exemple chiffré .......................................................................................................10-9
11 Estimation d'une proportion ................................................................................11-1
Introduction .................................................................................................................11-1
Estimation....................................................................................................................11-1
Etape 1 .....................................................................................................................11-1
Etape 2 .....................................................................................................................11-1
Propriété ......................................................................................................................11-2
Intervalle de confiance au niveau a .............................................................................11-2
Exemple chiffré ...........................................................................................................11-3
Remarques ...................................................................................................................11-4
12 Estimation de la différence entre 2 moyennes.....................................................12-1
Introduction .................................................................................................................12-1
Propriété ......................................................................................................................12-1
Intervalle de confiance au niveau pour m1-m2 .........................................................12-2
Exemple chiffré ...........................................................................................................12-2
13 Test d'hypothèses: principes.................................................................................13-1
Introduction .................................................................................................................13-1
Hypothèse nulle, contre-hypothèse et test ...................................................................13-1
Risque de première et de deuxième espèce .................................................................13-2
14 Test sur une proportion.........................................................................................14-1
Test d'hypothèse ..........................................................................................................14-1
Puissance du test sur une proportion ...........................................................................14-2
15 Test d'égalité de 2 moyennes.................................................................................15-1
Echantillons indépendants...........................................................................................15-1
M. Ingenbleek
1997-1998
Conditions d'application ..........................................................................................15-1
Exemple ...................................................................................................................15-1
Distribution de U sous Ho .......................................................................................15-3
Exemple numérique .................................................................................................15-4
Echantillons appariés...................................................................................................15-4
Conditions d'application ..........................................................................................15-4
Statistique de Wilcoxon...........................................................................................15-5
Distribution de T sous Ho........................................................................................15-5
Exemple numérique .................................................................................................15-6
16 Test d'ajustement...................................................................................................16-1
Introduction .................................................................................................................16-1
Distribution discrète et complètement spécifiée .........................................................16-1
Exemple chiffré .......................................................................................................16-2
Distribution continue et complètement spécifiée ........................................................16-2
Exemple chiffré .......................................................................................................16-3
Cas général ..................................................................................................................16-3
Exemple chiffré .......................................................................................................16-4
17 Test d'indépendance entre 2 variables nominales ..............................................17-1
Introduction .................................................................................................................17-1
CHI-CARRE ...............................................................................................................17-1
Test au niveau ..........................................................................................................17-2
Exemple chiffré ...........................................................................................................17-2
18 Test d'indépendance entre 2 variables ordinales................................................18-1
Rappel..........................................................................................................................18-1
Distribution exacte de RS sous H0..............................................................................18-2
Distribution asymptotique ...........................................................................................18-3
M. Ingenbleek
1997-1998
Introduction
1
A l'origine, l'activité statistique semble avoir été le fait de chefs d'états désireux de
connaître des éléments de puissance de leur état: population, potentiel militaire,
richesses, ... Quelle meilleure connaissance que celle issue de l'observation
systématique de tous les éléments de la société ? L'idée d'un recensement apparaît
donc de façon naturelle, et implique en autre une impression de précision de la plus
haute qualité.
Les plus anciens recensements connus sont sumériens (5000 à 2000 ans avant J.-C.).
On procédait régulièrement en Mésopotamie au relevé des personnes et des biens
(3000 ans avant J.-C.).
L'Egypte semble avoir été la première nation à organiser des recensements annuels à
finalité fiscale (2700 à 2500 avant J.-C.). En ce temps-là, comme aujourd'hui, les
déclarations des sources de revenus n'étaient pas faites sans réserves, mais les
"oublis" des déclarants provoquaient leur condamnation à mort !
Jusqu'au 17e siècle les recensements seront effectués sans remettre en cause le
principe de cette démarche. Remplacer une connaissance exhaustive par une
extrapolation fondée sur l'examen d'une partie de la population est une attitude qui
ne trouvera d'éléments de justification qu'à l'apparition des premiers résultats de
probabilités autorisant une analyse (quantitative et qualitative) de l'erreur.
Ainsi, au 17e siècle, VAUBAN, désireux de dresser un tableau de l'économie
agricole de la France, fait observer un échantillon de terres arables dans chaque
province. Dans la seconde moitié du 18e siècle, MESSANGE, MOHEAU puis
LAPLACE estiment la population totale de la France avec une précision meilleure
que celle du recensement de l'époque. La méthode utilisée est fondée sur
l'hypothèse d'un rapport constant entre la population et le nombre annuel de
naissances: ce rapport, une fois mesuré, donne la population par une simple
multiplication avec le nombre de naissances, nombre suffisamment fiable à l'époque.
En 1800, F. MORTON EDEN estime la population de la Grande-Bretagne à 9
millions d'habitants, chiffre qui sera confirmé en tous points par les résultats du
recensement de 1801. La méthode utilisée par MORTON EDEN, bien que
confirmée par les faits, nous semble avec le recul bien surprenante puisque basée sur
l'hypothèse d'un rapport constant entre la population et le nombre de ... cheminées !
Statistiques
Page 1-1
Introduction
Néanmoins, au 19e siècle, le comportement des statisticiens reste généralement régi
par le souci d'exhaustivité, sous prétexte de rigueur. Cette thèse est, entre autres,
ardemment défendue par QUETELET.
Il faut attendre 1895 pour que le terme "échantillon représentatif" soit utilisé pour la
première fois par A. KIAER lors d'une réunion de l'Institut International de
Statistique, à Berne.
Pour terminer ce petit tour d'horizon d'histoire événementielle, citons une date sans
importance dans l'évolution des concepts statistiques mais qui peut frapper
l'imagination: en 1935, l'Institut GALLUP entre en fonction ...
Les sondages d'opinion sont suffisamment habituels pour qu'ils nous servent de
point de départ à ce survol méthodologique: chacun sait que plusieurs questions
concernant un sujet d'actualité sont posées à un échantillon de personnes; on résume
les réponses données en les présentant sous forme de pourcentages de graphiques de
pourcentages par région, par groupe sociologique, etc.; ces résumés sont censés être
voisins de ceux qu'on obtiendrait si on questionnait l'ensemble de la population et
non pas une fraction de celle-ci.
Cette démarche qui paraît si habituelle (ou naturelle) ne doit pas faire oublier les
problèmes méthodologiques (et pratiques) qu'elle pose:
quelles questions poser ?
dans quels termes les poser (des réponses sous forme qualitative du genre "bon moyen - mauvais" apparaissant dans un questionnaire donneraient-elles les
mêmes résultats si les trois niveaux de qualités étaient appelés “excellent correct - lamentable" ) ?
combien de personnes interroger ?
comment choisir les personnes de manière à ne pas orienter le résultat, de
manière à ce que les conclusions apportées puissent être étendues à la population
entière ?
comment déterminer la marge de fluctuation, la marge d'erreurs, la fourchette sur
les résultats une fois étendus de l'échantillon à la population entière ?
L'évocation des sondages dégage les étapes parcourues dans la majorité des analyses
statistiques.
Statistiques
Page 1-2
Introduction
Point de départ de l'analyse statistique, les observations brutes sont obtenues au
terme d'un processus plus au moins laborieux: enquêtes, mesures expérimentales,
compilations d'archives, ... Les problèmes posés par la collecte des données
(protocoles, nombres d'individus ou de mesures, etc.) ne sont pas abordés par le
cours; ils n'en sont pas moins importants dans la pratique.
Avant d'apporter des réponses définitives aux questions initiales qui ont motivé
l'analyse statistique, il faut bien sûr examiner les données recueillies.
Un examen préliminaire à vue des données, des tableaux de nombres sommaires
ne doit pas être considéré comme une tâche indigne d'un statisticien: il permet de
se familiariser avec les ordres de grandeur, des détecter parfois des erreurs
d'encodage (un logiciel statistique peut être aveugle à ce genre d'erreur), de
répondre à des questions immédiates, ... Cet examen ne fonde pas avec certitude
une opinion, mais il faut connaître le matériel avec lequel on va travailler.
Les procédures statistiques (sur lesquelles porte une bonne partie du cours)
permettent de condenser les observations au travers de nombres ou de graphiques
(souvent appelés statistiques). L'objectif commun à toutes ces procédures est de
fournir une meilleure intelligibilité des données: que cette condensation soit faite
sans perte, d'information ou avec perte d'information (comme c'est le plus
souvent le cas). Il est naturel d'essayer une procédure puis l'autre, de revenir à la
première, etc.
Les procédures utilisées sont de nature descriptive; si les données sont présentées
sous ces aspects multiples, elles ne permettent pas d'étendre les résultats de
l'échantillon à la population entière; cette extension implique un risque d'erreur.
Une simple description des données ne suffit pas en général: on souhaite mesurer le
risque d'erreur inhérent à toute inférence c'est-à-dire à toute extension des résultats
de l'échantillon à la population entière. Une partie du cours est consacrée à expliciter
la nature du risque d'erreur et aux techniques permettant d'évaluer ce risque.
La population apparaissant dans l'exemple du sondage est une population physique
dont l'existence est bien réelle; mais les procédures d'inférence sont d'application dès
le moment où on dispose d'une suite de valeurs observées, que ces valeurs soient
effectivement des réponses fournies par des individus d'un échantillon ou que ces
valeurs soient les résultats de mesures expérimentales par exemple. Dans ce dernier
cas, la population n'existe pas réellement, elle devient une notion abstraite (exemple:
Statistiques
Page 1-3
Introduction
le nombre de tempêtes par an): on peut imaginer que la population est l'ensemble
des mesures expérimentales possibles, tout se passant comme si ces mesures étaient
rassemblées et que l'expérience réalisée consistait à en prendre quelques unes au
"hasard". Il est évident que ces notions sont parfaitement formalisées de manière à
fonder avec rigueur les méthodes statistiques; nous n'insisterons pas sur cet aspect
des statistiques et nous nous contenterons d'une vue simplifiée.
On appelle variables nominales des variables prenant des valeurs sur lesquelles on
ne peut faire ni des opérations arithmétiques, ni des comparaisons (en grandeur),
comme par exemple une variable "classe sociale", une variable "sexe", etc.
L'échelle nominale est utilisée pour représenter des variables dont les catégories ne
sont pas naturellement ordonnées. En général, ces catégories sont représentées, pour
simplifier la codification, par des nombres.
Exemples:
l'état civil
le sexe
On appelle variables ordinales des variables prenant des valeurs sur lesquelles on
peut effectuer un classement, comme par exemple un classement de préférence, un
classement par juge, etc.
L'échelle ordinale est utilisée pour représenter des variables dont les catégories sont
ordonnées. Les différentes classes ou valeurs particulières sont en relation les unes
par rapport aux autres. Cette relation peut s'exprimer en termes d'algèbre des
inégalités; par exemple par des expressions: plus grand que, plus rapide que, moins
riche que. Les valeurs particulières d'une telle échelle sont non-quantitatives. Ils
indiquent uniquement une position dans une série ordonnée et non l'importance de la
différence qui existe entre 2 positions successives de l'échelle.
Exemple:
aimer pas du tout/moyennement/beaucoup
On appelle variables cardinales des variables prenant des valeurs sur lesquelles on
peut effectuer des opérations arithmétiques (addition, soustraction, multiplication,
division) et des classements.
Exemples:
salaire
distance
Statistiques
Page 1-4
Introduction
On appelle variables continues (cardinales) des variables prenant des valeurs qui
peuvent être arbitrairement proches les unes des autres.
L'échelle continue est une échelle sur laquelle il existe, entre 2 valeurs adjacentes,
une infinité de valeurs. La mesure d'une variable continue est toujours
approximative.
Exemples:
taille
masse
vitesse
longueur
temps
Une variable qui prend un ensemble discret ou discontinu de valeurs.
Sur de telles échelles où l'intervalle entre 2 valeurs consécutives est fixe et constant,
on peut dire que la mesure faite est toujours exacte.
Exemples:
nombre de globules blances au centimètre carré
nombre d'enfants par famille
Rappelons l'usage du signe de sommation:
n
X 1 X 2 X 3... Xn Xi
i 1
Dans le cas particulier où les X1, X2,... sont égaux à une même quantité X, on
trouve:
n
X
i
n. X
i 1
Un simple calcul montre que:
n
n
( X a) X n. a
i
i
i 1
i 1
n
n
(c. X ) c. X
i
i 1
Statistiques
i
i 1
Page 1-5
Distribution des fréquences et diagrammes
2
On considère une variable nominale ou discrète, par exemple l'âge d'un individu
(variable discrète), le sexe d'un individu (variable nominale), sa région d'habitation
(variable nominale),...
En regard de chaque valeur possible pour cette variable, on porte le nombre
d'individus de l'échantillon qui ont cette valeur.
Par exemple, voici un échantillon de 88 patients atteints d'une maladie spécifique;
pour chacun de ces patients le service médical a attribué un degré de sévérité de la
maladie, ce degré de sévérité est compris entre 1 et 4 (il s'agit bien d'une variable
discrète, on peut même la qualifier d'ordinale). D'autres variables ont été prélevées:
le nombre de jours passés à l'hôpital (DUJ), l'âge (AGE), le résultat de 6 tests
(CARDIO, DOO, RXTH, RESPI, CUT, BIO tous codés par des chiffres.).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
DUJ
SEV
AGE
CARDIO
DOO
RXTH
RESPI
CUT
9
5
3
11
7
9
13
12
19
29
16
13
21
30
25
11
7
20
11
3
3
2
2
1
1
3
1
3
2
3
2
3
3
2
2
2
3
1
91
83
82
81
80
80
79
79
78
78
76
76
75
74
74
73
73
73
72
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
3
3
1
3
3
3
3
3
3
3
3
3
3
2
2
3
0
3
3
0
2
2
2
1
3
2
2
2
2
2
2
2
1
2
2
3
1
0
3
2
0
0
0
2
0
3
0
2
2
3
3
0
2
0
0
0
0
2
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Statistiques
BIO
7
1
1
2
1
1
3
1
4
2
3
1
2
2
2
1
2
2
2
Page 2-1
Distribution des fréquences et diagrammes
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
DUJ
SEV
AGE
CARDIO
DOO
RXTH
RESPI
CUT
11
3
2
11
12
16
12
15
22
15
16
11
12
16
8
22
15
12
22
11
16
14
14
14
8
11
14
13
7
12
17
21
14
12
13
11
16
6
12
13
16
22
14
12
23
3
11
28
1
2
1
3
2
2
3
1
3
1
2
2
2
3
2
2
3
1
1
1
1
1
1
1
1
1
1
3
2
1
1
3
3
2
3
2
1
1
1
1
2
2
1
3
1
1
1
1
72
72
72
71
71
71
70
70
69
69
69
66
66
66
65
65
65
65
65
65
63
63
63
62
62
61
60
60
60
60
60
59
58
58
58
57
57
56
56
56
56
55
55
55
54
53
53
53
1
0
1
1
1
2
1
1
1
1
2
1
1
1
1
2
2
1
1
1
1
1
1
1
1
1
2
2
2
1
1
3
3
1
1
2
1
1
1
1
2
3
1
1
1
1
1
1
3
0
0
3
3
3
3
3
3
0
3
3
0
3
3
0
3
3
0
3
2
3
3
0
3
3
0
3
3
0
3
3
3
0
3
0
0
3
3
3
0
0
0
3
0
0
0
3
1
2
1
1
2
2
2
2
0
1
2
1
2
1
2
2
0
1
1
2
1
1
1
0
1
1
1
1
1
1
1
2
2
1
1
2
1
1
1
1
1
2
1
1
1
0
1
1
0
2
0
0
0
0
0
0
3
0
0
2
0
3
2
2
2
0
0
0
0
0
0
0
0
0
0
2
1
0
0
2
0
2
0
0
2
0
0
0
0
2
2
0
2
0
0
2
0
0
0
0
0
2
0
0
2
0
0
0
2
0
2
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
2
0
0
0
0
0
0
2
0
0
0
0
0
2
0
Statistiques
BIO
4
1
1
3
2
2
3
1
1
4
2
2
2
2
1
3
3
2
2
1
1
1
4
1
1
2
1
3
2
2
1
4
1
2
3
1
1
1
2
2
1
2
3
3
1
1
1
1
Page 2-2
Distribution des fréquences et diagrammes
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
DUJ
SEV
AGE
CARDIO
DOO
RXTH
RESPI
CUT
13
18
11
13
3
6
11
12
10
15
12
12
19
14
15
15
10
9
8
7
8
3
1
1
2
3
4
1
2
3
1
2
1
4
1
2
3
2
2
1
3
1
52
52
52
52
51
51
51
51
51
50
50
49
49
49
49
48
46
44
43
40
38
1
1
1
1
3
4
1
2
2
1
1
1
4
4
2
1
1
1
1
1
1
3
0
0
2
0
0
2
3
3
3
0
0
3
3
0
3
0
0
0
3
3
1
1
1
1
0
2
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
2
0
0
2
0
0
0
2
0
0
0
0
0
0
0
0
2
2
0
0
0
2
0
2
0
0
0
0
0
2
0
0
0
0
2
2
0
2
0
0
0
0
BIO
3
3
4
2
3
4
4
4
3
4
2
1
4
1
4
3
1
2
1
3
1
Telles quelles, les données ne peuvent être facilement interprétées.
Comment se répartissent les degrés de sévérité? Pour le savoir on porte en regard de
chaque degré le nombre de patients qui ont ce degré:
1 : 37
2 : 26
3 : 23
4:2
Mais il ne faut pas oublier que le nombre en face de chaque degré est un nombre
absolu (fréquence absolue): 37 sur 88 patients, 26 sur 88 etc.; donner ce tableau sans
le préciser n'a guère de sens; on préfère donc donner en plus le pourcentage
(fréquence relative): 37 sur 88 ou 42.05%. Pour être plus parlant, on trace une barre
horizontale (ou verticale) dont la longueur est proportionnelle au pourcentage.
Statistiques
Page 2-3
Distribution des fréquences et diagrammes
Diagramme des fréquences absolues
2
4
3
SEV
23
2
26
1
37
0
5
10
15
20
25
30
35
40
Nbre patients
On pourrait se poser la question suivante: "dans l'échantillon 42.05% des individus
ont une gravité 1, ce pourcentage se modifie-t-il suivant les résultats du test BIO?"
Pour tenter de répondre à cette question, on peut reproduire le graphique précédent
pour chaque valeur de la variable BIO (c’est-à-dire pour chaque résultat du test
BIO):
Diagramme des fréquences absolues par valeur de SEV
7
BIO
4
4
3
2
1
3
2
1
0
5
10
15
20
25
Nbre patients
Il semble bien qu'au sein de l'échantillon la réponse soit positive; pour étendre cette
réponse au sein de la population, il faut quitter le domaine des statistiques
descriptives et se tourner vers le chapitre consacré à l'inférence.
Statistiques
Page 2-4
Distribution des fréquences et diagrammes
On présente souvent de tels graphiques verticalement: voilà ce qu'il donne pour la
variable AGE:
Diagramme des fréquences absolues
7
6
5
4
3
2
1
98
96
94
92
90
88
86
84
82
80
78
76
74
72
70
68
66
64
62
60
58
56
54
52
50
48
46
44
42
40
38
0
Age
A l'aide d'un tel graphique, on voit clairement comment se distribuent les fréquences
relatives (graphique de la distribution des fréquences en "tuyau d'orgue" ou
histogramme des fréquences).
Le graphique est encore plus parlant lorsqu'on groupe les valeurs prises par la
variable AGE:
Statistiques
Page 2-5
Distribution des fréquences et diagrammes
Diagramme des fréquences absolues
Données groupées
16
14
12
10
8
6
4
2
0
[ -44]
[45-49]
[50-54]
[55-59]
[60-64]
[65-69]
[70-74]
[75-79]
[80- ]
Classes d'âges
Densité des fré quences fré quence
é tendue
En partant d'une distribution des fréquences (relatives) regroupées en classe, on
définit la densité des fréquences c’est-à-dire la proportion de la distribution par unité
d'étendue de la classe; la densité des fréquences est donc un quotient: fréquence
divisée par une étendue. Si on se donne une densité de fréquence, on retrouve les
effectifs en multipliant la densité (l'ordonnée) par l'étendue (l'abscisse): ainsi dans le
cas des densités des fréquences, ce sont les aires qui représentent des effectifs et non
les ordonnées.
Soient Xl, X2, X3,... ,Xn, les n valeurs observées d'une variable ordinale (ou ordinale
ou moins). La fonction de répartition Fn(x) (x réel quelconque) est la fonction
définie par:
Fn( x ) nbreXi
n
X
C'est une fonction en escalier dont les marches sont situées aux points Xi (i=1,2,...,n)
et dont la hauteur des marches est le nombre de Xi plus petits ou égaux à x divisé
par n.
Cette fonction dont le rôle théorique est fondamental "parle" moins que la
distribution des fréquences.
Statistiques
Page 2-6
Distribution des fréquences et diagrammes
La dernière colonne du tableau suivant donne la valeur de la fonction de répartition
aux points Xi (Xl = l, X2 = 2, X3 = 3 et X4 = 4 seules valeurs distinctes observées) de
la variable SEV de l'exemple précédent (la première colonne reprend les fréquences
absolues, la 2e ces fréquences cumulées, la 3e les fréquences relatives (en pourcent)
et la 4e ces fréquences cumulées ou la fonction de répartition):
SE
V
1
2
3
4
Fréq.
abs.
37
26
23
2
Fréq. abs.
cum.
Fréq.
rel.
42.05
29.55
26.14
2.27
37
63
86
88
Fréq.
rel.cum.
42.05
71.59
97.73
100.00
Voici une représentation de la fonction de répartition pour la variable AGE:
Diagramme des fréquences relatives cumulées
ou fonction de répartition
120.0%
100.0%
80.0%
60.0%
40.0%
20.0%
0.0%
38
48
58
68
78
88
98
108
Age
Il existe bien d'autres représentations que celle des diagrammes en "tuyau d'orgues",
comme celle-ci donnant la répartition des valeurs de DUJ au sein de l'échantillon
sous forme de "quartier de tarte":
Statistiques
Page 2-7
Distribution des fréquences et diagrammes
Répartition des valeurs de DUJ
Duj 3
5%
Autres
17%
Duj 6
3%
Duj 7
5%
Duj 8
3%
Duj 9
3%
Duj 22
5%
Duj 11
14%
Duj 16
8%
Duj 15
7%
Duj 12
14%
Duj 14
8%
Duj 13
8%
Il est impossible de citer tous les graphiques possibles: diagrammes en ascenseurs,
en building, nuages de points, etc.
Statistiques
Page 2-8
Quantiles
3
On voudrait pouvoir répondre à des questions du type:
"en Belgique, une personne sur 2 a moins de quel âge?"
“9 personnes sur 10 ont moins de quel âge?"
Reprenons l'exemple du chapitre 2 pour voir comment répondre à ces deux
questions. Dressons le tableau des fréquences absolues, des fréquences relatives
exprimées en %, les fréquences absolues cumulées et les fréquences relatives
cumulées exprimées en % (ou la fonction de répartition).
Statistiques
Page 3-1
Quantiles
Age Fréquences Fréquences Fréquences Fréquences
absolues
relatives
absolues
relatives
cumulées
cumulées
38
1
1.1%
1
1.1%
40
1
1.1%
2
2.3%
43
1
1.1%
3
3.4%
44
1
1.1%
4
4.5%
46
1
1.1%
5
5.7%
48
1
1.1%
6
6.8%
49
4
4.5%
10
11.4%
50
2
2.3%
12
13.6%
51
5
5.7%
17
19.3%
52
4
4.5%
21
23.9%
53
3
3.4%
24
27.3%
54
1
1.1%
25
28.4%
55
3
3.4%
28
31.8%
56
4
4.5%
32
36.4%
57
2
2.3%
34
38.6%
58
3
3.4%
37
42.0%
59
1
1.1%
38
43.2%
60
5
5.7%
43
48.9%
61
1
1.1%
44
50.0%
62
2
2.3%
46
52.3%
63
3
3.4%
49
55.7%
65
6
6.8%
55
62.5%
66
3
3.4%
58
65.9%
69
3
3.4%
61
69.3%
70
2
2.3%
63
71.6%
71
3
3.4%
66
75.0%
72
4
4.5%
70
79.5%
73
3
3.4%
73
83.0%
74
2
2.3%
75
85.2%
75
1
1.1%
76
86.4%
76
2
2.3%
78
88.6%
78
2
2.3%
80
90.9%
79
2
2.3%
82
93.2%
80
2
2.3%
84
95.5%
81
1
1.1%
85
96.6%
82
1
1.1%
86
97.7%
83
1
1.1%
87
98.9%
91
1
1.1%
88
100.0%
On lit dans ce tableau que, par exemple:
il y a 1 personne ayant 48 ans soit 1.1% de l'échantillon
il y a 6 personnes ayant moins de 48 ans soit 6.8% de l'échantillon
il y a 3 personnes ayant 53 ans (soit 3.4% de l'échantillon)
il y a 24 personnes ayant moins de 53 soit 27.3% de l'échantillon.
Pour déterminer l'âge A tel qu'il y ait une personne sur 2 soit 50% de l'échantillon
ayant moins de A ans, cherchons l'âge pour lequel on a 50% dans la dernière
colonne; on trouve A=61 ans ce qui répond à la première question.
Pour répondre à la deuxième question, cherchons dans la dernière colonne 90%. A
76 ans on a 88.6% et à 78 ans on a 90.9%; la réponse est donc un âge entre 76 et 78
Statistiques
Page 3-2
Quantiles
ans, mais l'échantillon ne permet pas de répondre plus précisément (non unicité de la
réponse); pour donner toutefois une seule réponse (un seul âge), on a coutume
d'interpoler linéairement entre 76 et 78 ans;
A 76 2 (90.0 88.6)
77.2ans
(90.9 88.6)
On voit que pour répondre à des questions du type étudié, il faut "inverser" la
fonction de répartition (en levant les indéterminations éventuelles).
Grosso-modo, on veut définir une valeur Qp de la variable qui partage l'échantillon
en deux parties: la première partie contient ceux qui ont une valeur de la variable
inférieure à Qp, cette partie contenant p% des individus, et la deuxième contient
ceux dont la variable est supérieure à Qp, cette partie contenant (1-p)% des
individus.
Qp est un quantile d'ordre p (0 p 1) si:
Nbre Xi Qp
Nbre Xi Qp
p
n
n
Les quantiles sont des mesures de position qui ne tentent pas de déterminer le centre
d'une distribution d'observations, mais de décrire une position particulière.
Cette notion est une extension du concept de la médiane (qui divise une distribution
d'observations en 2 parties).
Le calcul des quantiles n'a de sens que pour une variable quantitative pouvant
prendre des valeurs sur un intervalle déterminé.
Les quartiles divisent l'ensemble des observations en 4 parties.
Les cas particuliers p = 25%, p = 50%, p = 75% définissent les quartiles; le
deuxième quartile (p = 50%) est appelé la médiane.
Il y a 1 individu sur 2 dont la valeur de la variable est comprise entre Q25 et Q75.
Les déciles divisent l'ensemble des observations en 10 parties.
Les cas particuliers p = 10%, p = 20%, .... p = 90% définissent les déciles.
Statistiques
Page 3-3
Mesures de tendance centrale
4
!
Une mesure de tendance centrale permet de résumer un ensemble de données relatives
à une variable quantitative. Plus précisément, elle permet de déterminer une valeur
fixe, appelée valeur centrale, autour de laquelle l'ensemble des données à tendance à
se rassembler.
Supposons que les valeurs observées X1, X2,...; Xn soient cardinales et reportons-les
sur un axe:
--+-------*--*-*-*-***--*--------------------->
Intuitivement et à l'oeil, on situerait le "centre" de ces points:
--+-------*--*-*-*O***--*--------------------->
Comment traduire cette intuition à l'aide d'une expression liant les X1, ..., Xn ?
La moyenne arithmétique est définie par l'expression suivante:
n
X 1 X 2 ... Xn
X
n
X
i
i 1
n
La moyenne arithmétique:
dépend de la valeur de toutes les observations
est fréquemment utilisée comme estimateur de la moyenne de la population
peut voir sa valeur faussée par des données aberrantes
Statistiques
Page 4-1
Mesures de tendance centrale
la somme des écarts au carré entre chaque observation Xi d'un ensemble de
données et une valeur est minimale lorsque est égale à la moyenne
arithmétique.
n
min ( X i ) 2 moyenne arithmétique
i 1
La moyenne harmonique est définie par l'expression suivante:
mh n
n
1
i 1
i
x
Exemple d'utilisation: calcul de la vitesse moyenne
La moyenne géométrique est définie par l'expression suivante:
mg n
n
(1 X ) 1
i
i 1
n (1 X 1 ).(1 X 2 )....(1 X n ) 1
Exemple d'utilisation: taux de croissance moyen
La médiane est:
le deuxième quartile Q50
est facile à déterminer puisqu'elle n'exige qu'un classement des données
n'est pas influencée par des observations aberrantes
est utilisée comme estimateur de la valeur centrale d'une distribution notamment
lorsque celle-ci est asymétrique ou qu'elle comporte des données aberrantes
la somme des écarts en valeur absolue entre chaque observation Xi d'un ensemble
de données et une valeur est minimale lorsque est égale à la médiane.
n
min X i mé diane
i 1
Le mode est:
la valeur observée la plus fréquente
Statistiques
Page 4-2
Mesures de tendance centrale
on remarque que le mode n'est pas toujours univoquement défini: il peut y avoir
zéro ou plusieurs modes dans un ensemble de données
"
L'écart de chaque observation Xi à la moyenne X est Xi X ; cet écart est tantôt
positif, tantôt négatif, plus ou moins grand suivant la valeur de Xi, mais la propriété
qui caractérise X ( X est la seule quantité qui en jouit) est que la somme de ces
écarts est nulle:
( X 1 X ) ( X 2 X ) ... ( Xn X ) 0
n
( X
i
X) 0
i 1
La démonstration de cette propriété est simple.
Que devient le "centre" de la distribution déterminé à l'œil, si on effectue un
changement d'origine, ou une translation ou si on rajoute une constante identique à
toutes les observations ?
Intuitivement, le "centre" de la distribution doit "suivre" la transformation
(changement d'origine ou translation) car celle-ci ne perturbe pas la position relative
des points observés.
On peut vérifier facilement que les trois mesures de tendance centrale introduites
vérifient cette propriété: si Yi = Xi + B alors la mesure de tendance centrale des Yi
est égale à celle des Xi plus B.
!"
On peut se poser la même question avec un changement d'échelle, un changement
d'origine.
On vérifie que si Yi = A * Xi alors la mesure de tendance centrale des Yi est égale à
celle des Xi multiplié par A.
Pour résumer ces deux propriétés: "on peut effectuer un changement d'origine ou un
changement d'unité puis calculer une mesure de tendance centrale ou, de manière
Statistiques
Page 4-3
Mesures de tendance centrale
équivalente, calculer la mesure de tendance centrale puis effectuer le changement
d'origine ou le changement d'unité sur la mesure de tendance centrale."
Il n'existe pas de lien systématique entre la moyenne et la médiane; cependant si:
la moyenne est supérieure à la médiane, on dit que la distribution des valeurs
observées présente une dissymétrie positive
la moyenne est inférieure à la médiane, on dit que la distribution des valeurs
observées présente une dissymétrie négative
la moyenne est égale à la médiane, on dit que la distribution des valeurs
observées est symétrique
En effet, si la moyenne X est plus grande que la médiane MED, on a:
MED X
X i X X i MED
n
( X
(i = 1,2,..., n)
n
i
i 1
X ) ( X i MED)
i 1
n
0 ( X i MED)
i 1
en d'autres termes, les écarts positifs l'emportent en grandeur (il y a autant de XiMED
positifs
que
négatifs)
sur
les
écarts
négatifs.
Statistiques
Page 4-4
Mesures de dispersion
5
!
Supposons que les valeurs observées Xl, X2, ..., Xn soient cardinales et reportons-les
sur axes avec une mesure de tendance centrale marquée 0:
----+------ *--*-*-*O***--* --------------------->
Voici d'autres valeurs observées en même nombre et de même mesure de tendance
centrale:
--*-+---*---*---*---O--*--*--*------*----------->
Dans le premier cas toutes les valeurs sont concentrées autour de la mesure de
tendance centrale, et dans le deuxième cas, elles sont très étalées autour de cette
mesure. Voyons comment traduire celà dans une expression liant les X1, X2, ..., Xn.
On peut classer les mesures de dispersion en 2 groupes:
les mesures définies par la distance entre 2 valeurs représentatives de la
distribution
les mesures calculées en fonction des déviations de chaque donnée par rapport à
une valeur centrale
#
L'étendue est la différence entre la plus grande et la plus petite des observations.
Etendue X max X min
#
$
%
L'intervalle inter-quartile est la différence entre le troisième et le premier quartile:
Q75-Q25.
Statistiques
Page 5-1
Mesures de dispersion
Il correspond donc à l'intervalle comprenant 50% des observations les plus au centre
de la distribution.
L'intervalle inter-quartile est une mesure de dispersion qui ne dépend pas du nombre
d'observations, cette mesure est nettement moins sensible aux observations
aberrantes.
#
Comme son nom l'indique, l'écart moyen absolu est la moyenne des écarts à la
moyenne pris en valeur absolue:
n
XX
i
Ecart moyen absolu i 1
n
$
On définit la variance comme la moyenne des carrés des écarts à la moyenne:
X X n
2
i
2 i 1
n
#%
L'écart-type est la racine carrée de la variance. L'écart-type s'exprime dans les
mêmes unités que les Xi, contrairement à la variance.
2
n
(X
i 1
i
X )2
n
L'écart-type est généralement noté lorsqu'il est relatif à une population et s
lorsqu'il est relatif à un échantillon.
"
$
On peut démontrer la relation suivante:
Statistiques
Page 5-2
Mesures de dispersion
n
X U i
i 1
2
n
Xi X
i 1
2
n. X U
2
U quelconque
En d'autres termes: la somme des carrés des écarts des observations à une valeur
quelconque U est égale à la somme des carrés des écarts à la moyenne plus n fois le
carré de l'écart de U à X
De cette relation, on déduit, en divisant par n et en prenant U=0, que:
1 n
1 n
. ( X i U )2 . ( X i X )2 ( X U )2
n i 1
n i 1
1 n
. ( X i U )2 2 ( X U )2
n i 1
Si U 0
2
1 n
2
. X i 2 X
n i 1
2
1
2 . X i2 X
n
expression permettant de calculer la variance à partir de la somme des carrés et de la
moyenne.
De la relation citée, se déduit aussi une propriété liant la moyenne et la variance: la
somme des carrés des écarts prend sa plus petite valeur avec la moyenne, ce
minimum, divisé par n, est la variance.
"
Si on effectue une translation sur les Xi, ou un changement d'origine, la dispersion
ne change pas; qu'en est-il pour les mesures de dispersion ? On vérifie facilement
qu'elles ne sont pas affectées par cette transformation (par exemple, l'écart-type des
Yi avec Yi= Xi+B est égal à l'écart-type des Xi).
!"
Par contre, si on effectue un changement d'unité, la dispersion est affectée; on vérifie
que les mesures de dispersion "suivent" le changement d'unité: si Yi = A.Xi alors la
mesure de dispersion des Yi est égale à celle des Xi multipliée par A.
Statistiques
Page 5-3
Tableaux de contingence et mesures de dépendance
6
On considère deux variables nominales ou ordinales (mais pas cardinales). On
désire mesurer de quelle manière la première variable appelée variable indépendante
influence la deuxième variable appelée variable dépendante.
La variable dépendante dans un modèle d'analyse de régression est la variable
considérée comme variant en fonction d'autres variables de l'analyse.
On appelle variable indépendante dans un modèle de régression la ou les variables
qui sont considérées comme exerçant une influence sur la variable dépendante ou
qui expliquent les variations de la variable dépendante.
Les exemples sont multiples:
var.
indépendante
situation
familiale
classe d'âges
salaire
var.
dépendante
réussite
scolaire
performance
choix politique
Contingence signifie dépendance. De sorte qu'un tableau de contingence est tout
simplement un tableau qui montre comment une caractéristique dépend de l'autre.
On a relevé le niveau scolaire (variable dépendante) et le statut du père (variable
indépendante) de 200 enfants. Le niveau scolaire est codé D1, D2 et le statut du père
I1, I2, I3, I4. On regroupe les résultats dans un tableau
Statistiques
Page 6-1
Tableaux de contingence et mesures de dépendance
D1
D2
Total
I1
21
14
35
I2
I3
11
4
15
60
65
125
I4
Total
98
102
200
6
19
25
Il y a donc 21 enfants dont le niveau scolaire est D1 et le statut du père I1; il y 98
enfants de niveau D1, 125 enfants dont le statut du père est I2. Les totaux en lignes et
colonnes sont appelés totaux marginaux. Tel quel ce tableau n'est pas parlant: on
rajoute les fréquences relatives (en pourcent du total global, 200 dans l'exemple):
I1
D1
I2
21
10.50 %
14
7.00 %
35
17.50 %
D2
Total
I3
60
30.00%
65
32.50 %
125
62.50 %
I4
11
5.50 %
4
2.00 %
15
7.50 %
6
3.00 %
19
9.50 %
25
12.50 %
Total
98
49.00 %
102
51.00 %
200
Parce que plus parlant sur la nature des dépendances éventuelles, on rajoute les
fréquences relatives en pourcent des totaux marginaux lignes et colonnes (dans la
cellule D1,I1: 21.43%=21/98 et 60.00%=21/35, etc):
I1
D1
D2
Total
21
10.50%
21.43%
60.00%
14
7.0%
13.73%
40.00%
35
17.50%
I2
60
30.00%
61.22%
48.00%
65
32.50%
63.70%
52.00%
125
62.50%
I3
11
5.50%
11.22%
73.33%
4
2.00%
3.92%
26.27%
15
7.50%
I4
6
3.00%
6.11%
24.00%
19
9.50%
18.63%
76.00%
25
12.50%
Total
98
49.00%
102
51.00%
200
On observe par exemple que:
dans l'échantillon, il y a 49.00% d'enfants au niveau D1 et 51.00% au niveau D2
si le statut du père est de I1, 60% des enfants sont au niveau D1
en revanche si le statut du père est I4, 24% des enfants sont au niveau D1
parmi les enfants qui sont au niveau D2, 3.92% ont un père de statut I3
Statistiques
Page 6-6-3
Tableaux de contingence et mesures de dépendance
Sans tenir compte de la variable indépendante, la valeur la plus fréquente de la
variable dépendante est D2 dans l'exemple avec 102 enfants (98 n'ont pas cette
valeur).
En tenant compte de la variable indépendante (c’est-à-dire par statut du père), la
valeur la plus fréquente n'est pas toujours D1:
Statut du
père
I1
I2
I3
I4
Niveau le plus
fréquent
D1
D2
D1
D2
On peut affirmer que 98 enfants n'ont pas le niveau le plus fréquent. Comment cette
affirmation s'affine-t-elle en tenant compte de la variable indépendante (du statut du
père):
Statut du
père
I1
I2
I3
I4
Niveau le plus
fréquent
D1
D2
D1
D2
échappent
14
60
4
6
84
On passe de 98 à 84, soit un gain relatif de
98 84 14.3%
98
On appelle LAMBDA () cette mesure de dépendance calculée sur l'exemple.
Citons quelques propriétés de :
0 1
En toute généralité, on ne peut pas permuter le rôle des variables indépendante et
dépendante sans changer la valeur de .
Interprétons les valeurs possibles de est presque nulle: les individus n'ayant pas la valeur la plus fréquente sont aussi
nombreux que l'on précise ou non les valeurs prises par la variable indépendante,
Statistiques
Page 6-6-3
Tableaux de contingence et mesures de dépendance
cette variable n'apporte pas beaucoup d'information en liaison avec la variable
dépendante, donc la dépendance est faible.
est proche de 1: le nombre d'individus n'ayant pas la valeur de la variable
dépendante la plus fréquente change beaucoup si l'on précise les valeurs prises
par la variable indépendante: elle apporte beaucoup d'informations en liaison
avec la variable dépendante, donc la dépendance est forte.
Remarquons que la mesure est "aveugle" à certaines dépendances; l'exemple
suivant illustre ce cas “pathologique”:
D1
D2
Total
I1
23
22
45
I2
54
1
55
I3
21
19
40
I4
31
29
60
Total
128
72
200
Il est facile de voir que est nul (la valeur la plus fréquente est toujours D1)
cependant il existe une dépendance manifeste: “Si le statut est I2 alors le niveau est
quasi toujours D1”.
On peut montrer qu'il est équivalent de calculer suivant ce qui a été décrit dans
l'exemple ou par l'expression suivante:
max(n
1J
, n2 J ,..., n Ij ) max(n1. , n2. ,..., ni . )
n.. max(n1. , n2. ,..., n I . )
où les nij, ni. et n.. sont les fréquences absolues et totaux marginaux du tableau de
contingence:
1
2
...
i
...
I
Total
1
n11
n21
2
n12
n22
...
...
...
J
n1J
n2J
Total
n1.
n2.
ni1
ni2
...
niJ
ni.
nI1
n.1
nI2
n.2
...
...
nIJ
n.J
nI.
n..
Statistiques
Page 6-6-4
Tableaux de contingence et mesures de dépendance
Définissons une mesure de dépendance entre deux variables ordinales. Pour ce
faire, on définit d'abord la notion de paires d'individus concordante et discordante .
Pour chaque individu on observe deux variables X et Y; pour l'individu i X prend la
valeur Xi et Y la valeur Yi. Comparons les individus i et j quant à leurs variables X
et Y:
- on dit que “i est concordant avec j” si et seulement si:
[Xi < Xj et Yi < Yj] ou [Xi > Xj et Yi > Yj]
- on dit que “i est discordant avec j” si et seulement si:
[Xi < Xj et Yi > Yj] ou [Xi > Xj et Yi < Yj]
Bien sûr il existe des paires d'individus ni concordantes ni discordantes.
Si on remarque que le nombre de paires concordantes domine, on peut suspecter une
dépendance du type "si X est grand alors Y est grand"; de même, si le nombre de
paires discordantes domine, on peut suspecter une dépendance du type "si X est
grand alors Y est petit"; finalement si le nombre de paires concordantes est du même
ordre de grandeur que le nombre de paires discordantes, on ne peut affirmer l'une ou
l'autre des 2 propositions.
D'où l'idée de la mesure de dépendance (Gamma)
CD
CC
où
C nb. concordants
D nb. discordants
Citons quelques propriétés de :
-1 +1
Le signe de s'interprète: positif si les concordants dominent, négatif dans le cas
contraire.
On peut inverser le rôle de X et de Y sans changer la valeur de Statistiques
Page 6-6-5
Tableaux de contingence et mesures de dépendance
Prenons un exemple pour illustrer la démarche à suivre.
Déterminons le nombre de concordants.
\X
Y\
+
0
-
-
0
+
1
5
20
4
30
6
10
2
2
On commence par la dernière ligne du tableau (Y=-) première colonne (X=-). Quels
sont les individus concordants avec ces 20 individus? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5
20 (°)
4 (*)
30 (*)
6
10 (*)
2 (*)
2
En effet on a
30
individus avec [X*=0 > X°=- et Y*=0 > Y°=-]
2
individus avec [X*=+ > X°=- et Y*=0 > Y°=-]
4
individus avec [X*=0 > X°=- et Y*=+ > Y°=-]
10
individus avec [X*=+ > X°=- et Y*=+ > Y°=-]
46 individus concordants avec les 20 soient 46 * 20 = 920 paires
On poursuit par la dernière ligne du tableau (Y=-) deuxième colonne (X=0). Quels
sont les individus concordants avec ces 6 individus ? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5
20
4
30
6 (°)
10 (*)
2 (*)
2
En effet on a
2
individus avec [X*=+ > X°=0 et Y*=0 > Y°=-]
10
individus avec [X*=+ > X°=0 et Y*=+ > Y°=-]
12 individus concordants avec les 6 soient 12 * 6 = 72 paires
On poursuit par la dernière ligne du tableau (Y=-) troisième colonne (X=+). Quels
sont les individus concordants avec ces 6 individus ? Il n'en existe pas.
Statistiques
Page 6-6-6
Tableaux de contingence et mesures de dépendance
\X
Y\
+
0
-
-
0
+
1
5
20
4
30
6
10
2
2
On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels
sont les individus concordants avec ces 5 individus ? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5 (°)
20
4 (*)
30
6
10 (*)
2
2
En effet on a
4
individus avec [X*=0 > X°=- et Y*=+ > Y°=0]
10
individus avec [X*=+ > X°=- et Y*=+ > Y°=0]
14 individus concordants avec les 5 soient 14 * 5 = 70 paires
On poursuit par la deuxième ligne du tableau (Y=0), deuxième colonne (X=0).
Quels sont les individus concordants avec ces 30 individus ? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5
20
4
30 (°)
6
10 (*)
2
2
En effet on a:
10
individus avec [X*=+ > X°=0 et Y*=+ > Y°=0]
10 individus concordants avec les 30 soient 30 * 10 = 300 paires
Au total 920 + 72 + 70 + 300 = 1362 paires concordantes.
Déterminons le nombre de paires discordantes.
On commence par la première ligne du tableau (Y=+) première colonne (X=-).
Quels sont les individus discordants avec cet individu? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1 (°)
5
20
4
30 (*)
6 (*)
10
2 (*)
2 (*)
Statistiques
Page 6-6-7
Tableaux de contingence et mesures de dépendance
Statistiques
Page 6-6-8
Tableaux de contingence et mesures de dépendance
En effet on a:
30
individus avec [X*=0 > X°=- et Y*=0 > Y°=+]
2
individus avec [X*=+ > X°=- et Y*=0 > Y°=+]
6
individus avec [X*=0 > X°=- et Y*=+ > Y°=+]
2
individus avec [X*=+ > X°=- et Y*=+ > Y°=+]
40 individus discordants avec le 1 soient 40 * 1 = 40 paires
On poursuit par la première ligne du tableau (Y=+) deuxième colonne (X=0). Quels
sont les individus discordants avec ces 4 individus. Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5
20
4 (°)
30
6
10
2 (*)
2 (*)
En effet on a
2
individus avec [X*=+ > X°=0 et Y*=0 > Y°=+]
2
individus avec [X*=+ > X°=0 et Y*=+ > Y°=+]
4 individus discordants avec les 4 soient 4 * 4 = 16 paires
On poursuit par la première ligne du tableau (Y=0) troisième colonne (X=+). Quels
sont les individus discordants avec ces 10 individus? Il n'en existe pas.
\X
Y\
+
0
-
-
0
+
1
5
20
4
30
6
10
2
2
On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels
sont les individus discordants avec ces 5 individus? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5 (°)
20
4
30
6 (*)
10
2
2 (*)
En effet on a:
6
individus avec [X*=0 > X°=- et Y*=- > Y°=0]
2
individus avec [X*=+ > X°=- et Y*=- > Y°=0]
8 individus discordants avec les 5 soient 8 * 5 = 40 paires
Statistiques
Page 6-6-9
Tableaux de contingence et mesures de dépendance
On poursuit par la deuxième ligne du tableau (Y=0) deuxième colonne (X=0). Quels
sont les individus discordants avec ces 30 individus? Ceux en italique:
\X
Y\
+
0
-
-
0
+
1
5
20
4
30 (°)
6
10
2
2 (*)
En effet on a:
2
individus avec [X*=+ > X°=0 et Y*=- > Y°=0]
2 individus discordants avec Ïes 30 soient 2 * 30 = 60 paires
Au total 40 + 16 + 40 + 60 = 156 paires discordantes.
On a donc
1362 156
79.45%
1362 156
On perd dans l'analyse toutes les paires où Xi=Xj ou Yi=Yj. On peut introduire un
modifié en divisant par [nr. concordant + nr. disconcordant + EY], où EY est le
nombre de paires avec [Xi<>Xj et Yi=Yj].
CD
C D EY
est "aveugle" à certaines dépendances.
Statistiques
Page 6-6-10
Tableaux de contingence et mesures de dépendance
Considérons 2 variables cardinales (ou ordinales): X et Y. On désire mesurer la
dépendance de Y (variable dépendante) en X (variable indépendante).
Pour fixer les idées, prenons l'exemple d'un échantillon de 11 observations où X est
l'âge et Y le salaire:
Observation
1
2
3
4
5
6
7
8
9
10
11
X
36
45
37
42
55
28
25
30
50
49
18
Y
132
150
126
160
157
100
95
110
160
146
78
Si une petite valeur de X entraîne régulièrement une petite valeur pour Y, on peut
affirmer que Y dépend de X; il en va de même, si une petite valeur de X entraîne
régulièrement une grande valeur pour Y. Par contre, si une petite valeur de X
entraîne indifféremment une grande ou une petite valeur de Y, on peut dire que Y ne
dépend pas de X.
Trions donc les valeurs de X par ordre croissant et de même pour les valeurs de Y.
Observation
1
2
3
4
5
6
7
8
9
10
11
X
36
45
37
42
55
28
25
30
50
49
18
Y
132
150
126
160
157
100
95
110
160
146
78
Rangs des X
5
8
6
7
11
3
2
4
10
9
1
Rangs des Y
6
8
5
10.5
9
3
2
4
10.5
7
1
Note: si plusieurs données ont la même valeur, on utilise le rang moyen.
Statistiques
Page 6-6-10
Tableaux de contingence et mesures de dépendance
Calculons la différence entre les rangs de X et ceux de Y.
Observation
1
2
3
4
5
6
7
8
9
10
11
X
36
45
37
42
55
28
25
30
50
49
18
Y
132
150
126
160
157
100
95
110
160
146
78
Rx
5
8
6
7
11
3
2
4
10
9
1
Ry
6
8
5
10.5
9
3
2
4
10.5
7
1
Rx-Ry
-1
0
1
-3.5
2
0
0
0
-0.5
2
0
Il est vain de résumer ces 11 différences par une moyenne: elle vaut nécessairement
0, en effet:
(5-6)+(8-8)+(6-5)+(7-10.5)+(11-9)+(3-3)+(2-2)+(4-4)+(10-10.5)+(9-7)+(1-1) =
5+8+6+7+11+3+2+4+10+9+1-6-8-5-10.5-9-3-2-4-10.5-7-1=
1+2+3+4+5+6+7+9+9+10+11-1-2-3-4-5-6-7-8-9-10.5-10.5 = 0
Prenons plutôt le carré des différences et sommons-les:
Observation
1
2
3
4
5
6
7
8
9
10
11
X
36
45
37
42
55
28
25
30
50
49
18
Y
132
150
126
160
157
100
95
110
160
146
78
Rx
5
8
6
7
11
3
2
4
10
9
1
Ry
6
8
5
10.50
9
3
2
4
10.5
7
1
Rx-Ry
-1
0
1
-3.5
2
0
0
0
-0.5
2
0
(Rx-Ry)2
1
0
1
12.3
4
0
0
0
0.3
4
0
24.6
On peut démontrer que D2 (toujours positif) prend une valeur maximale égale à
n.(n 2 1)
,où n est le nombre d'observations.
3
On ramène cette quantité à une valeur comprise entre -1 et +1.
Statistiques
Page 6-6-11
Tableaux de contingence et mesures de dépendance
n.(n 2 1)
0 D 3
i 1
n
2
i
n
0
D
2
i
i 1
1
n.(n 2 1)
3
n
0
3. Di2
i 1
2
1
n.(n 1)
n
0
6. Di2
i 1
2
2
n.(n 1)
n
1 0 1
6. Di2
i 1
2
n.(n 1)
1 2
n
1 1
6. Di2
i 1
2
n.(n 1)
1
On définit le coefficient de corrélation des rangs de Spearman par l'expression:
n
Rs 1 6. Di2
i 1
n.(n ² 1)
où
Di2 Rxi R yi
Dans l'exemple:
6 22.6
135.6
Rs 1 1
0.897
11 (11² 1)
1320
Si Rs est proche de -1, ou de +1, la dépendance est forte, si Rs est proche de 0, la
dépendance est faible.
Statistiques
Page 6-6-12
Diagramme de Pareto et indice de concentration
7
Les diagrammes de Pareto sont principalement utilisés dans le contexte des analyses
qualitatives (cercles de qualité,...).
L'analyse de Pareto est une méthode simple permettant de séparer les causes
majeures d'un problème, des causes mineures. Le diagramme de Pareto permet de
distinguer d'emblée les premières causes, problèmes ou autres conditions.
Pareto énonça la règle des 80/20:
80% des ventes sont attribuées à 20% des équipes de vente
80% des effets résultent de 20% des causes
etc.
Considérons donc une variable nominale et calculons les fréquences relatives. On
appelle diagramme de Pareto le diagramme en bâtonnet des fréquences relatives, où
les valeurs de la variable sont classées par ordre décroissant des fréquences.
Prenons l’exemple suivant. Pendant 6 mois, on a dénombré 60 accidents à un
carrefour particulièrement dangereux les causes de ces accidents ont été
enregistrées:
Causes
dépassement
mauvaise visibilité
refus de priorité
alcoolisme
état du véhicule
état de la route
vitesse excessive
autres causes
Fréquence
absolue
2
8
12
2
11
1
19
5
Le diagramme de Pareto est représenté ci-après. La fonction de répartition
(fréquences relatives cumulées) est représentée sur le même graphique: les
ordonnées des fréquences relatives (diagramme de Pareto) se lisent à gauche, celles
de la fonction de répartition à droite.
Statistiques
Page 7-1
Diagramme de Pareto et indice de concentration
Sur le diagramme de Pareto se distingue d’emblée la première cause d’accident: la
vitesse excessive (32% des cas); les 3 premières causes expliquent 70% des
accidents (le 3e bâtonnet de la fonction de répartition est à cette hauteur) et la quasitotalité (90%) des accidents est expliquée par les 5 premières causes (cfr fonction de
répartition).
Diagramme de Paretto
100%
80%
60%
Fréq. relatives
Fct répartition
40%
20%
0%
Vitesse
Priorité
Etat véh
Visibilité
Autres
Dépass
Alcool
Etat route
Causes
En fait, le but du diagramme est de mettre en évidence (si les données le
permettent!) une répartition très déséquilibrée, c’est-à-dire une répartition où les 2
ou 3 valeurs les plus fréquentes représentent la majorité de la distribution. Dans ce
cas, la hauteur des bâtonnets décroît très rapidement, ou, de manière équivalente, la
fonction de répartition présente une forte concavité. Notons que a contrario, si toutes
les valeurs de la variable ont la même fréquence (diagramme plat), la fonction de
répartition présente des marches régulières le long d’une droite.
Pour mesurer la concavité de la fonction de répartition ou pour mesurer le
déséquilibre de la répartition, observons le graphique suivant.
Statistiques
Page 7-2
Diagramme de Pareto et indice de concentration
100%
83%
80%
U
T
S
100%
98%
95%
92%
R
70%
P
60%
52%
O
40%
32%
N
20%
B
A
0%
Vitesse
Priorité
C
Etat véh
D
Visibilité
E
Autres
G
F
Dépass
Alcool
Etat route
Causes
On y a représenté la fonction de répartition avec la base des marches reliée par des
segments de droites (0N, NO, OP, PR,...) ainsi que la droite 0V. Rappelons qu’un
diagramme de Pareto plat (répartition uniforme) possède une fonction de répartition
dont les marches s’échelonnent régulièrement le long de cette droite.
On introduit alors le coefficient de concentration de Gini défini comme étant le
rapport entre l’aire du polygone 0N, NO, OP, ..., UV, V0 et l’aire du triangle rectangle
0VH.
Calculons ces 2 aires:
L’aire du polygone se déduit par différence entre, d’une part, l’aire S1 du polygone
0N, NO, OP, ..., UV, VH, H0 et, d’autre part, l’aire S2 du triangle 0VH.
L’aire S1 se décompose à son tour en 8 aires partielles S11, S12, S13, ..., S18
S11 est l’aire du triangle 0AN soit
S11 base hauteur
2
d 0.32
2
où d est la base des bâtonnets
S12 est l’aire du trapèze ANOB soit
S12 hauteur (grande base petite base)
2
d (0.32 0.52)
2
Semblablement, on a pour le trapèze BOPC:
S13 d (0.52 0.70)
2
et ainsi de suite pour S14, ..., S18
On a donc pour S1:
Statistiques
Page 7-3
Diagramme de Pareto et indice de concentration
d
d
d
d
(32% 52%). (52% 70%). ... (93% 100%).
2
2
2
2
d
d
d
S1 32%. .2 52%. .2 ...100%.
2
2
2
100%
S1 (32% 52% ...
). d
2
S1 5.72 d
S1 32%.
L’aire du triangle S2 se détermine facilement:
S2 8. d 100
.
4. d
2
En rassemblant des résultats on déduit la valeur du coefficient de concentration de
Gini:
S1 S 2
S2
Dans l'exemple:
5.72. d 4. d 5.72 4
Gini 0.43
4. d
4
L’interprétation est simple:
une valeur du coefficient proche de 0 indique une distribution proche d’une
distribution uniforme. Il n'y a pas de concentration des données
une valeur du coefficient proche de 1 indique un déséquilibre important dans la
répartition, déséquilibre que veut mettre en évidence le diagramme de Pareto. Il y
a concentration des données.
Statistiques
Page 7-4
Principales distributions
8
Une loi de probabilité peut admettre deux fonctions: la première consiste à décrire
de la façon la plus adéquate possible un mécanisme réel étudié (répartition des
salaires, répartition des âges, mesure de temps de réponses, etc), la deuxième
consiste à décrire le comportement des instruments techniques utilisés dans le
traitement des données.
La première fonction est une fonction de modélisation: il s'agit de savoir si, par
exemple, la durée de fonctionnement sans défaillance de tel appareil qu'on assimile
à une variable aléatoire peut être décrit par telle loi de probabilité. La justification
de l'emploi de telle loi plutôt qu'une autre est en général propre au domaine étudié.
En fait cette loi est rarement connue entièrement, il subsiste en général plusieurs
paramètres qui doivent être adaptés (estimés) au cas précis étudié. La loi avec ses
paramètres inconnus (en fait il s'agit d'une famille de lois puisque chaque valeur
assignée aux paramètres inconnus en définit une) est appelée loi théorique du
phénomène étudié. La loi théorique est censée modéliser le phénomène étudié.
La deuxième fonction est interne à la statistique: elle décrit le comportement (la loi
de probabilité) de tel outil statistique (moyenne, variance, quantile, etc).
La connaissance de ce comportement est fondamentale pour passer d'un stade
descriptif à un stade inférentiel. Le comportement (la loi de probabilité) de tel outil
est en géneral lié à la loi théorique du phénomène étudié; cette dépendance pose un
problème: comme la loi du phénomène n'est pas connue entièrement (paramètres
inconnus), le comportement des outils utilisés n'est pas non plus connu entièrement!
Cependant, dans une vaste gamme de problèmes, la dépendance disparaît; il est
nécessaire de connaître les conditions qui permettent de s'en assurer.
Il faut remarquer que certaines lois peuvent assumer les deux fonctions.
Nous allons passer en revue certaines distributions communément utilisées pour
modéliser certains phénomènes physiques.
Cette énumération est loin d'être exhaustive.
Statistiques
Page 8-1
Principales distributions
Une importante classe de variables aléatoires est induite par une suite d'expériences
aléatoires du type suivant: chaque observation fait apparaître (avec une probabilité
p) ou non (avec une probabilité de 1-p) l'événement A; p reste constant, les
observations sont mutuellement indépendantes et on effectue n observations.
Xi = 0
Xi = 1
avec une probabilité p
avec une probabilité (1 - p)
n
B ( n, p ) X i
i 1
La loi binomiale décrit la répartition du nombre total d'apparition X de l'événement
A. Cette loi est étudiée en détail au cours de probabilité. Retenons ici, l'expression
de la densité:
P[ X i ] Cin . p i .(1 p) ( n i )
où Cin est le coefficient binomial,
E X E X 1 X 2 ... X n E X 1 E X 2 ... E X n p p ... p
n. p
n
Var X Var X i i 1 n.Var ( X i )
n.(11
. . p 0.0. q ) p n. E ( X i2 ) ( E ( X i )) 2
2
n.( p p 2 )
n. p.(1 p)
X = B(n,p) est la fréquence absolue de A, mais la fréquence relative
X B ( n, p )
f n'est plus distribuée suivant une loi binomiale, mais
n
n
Statistiques
Page 8-2
Principales distributions
B(n, p) n. p
E( f ) E
p
n n
pq p.(1 p)
Var ( f ) 2 n
n
pq
p.(1 p)
n
n
A la lumière de l'expression de l'écart-type de f (sa dispersion), on peut dire que la
fréquence relative:
voit sa dispersion diminuer avec n
se disperse de moins en moins autour de p, la probabilité d'apparition de
l'événement, quand n augmente
voit sa dispersion divisée par 2, 10 ou k (toutes autres choses restant égales) si le
nombre d'observations est multiplié par 4, 100 ou k2
a une dispersion qui dépend de la probabilité d'apparition de l'événement A (avec
un maximum de 1/(2n) en p = 0.5)
a une moyenne de p
On peut rappeller les propriétés asymptotiques de la loi binomiale.
B(n, p) np n
N (0,1)
npq
Dans le même contexte que le point précédent, on peut s'intéresser au nombre
d'épreuves nécessaires pour que la fréquence absolue soit égale à k exactement: si on
appelle X ce nombre, alors parmi les observations 1, 2, .... (X-1) on a (k-l) fois
l'événement A et parmi les observations 1, 2, ..., X, on a k fois l'événement A.
On recherche le nombre d'échecs avant le k ième succès.
La loi de probabilité de X dépend de p et de k. L'expression analytique de cette loi
ne nous intéresse pas directement, mais
E( X ) k
p
Var ( X ) k .(1 p)
p2
Cette loi est appliquée à la statistique des accidents et des maladies, dans les
problèmes d'analyse des quantités d'individus d'une espèce donnée contenus dans un
échantillon, etc.
Souvent on ne connaît pas p, raison pour laquelle on monte une expérience pour en
déterminer la valeur.
Statistiques
Page 8-3
Principales distributions
La loi de Poisson décrit le nombre d'apparitions pendant une unité de temps d'un
événement
dont la réalisation ne dépend pas du nombre de réalisations passées et n'influe pas
sur les futures (il y a indépendance entre des intervalles disjoints)
les épreuves se déroulant dans des conditions stationnaires.
Cette loi est étudiée en détail au cours de probabilités, retenons ici son expression
analytique:
P[ X n] e .
n
n!
où est un paramètre,
E( X ) Var ( X ) X N (0,1)
Cette loi, dépendant d'un seul paramètre, décrit le nombre de pannes d'une chaîne ou
d'un système complexe par unité de temps (régime de croisière), le nombre
d'arrivées par unité de temps d'une station, les lois statistiques de sinistres, etc.
Souvent on réalise un montage expérimental pour déterminer .
Cette loi est capitale dans la théorie et la pratique des recherches statistiques. Son
rôle pratique peut être compris en se référant au théorème central limite qui permet
d'affirmer que, si une variable continue dépend d'un très grand nombre de facteurs
aléatoires indépendants dont l'action est très petite et de caractère additif, alors cette
variable suit une loi normale (voir cours de probabilité pour une formulation
rigoureuse de cette affirmation). Son rôle théorique découle du fait que la plupart
des statistiques utilisées sont (ou peuvent être approchées par) une somme de
variables aléatoires remplissant les conditions du théorème central limite.
L'expression analytique de la loi normale est:
1 x m 2
.
1
f ( x) .e 2 . 2
E X m
Var X 2
Statistiques
Page 8-4
Principales distributions
C'est une distribution unimodale, symétrique par rapport à m, de moyenne m et
d'écart-type . La loi normale dépend de deux paramètres: m et . Lorsque m=0 et
=l, on a parle de loi normale centrée et réduite.
Le théorème central limite nous dit que:
N (m, ) m
N (0,1)
La fonction de répartition de la loi réduite (x) = P[X x] est tabulée. Par
symétrie, il suffit de construire une table pour les valeurs positives de x ((-x) = 1 (x)). La fonction de répartition d'une loi normale non réduite F(x) se déduit de la
table par la relation:
( x m)
F ( x) (
)
La loi normale prend, avec une forte probabilité, des valeurs proches de sa moyenne,
ce qui s'exprime par la règle des 3 :
P X m 0.3173 3173%
.
P X m 2. 0.0455 4.55%
P X m 3. 0.0027 0.27%
Il est donc "très rare" (dans moins de 5% des cas) qu'une normale s'écarte de sa
moyenne de plus de 2 fois son écart-type et "exceptionnel" (dans moins de 0,3 % des
cas) qu'elle s'écarte de plus de 3 écarts-types.
Il existe des liens entre les lois normale et binomiale, ces liens sont vu au cours de
probabilités.
Une somme de normales indépendantes (ou non) est distribuée suivant une loi
normale; les moyennes s'additionnent, si les variables sont indépendantes, les
variances (attention pas les écart-types !!) s'additionnent.
La loi normale est très souvent utilisée dans des domaines divers: économie,
médecine, biologie, théories des erreurs, etc.
La loi normale est utilisée comme approximation de la loi chi-carrée, la loi t de
student, la loi binomiale et la loi de Poisson.
Une variable aléatoire positive X suit une loi log-normale si son logarithme
(népérien) suit une loi normale.
ln( X ) N (m, )
Statistiques
Page 8-5
Principales distributions
En d'autres termes, cette variable continue dépend d'un très grand nombre de
facteurs aléatoires indépendants dont l'action est très petite et de caractère
multiplicatif (l'action du facteur est proportionnelle à la valeur déjà prise par la
variable au moment de cette action).
L'expression analytique de cette loi ne nous intéresse pas ici, retenons:
que cette loi présente un seul mode
que le mode, la médiane et la moyenne se suivent dans cet ordre (dissymétrie
positive).
La loi log-normale dépend de deux paramètres: la moyenne et l'écart-type de la
variable normale.
La loi log-normale se rencontre en socio-économie, en physique des formations
cosmiques, dans l'étude de la durée de vie des équipements, etc.
Les lois "tronquées" se rencontrent assez souvent dans divers problèmes, ces lois
décrivent le comportement de populations "tronquées", c’est-à-dire dont on a retiré
tous les éléments en deça ou au-delà d'une certaine valeur x0. Cette situation peut se
décrire par une loi de Pareto dont la fonction de répartition est:
x F ( x) 1 0 x
où x > x 0
Le mode est en x0. Cette loi dépend de deux paramètres x0 et .
La loi exponentielle est la seule loi jouissant de la propriété suivante: la probabilité
que la variable soit comprise entre x et x+a sachant qu'elle est supérieure à x ne
dépend pas de x mais de a seulement. Par exemple, si cette variable modélise la
durée de vie d'un équipement, la distribution de la durée de vie de cet équipement au
delà de t sachant que cet équipement a fonctionné jusqu'en t est indépendante de t.
On appelle cette propriété “propriété d'oubli”.
La forme analytique de la densité de probabilité d'une exponentielle est:
f ( x) . e
avec
x0
0
Statistiques
x Page 8-6
Principales distributions
Cette distribution dépend d'un paramètre . On a aussi:
E( X ) 1
1
2
La distribution exponentielle décrit également la distribution de l'intervalle de temps
séparant la réalisation successive de 2 événements qui suivent une loi de Poisson.
Var ( X ) La loi exponentielle se rencontre dans l'étude des files d'attente, en fiabilité, etc.
Voir plus haut.
Cette loi apparaît naturellement dans l'étude de la distribution de probabilité de la
variance calculée sur un échantillon suivant une loi normale.
Donnons ici la définition de la loi Chi-carrée: la loi Chi-carrée à n degrés de liberté
est la loi d'une somme de n variables normales réduites indépendantes au carré.
n
( n ) N 2 (0,1)
i 1
Cette loi dépend d'un seul paramètre, le nombre de degrés de liberté.
2( x y ) 2( x ) 2( y )
Une somme de Chi-carrée est distribuée suivant une Chi-carrée, les degrés de liberté
s'additionnant.
Les quantiles de cette distribution sont tabulés (tables à double entrée: l'ordre du
quantile et le nombre de degrés de liberté).
L'expression analytique de la densité ne nous intéresse pas, retenons que;
E( n ) n
Var ( n ) 2n
Statistiques
Page 8-7
Principales distributions
Cette loi est unimodale et présente une dissymétrie positive.
30
2 n n
N ( 2n 1,1)
Pour n suffisamment grand, la variable
2 est approximativement normale de
2n 1 et d'écart-type 1 (approximation valable pour n > 30).
moyenne
Cette loi est liée à la distribution des écarts entre la moyenne théorique et la
moyenne calculée sur un échantillon issu d'une population normale.
N (0,1)
tn 2n
n
La définition est la suivante, la loi t de Student à n degrés de liberté est la
distribution du quotient d'une loi normale centrée réduite par la racine carrée d'une
Chi-carrée divisée par son degré de liberté n; normale et Chi-carrée étant
indépendantes.
Cette loi ne dépend que d'un seul paramètre n.
Les quantiles de cette distribution sont tabulés (table à double entrée: l'ordre du
quantile et le nombre de degrés de liberté).
L'expression analytique de la densité ne nous intéresse pas, retenons que:
E (t ) 0
Var ( t ) n
n 1
Cette loi est unimodale et symétrique par rapport à 0.
30
t n n
N (0,1)
Pour n suffisamment grand, la variable t est approximativement normale de
moyenne 0 et d'écart-type 1 (approximation valable pour n > 30).
!
!
Cette distribution est liée à la comparaison de deux variances.
n1
Fn1 ,n2 n1
n2
n2
Statistiques
Page 8-8
Principales distributions
La définition est la suivante, une loi F de Fisher à nl et n2 degrés de liberté est la
distribution du quotient de 2 Chi-carrées indépendantes à nl et n2 degrés de liberté
divisées par leurs degrés de libertés respectifs.
Cette loi dépend de 2 paramètres nl et n2.
Les quantiles de cette distribution sont tabulés (tables à triple entrée: l'ordre du
quantile et les 2 nombres de degrés de liberté).
L'expression analytique de la densité ne nous intéresse pas.
" ##
Rappelons comment calculer ce coefficient mesurant la dépendance entre 2 variables
ordinales (ou cardinales):
1e var
2e var
X1
X2
X3
.
.
.
Xi
.
.
.
Xn
Y1
Y2
Y3
.
.
.
Yi
.
.
.
Yn
Rs 1 Rangs
des X
RX1
RX2
RX3
.
.
.
RXi
.
.
.
RXn
Rangs
des Y
RY1
RY2
RY3
.
.
.
RYi
.
.
.
RYn
D² =
Diff. au
carré
(RX1-RY1)²
(RX2-RY2)²
(RX3-RY3)²
.
.
.
(RXi-RYi)²
.
.
.
(RXn-RYn)²
(RXi-RYi)²
6. D ²
n.(n ² 1)
Déterminons la distribution de probabilité de Rs en supposant que les deux variables
X et Y soient indépendantes.
Les valeurs possibles pour Rs se déduisent de celles des RXi et des RYi.
Les valeurs possibles pour les RXi sont les permutations des entiers 1,2,3, .... i, .... n;
toutes ces permutations sont équiprobables (les Xi sont indépendantes entre elles) et
comme on dénombre n! permutations, une configuration quelconque des RXi
1
apparaît avec la probabilité de
.
n!
Le même raisonnement peut se faire pour les RYi et en supposant que les Yi sont
indépendantes des Xi, la probabilité d'observer un couple quelconque de
1
configurations des RXi et des RYi est de
.
(n !) 2
Statistiques
Page 8-9
Principales distributions
Pour chacune de ces n!2 valeurs possibles pour les RXi et les RYi, on peut calculer la
valeur de Rs et en déduire ainsi sa distribution de probabilité.
On regroupe les différentes valeurs possibles et on affecte à chaque valeur une
probabilité. Mais on peut se montrer plus astucieux: en effet, la valeur de Rs ne
change pas si on permute les termes de la somme (RXi-RYi)2 . Pour dénombrer les
valeurs possibles de Rs, on peut donc se limiter au cas où RX1=1, RX2=2, ... ,
RXn=n.
Détaillons ces valeurs possibles dans le cas où n=2 (ce qui constitue un cas d'école,
dans la pratique il est très risqué de tirer des conclusions sur un échantillon de 2
observations!).
X
1
2
Cas possibles
pour Y
1
2
Différence des
rangs au carré
2
0
1
1
0
1
Valeurs du coeff. de Spearmann
1.00
-1.00
Donc Rs prend 2 valeurs +1 et -1 avec la même probabilité.
Statistiques
Page 8-10
Principales distributions
Passons au cas n=3.
X Cas possibles pour Y
1
1
2
3
3
1
2
2
1
1
2
3
3
3
3
2
1
2
2
3
1
Différence des rangs au carré
0
1
4
4
0
1
0
1
1
0
1
1
0
0
1
4
1
4
Valeurs du coeff. de Spearmann
1.00 0.50 -0.50 -1.00 0.50 -0.50
Donc Rs prend 4 valeurs distinctes : -1, -0.5, 0.5, +1 avec les probabilités de 1/6,
1/3, 1/3, 1/6.
Remarquons que Rs peut prendre la valeur +1 (-1) alors que les deux variables sont
indépendantes, ce cas est relativement rare (1 fois sur 6) mais possible.
C oe ff. d e c orréla tio n d e S p e arm a n
n =3
2.5
2
Probabilité
1.5
1
0.5
0
1
0.5
-0.5
-1
V aleu rs p o ssib les
Passons au cas n=4. En présentant les valeurs possibles pour RYi dans un tableau
semblable au précédent, on a:
1
2
3
4
2
1
3
4
3
1
2
4
3
2
1
4
1
3
2
4
2
3
1
4
4
1
2
3
4
2
1
3
4
3
1
2
Cas possibles pour Y
4
4
4 1 2
3
1
2 4 4
2
3
3 2 1
1
2
1 3 3
3
4
1
2
3
4
2
1
1
4
3
2
2
4
3
1
1
2
4
3
2
1
4
3
3
1
4
2
3
2
4
1
1
3
4
2
2
3
4
1
Différence des rangs au carré
9
9
9
9 0 1
4
4 0
1 0 1 4
4 0
1
1
1
1
0 4 4
4
4 4
4 0 1 1
0 1
1
4
1
0
0 1 4
4
1 0
0 1 1 1
1 1
1
4
9
4
9 1 1
4
9 4
9 1 1 4
9 4
9
Valeurs du coeff. de Spearmann
1.0 0.8 0.4 0.2 0.8 0.4 -0.2 -0.4 -0.8 -1.0 -0.4 -0.8 0.4 0.0 -0.6 -0.8 0.2 -0.4 0.8 0.6 0.0 -0.4 0.4 -0.2
0
0
0
0
1
1
0
0
4
1
1
0
Statistiques
4
0
4
0
0
1
1
0
1
1
4
0
9
1
1
1
9
0
4
1
Page 8-11
Principales distributions
Donc RS prend 12 valeurs distinctes: -1, -0.8, -0.6, -0.4, -0.2, 0, +0.2, +0.4, +0.6,
+0.8, +1 avec des probabilités de 1/24, 3/24=1/8, 1/24, 1/13, 2/24=1/12, 1/12, 1/12,
1/24, 1/8, 1/24.
Remarquons à nouveau que RS peut prendre la valeur +1 (-1) même si les variables
Xi et Yi sont indépendantes; ce cas est cependant rare: 1 fois sur 24, mais possible.
C oe ff. d e c orréla tio n d e S p e arm a n
n =4
4.5
4
3.5
Probabilité
3
2.5
2
1.5
1
0.5
0
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
V aleu rs p o ssib les
C oe ff. d e c orréla tio n d e S p e arm a n
n =5
12
10
Probabilité
8
6
4
2
0
1
0.90
0.8
0.70
0.6
0.50
0.4
0.30
0.2
0.10
0
-0.10
-0.2
-0.30
-0.4
-0.50
-0.6
-0.70
-0.8
-0.90
-1
V aleu rs p o ssib les
La distribution de probabilité de RS est tabulée pour différentes valeurs de n.
Statistiques
Page 8-12
Estimations: principes
9
On considère un échantillon de taille n, aléatoire et simple.
"Aléatoire et simple" signifie que les variables aléatoires sont:
indépendantes entres elles
de même distribution F(x,)
Prenons un exemple. Soit une population donnée; on s'intéresse à la taille moyenne
m. Supposons que la répartition des tailles individuelles soit normale de moyenne m
et d'écart-type connu . On prélève un échantillon de n individus. Comment estimer
m et comment donner une mesure de la précision de cette estimation?
Si on appelle Xi (i=1,2,...,n) les tailles observées, Xi est une réalisation d'une
variable normale de moyenne m et d'écart-type . En toute généralité, la distribution
n'est pas nécessairement normale; chaque valeur observée est la réalisation
(indépendante des autres valeurs) d'une variable aléatoire dont la densité de
probabilité est f(x,), où est un (ou plusieurs) paramètre inconnu.
( X 1 , X 2 ,..., X n ) estimateur de une variable alé atoire
La question abordée dans les chapitres qui suivent est celle de l'estimation de :
comment construire une fonction des observations (un estimateur) qui donne pour
tout échantillon une valeur "proche" de (l'estimation de est notée, ).
est le paramètre inconnu; il ne fluctue pas, c'est une constante. Généralement, on
monte une expérience en vue de l'estimer à partir des observations.
Toute fonction des observations ne convient pas pour estimer ; formulons des
critères que doivent remplir les estimations pour être sûres dans un certain sens.
$
Un estimateur de est convergent s'il tend stochastiquement vers la valeur à
estimer lorsque n tend vers l'infini, et ceci quel que soit :
Statistiques
Page 9-1
Estimations: principes
P n
0
En d'autres termes, le risque que l'estimateur ne s'écarte du paramètre inconnu de
plus de tend vers 0 lorsque le nombre d'observations tend vers l'infini.
Si la probabilité de commettre une erreur absolue de plus de ne tend pas vers 0
lorsque le nombre d'observations tend vers l'infini, cet estimateur n'a guère de sens
pratique.
Mais cette propriété est asymptotique: elle ne joue que pour des échantillons de très
grande taille. Cette propriété n'est pas suffisante à elle seule.
$
On dit qu'un estimateur est sans biais si, pour tout n, l'espérance théorique de cet
estimateur est égale à la valeur inconnue du paramètre:
E( ) fluctue autour de .
Si on calcule plusieurs fois l'estimateur sur des échantillons différents, la moyenne
des estimateurs est généralement égale à .
Attention
estimateur paramètre inconnu
variable aléatoire constante
L'absence de biais élimine (en moyenne) l'erreur systématique d'estimation qui,
d'une manière générale, dépend de n et qui, en cas de convergence de l'estimateur,
tend vers 0 lorsque n tend vers l'infini.
Le biais d'un estimateur est:
b( ) E ( ) $
##
La dispersion d'un estimateur autour de la valeur inconnue du paramètre est une
donnée importante; en général, on mesure cette dispersion par:
E ( ) 2 D 2 ( ) 2 ( )
(pour un estimateur non biaisé, il s'agit de la variance de ).
Statistiques
Page 9-2
Estimations: principes
On dit qu'un estimateur est efficace si la mesure de dispersion 2( ) de cet
estimateur est plus petite que celle de tout autre estimateur de .
La variance théorique de l'estimateur (la dispersion de l'estimateur autour du
paramètre inconnu) doit être minimale parmi tous les estimateurs possibles.
On peut montrer que, sous des conditions de régularité, il existe un estimateur
efficace (ou asymptotiquement efficace).
Construire un estimateur convergent, non biaisé et efficace n'est pas simple.
Il existe plusieurs méthodes d'estimation. La méthode du maximum de
vraisemblance fournit dans les cas réguliers des estimations convergentes, non
biaisées et efficaces.
La démarche est la suivante.
%
On détermine la fonction de vraisemblance L, c'est-à-dire la probabilité d'observer
l'échantillon que l'on a sous les yeux.
n
L( X 1 , X 2 ,..., X n ; ) ( fX i ; )
i 1
f ( X 1 ; ). f ( X 2 ; )...( fX n ; )
Dans L, les Xi sont connus (ce sont les valeurs observées) et est le paramètre
inconnu.
Dans le cas continu, il s'agit du produit des densités de probabilité.
Dans le cas discret, il s'agit de la loi de probabilité.
"
%
Regardant L comme fonction de seulement, on prend pour estimation de la
valeur qui rend L, la vraisemblance maximale c'est-à-dire l'échantillon le plus
probable, le plus vraisemblable.
max L( ) L( )
Comme L ou ln(L) atteignent leur extremum pour la même valeur de , on travaille
de préférence avec le ln(L) car il est souvent plus facile à calculer.
Dans les cas réguliers, on sait que la recherche d'un extremum revient à trouver la
valeur qui annule la dérivée première du ln(L):
Statistiques
Page 9-3
Estimations: principes
d ln( L)
tel que:
d
df ( Xi , )
0
d
On remarque qu'il faut connaître l'expression analytique de f; cette connaissance
n'est pas nécessaire pour toutes les méthodes d'estimation, comme pour la méthode
des moindres carrés par exemple.
Le but recherché est de prévoir, maîtriser le phénomène "montant annuel des
dommages dus aux catastrophes naturelles".
Il y a 2 étapes à considérer:
la fréquence des catastrophes naturelles (nb de catastrophes/an)
le montant des dommages dus aux catastrophes naturelles (nb de F/catastrophe)
Les données:
Année
1983
1987
1989
1990
1990
1990
1990
1991
1991
1992
1992
1993
1993
1994
1995
1995
1995
1995
1996
Evénements
Cyclone Alicia
Tempête d'hiver
Cyclone Hugo
Tempête Daria
Tempête Herta
Tempête Vivian
Tempête Wiebke
Typhon Mireille
Incendie Oakland
Cyclone Andrew
Ouragan Iniki
Blizzard
Inondations
Séisme
Séisme
Orage de grèle
Ouragan Luis
Ouragan Opal
Ouragan Fran
Dommages
(mia $)
1.3
3.1
4.5
5.1
1.3
2.1
1.3
5.2
1.7
20
1.6
1.8
1.0
12.5
3.0
1.1
1.5
2.1
1.6
#& Le nombre de catastrophes est bien décrit par une distribution de Poisson.
Statistiques
Page 9-4
Estimations: principes
n
P ( X n) e .
n!
Il faut estimer sur base des observations.
$
'
Quelle est la fonction du maximum de vraisemblance?
Quelle est la probabilité d'obtenir l'échantillon?
X1 = nb de catastrophes en 1983
X2 = nb de catastrophes en 1984
...
X14 = nb de catastrophes en 1996
L P( X 1 ; ). P( X 2 ; )... P( X 14 ; )
e .
X1 X 2
Xn
.e .
... e .
X1 !
X2 !
Xn !
X 1 X 2 ... X n e n . . X 1 ! X 2 !... X n !
$
(
On recherche le maximum de ln(L).
n. X 1 X 2 ... X n ln( L) ln e . X 1 ! X 2 !... X n !
n. ( X 1 X 2 ... X n ).ln( ) ln( X 1 ! X 2 !... X n !)
Le maximum de ln(L) se trouve au point où sa dérivée première par rapport à s'annule.
d ln( L)
0
d
n ( X 1 X 2 ... X n ).
1
0
n ( X 1 X 2 ... X n ).
1
n ( X 1 X 2 ... X n ).
X X 2 ... X n
1
n
1
Dans notre exemple:
Nb
Statistiques
Fréq. abs.
Nb total
Page 9-5
Estimations: principes
catastrophes
par an
obs.
0
1
2
3
4
5
catastrophes
4
5
3
0
2
0
0
5
6
0
8
0
19
nb. total. catastrophes
nb. anné es
19
14
135
.
En moyenne, il y a 1,35 catastrophes par an.
Nombre de catastrophes
0.400
0.350
Fréquences relatives (%)
0.300
0.250
Fréq. rel. obs.
Fréq. rel. théor.
0.200
0.150
0.100
0.050
0.000
0
1
2
3
4
5
Nb. de catastrophes par an
Nous verrons plus loin si les différences entre les fréquences observées et théoriques
sont significatives au point de remettre en question la loi de Poisson.
Le montant des dommages est bien modélisé par une loi de Pareto:
Statistiques
Page 9-6
Estimations: principes
x F ( x; ) 1 0 x
1 x 0 . x avec:
x0
x
le paramètre à estimer
1 milliard de $
le montant des dommages
dF ( x; )
dx
0 . x 0 . x 1 .( 1)
1
. x 0 11 . 1
x
1
. x 0 1 . x 01 . 1
x
f ( x; ) x . 0 x0 x 1
$
'
L'expression de la fonction du maximum de vraisemblance est:
x L . 0 x0 x1 1
x . . 0 x0 x2 1
x ... . 0 x0 xn 1
x n.( 1)
. 1 0 1 1
x0 x1 . x2 ... xn
ln( L) n.ln( ) ln( x0 ) n.( 1).ln( x0 ) ( 1).ln( x1 ) ( 1).ln( x2 ) ... ( 1).ln( xn )
n.
$
(
On recherche le maximum de ln(L)
d ln( L) n
0 n.ln( x 0 ).1 ln( x1 ) ln( x 2 ) ... ln( x n )
d
n
ln( x1 ) ln( x 2 ) ... ln( x n ) n.ln( x 0 )
n
ln( x1 ) ln( x 2 ) ... ln( x n ) n.ln( x 0 )
n
x x x ln 1 ln 2 ... ln n x0 x0 x0 Dans notre exemple:
Statistiques
Page 9-7
Estimations: principes
Montants (mia $)
ln($/x0)
1.0
1.1
1.3
1.5
1.6
1.7
1.8
2.1
3.0
3.1
4.5
5.1
5.2
12.5
20.0
Fréq. abs. obs.
0.0
0.1
0.3
0.4
0.5
0.5
0.6
0.7
1.1
1.1
1.5
1.6
1.6
2.5
3.0
Ln($/x0)* fréq. abs.
1
1
3
1
2
1
1
2
1
1
1
1
1
1
1
0.00
0.10
0.79
0.41
0.94
0.53
0.59
1.48
1.10
1.13
1.50
1.63
1.65
2.53
3.00
17.36
n
x x x ln 1 ln 2 ... ln n x0 x0 x0 19
17.36
1.094
Distribution du montant d'une catastrophe
(Loi de Pareto)
1.200
Fréquences relatives cumulées (%)
1.000
0.800
Fréq. rel. cum. obs.
Fréq. rel. cum. théor.
0.600
0.400
0.200
0.000
0.0
5.0
10.0
15.0
20.0
25.0
Montant (mia $)
Statistiques
Page 9-8
Estimations: principes
!
On considère une fonction d'expression analytique connue: (x,), où x est
l'argument et un (ou plusieurs) paramètre inconnu, par exemple (x,) = l +
2.x.
Supposons qu'à l'issue de la i ième expérience on observe la valeur Yi de la fonction
(Xi,) avec une erreur aléatoire Ei (inconnue) et avec une valeur connue de la
variable auxiliaire Xi.
La méthode des moindres carrés donne pour estimation la valeur qui minimise la
somme des carrés des écarts SCE:
SCE = (Yi - (Xi,) )2
"
Une estimation ponctuelle de ( ) n'est pas suffisante: il n'y a aucune raison pour
que = ; si l’estimateur est non biaisé, l'égalité est réalisée en moyenne, si
l'estimateur est efficace, fluctue (est dispersé) le moins possible autour de , s'il
est convergent, cette fluctuation diminue avec n. On préfère alors donner une
"fourchette" encadrant , donner un intervalle [1, 2] contenant . Cependant il est
impossible de donner un intervalle qui contienne avec certitude; au mieux on peut
donner un intervalle qui contient avec un forte probabilité fixée à priori et égale à
1- ( petit : 10%, 5%, ou 1%). 1- est appelé le degré de confiance et l'intervalle
de confiance au niveau .
Statistiques
Page 9-9
Population normale
10
#
Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale de
moyenne m inconnue et d'écart-type connu; c’est-à-dire que X1, X2, ..., Xn sont des
variables aléatoires normales indépendantes et identiquement distribuées suivant une
loi normale de moyenne m inconnue et d'écart-type connu .
Comment estimer m, quelle est la précision de cette estimation et comment
construire un intervalle de confiance au niveau ?
$
Construisons l'estimateur du maximum de vraisemblance de m.
$
'
La fonction de vraisemblance L(X1,X2,...,Xn;) est:
n
L ( f ( X i ; ))
i 1
1 X i m 1
.
.e 2 i 1 . 2
2
n
1 X 1 m 2
.
1
.e 2 . 2
1
n
1 X 2 m .
1
.
.e 2 . 2
Xi m 1 2 .
. e i 1
. 2 n
2
1 X n m 2
.
1
...
.e 2 . 2
2
Le logarithme de L est:
n
1 n Xi m 1 ln L ln
. 2 . 2 i 1 n.ln
Statistique
2 n.ln 2
n
1
.
Xi m2
2
2. i 1
Page 10-1
Population normale
$
(
On doit trouver la valeur de m qui rend L maximum ou qui annule la dérivée
première du logarithme de L:
1 n
ln( L)
.
Xi m2 2
m
2. m i 1
1 n
. 2.( Xi m).( 1)
2. 2 i 1
n
1
.(
2
).
( Xi m)
2. 2
i 1
1 n
. ( Xi m)
2 i 1
On en déduit que la valeur m (1'estimateur recherché) de m qui annule la dérivée
première est:
1 n
. ( Xi m) 0
2 i 1
n
( Xi m) 0
i 1
n
( Xi ) n.m 0
i 1
n
n. m Xi
i 1
n
m Xi
i 1
n
X
m est-il biaisé ? Cet estimateur est non biaisé en effet:
Statistique
Page 10-2
Population normale
n
Xi E ( X ) E i 1 n 1 n
. E ( Xi )
n i 1
1 n
. m
n i 1
1
. nm
n
m
m est-il convergent ? On sait qu'une somme de normales indépendantes est encore
une normale dont la variance est la somme des n variances ²; donc m est normale
. m est donc convergent (ce résultat se généralise:
de moyenne m et d'écart-type
n
voir cours de probabilité).
On peut montrer que m est efficace.
)
#
Soit u
(1 )
2
le quantile d'ordre (1 ) d'une loi normale réduite.
2
Un intervalle de confiance pour m au niveau est donné par :
IC ( ) X u1 .
; X u1 .
2
2
n
n
Vérifions cette affirmation:
P X u1 .
m X u1 .
2
2
n
n P u1 .
X m u1 . 2
2
n
n
X m
P u1 u1 2
2
n
P u1 N (0,1) u1 2
2
1
Commentons l'expression de cet intervalle de confiance.
Statistique
Page 10-3
Population normale
Il est centré sur X , la moyenne de l'échantillon.
La longueur de l'intervalle de confiance est proportionnelle à , la dispersion du
phénomène étudié; cela est conforme à l'intuition: toutes autres choses restant
égales, si le phénomène étudié est très dispersé, l'intervalle de confiance est plus
grand que si le phénomène étudié est très peu dispersé autour du paramètre
inconnu.
La longueur de l'intervalle de confiance est inversement proportionnelle à n; cela
est conforme à l'intuition: plus le nombre d'observations est grand, plus grande
est la précision qu'on peut espérer (au même niveau , c’est-à-dire avec le même
risque d'erreur).
Si on veut diminuer la longueur de l'intervalle de confiance (en prenant le même
risque d'erreur, c’est-à-dire en gardant le même ) on peut augmenter n; mais
pour diminuer par 2 (par k) cette longueur, il faut multiplier par 4 (par k2) le
nombre d'observations.
Plus le risque d'erreur est petit, plus long est l'intervalle de confiance: si diminue, u augmente.
(1 )
2
$
##
La moyenne observée vaut 15.1; il y a 10 observations; on sait que vaut 0.70; on
choisit un niveau de confiance 0.95 (un risque d'erreur de 5%) ; on a
X 15,1
n 10
0,70
u1 1,960
2
0,70
1,960.
0,43386
2
n
10
m 15,10 0,43
u1 .
l'intervalle est donc:
IC 14,67;15,53
$
#
Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale de
moyenne m inconnue et d'écart-type inconnu; c’est-à-dire que X1, X2, .... Xn sont
des variables aléatoires normales, indépendantes et identiquement distribuées
suivant une loi normale de moyenne inconnue et d'écart-type inconnu. Comment
estimer m et , quelle est la précision de ces estimations et comment construire un
intervalle de confiance au niveau pour m et ?
Statistique
Page 10-4
Population normale
$
Construisons les estimateurs du maximum de vraisemblance de m et de $
'
Pour rappel, le logarithme de L est:
Ln( L) n.ln
2 n.ln n
1
2
.
Xi m
2 2. i 1
$
(
On doit trouver les valeurs de m et de qui rendent L maximum ou qui annulent les
dérivées premières du logarithme de L par rapport à m et :
Ln( L)
0
m
on en déduit que la valeur m (1'estimateur recherché) de m qui annule la dérivée
première est:
m 1 n
. Xi X
n i 1
Pour la dérivée par rapport à :
n
Ln( L) n 1
.( 2). 3 . ( Xi X ) 2
2
i 1
n 1 n
3 . ( Xi X ) 2
i 1
n
1 n
3 . ( Xi X ) 2
i 1
n
1 n
. ( Xi X ) 2
2 i 1
on en déduit que l'estimateur recherché est:
1 n
2 . ( Xi X ) 2 s 2
n i 1
2
s est la variance calculée sur l'échantillon.
On démontre le résultat suivant:
Statistique
Page 10-5
Population normale
X est distribuée suivant une loi normale de moyenne m et d'écart-type
n
X N m,
n
ns²/² est distribué suivant une loi chi-carrée à n-1 degrés de liberté
n. s2
n 1
2
X et s² sont indépendants
Les propriétés suivantes découlent de ce résultat.
'
X est un estimateur non biaisé et convergent.
(
s², la variance biaisée calculée sur l'échantillon, est estimateur biaisé de ², la
variance de la population.
En effet: l'espérance d'une chi-carrée à n-1 degrés de liberté est égale à n-1, donc
(n 1)
l'espérance de ns²/² est n-1 et l'espérance de s² est ² .
(< ² ).
n
E n 1 n 1
donc
n. s 2 E 2 n 1
n
. E (s2 ) n 1
2
n 1 2
E (s2 ) .
n
s *2 n
. s2
n 1
Le biais de ² est connu:
n 1
( ! 1)
n
s2 sous-estime 2.
s*2 est la variance non-biaisée calculée sur l'échantillon.
Statistique
Page 10-6
Population normale
s*2 n
. s2
n 1
n
( X
n i
.
n 1
n
( X
i 1
i
i
m) 2
1
n
m) 2
n 1
*
s² est convergent.
)
#
Soit t ( n 1;1
2
)
le quantile d'ordre 1-/2 d'une distribution t à n-1 degrés de liberté; un
intervalle de confiance au niveau est donné par:
s
s ; X t ( n 1;1 ) X t ( n 1;1 2 ) 2
n 1
n 1
Vérifions cette affirmation.
Statistique
Page 10-7
Population normale
s s
P X t( n 1;1 ) .
m X t( n 1;1 ) .
2
2
n 1
n 1 s
s P t( n 1;1 ) .
X m t( n 1;1 ) .
2
2
n 1
n 1 n 1
P t( n 1;1 ) ( X m).
t( n 1;1 ) 2
2
s
n 1 n
P t( n 1;1 ) ( X m).
.
.
t( n 1;1 ) 2
2
s
n ( X m) n 1
P t( n 1;1 ) .
t( n 1;1 ) 2
2
s n
n
( X m) n 1
P t( n 1;1 ) t( n 1;1 ) .
2
2 n. s2
2
n
n 1
t
P t( n 1;1 ) N (0,1).
( n 1;1 )
2 2
2n 1
N (0,1)
t
P t( n 1;1 ) ( n 1;1 2 )
2
2
n 1
n 1
P t( n 1;1 ) tn 1 t( n 1;1 ) 2
2 1
Le numérateur
X m
est distribué suivant une loi normale réduite.
n
Le
ns ²
² est la racine d'une chi-carrée divisée par son degré de liberté.
dénominateur
n 1
Le numérateur et le dénominateur sont indépendants, le quotient est donc une t de
Student à n-1 degrés de liberté.
s
s IC X t( n 1;1 ) .
; X t( n 1;1 ) .
2
2
n 1
n 1 s*
s* X t( n 1;1 ) .
; X t( n 1;1 ) . 2
2
n
n
Statistique
Page 10-8
Population normale
En effet
n
. s2
n 1
*2
s
s2
n
n 1
*
s
s
n
n 1
s*2 Quand on passe d'une normale de connu vers une normale de inconnu, on
remplace:
u1 t( n 1;1 )
2
2
s
*
)
#
+
Soit t n 1; et t n 1;1
2
2
les quantiles d'ordre /2 et 1-/2 d'une loi chi-carrée à n-1
degrés de liberté; un intervalle de confiance au niveau pour 2 est donné par
n. s2
n. s2 ;
tn 1;1 tn 1; 2
2
Vérifions cette affirmation.
n. s2
n. s2 2
P
tn 1; tn 1;1
2
2
1
1 2
P
n. s2 tn 1; tn 1;1
2
2 1
1 n. s2
P
2 tn 1;1 tn 1;
2
2 1 $
##
La moyenne observée vaut 15.1 et la variance observé (s²) vaut 0,7; il y a 10
observations; on choisit un niveau de confiance 0,95 (un risque d'erreur de 5%); on a
t ( n 1;1 ) t ( 9;0.025) 2,262
2
t ( n 1;1
2
)
Statistique
0,7
s
2,262 0,63084
9
n 1
Page 10-9
Population normale
l’intervalle est donc:
[14.47, 15.73]
Statistique
Page 10-10
Estimation d'une proportion
11
On s'intéresse à l'estimation de la proportion p d'individus d'une population
présentant une certaine caractéristique. Pour chacun des n individus de l'échantillon,
on appelle Xi (i = 1,2,...,n) l'indicateur de la caractéristique: Xi=l si et seulement si
l'individu i la présente. Xi = l avec la probabilité p.
Le nombre total Y (= E (Xi)) d'individus de l'échantillon qui présentent la
caractéristique est distribué suivant une loi binomiale de paramètres n et p.
L'estimateur "évident" de p est Y/n (la fréquence relative); retrouvons cet estimateur
en appliquant la méthode du maximum de vraisemblance.
$
'
La fonction de vraisemblance est:
L( y; p) "Y y C yn . p y .(1 p) ( n y )
où C(n,y) est le coefficient binomial.
$
(
Recherchons le maximum de L(y;p) (ou de son logarithme) par rapport à p
Statistiques
Page 11-1
Estimation d'une proportion
ln( L) ln( C) y.ln( p) ( n y ).ln(1 p)
dLn( L) y n y
dp
p 1 p
0
y n y
p 1 p
y.(1 p ) p .(n y )
y y. p p . n y. p
y p . n
y
p n
Donc l'estimateur du maximum de vraisemblance est la fréquence relative observée.
La fréquence relative est un estimateur:
non biaisé
E ( y ) n. p
E ( p ) p
n
n
convergent car la fréquence relative observée converge vers la fréquence
théorique
y
E p
n
efficace
"
p.(1 p) p n
N p;
n
L'expression analytique de la distribution de Y/n est connue (elle dépend de p)
Comme l'écart-type dépend du paramètre inconnu, on effectue une transformation en
utilisant la propriété suivante:
1 1 g ( x ) 2.arcsin p N 2.arcsin p ;
N g ( p);
n
n
x
h( x ) g 1 ( x ) sin 2
2
Remarque: les arguments des fonctions trigonométriques sont exprimés en radians.
Statistiques
Page 11-2
Estimation d'une proportion
Soit u1 le quantile d'ordre 1-/2 d'une distribution normale réduite
2
y u1 2
n
n
y u1 2
z 2 2.arcsin
n
n
z
z IC sin 2 1 ; sin 2 2 2
2
z1 2.arcsin
est un intervalle de confiance au niveau (approché) pour p.
Vérifions cette affirmation.
z
z P sin 2 1 ! p ! sin 2 2 2
2
Ph( z1 ) ! p ! h( z 2 )
P g (h( z1 )) ! g ( p) ! g (h( z 2 ))
P z1 ! g ( p) ! z 2 y u1 2
y u1 2 P 2.arcsin ! g ( p) ! 2.arcsin n
n
n
n u1 y u1
y
2
2
P g ! g ( p) ! g n
n
n n u1 u1
y
2
2
P ! g g ( p) ! n
n
n y
g g ( p)
n
P u1 !
! u1 1
2
2
n
P u1 ! N (0,1) ! u1 2
2
1
!""
72% des personnes d'un échantillon de 50 présentent une caractéristique; on choisit
un niveau de 5%.
Statistiques
Page 11-3
Estimation d'une proportion
n 50
y
0.72
n
196
.
.
174921
50
196
.
z 2 2.arcsin 0.72 2.30358
50
.
174921
h( z1 ) sin 2
0.589
2
2.30358
h( z 2 ) sin 2
0.834
2
L'intervalle de confiance est donc
[58.9 %; 83.4 %]
z1 2.arcsin 0.72 Il existe des abaques donnant des intervalles de confiance au niveau "exacts"
(non asympotiques)
L'intervalle de confiance est approché, dans la pratique l'approximation est
valable pour n>36
Un autre intervalle de confiance (approché) au niveau est obtenu en utilisant
l'approximation normale de la binomiale
p u1 2
p .(1 p )
; p u1
2
n
p .(1 p ) n
où p est la fréquence relative observée.
Statistiques
Page 11-4
Estimation de la différence entre 2 moyennes
12
""
%&
On dispose de 2 échantillons, X1,X2, ...., Xnl et Y1,Y2, ... Yn2,
indépendants
issus de 2 populations normales de moyennes ml et m2 inconnues
de même écart-type inconnu
On désire estimer la différence entre ml et m2 (m1-m2).
Les résultats suivants se déduisent du résultat fondamental concernant la distribution
et l'indépendance de XBAR et s²:
XBAR1 (moyenne échantillon du premier échantillon) est distribué suivant une
loi normale de moyenne ml et d'écart-type
n1
XBAR2 (moyenne échantillon du deuxième échantillon) est distribué suivant une
loi normale de moyenne ml et d'écart-type
n2
( n1 * s1² n2 * s2² )
est distribué suivant une loi chi-carrée à nl+n2-2 degrés de
²
liberté où sl et s2 sont les écarts-types observés du premier et du deuxième
échantillon
XBAR1, XBAR2, (nl S1² + n2 s2²) sont indépendants
De ces résultats, on déduit facilement que le rapport:
n1 n2 2 ( X 1 X 2) (m1 m2)
*
est distribué suivant une loi t de Student à
1
1
n1 * s1² n2 * s2²
n1 n2
nl+n2-2 degrés de liberté.
Statistiques
Page 12-1
Estimation de la différence entre 2 moyennes
"
'
Soit t le quantile d'ordre 1-/2 de la distribution de Student à nl+n2-2 degrés de
liberté; un intervalle de confiance au niveau pour ml-m2 est donné par:
( X X ) t n s 2 n s 2
2
1 1
2 2
1
1
1
n1 n2
n1 n2 2
,( X 1 X 2 ) t n1 s12 n2 s22
1
1 n1 n2 n1 n2 2 !""
Le premier échantillon est : 12, 5, 14, 3, 10, 9, 8, 11, 16.
Le deuxième échantillon est : 219 19, 18, 8, 14, 12, 20, 13, 11, 15
On choisit un niveau de 5%.
On a
n1 = 9
n2 = 10
n1+n2-2 = 17
XBAR1= 9.778, s1² = 15.06
XBAR2 = 15.1, s2² = 16.49
XBAR1-XBAR2 = -5.322
t 9 10 2;0,975 2,110
t n1 s12 n2 s22
1
1
n1 n2
n1 n2 2
2,11 17,33 0,1114 4,07
l'intervalle de confiance est donc:
-5.322 + 4.07
[-9.392 -1.2521]
Statistiques
Page 12-2
Test d'hypothèses: principes
13
( !&!$
Dans certains cas, plutôt que d'estimer des paramètres inconnus sur base d'un
échantillon, on préfère émettre une hypothèse concernant la population ou le
phénomène étudié, et ensuite, vérifier dans quelle mesure cette hypothèse est
confirmée ou infirmée par les faits.
Les exemples sont multiples:
telle variable sociologique influence-t-elle les résultats scolaires ?
le nombre de fonctionnaires masculins et féminins de tel niveau est-il le même ?
tel traitement influence-t-il le comportement de tels animaux étudiés ?, ...
On remarque que l'hypothèse émise amène à une réponse non quantitative, du type
"oui/non"., soit l'hypothèse est confirmée soit elle est infirmée.
Remarque: les tests d'hypothèses sont normalement réalisés avant l'estimation
)&!$
#
'!&!$
L'hypothèse émise est appelée hypothèse nulle.
La négation de cette hypothèse est appelée contre-hypothèse.
Le travail théorique du statisticien consiste à mettre au point une procédure appelée
test statistique, ou test d'hypothèses; en suivant les directives de calcul de ce test
d'hypothèse, le statisticien déclare le rejet (noté RH0) ou l'acceptation (notée AH0)
de l'hypothèse nulle.
Statistiques
Page 13-1
Test d'hypothèses: principes
$$
$
Rejeter l'hypothèse nulle (RH0) comporte un risque: celui de rejeter comme fausse
une hypothèse qui est vraie dans la réalité des faits mais qui, sur base de
l'échantillon recueilli, semble déraisonnable.
Ce risque est appelé le risque de première espèce et est mesuré par la probabilité de
commettre l'erreur (appelée erreur de première espèce) de rejeter une hypothèse
vraie. Cette probabilité est notée .
Accepter l'hypothèse nulle (AH0) comporte un risque: celui d'accepter comme vraie
une hypothèse qui est fausse dans la réalité des faits mais qui, sur base de
l'échantillon recueilli, semble raisonnable.
Ce risque est appelé le risque de deuxième espèce et est mesuré par la probabilité de
commettre l'erreur (appelée erreur de deuxième espèce) d'accepter une hypothèse
fausse. Cette probabilité est notée #.
Exemple: H0: "est atteint d'une maladie incurable et mortelle"
Erreur de 1e espèce: on lâche un infectieux dans la nature
Erreur de 2e espèce: la personne n'est en fait pas malade
On peut résumer les erreurs dans le tableau suivant:
décision
de
RH0
décison de AH0
H0 est vraie
erreur
de
espèce
pas d'erreur
1e
H0 est fausse
pas d'erreur
erreur
espèce
de
2e
Les probabilités correspondantes sont:
décision de RH0
décision de AH0
H0 est vraie
1-
H0 est fausse
1-#
#
On souhaite que les 2 risques ( et #) soient petits; mais en général il n'est pas
possible de les contrôler tous les deux simultanément. La convention adoptée est de
majorer qui est appelé le niveau du test et de choisir une procédure qui, si
possible, minimise #. On choisit pour une petite valeur de l'ordre de 10%, 5%,
1%. Le risque de lère espèce est donc contrôlé (il est au plus égal au niveau du test),
le risque de 2ème espèce est, au mieux, le plus petit possible.
La puissance du test est définie comme étant égale à 1-# (en général c'est une
fonction): plus la puissance du test est élevée, plus la probabilité de RH0 une
hypothèse fausse est grande et "meilleure" est la procédure choisie.
Statistiques
Page 13-2
Test sur une proportion
14
(
( !&!$
Testons l'hypothèse nulle suivante: "la proportion d'individus présentant une
caractéristique donnée est égale à 1/2.
Un test d'hypothèse au niveau consiste à RH0 ssi
u1 2
RH0 ssi 2.arcsin f 2
n
où f est la fréquence relative observée et u(l-/2) le quantile d'ordre 1-/2 de la loi
normale centrée réduite.
Vérifions cette affirmation; nous devons vérifier que le test est au niveau , ou que
le risque de lère espèce est , ou que la probabilité de rejeter l'hypothèse nulle alors
qu'elle est vraie vaut :
u1 2 P RH 0 H 0. vraie P 2.arcsin f 2
n u1 2 1 P 2.arcsin f !
2
n u1 u1
2
2
P
.arcsin
f
1
2
!
!
2
n
n u1 u1
1
2
2
1 P ! 2.arcsin f 2.arcsin
!
2
n
n 1
2.arcsin f 2.arcsin
2 ! u
1 P u1 !
1 2
1
2
n
Si H0 est vraie
Statistiques
Page 14-1
Test sur une proportion
1 1 2.arcsin f N 2.arcsin
;
2 n
Donc,
P RH 0 H 0. vraie 1 P u1 ! N (0,1) ! u1 2
2
1 (1 )
11
Exemple chiffré
Sur 82 naissances annuelles, il y a 37 chiots mâles et 45 femelles. La probabilité
d'une naissance mâle est-elle la même que celle d'une naissance femelle?
2.arcsin
u1
n
2
37 1473
.
1571
.
0.098 0.098
82 2
196
.
0.216
82
Comme la valeur calculée est inférieure à la valeur tabulée, on ne rejette pas
l'hypothèse nulle.
Un calcul simple permet d'évaluer la puissance du test précédent: la puissance du
test (notée ici PUIS) est la Proba[RH0 alors que H0 est fausse]. Si H0 est fausse,
c'est que le pourcentage n'est pas de 1/2 mais p; la puissance est une fonction de p:
PUIS(p).
Un calcul explicite donne:
Statistiques
Page 14-2
Test sur une proportion
P RH 0 H 0. fausse Puissance( p, n)
u1 2 P 2.arcsin f 2
n u1 2 1 P 2.arcsin f !
2
n u1 u1
2
2
1 P ! 2.arcsin f ! 2
n
n u1
u1 2 2
1 P
! 2.arcsin f ! 2
n
n 2
u1 u1 2.arcsin f 2.arcsin p
2 2 !
! n . 2.arcsin p 1 P n . 2.arcsin p 1
2
2
n
n
n
1 P n . 2.arcsin p u1 ! N ( 0,1) ! n . 2.arcsin p u1 2
2
2
2
1 n . 2.arcsin p u1 n . 2.arcsin p u1 2
2
2
2
où u est le quantile d'ordre 1-/2 d'une loi normale réduite et $ sa fonction de
répartition.
On remarque que la puissance dépend de n également: PUIS(p;n).
P uissan ce d u test sur u ne pro po rtion
100%
90%
80%
Puissance=P[RH0|H0 faux]
70%
30
40
50
100
200
500
60%
50%
40%
30%
20%
10%
0%
0.00
0.20
0.40
0.60
0.80
1.00
1.20
V aleu r d u p aram ètre in co n n u p
Statistiques
Page 14-3
Test sur une proportion
La connaissance de PUIS(p;n) permet de répondre à 2 questions:
"Si p=p0, quel est le nombre d'observations nécessaires pour rejeter l'hypothèse
nulle avec une forte probabilité de A ?"
Pour répondre à cette question, il suffit de résoudre l'équation en n:
PUIS(p0;n) = A.
Par exemple, si p0=0.25 et A=0.851, on trouve n=33. En d'autres termes, si on
veut rejeter l'hypothèse nulle presque sûrement (avec une probabilité de 0.851) si
la proportion est de 0.25, il faut au moins 33 observations.
2ème question: "Si on a n0 observations, quelle est la valeur de p qui conduit au
rejet avec une forte probabilité de A?".
Pour répondre à cette question, il suffit de résoudre l'équation en p:
PUIS(p;n0) = A.
Par exemple, si N=1000 et A=0.851, on trouve p=0.453. En d'autres termes, avec
1000 observations on rejette presque sûrement (avec une probabilité de 0.851)
l'hypothèse nulle si p=0.453
Statistiques
Page 14-4
Test d'égalité de 2 moyennes
15
( %
&
!
,
Les conditions d'application sont les suivantes:
2 populations indépendantes
la première population est distribuée suivant une loi continue quelconque de
moyenne ml (inconnue) et la deuxième est distribuée suivant la même loi mais
éventuellement translatée d'une quantité % inconnue.
Sur base d'un échantillon de taille nl issu de la première population et d'un
échantillon de taille n2 issu de la deuxième, on veut tester l'hypothèse nulle "%=0".
$
Considérons l'exemple suivant. On a mesuré la taille de 10 personnes d'un groupe
social donné A et la taille de 10 personnes d'une population de référence B.
Rangeons par ordre croissant les 20 mesures effectuées (seuls la dénomination du
groupe et le rang qu'occupe la mesure sont repris)
Populations
A
A
A
A
A
A
A
B
A
A
B
A
B
B
Statistiques
Rangs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Page 15-1
Test d'égalité de 2 moyennes
Populations
B
B
B
B
B
B
Rangs
15
16
17
18
19
20
Si, une fois groupés, les individus du groupe A occupent en général les rangs faibles
(ou élevés), on peut douter de l'hypothèse nulle "%=0". Pour déterminer si les
individus de l'échantillon A occupent en général les rangs faibles (ou élevés),
comptons pour chaque individu de la population A, le nombre d'individus de la
population B qui le précédent:
Populations
A
A
A
A
A
A
A
B
A
A
B
A
B
B
B
B
B
B
B
B
Rangs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total:
Nb de B
0
0
0
0
0
0
0
1
1
2
4
La somme de ces nombres vaut 4. Cette statistique, notée U, est appelée "statistique
de Mann-Whitney.
La statistique U est d'autant plus petite ou plus grande que les deux échantillons sont
translatés l'un par rapport à l'autre.
On aurait pu, semblablement, compter le nombre d'individus de l'échantillon A qui
précédent chaque individu de l'échantillon B: cette manière de faire n'apporte rien de
neuf : la somme U' de ces nombres se déduit de U à l'aide de la relation
U' = nl . n2 - U
Statistiques
Page 15-2
Test d'égalité de 2 moyennes
" - .
U est une variable aléatoire dont on peut déterminer le comportement.
n1 . n2
2
n . n .(n n2 1)
2 (U ) 1 2 1
12
.
Si les deux populations sont les mêmes, les rangs de la première se mélangent aux
rangs de la deuxième sans tendance particulière à se situer parmi les petits ou les
grands rangs. En fait toutes les configurations de rangs sont équiprobables; on peut
donc par simple énumération des cas possibles déterminer la distribution de U.
E (U ) La distribution de U sous H0 est ainsi tabulée pour différentes valeurs de nl et n2. La
table reproduite en annexe donne le seuil de rejet de l'hypothèse nulle "%=0" au
niveau =5% .
Pour utiliser la table, on procède de la manière suivante:
on calcule U
on calcule U' = nl.n2 - U
si min(U, U') est inférieur ou égal à la valeur lue dans les tables, on rejette
l'hypothèse nulle "%=0" (au niveau 5%)
RH 0 ssi min(U , U ') table
U E (U ) n1 ,n2 N (0,1)
D(U )
Pour des valeurs de nl ou de n2 plus élevées que celles des tables, on utilise
l'approximation normale: on peut en effet démontrer que U centrée et réduite
converge en loi vers une distribution normale de moyenne 0 et d'écart-type 1.
RH 0. ssi.
U E (U )
u1
2
D(U )
Concrètement, on calcule U, on lui enlève sa moyenne, on divise par son écart-type.
Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-/2 d'une
normale centrée, réduite, on rejette l'hypothèse nulle au niveau .
Remarquons que, pour simplifier les calculs, la statistique U vaut
U n1 . n2 Statistiques
n1 .(n1 1)
R1
2
Page 15-3
Test d'égalité de 2 moyennes
où R1 est la somme des rangs du premier échantillon.
$
& Les deux échantillons indépendants A et B suivants sont-ils significativement
différents ?
A: 56 60 67 71 73 80 83 87 89
B: 37 41 49 53 58 62 65 66 72 77 79 81 82 84
On a : nl=9, n2=14 et nl+n2=23 . Les valeurs ordonnées sont:
37<41<49<53<56<58<60<62<65<66<67<71<72<73<77<79<80<81<82<83<84<87<8
9
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
23
B B B B A B A B B B A A B A B B A B B A B A A
R1 = 5 + 7 + 11 + 12 + 14 + 17 + 20 + 22 + 23 = 131
9 10
U 9 14 131 126 45 131 40
2
U ' 9 14 40 86
Comme min(40, 86) = 40 est supérieur à la valeur lue (=31) dans les tables, on
accepte l'hypothèse nulle au niveau 5%.
!
,
Les conditions d'application sont les suivantes:
2 échantillons appariés: c'est-à-dire que pour chaque individu tiré d'une
population, on dispose de 2 mesures qu'on désire comparer (par exemple une
mesure "avant traitement " et une mesure "après traitement"),
la première mesure est distribuée suivant une loi continue quelconque de
moyenne ml (inconnue) et la deuxième est distribuée suivant la même loi mais
éventuellement translatée d'une quantité % inconnue.
Sur base de 2 échantillons de taille n (n valeurs pour première mesure et n pour la
seconde), on veut tester l'hypothèse nulle: "%=0".
Statistiques
Page 15-4
Test d'égalité de 2 moyennes
& /
Calculons la différence des deux mesures pour chacune des paires (une différence
par individu). Si les 2 échantillons ne sont pas équivalents, on pourrait le remarquer
de 2 manières :
un signe plus fréquent que l'autre,
les différences du signe le moins fréquent seront plus petites.
On peut donc mesurer l'écart entre les 2 échantillons par une statistique qui tient
compte de la dissymétrie des signes et de la grandeur relative (donc des rangs) des
différences en valeur absolue. La somme des rangs des différences en valeur
absolue de signe le moins fréquent (appelée statistique T de Wilcoxon) satisfait à
ces 2 exigences. La différence entre les 2 groupes est d'autant plus marquée que la
valeur de T est petite.
Une règle pratique impose de négliger les observations dont la différence est nulle.
RH0 ssi T valeur
tabulée
" 0 .
n.(n 1)
4
n.(n 1).(2n 1)
D ² (T ) 24
E (T ) La distribution de probabilité de T est tabulée, pour des valeurs de n comprises entre
6 et 25 et des niveaux de 5% et 1% .
T E (T ) n 25
N (0,1)
D( T )
Pour une valeur de n>25, on peut utiliser l'approximation normale: T centrée et
réduite converge en loi vers une distribution normale de moyenne 0 et d'écart-type 1.
RH 0 ssi
T E (T )
u1
2
D( T )
Concrètement, on calcule T, on lui enlève sa moyenne, on divise par son écart-type.
Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-a/2 d'une
loi normale réduite, on rejette l'hypothèse nulle au niveau .
Statistiques
Page 15-5
Test d'égalité de 2 moyennes
$
& Groupe 1
89
8
63
30
75
88
58
92
93
81
98
Groupe 2
93
34
24
75
13
3
58
1
18
18
60
Xi-Yi
-4
-26
39
-45
62
85
0
91
75
63
38
|Xi-Yi|
4
26
39
45
62
85
0
91
75
63
38
Rangs
1
2
4
5
6
9
10
8
7
3
T, somme des rangs des différences négatives (les moins nombreuses) vaut
1+2+5=8.
Effectuons un test au niveau = 5 %. Le seuil de rejet lu dans les tables est de 8.
On rejette donc l'hypothèse nulle.
Pour utiliser l'approximation normale on calcule
10 11
la moyenne de T :
27.5
4
10 11 21
l'écart-type de T :
96.25 9.81
24
8 27.5
T centrée et réduite =
199
.
9.81
La valeur de T centrée réduite est supérieure en valeur absolue à 1.96, on rejette
donc l'hypothèse nulle d'égalité des moyennes.
Statistiques
Page 15-6
Test d'ajustement
16
( *
On désire tester l'hypothèse nulle que la variable étudiée X est distribuée suivant une
loi donnée. On distingue plusieurs cas:
1 ier cas: la distribution est discrète et entièrement spécifiée
2 ième cas: la distribution est continue et entièrement spécifiée
3 ième cas: la distribution possède des paramètres inconnus
$$
"
Supposons que X prenne les valeurs 1,2,...,I avec les probabilités p1,p2, pI. Dans
l'échantillon de taille n, on observe nl valeurs 1 pour X, n2 valeurs 2, .. -, nI valeurs I.
Les fréquences relatives sont nl/n,n2/n, ni/n. Si l'hypothèse nulle affirmant que X est
distribué suivant p1,p2, pI, on s'attend à avoir ni/n proche de pi (i=1,2, I).
Introduisons une mesure d'écart entre les fréquences absolues théoriques attendues
(ici n*pi) et les fréquences absolues observées (ici ni):
CHI CARRE (ni n. pi ) 2
n. pi
Cette mesure d'écart est donc du type:
( foi fei ) 2
CHI CARRE fei
où foi est la fréquence absolue observée et fei la fréquence absolue attendue (ou
espérée) si l'hypothèse nulle est vraie.
obs. n
I 1
On peut montrer que, pour n suffisamment grand, la mesure CHI-CARRE est
asymptotiquement distribuée suivant une loi chi-carré à I-1 degrés de liberté.
Statistiques
Page 16-1
Test d'ajustement
RH 0. ssi. obs. I 1;
Un test au niveau consiste donc à rejeter l'hypothèse nulle si la valeur observée
CHI-CARRE dépasse la valeur du quantile d'ordre 1- d'une loi chi-carrée à I-1
degrés de liberté.
Il est facile de voir que CHI-CARRE s'exprime plus commodément pour les calculs
par:
CHI CARRE 2
ni
n
n. pi
$
##
Un dé a été jeté 50 fois.
ni
1
2
3
4
5
6
9
6
4
10
8
13
50
pi
0.1667
0.1667
0.1667
0.1667
0.1667
0.1667
n.pi
(foi-fei)^2/fei
8.3333
0.0533
8.3333
0.6533
8.3333
2.2533
8.3333
0.3333
8.3333
0.0133
8.3333
2.6133
5.92
Le dé est-il équilibré ?
Choisissons un niveau de 5%, la valeur lue dans les tables C(5,0.95)= 11.07; comme
la valeur observée 5.92 est inférieure à la valeur lue dans les tables, on accepte
l'hypothèse nulle que le dé est équilibré.
$
"
On se ramène au cas précédent en subdivisant le domaine de définition (les valeurs
possibles pour) de X en intervalles disjoints et exhaustifs (dont la réunion donne le
domaine de définition). En appelant & la probabilité de chacun de ces intervalles, on
est ramené au cas précédent.
Dans la pratique, on conseille d'avoir au moins 8 intervalles et au moins 7-10
observations par intervalle.
Statistiques
Page 16-2
Test d'ajustement
$
##
On veut tester l'hypothèse nulle que X est distribué suivant une loi normale de
moyenne 1.1 et d'écart-type 0.2.
On décide de prendre pour subdivision du domaine de X, 10 intervalles D1,D2,...D10:
Dl= [X < 0.6]
D2 = [ 0.6 < X < 0.7]
D3 = [0.7 < X < 0.8]
...
D9 = [ 1.3 < X < 1.4]
D10 = [X > 1.4]
La probabilité pi de chaque Di peut être calculée à l'aide des tables d'une loi normale
réduite :
.
.
b 11
ai 11
P Di Pai , bi i
0.2 0.2 Sur un échantillon de 1000 épreuves on a observé:
Intervalles
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
ni
26
51
107
168
200
193
138
80
29
8
pi
n.pi
0.0062
6.2
0.0166
16.6
0.0440
44.0
0.0889
88.9
0.1528
152.8
0.1915
191.5
0.1915
191.5
0.1528
152.8
0.0889
88.9
0.0668
0.8
CHI-CARRE =
(ni-n.pi)2/n.pi
63.23
71.28
90.20
70.38
14.58
0.01
14.94
34.68
40.36
64.80
399.60
Pour un niveau de 5%, cette valeur observée dépasse de loin la valeur lue dans les
tables C(9,0.95)=19.92; on rejette l'hypothèse nulle.
+
On commence par estimer les paramètres inconnus. On estime les pi théoriques en
remplaçant les paramètres inconnus par leurs estimations et on évalue la quantité
CHI-CARRE. Cependant il faut corriger les degrés de liberté en ôtant un degré par
paramètre estimé.
Statistiques
Page 16-3
Test d'ajustement
$
##
On veut tester l'hypothèse nulle que X est distribué suivant une loi de Poisson. Dans
un échantillon de 400 épreuves, on a observé la répartition suivante:
i
0 ou 1 2 3 4 5 6 7 8 9 10 11 12 13 14 et plus
---------------------------------------------------------ni
20 43 53 86 70 54 37 18 10 5 2 2 0 0
i
La loi de Poisson est définie par pi e . , où est un paramètre inconnu. On
i!
estime par la moyenne observée XBAR:
^ = XBAR = (20 * 1 + 43 * 2 + ... + 2 * 12) / 400 = 4.68
Chaque pi peut ainsi être estimé.
On dresse le tableau:
i
0 ou 1
2
3
4
5
6
7
8
9
10 et plus
nb
20
43
53
86
70
54
37
18
10
9
pi estimé
0.0527
0.1016
0.1585
0.1855
0.1736
0.1354
0.0905
0.0529
0.0275
0.0218
n x pi
21.1
40.6
63.4
74.2
69.4
54.1
36.2
21.1
11.0
8.7
CHI-CARRE
CHI-CARRE
0.0552
0.1372
1.7060
1.8764
0.0044
0.0004
0.0176
0.4720
0.0908
0.0152
4.3772
Le nombre de degrés de liberté est de 9 - 1 (car il y a 1 paramètre estimé p), pour un
niveau 5%, on lit dans les tables C(8,0.95)=15.51, comme la valeur observée CHICARRE est inférieure à la valeur lue dans les tables, on accepte l'hypothèse nulle
que X est distribué suivant une loi de Poisson.
Statistiques
Page 16-4
Test d'indépendance entre 2 variables nominales
17
( %
On considère 2 caractères nominaux. On désire tester l'hypothèse nulle
d'indépendance de ces 2 caractères.
Le premier caractère prend les valeurs 1.,2, ..., i,.... , I et le deuxième les valeurs l, 2,
...,j, ...., J. Les observations sont rangées dans un tableau de contingence il y nij
observations ayant la valeur i pour le premier caractère et la valeur j pour le 2 ième;
ni+ est le nombre total d'observations ayant la valeur i pour le premier caractère (quel
que soit le deuxième) et n+j est le nombre total d'observations ayant i pour valeur du
2 ième (quel que soit le premier). Au total, on a n++ observations.
+)'+,
Reprenons la mesure d'écart CHI-CARRE introduite pour tester un ajustement
distributionnel; son expression est:
Chi carré ( fo fe) 2
fe
où fo est la fréquence (absolue) observée et fe la fréquence (absolue) théorique sous
l'hypothèse nulle.
Ici fo = nij (i=1,2,...,I et j=1,2, ... J).
Pour l'hypothèse nulle d'indépendance que vaut fe, la fréquence absolue théorique ?
Si les deux caractères sont indépendants, la probabilité d'observer i et j vaut:
Statistiques
Page 17-1
Test d'indépendance entre 2 variables nominales
Pi et j Pi . P j '
ni n j
.
n n fe n . Pi et j
ni n j
.
n n n .n
i j
n n .
Finalement:
ni . n j nij n 2
ni . n j
2
n (
On peut montrer que sous l'hypothèse nulle, CHI-CARRE converge en loi vers une
distribution chi-carre à (I-1)(J-1) degrés de liberté.
(i 1).( j 1)
obs. n
On en déduit qu'un test au niveau consiste à rejeter l'hypothèse nulle
d'indépendance lorsque la valeur observée CHI-CARRE est supérieure à la valeur
c((I-1)(J-1);1-) du quantile d'ordre 1- d'une loi chi-carré à (I-1)(J-1) degrés de
liberté.
RH 0. ssi
obs. (i 1).( j 1);1
!""
Dans un échantillon de 413 personnes, on a relevé le nombre de gauchers, de
droitiers et d'ambidextres. Pour ces mêmes personnes, on a mesuré la qualité de la
vision des 2 yeux; certains voient mieux de l'œil gauche, d'autres de l'œil droit,
d'autres ont la même vision des 2 yeux.
Statistiques
Page 17-2
Test d'indépendance entre 2 variables nominales
On veut tester l'hypothèse nulle d'indépendance du caractère "gaucher-droitierambidextre" (noté X) du caractère "gauche-droite-égale" pour la vision (noté Y).
Les 413 personnes se répartissent de la manière suivante:
G
G
D
A
D
34
27
57
118
=
62
28
105
195
28
20
52
100
124
75
214
413
Reportons les fréquences absolues théoriques ni+ n+j / n++ :
G
G
D
A
D
35.43
21.43
61.14
=
58.55
35.41
101.04
30.02
18.16
51.82
Calculons le CHI-CARRE observé:
Chi carré (34 35.42) 2 (62 58.54) 2
(52 5181
. )2
...
35
.
35.42
58.54
5181
.
On choisit un niveau de 5%, (I-1)(J-I)=4, et la valeur lue dans les tables vaut
c(4,0.95)=9.49. Comme CHI-CARRE < 9.49, on ne rejette pas l'hypothèse
d'indépendance des 2 caractères au niveau 5% .
Statistiques
Page 17-3
Test d'indépendance entre 2 variables ordinales
18
Reprenons le coefficient de Spearmann mesurant la dépendance entre 2 variables
ordinales. Pour fixer les idées, examinons l'exemple suivant. On a demandé à de vrais
jumeaux séparés depuis la naissance de classer dans l'ordre de leurs préférences 5
tableaux.
Jumeau A Jumeau B Diff. des
rangs
A
B
C
D
E
2
4
3
1
5
3
5
2
1
4
-1
-1
1
0
1
Somme =
Diff. des
rangs au
carré
1
1
1
0
1
4
Le coefficient de Spearmann vaut
6. D 2
Rs 1 n.(n 2 1)
24
1
5.(52 1)
24
1
1 0.2 0.8
120
Est-ce une valeur significative d'une communauté de goût entre les jumeaux, ou bien
est-ce une valeur attribuable au "hasard" sans qu'il ne soit nécessaire d'invoquer une
dépendance quelconque ?
Testons donc l'hypothèse nulle H0 qu'il n'existe pas de dépendance (H1 = "il existe une
dépendance") à l'aide du coefficient de Spearmann.
Statistiques
Page 18-1
Test d'indépendance entre 2 variables ordinales
Au chapitre consacré aux distributions de probabilité, nous avons vu comment il est
possible de connaître la distribution de probabilité du coefficient de corrélation de
Spearmann dans le cas où les deux variables sont indépendantes (c'est-à-dire sous
l'hypothèse nulle !). En reprenant le même raisonnement, voici les valeurs possibles du
coefficient rs et leur probabilité respective pour n=5.
Valeurs
possibles
-1
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Nombre de
cas
1
4
3
6
7
6
4
10
6
10
6
10
6
10
4
6
7
6
3
4
1
Probabilité
0.8%
3.3%
2.5%
5.0%
5.8%
5.0%
3.3%
8.3%
5.0%
8.3%
5.0%
8.3%
5.0%
8.3%
3.3%
5.0%
5.8%
5.0%
2.5%
3.3%
0.8%
Lorsque les variables sont indépendantes, Rs fluctue autour de 0; il prend la valeur 0
avec une probabilité de 5%.
Rs prend une valeur comprise entre -0.1 et +0.l avec une probabilité de 8.3% + 5% +
8.3% = 21.6%
Rs prend une valeur comprise entre -0.3 et +0.3 avec une probabilité de 46.2% , etc.
Sous l'hypothèse nulle, Rs prend rarement la valeur +1 (probabilité égale à 0.8%) ou 1 (probabilité égale à 0.8%).
Par contre sous la contre-hypothèse (c'est-à-dire lorsque les variables sont
dépendantes), Rs fluctue autour de +1 (ou de -1).
Statistiques
Page 18-2
Test d'indépendance entre 2 variables ordinales
D'où l'idée de construire la zone d'acceptation de l'hypothèse nulle autour de 0, et telle
que sa probabilité soit au plus de 1- (niveau du test).
Par exemple pour un niveau de 10%, la zone d'acceptation est
Rs 0.8
en effet, la probabilité que Rs soit supérieur à 0.8 vaut;
2.(0.8% 3.3%) 8.2%
c' est - à - dire 10%
alors que la probabilité que Rs soit supérieur à 0.7 vaut:
2.(0.8% 3.3% 2.5%) 13.2%
c' est à dire 10%
Dans la pratique, pour déterminer la zone de rejet on dispose de tables donnant les
quantiles de Rs.
RH0 ssi
Rs > valeur tabulée
Pour n grand (dans la pratique n>10), on peut montrer que
n2
10
n
t n 2
2
1 Rs
est distribué suivant une loi de Student à n-2 degrés de liberté.
Rs.
RH 0. ssi
Rs.
n2
t n 2;1
1 Rs 2
On rejette donc l'hypothèse si la valeur observée pour t dépasse la valeur lue dans les
tables de t à n-2 degrés de liberté et au niveau 1- (test unilatéral).
Par exemple un coefficient de 0.82 pour 12 observations conduit à
Statistiques
Page 18-3
Test d'indépendance entre 2 variables ordinales
t 0.82.
10
12 2
0.82.
4.53 t 182
.
2
0.3276
1 0.82
RH 0
cette quantité est supérieure à 1.82, valeur lue dans les tables au niveau 5%; on rejette
donc l'hypothèse nulle d'indépendance au profit d'une dépendance positive.
Statistiques
Page 18-4
Téléchargement