Statéstique

publicité
ENSEIGNEMENT DE PROMOTION SOCIALE
——————————————————————
Cours de
STATISTIQUE
- Paramètres de position et de dispersion ——————————————————————
H. Schyns
Juin 2010
Paramètres de position et de dispersion
Sommaire
Sommaire
1.
INTRODUCTION
2.
PARAMETRES DE POSITION
2.1. Position du problème
2.2. Le mode
2.2.1.
2.2.2.
2.2.3.
2.2.4.
2.2.5.
2.2.6.
Définition
Variable qualitative nominale
Variable qualitative ordinale
Variable quantitative discrète
Variable quantitative continue
Avantages et inconvénients
2.3. La médiane
2.3.1.
2.3.2.
2.3.3.
2.3.4.
2.3.5.
2.3.6.
2.3.7.
Définition
Variable qualitative nominale
Variable qualitative ordinale
Variable quantitative discrète
Variable quantitative continue
Avantages et inconvénients
Propriétés
2.4. La moyenne arithmétique
2.4.1.
2.4.2.
2.4.3.
2.4.4.
2.4.5.
2.4.6.
Définition
Variables qualitatives nominales ou ordinales
Variable quantitative discrète
Variable quantitative continue
Avantages et inconvénients
Propriétés
2.5. La moyenne géométrique
2.5.1.
2.5.2.
Définition
Exemple
2.6. La moyenne harmonique
2.7. Généralisation de la moyenne
2.8. Classement des moyennes
2.9. Comparaison moyenne médiane
3.
PARAMETRES DE DISPERSION
3.1. Position du problème
3.2. La plage ou amplitude
3.2.1.
3.2.2.
3.2.3.
3.2.4.
Définition
Variable qualitative ordinale
Variable quantitative
Avantages et inconvénients
3.3. L'écart interquartile
3.3.1.
3.3.2.
H. Schyns
Définition
Variable qualitative
S.1
Paramètres de position et de dispersion
3.3.3.
3.3.4.
3.3.5.
Sommaire
Variable quantitative discrète
Variable quantitative continue
Avantages et inconvénients
3.4. Notion d'écart
3.5. L'écart moyen
3.6. L'écart absolu moyen
3.7. La variance et écart-type
3.8. Contrôle industriel
4.
PARAMETRES DE FORMES
4.1. Asymétrie
4.2. Moments
5.
CONCLUSION
6.
EXERCICES
Exercice 1
Exercice 2
Exercice 3
Exercice 4
7.
ANNEXE : L'OPERATEUR S
7.1. Définition
7.2. De l'opérateur symbolique à la somme explicite
7.2.1.
7.2.2.
Formes simples
Formes évoluées
7.3. De la somme explicite à l'opérateur symbolique
7.3.1.
7.3.2.
7.3.3.
8.
Séries algébriques
Alternance de signe
Suites numériques
SOURCES
H. Schyns
S.2
Paramètres de position et de dispersion
1.
1 - Introduction
Introduction
Dans un chapitre précédent, nous avons vu comment condenser une série
d'observations statistiques sous la forme d'un tableau de fréquences. Le principe
de base était le comptage des observations.
Nous avons ensuite vu comment représenter des tableaux sous forme de
graphiques nommés histogrammes. Ces histogrammes sont basés :
-
soit sur les fréquences absolues ou sur les fréquences relatives,
soit sur les fréquences absolues cumulées ou sur les fréquences relatives
cumulées.
Les histogrammes donnent la répartition ou, plus exactement, la distribution des
valeurs observées dans les différentes catégories ou classes.
Dans ce chapitre, nous franchirons un pas supplémentaire en caractérisant la
distribution par sa forme générale et par deux paramètres ou valeurs typiques :
-
un nombre caractéristique de la position de l'histogramme;
un nombre caractéristique de sa dispersion ou de son étalement.
fig. 1.1 Rôle des paramètres de position et de dispersion
Les paramètres
observations.
de
position
caractérisent
l'ordre
de
grandeur
des
Les paramètres de dispersion caractérisent l'étalement des valeurs autour
d'un paramètre de position
Comme la plupart des paramètres numériques, il va de soi que ce chapitre
s'applique principalement aux données quantitatives discrètes ou continues.
H. Schyns
1.1
Paramètres de position et de dispersion
2.
2 - Paramètres de position
Paramètres de position
2.1.
Position du problème
Ainsi qu'il a été dit plus haut,
Les paramètres
observations.
de
position
caractérisent
l'ordre
de
grandeur
des
Ils permettent aussi de situer des distributions les unes par rapport aux autres.
On attend d'un paramètre de position qu'il soit :
-
aisé à déterminer,
représentatif,
stable.
Les trois paramètres de positions les plus utilisés sont :
-
le mode (ang.: mode),
la médiane (ang.: median),
la moyenne (ang.: mean ou average).
La moyenne peut prendre plusieurs formes selon le mode de calcul :
-
2.2.
moyenne arithmétique,
moyenne géométrique,
moyenne harmonique.
Le mode
2.2.1. Définition
Le mode est le seul paramètre de position qui s'applique à tous les types de
variables, qu'elles soient qualitatives ou quantitatives.
Le mode est la valeur la plus représentée, c'est-à-dire la valeur présente la
fréquence la plus élevée.
Le mode correspond au maximum de l'histogramme
2.2.2. Variable qualitative nominale
Reprenons l'enquête réalisée au chapitre précédent par enquêteur hypothétique
posté à la sortie d'un parking d'une grande surface (1).
Les informations concernant les marques de voiture sont reprises à la fig. 2.1.
La valeur qui présente la plus grande fréquence est la marque "Autre". Autrement
dit, la marque de voiture la plus rencontrée est "Autre"; "Autre" est le mode du
tableau et de l'histogramme.
1 Cours de STATISTIQUE - Statistique descriptive - p 3.1.
H. Schyns
2.1
Paramètres de position et de dispersion
2 - Paramètres de position
Inutile de dire que, dans le cas présent, ce résultat est particulièrement pauvre et
désolant ! Il ne nous apporte aucune information vraiment pertinente. Par exemple,
les vendeurs de Opel et VW ne savent pas s'ils sont réellement les plus présents
sur le marché. En effet, "Autre" pourrait représenter exclusivement des Porsche ou
des Lada. Pour lever l'ambiguïté, il faudrait préciser par exemple que "'Autre'
regroupe toutes les marques de voitures qui n'ont été observées qu'une seule fois".
Ceci montre les dangers d'une enquête mal ficelée et d'un regroupement
malheureux des données.
Voiture
Valeurs de
la variable
Fréquence Fréquence
absolue
relative
xi
ni
fi
Ford
3
15 %
Opel
5
25 %
Volkswagen
5
25 %
Autre
7
35 %
Nbre observ.
20
100 %
fig. 2.1 Mode d'une variable qualitative nominale
2.2.3. Variable qualitative ordinale
Poursuivons avec l'appréciation sur la proportion d'articles que le client souhaitait
trouver dans le magasin :
Articles trouvés
Valeurs de
la variable
Fréquence Fréquence
absolue
relative
xi
ni
fi
Aucun
2
10 %
Quelques-uns
6
30 %
Presque tous
9
45 %
Tous
3
15 %
Nbre observ.
20
100 %
fig. 2.2 Mode d'une variable qualitative ordinale
La réponse "Presque tous" est celle qui recueille le maximum de suffrages. Cette
réponse est le mode de l'enquête.
Notons que dire que la réponse "Presque tous" est celle qui rencontre la majorité
des suffrages est faux. En effet, pour que cette réponse soit majoritaire, il faudrait
quelle soit choisie par plus de la moitié des personnes interrogées; sa fréquence
devrait être 11 et non 9.
La réponse majoritaire correspond toujours avec le mode.
L'inverse n'est pas vrai : le mode n'est pas toujours la réponse majoritaire.
H. Schyns
2.2
Paramètres de position et de dispersion
2 - Paramètres de position
2.2.4. Variable quantitative discrète
Dans le cas de la composition du ménage (fig. 2.3), il apparaît clairement que les
ménages d'une personne constituent le mode. Ceci signifie que parmi la clientèle
du magasin, on rencontre principalement des personnes qui appartiennent à un
ménage d'une seule personne (c-à-d des personnes isolées).
Nous pouvons aussi introduire une notion intuitive de probabilité en disant que si
nous prenons une personne au hasard à la sortie d'une grande surface, il y a "de
fortes chances" pour qu'elle appartienne à un ménage d'une seule personne.
Composition du ménage
Valeurs de
la variable
Fréquence Fréquence
absolue
relative
xi
ni
fi
1
8
40 %
2
3
15 %
3
4
20 %
4
4
20 %
5
0
0%
6+
1
5%
Nbre observ.
20
100 %
fig. 2.3 Mode d'une variable quantitative discrète
2.2.5. Variable quantitative continue
Dans le cas d'une variable quantitative continue, nous ne parlerons plus de mode
mais bien de classe modale. Si nous considérons la taille du conducteur (fig. 2.4),
la classe modale est celle qui regroupe les personnes dont la taille est comprise
entre 1.50m (inclus) et 1.60m (exclu).
A nouveau, si nous prenons une personne au hasard à la sortie d'une grande
surface, il y a "de fortes chances" pour que sa taille soit comprise entre 1.50 et
1.60m.
Taille du conducteur (m)
Valeurs de
la variable
Fréquence Fréquence
absolue
relative
xi
ni
fi
[1.40 , 1.50 [
2
10 %
[1.50 , 1.60 [
8
40 %
[1.60 , 1.70 [
6
30 %
[1.70 , 1.80 [
3
15 %
[1.80 , 1.90 [
1
5%
Nbre observ.
20
100 %
fig. 2.4 Classe modale d'une variable quantitative continue
2.2.6. Avantages et inconvénients
Le mode présente plusieurs avantages :
H. Schyns
2.3
Paramètres de position et de dispersion
-
2 - Paramètres de position
il est défini pour tous les types de variables,
il est facile à déterminer,
il est facile à combiner; quand on dispose de plusieurs histogrammes qui
étudient la même variable, on peut assez facilement déterminer le mode de
l'ensemble des observations.
Le mode présente aussi plusieurs inconvénients :
-
il ne prend en compte qu'une seule valeur ou une seule classe; il est donc peut
représentatif de l'ensemble
il est peu stable; il dépend assez fortement de l'échantillon analysé,
il n'est pas nécessairement unique; il arrive fréquemment que des distributions
présentent deux ou plusieurs modes. On parle alors de distributions bi- ou
plurimodales (fig. 2.5).
fig. 2.5 Distribution bimodale
Dans les tableurs tels que Excel et OpenOffice le mode est calculé grâce à la
fonction MODE(). Elle ne s'applique qu'à des données numériques; elle n'est
d'aucune utilité dans le cas de données continues puisque celles-ci doivent d'abord
être regroupées en classes.
2.3.
La médiane
2.3.1. Définition
La médiane ne s'applique qu'aux variables qui admettent une relation d'ordre, c'està-dire aux variables que l'on peut ordonner ou classer. C'est le cas de toutes les
variables quantitatives et des variables qualitatives ordinales.
La médiane est la valeur qui partage la liste des observations,
préalablement classées en ordre croissant, en deux sous-listes qui
contiennent le même nombre d'observations.
Graphiquement, la médiane est la valeur qui partage l'histogramme en
deux zones de même aire. C'est aussi la valeur qui correspond à la
fréquence relative cumulée de 50%.
Soit N est le nombre d'observations classées alors, la médiane notée ~
x vaut :
- si N est impair, la médiane est la valeur ayant l'indice central
~
x = x N +1
[eq. 2.1]
2
H. Schyns
2.4
Paramètres de position et de dispersion
2 - Paramètres de position
- si N est pair, la médiane est la moyenne des deux valeurs centrales
xN + xN
~
x=
2
2
+1
[eq. 2.2]
2
2.3.2. Variable qualitative nominale
Poursuivons l'analyse de l'enquête réalisée au chapitre précédent.
La marque de voiture est une variable qualitative pour laquelle il n'existe aucune
relation d'ordre. Par conséquent, il est impossible de définir une marque médiane.
2.3.3. Variable qualitative ordinale
Par définition, les variables qualitatives ordinales admettent une relation d'ordre.
Elles peuvent donc être classées en ordre croissant ou décroissant et admettent
une médiane.
Classons les vingt réponses qui concernent les articles trouvés (de gauche à droite
et de haut en bas).
Articles
A
A
Q
Q
Q
Q
Q
Q
P
P
P
P
P
P
P
P
P
T
T
T
tableau 2.1 Articles trouvés
Puisque le nombre d'observations est pair, la médiane se trouve entre les deux
valeurs centrales (la 10e et la 11e). Nous avons de la chance : il se fait que ces
deux valeurs sont identiques. La réponse médiane est donc "Presque tous".
Si les deux valeurs avaient été différentes, nous aurions formulé notre réponse en
disant – par exemple - que la médiane se trouve "entre quelques-uns et presque
tous".
Lorsqu'on dispose du diagramme des fréquences cumulées, la médiane correspond
à la première barre traversée par l'horizontale tracée à 50% :
fig. 2.6 Médiane d'une variable qualitative ordinale.
H. Schyns
2.5
Paramètres de position et de dispersion
2 - Paramètres de position
2.3.4. Variable quantitative discrète
Les variables quantitatives admettent aussi une relation d'ordre. Nous pouvons les
traiter comme les variables qualitatives ordinales.
Classons les vingt réponses qui concernent le nombre de personnes formant le
ménage (de gauche à droite et de haut en bas).
Composition du Ménage
1
1
1
1
1
1
1
1
2
2
2
3
3
3
3
4
4
4
4
6+
tableau 2.2 Composition du ménage
Puisque le nombre d'observation est pair (N=20), la médiane est la moyenne des
deux valeurs centrales (la 10e et la 11e) :
2+2
~
x=
=2
2
[eq. 2.3]
2 est la valeur formelle de la médiane, celle qui correspond à la définition ou, plus
exactement, à une partie de la définition. En effet, nous ne pouvons pas affirmer
que "50% des personnes interrogées appartiennent à un ménage de moins de 2
personnes" (en réalité 40%) ni que "50% des personnes interrogées appartiennent à
un ménage de 2 personnes ou moins" (en réalité 55%).
Ceci vient du fait que nous traitons des données discrètes.
Lorsqu'on dispose du diagramme des fréquences cumulées, la médiane correspond
à la première barre traversée par l'horizontale tracée à 50% :
fig. 2.7 Médiane d'une variable discrète.
Notons que la médiane est définie même lorsque la distribution comprend des
classes "ouvertes" (telles que la classe "6 et plus") à chaque extrémité.
2.3.5. Variable quantitative continue
Classons à présent les vingt réponses qui concernent la taille du conducteur (de
gauche à droite et de haut en bas).
H. Schyns
2.6
Paramètres de position et de dispersion
2 - Paramètres de position
Taille (m)
1.47
1.48
1.53
1.54
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.67
1.67
1.67
1.69
1.69
1.72
1.78
1.79
1.86
tableau 2.3 Taille du conducteur
Comme ci-dessus, puisque le nombre d'observation est pair (N=20), la médiane est
la moyenne des deux valeurs centrales (la 10e et la 11e) :
1.59 + 1.60
~
x=
= 1.595 m
2
[eq. 2.4]
Dans ce cas-ci, nous pouvons effectivement affirmer que "50% des personnes
interrogées ont une taille inférieure (ou inférieure ou égale) à 1.595 m".
Lorsque les données ont été regroupées en classes, la détermination de la médiane
peut nécessiter quelques calculs. Par contre, sa détermination graphique est très
simple : dans le diagramme des fréquences cumulées, la médiane correspond à
l'abscisse du point d'intersection du polygone des fréquences et de l'horizontale à
50% :
fig. 2.8 Médiane d'une variable continue.
Notons que la médiane définie à partir de l'ensemble des données initiales et celle
calculée à partir des données regroupées en classes peuvent être différentes.
Cette situation est normale et découle de la perte de précision due au
regroupement.
Dans notre exemple, la médiane correspond à une limite de classe. En pratique,
c'est rarement le cas; il faut alors effectuer une interpolation linéaire :
[
]
0.50 - Finf
~
x = b inf + b sup - b inf ×
Fsup - Finf
[eq. 2.5]
où :
-
H. Schyns
bsup et binf sont les bornes supérieures et inférieures de la classe
Fsup et Finf sont les fréquences relatives cumulées correspondant à ces bornes
2.7
Paramètres de position et de dispersion
2 - Paramètres de position
fig. 2.9 Médiane par interpolation linéaire.
Par exemple, dans la situation de la fig. 2.9, l'équation devient
0.50 - 0.40
~
x = 1.40 + [1.50 - 1.40] ×
0.70 - 0.40
[eq. 2.6]
0.10
~
x = 1.40 + 0.10 ×
= 1.43
0.30
[eq. 2.7]
2.3.6. Avantages et inconvénients
La médiane présente plusieurs avantages :
-
elle est facile à déterminer,
elle part du classement de toutes les observations; elle est donc représentative
de l'ensemble,
elle est unique car chaque série n'a qu'une et une seule médiane,
elle est insensible aux valeurs extrêmes, ce qui en fait un paramètre
remarquablement stable (1),
La médiane présente aussi un inconvénient :
-
quand on dispose de plusieurs échantillons qui observent la même variable, il
n'est pas possible de définir la médiane générale à partir des médianes
partielles.
Dans les tableurs tels que Excel et OpenOffice la médiane est calculée grâce à la
fonction MEDIANE(). Elle ne s'applique qu'à des données numériques.
2.3.7. Propriétés
La médiane jouit de propriétés mathématiques intéressantes :
-
translation :
Si on ajoute (soustrait) une constante à toutes les observations, on ajoute
(soustrait) aussi cette constante à la médiane
~
alors
x®~
x+C
[eq. 2.8]
Si x i ® x i + C
-
dilatation :
Si on multiplie (divise) toutes les observations par un même facteur, on multiplie
(divise) aussi la médiane par ce même facteur
1 Le fait que l'un des conducteurs soit un nain de 1.10m ou un géant de 2.10m ne change en rien la
médiane.
H. Schyns
2.8
Paramètres de position et de dispersion
2 - Paramètres de position
Si x i ® k × x i
-
~
x ®k ×~
x
combinaison :
les deux propriétés ci-dessus peuvent être combinées
~
Si x ® k × x + C alors
x ®k ×~
x+C
i
2.4.
alors
i
[eq. 2.9]
[eq. 2.1]
La moyenne arithmétique
2.4.1. Définition
La moyenne arithmétique ne s'applique qu'aux variables qui admettent les
opérations d'addition et de soustraction . Elle ne s'applique donc qu'aux variables
quantitatives discrètes ou continues.
La moyenne est obtenue par calcul, en faisant la somme de toutes les
valeurs observées puis en divisant le total obtenu par le nombre de valeurs
prises en compte dans le total.
Soit N est le nombre d'observations et x1, x2, ..., xi, ..., xN respectivement les 1e ,2e ,
...,ie et dernière valeurs observées alors la moyenne, notée x vaut :
x 1 + x 2 + x 3 + ... + x N
N
[eq. 2.10]
1
(x 1 + x 2 + x 3 + ... + x N )
N
[eq. 2.11]
x=
x=
ce que l'on note de manière plus condensée, grâce à l'opérateur S (sigma), sous la
forme (1) :
x=
1 N
×
xi
N i =1
å
[eq. 2.12]
å xi
[eq. 2.13]
Le symbolisme
N
i =1
se lit : la somme (S) de tous les x dont l'indice i (xi) prend les valeurs entières allant
de 1 à N
Dans le cas où les valeurs auraient été préalablement groupées par classes dans
un tableau, l'expression devient
n × c + n 2 × c 2 + n 3 × c 3 + ... + nK × c K
x= 1 1
n1 + n 2 + n 3 + ... + nK
[eq. 2.14]
dans laquelle :
-
ci
n
K
est le centre de la classe considérée,
est le nombre d'observations qui appartiennent à cette classe,
est le nombre de classes;
ce que l'on note de manière plus condensée, sous la forme :
1 L'utilisation de l'opérateur S (sigma) est développée en annexe.
H. Schyns
2.9
Paramètres de position et de dispersion
2 - Paramètres de position
K
å ni × c i
x=
i=1
K
[eq. 2.15]
å ni
i=1
comme
n1 + n 2 + n 3 + ... + n K =
K
å ni = N
[eq. 2.16]
i =1
où N est le nombre total d'observations, on peut écrire plus simplement
x=
1 K
×
ni × c i
N i =1
å
[eq. 2.17]
2.4.2. Variables qualitatives nominales ou ordinales
Poursuivons l'analyse de notre enquête.
La marque de voiture est une variable qualitative nominale qui n'admet pas
l'addition. Par conséquent, il est impossible de définir une marque moyenne.
Il en va de même pour la quantité d'articles trouvés qui, dans notre enquête,
s'exprime par une variable qualitative ordinale.
2.4.3. Variable quantitative discrète
Les variables quantitatives admettent l'addition. Il est généralement possible de
définir une moyenne.
Toutefois, notre enquête constitue cependant un cas particulier car l'une des
observations contient une valeur indéterminée :
Composition du Ménage
1
1
1
1
1
1
1
1
2
2
2
3
3
3
3
4
4
4
6+
4
tableau 2.4 Composition du ménage
Il n'est pas possible de donner une valeur déterminée à la réponse "6 personnes ou
plus". Cette réponse constitue une valeur ouverte. Dès lors, la moyenne ellemême devient indéterminée.
Que ceci soit bien clair : il n'est pas question de supprimer la valeur "6+" sous
prétexte de calculer une moyenne sur les chiffres restants ! Cette moyenne ne
serait pas représentative de l'échantillon.
Par contre, il est possible de calculer une valeur minimale de la moyenne en
remplaçant "6+" par la valeur minimale "6" :
x³
8 × 1 + 3 × 2 + 4 × 3 + 4 × 4 + 0 × 5 + 1 × 6 48
=
= 2.4
20
20
[eq. 2.18]
On peut affirmer que la composition moyenne du ménage est au moins de 2.4
personnes. Mieux vaut une information partielle que pas d'information du tout.
H. Schyns
2.10
Paramètres de position et de dispersion
2 - Paramètres de position
Notons bien que même cette information disparaît si les valeurs extrêmes
proposées dans le questionnaire sont toutes deux des valeurs ouvertes :
2-
3
4
6+
5
2 ou
moins
6 ou
plus
2.4.4. Variable quantitative continue
Reprenons l'analyse de la taille du conducteur :
Taille (m)
1.47
1.48
1.53
1.54
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.67
1.67
1.67
1.69
1.69
1.72
1.78
1.79
1.86
tableau 2.5 Taille du conducteur
Nous pouvons calculer la moyenne à partir des données détaillées à partir de
l'équation [2.13] :
N
å x i = 32.55 m
[eq. 2.19]
i =1
x=
32.55
= 1.628 m
20
[eq. 2.20]
Il est permis d'écrire la moyenne avec un chiffre significatif de plus que les données,
en arrondissant à bon escient, lorsque l'on dispose de deux à vingt données.
Lorsque l'on dispose d'une centaine de données, la moyenne peut être écrite avec
deux chiffres significatifs de plus.
Nous aurions pu aussi calculer la moyenne à partir du tableau des classes, en
utilisant l'équation [2.16] ou [2.18]
Taille du conducteur (m)
Valeurs de
la variable
Centre
Fréquence
absolue
Produit
xi
ci
ni
ni·fi
[1.40 - 1.50 [
1.45
2
2.90
[1.50 - 1.60 [
1.55
8
12.40
[1.60 - 1.70 [
1.65
6
9.90
[1.70 - 1.80 [
1.75
3
5.25
[1.80 - 1.90 [
1.85
1
1.85
20
32.30
Totaux
tableau 2.6 Classes de taille du conducteur
K
å
n i = 20
i =1
x=
K
å ni × c i = 32.30
[eq. 2.21]
i =1
32.30
= 1.615 m
20
[eq. 2.22]
Cette valeur de la moyenne est différente de celle obtenue plus haut (1.628 m) !
H. Schyns
2.11
Paramètres de position et de dispersion
2 - Paramètres de position
C'est absolument normal : en regroupant les données en classes, nous avons perdu
une partie de l'information. En remplaçant les valeurs initiales par celle du centre la
classe à laquelle elles appartiennent, nous avons introduit une erreur.
En principe, quand les classes sont assez peuplées, les erreurs se compensent et
la différence est minime. Par contre, dans les classes extrêmes qui sont
généralement peu peuplées, il peut y avoir sous- ou surestimation systématique des
valeurs qui y apparaissent.
Aussi curieux que cela puisse paraître, les moyennes calculées par les deux
méthodes sont aussi valables l'une que l'autre :
N'oublions pas que les statistiques donnent des estimations basées sur un
échantillon.
Il est vraisemblable que le même dépouillement portant sur un échantillon
différent aurait donné encore d'autres estimations de la moyenne.
Nous verrons comment résoudre cet apparent paradoxe lorsque nous parlerons des
paramètres de dispersion (1).
Il apparaît déjà clairement que la moyenne utilisée seule est pratiquement
inutilisable : il faut obligatoirement l'accompagner de sa précision.
2.4.5. Avantages et inconvénients
La moyenne arithmétique présente plusieurs avantages :
-
elle est relativement facile à déterminer,
son calcul fait intervenir toutes les observations; elle est donc représentative de
l'ensemble,
elle est unique car chaque série n'a qu'une et une seule moyenne,
quand on dispose de plusieurs échantillons qui observent la même variable, il
est possible de définir la moyenne générale à partir des moyennes partielles.
La moyenne présente aussi un inconvénient :
-
elle est assez sensible aux valeurs extrêmes, ce qui en fait un paramètre moins
stable que la médiane (2),
elle ne prend son sens que si elle est accompagnée d'une estimation de sa
précision.
Pour éviter la sensibilité aux valeurs extrêmes, on recourt parfois à une moyenne
arithmétique élaguée ou moyenne réduite : après classement, on supprime les m
valeurs minimales et les m valeurs maximales observées avant de procéder au
calcul de la moyenne.
Cette méthode est souvent appliquée :
1 En général, c'est ici que les lecteurs s'écrient : "Mais alors, on n'est jamais sûr de rien !". Eh non ! Mais
prendre conscience que tout ce qui nous entoure est entaché d'erreur et d'imprécision; que la vérité est
contextuelle, est un grand pas en avant sur la voie de la sagesse.
2 Le fait que, dans un échantillon réduit, l'un des conducteurs soit un nain de 1.10m ou un géant de 2.10m
peut changer formtement la valeur de la moyenne.
H. Schyns
2.12
Paramètres de position et de dispersion
-
-
2 - Paramètres de position
dans les compétitions sportives artistiques quand la valeur de la performance
est évaluée par des juges qui remettent une cote (on supprime la meilleure et la
plus mauvaise),
en économétrie, quand on doit traiter des informations disparates (on supprime
1% des observations du côté max et 1% du côté min (1)).
En procédant de la sorte, le comportement de la moyenne se rapproche de celui de
la médiane.
Dans les tableurs tels que Excel et OpenOffice la moyenne arithmétique est
calculée grâce à la fonction MOYENNE(). Elle ne s'applique qu'à des données
numériques. Ces tableurs proposent aussi les fonctions
-
MOYENNE.REDUITE()
MOYENNE.GEOMETRIQUE()
MOYENNE.HARMONIQUE()
2.4.6. Propriétés
Comme la médiane, la moyenne jouit de propriétés mathématiques intéressantes :
-
translation :
Si on ajoute (soustrait) une constante à toutes les observations, on ajoute
(soustrait) aussi cette constante à la moyenne
Si x i ® x i + C alors x ® x + C
-
dilatation :
Si on multiplie (divise) toutes les observations par un même facteur, on multiplie
(divise) aussi la moyenne par ce même facteur
Si x i ® k × x i alors x ® k × x
-
combinaison :
les deux propriétés ci-dessus peuvent être combinées
Si x i ® k × x i + C alors x ® k × x + C
2.5.
La moyenne géométrique
2.5.1. Définition
La moyenne géométrique est obtenue par calcul, en faisant le produit des N
valeurs observées puis en prenant la racine Neme du nombre obtenu.
Soit N est le nombre d'observations et x1, x2, ..., xi, ..., xN respectivement les 1e ,2e ,
...,ie et dernière valeurs observées alors la moyenne géométrique, notée x g vaut :
x g = N x1 × x 2 × x 3 × ... × x N
[eq. 2.23]
1
x g = (x 1 × x 2 × x 3 × ... × x N )N
ce que l'on note de manière plus condensée, grâce à l'opérateur
forme (2) :
[eq. 2.24]
P
(pi), sous la
1 Attention, les valeurs sont retirées de la liste et non réduites de 1% !
2 L'utilisation de l'opérateur S (sigma) est développée en annexe.
H. Schyns
2.13
Paramètres de position et de dispersion
2 - Paramètres de position
1
é N ùN
x g = ê xi ú
êi = 1 ú
ë
û
Õ
[eq. 2.25]
Le symbolisme
N
Õ xi
[eq. 2.26]
i =1
se lit : le produit (P ) de tous les x dont l'indice i (xi) prend les valeurs entières allant
de 1 à N.
Par passage aux logarithmes, on obtient une autre expression équivalente :
Le logarithme de la moyenne géométrique est la moyenne arithmétique du
logarithme des valeurs observées (1).
ln x g =
1
× [ln x 1 + ln x 2 + ln x 3 + ... + ln x N ]
N
[eq. 2.27]
1 N
× ln x1
N i =1
[eq. 2.28]
ln x g =
å
Cette expression montre qu'il est impossible de calculer la moyenne géométrique
dès qu'une des valeurs observées est nulle ou négative.
La moyenne géométrique est largement utilisée en économie et finance, notamment
pour déterminer le taux de croissance moyen sur une période donnée.
2.5.2. Exemple
Un investisseur évalue son portefeuille d'actions et d'obligations à la fin de chaque
année afin de connaître le taux d'intérêt moyen que lui procurent ses
investissements.
Par taux d'intérêt moyen, il faut comprendre le taux d'intérêt composé unique que
son capital initial de 25 000 EUR aurait dû procurer pendant le même laps de temps
pour arriver au même résultat.
Date
Valeur
Vn
Différence
Vn-Vn-1
Rapport
Vn / Vn-1
Taux
[Vn-Vn-1] / Vn-1
TAEG
4.72%
1 jan 2000
25 000
-
-
-
25 000
1 jan 2001
27 000
+2000
1.080
8%
26 180
1 jan 2002
30 240
+3240
1.120
12%
27 416
1 jan 2003
29 332
-908
0.970
-3%
28 710
1 jan 2004
30 065
+773
1.025
2.5%
30 065
Total
5 065
Par an
1 266
4.875%
1 Un changement de la base du logarithme ne change en rien la valeur de la moyenne géométrique. On
peut tout aussi bien utilier les logarithmes décimaux que les logarithmes népériens.
H. Schyns
2.14
Paramètres de position et de dispersion
2 - Paramètres de position
La première erreur classique consiste à calculer le gain réalisé sur la période
considérée :
30 065 - 25 000 = 5 065 EUR
puis à diviser ce gain par le nombre d'années :
5 065 / 4 = 1 266.25 EUR
puis à ramener ce montant annuel au montant initial :
1 266.25 / 25 000 = 0.05065 = 5.065 % par an
Ce résultat est FAUX. Il s'agit d'un taux d'intérêt simple et non d'un taux d'intérêt
composé.
La seconde erreur classique consiste à calculer la moyenne arithmétique des taux
annuels :
8% + 12% - 3% + 2.5% = 19.5%
puis à diviser ce taux par le nombre d'années :
19.5% / 4 = 4.875 % par an
Ce résultat est FAUX mais cette valeur se rapproche déjà de la valeur exacte.
La solution exacte consiste à faire la moyenne géométrique des rapports de
croissance :
x g = 4 1.080 × 1.012 × 0.970 × 1.025 = 4 1.2026 = 1.0472
soit
4.72 % par an
Si le capital initial avait été bloqué et capitalisé à ce taux de 4.72% pendant quatre
ans, il aurait atteint la même valeur aujourd'hui ainsi qu'en témoigne la dernière
colonne du tableau.
2.6.
La moyenne harmonique
La moyenne harmonique est obtenue par calcul. Son inverse est la moyenne
arithmétique de l'inverse des valeurs observées.
Soit N est le nombre d'observations et x1, x2, ..., xi, ..., xN respectivement les 1e ,2e ,
...,ie et dernière valeurs observées alors la moyenne harmonique, notée x h vaut :
1
1 é1
1
1
1 ù
= ×ê +
+
+ ... +
ú
x h N ë x1 x 2 x 3
xN û
[eq. 2.29]
ce que l'on note de manière plus condensée, grâce à l'opérateur S (sigma), sous la
forme :
1
1 N 1
= ×
x h N i =1 x i
å
[eq. 2.30]
ou
H. Schyns
2.15
Paramètres de position et de dispersion
2 - Paramètres de position
xh =
N
N
1
x
i =1 i
[eq. 2.31]
å
Le principal inconvénient de la moyenne harmonique est qu'aucune des valeurs
observées ne peut être nulle.
La moyenne harmonique est assez peu utilisée dans la vie courante.
2.7.
Généralisation de la moyenne
Les moyennes géométriques et harmoniques ouvrent la voie à une infinité de
manières de calculer la moyenne. Il suffit :
-
de choisir une fonction f(x) quelconque,
d'appliquer cette fonction f(x) aux valeurs observées xi,
de calculer la moyenne arithmétique des valeurs f(xi) obtenues,
d'appliquer la fonction inverse f -1(x) à la moyenne arithmétique obtenue.
f (x f ) =
1
× [f (x1 ) + f (x 2 ) + f (x 3 ) + ... + f (x N )]
N
[eq. 2.32]
1 N
× f (x i )
N i =1
[eq. 2.33]
f (x f ) =
å
x f = f - 1 (x f )
[eq. 2.34]
Nous pouvons ainsi définir - entre autres - les moyennes :
-
2.8.
arithmétique
géométrique
harmonique
quadratique
cubique
trigonométrique
etc.
: f(x) = x
: f(x) = ln(x)
: f(x) = 1/x
: f(x) = x2
: f(x) = x3
: f(x) = tan x
Classement des moyennes
On démontre facilement que :
La moyenne géométrique est toujours plus petite ou égale à la moyenne
arithmétique.
Considérons deux nombres x1 et x2 positifs et la différence de leur racine carrée :
x1 - x 2
[eq. 2.35]
Le carré de cette expression est évidemment positif ou nul car le carré d'un nombre
est toujours positif ou nul.
[ x1 -
x2
]2 ³ 0
[eq. 2.36]
Développons en appliquant la règle des produits remarquables
H. Schyns
2.16
Paramètres de position et de dispersion
2 - Paramètres de position
( x1 )2 - 2 ×
x1 × x 2 +
(
x2
)2 ³ 0
x1 - 2 × x1 × x 2 + x 2 ³ 0
[eq. 2.37]
[eq. 2.38]
Faisons passer la racine carrée dans l'autre membre, puis divisons les deux
membres par 2
x 1 + x 2 ³ 2 × x1 × x 2
[eq. 2.39]
x1 + x 2
³ x1 × x 2
2
[eq. 2.40]
Le membre de gauche n'est rien d'autre que la moyenne arithmétique des deux
nombres tandis que le membre de droite représente leur moyenne géométrique.
x ³ xg
[eq. 2.41]
On démontre de manière similaire que :
La moyenne harmonique est toujours plus petite ou égale à la moyenne
géométrique.
Reprenons les deux nombres x1 et x2 positifs et la différence des inverses de leur
racine carrée :
1
1
[eq. 2.42]
x1
x2
Le carré de cette expression est évidemment positif ou nul car le carré d'un nombre
est toujours positif ou nul.
é 1
ê
êë x 1
1 ù
ú
x 2 úû
2
³0
[eq. 2.43]
Développons en appliquant la règle des produits remarquables
1
x1
2
x1 × x 2
+
1
³0
x2
[eq. 2.44]
Faisons passer la racine carrée dans l'autre membre, puis divisons les deux
membres par 2
1é 1
1 ù
+
ê
ú³
2 ë x1 x 2 û
1
x1 × x 2
[eq. 2.45]
Le membre de gauche n'est rien d'autre que l'inverse de la moyenne harmonique
des deux nombres tandis que le dénominateur du membre de droite représente leur
moyenne géométrique.
1
1
³
xh x g
[eq. 2.46]
En inversant les fractions, on inverse également le sens de l'inégalité :
xh £ xg
[eq. 2.47]
Par transitivité des deux propositions précédentes, on a
H. Schyns
2.17
Paramètres de position et de dispersion
2 - Paramètres de position
xh £ xg £ x
[eq. 2.48]
harmonique £ géométrique £ arithmétique
L'égalité n'est obtenue que quand toutes les valeurs observées sont égales entre
elles.
Tous les paramètres de position s'expriment dans la même unité de mesure
que les données observées.
2.9.
Comparaison moyenne médiane
Pour une distribution symétrique, le mode, la moyenne et la médiane sont
confondues (fig. 2.10).
fig. 2.10 Médiane et moyenne dans une distribution symétrique
Dans le cas d'une distribution non symétrique, qui possède une queue de
distribution, la moyenne et la médiane sont distinctes. La moyenne, qui est
influencée par les valeurs extrêmes se déplace vers la queue. (fig. 2.10). L'écart est
d'autant plus grand que la queue de distribution est longue.
fig. 2.11 Médiane et moyenne dans une distribution asymétrique
Inversement, en se basant sur la valeur de la médiane et de la moyenne, nous
pourrons deviner si la distribution a une queue ou non et de quel côté elle se situe.
H. Schyns
2.18
Paramètres de position et de dispersion
3.
3 - Paramètres de dispersion
Paramètres de dispersion
3.1.
Position du problème
Considérons trois groupes (a, b, c) de cinq enfants ou de jeunes auxquels on
demande leur âge. Nous obtenons le tableau suivant :
Groupe
a
b
c
Âges
8
6
4
9
8
7
10
10
10
11
12
13
12
14
16
Moyenne
10
10
10
Médiane
10
10
10
Sur base de ce tableau, nous construisons les histogrammes de la fig. 3.1.
fig. 3.1 Histogrammes de même moyenne
Comme les trois groupes sont différents, la situation représentée par l'histogramme
(a) est différente de celles représentées par les histogrammes (b) et (c).
Pourtant, dans les trois cas de figure, la moyenne et la médiane sont identiques et
constantes :
x=~
x = 10
[eq. 3.1]
Il est clair que les paramètres de position tels que la moyenne et la médiane ne
suffisent pas pour décrire l'hétérogénéité de ces trois groupes. Or, ce qui les
distingue, c'est l'étalement des âges observés.
En d'autres mots, il nous manque un paramètre pour caractériser la dispersion des
observations autour du paramètre de position.
H. Schyns
3.1
Paramètres de position et de dispersion
3 - Paramètres de dispersion
Les paramètres de dispersion caractérisent l'étalement des observations
autour d'un paramètre de position.
On ne détermine pas de paramètres de dispersion pour les variables
qualitatives nominales.
On attend d'un paramètre de dispersion qu'il ait les mêmes propriétés qu'un
paramètre de position, c'est-à-dire, qu'il soit :
-
aisé à déterminer,
représentatif,
stable.
Les quatre paramètres de dispersion les plus utilisés sont :
-
la plage ou amplitude (ang.: range, span),
l'écart interquartile (ang.: interquartile range),
l'écart absolu moyen (ang.: mean deviation),
l'écart-type et la variance (ang.: standard deviation, variance).
Nous voyons déjà que les paramètres de dispersion sont basés sur la notion
d'écart.
3.2.
La plage ou amplitude
3.2.1. Définition
La plage ou amplitude est la différence entre la plus grande (maximum) et
la plus petite (minimum) des valeurs observées.
A = xmax - xmin
[eq. 3.2]
Cette définition sous-entend qu'il est possible de calculer une différence ce qui limite
le calcul de la plage aux variables quantitatives (discrètes ou continues).
3.2.2. Variable qualitative ordinale
Comme il a été dit plus haut, il n'est pas possible de calculer la plage d'une variable
qualitative. Toutefois, dans le cas d'une variable qualitative ordinale, nous pourrons
exprimer la plage par une phrase du type :
"Les valeurs observées se répartissent toutes entre la valeur 'satisfaisant' et la
valeur 'presque parfait'."
3.2.3. Variable quantitative
La plage se calcule de la même manière, qu'il s'agisse de variables discrètes ou de
variables continues.
H. Schyns
3.2
Paramètres de position et de dispersion
3 - Paramètres de dispersion
A titre d'exemple, repartons du tableau classé relatif à l'enquête sur la taille du
conducteur (tableau 3.1) :
Taille (m)
1.47
1.48
1.53
1.54
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.67
1.67
1.67
1.69
1.69
1.72
1.78
1.79
1.86
tableau 3.1 Taille du conducteur
A = xmax - xmin
A = 1.86 – 1.47 = 0.39 m
[eq. 3.3]
Notons que l'amplitude [ A ] s'exprime dans les mêmes unités que la variable
analysée.
3.2.4. Avantages et inconvénients
L'amplitude présente peu d'avantages :
-
elle est très facile à déterminer,
elle permet de définir la largeur des classes dans le cas de variables continues,
elle est unique car chaque série n'a qu'une et une seule amplitude,
L'amplitude présente un inconvénient majeur :
-
son calcul ne fait intervenir que les deux observations extrêmes; elle n'est donc
pas représentative de l'ensemble,
elle peut varier très fortement d'un échantillon à un autre et est donc très
instable,
Les tableurs tels que Excel et OpenOffice ne proposent pas de fonction de calcul de
l'amplitude. Par contre, elle se calcule facilement à partir des fonctions MAX() et
MIN().
3.3.
L'écart interquartile
3.3.1. Définition
Avant de parler d'écart interquartile, il est nécessaire de définir la notion de quartile.
Les quartiles – il y en a trois – se définissent comme la médiane.
Nous savons que la médiane est la valeur qui partage les observations (après
classement) en deux groupes contenant le même nombre d'observations. C'est la
valeur qui correspond à la fréquence relative cumulée de 50%.
De manière similaire, les quartiles divisent la liste en quatre groupes contenant le
même nombre d'observations.
En d'autres mots, alors que la médiane réalise un partage 50/50, les quartiles [ Qi ]
réalisent respectivement les partages :
H. Schyns
3.3
Paramètres de position et de dispersion
-
Q1 : 25/75
-
Q2 : 50/50
-
Q3 : 75/25
3 - Paramètres de dispersion
Nous voyons que le deuxième quartile [ Q2 ] est égal à la médiane (1).
Les quartiles se déterminent comme la médiane, à partir du tableau trié. Dans le
cas de la médiane, nous devions considérer deux types de calcul selon que le
nombre d'observations était pair ou impair. Cette fois, nous devons considérer
quatre cas selon que le nombre d'observations est :
-
un multiple de 4
N = 4·q
(p.ex.: 20)
un multiple de 4 + 1 (p.ex.: 21)
N = 4·q+1
un multiple de 4 + 2 (p.ex.: 22)
N = 4·q+2
un multiple de 4 + 3 (p.ex.: 23)
N = 4·q+3
Q1=
x q + xq+1
2
Q3 =
x3q + x3q+1
2
Q1= x q+1
Q3 = x3q+1
Q1= x q+1
Q3 = x 3 q + 2
Q1= x q+1
Q3 = x3q+1
Cette façon de faire est illustrée sur le graphique suivant :
fig. 3.2 Définition des quartiles
Par exemple, supposons que nous disposions de 45 données. Le plus grand
multiple de 4 inférieur ou égal à 45 est 44. Nous sommes donc dans le cas
N = 4q + 1 avec q = 11
[eq. 3.4]
Le premier quartile Q1 sera donc représenté par la 12ème valeur de la série (11+1) et
le troisième quartile Q3 par la 34ème (33+1).
L'écart interquartile [ eQ ] est défini comme la différence entre le troisième et le
premier quartile :
e Q = Q3 – Q 1
[eq. 3.5]
1 Dans le même ordre d'idées, la statistique définit aussi les Déciles (1 à 9) et les Centiles (1 à 99)
H. Schyns
3.4
Paramètres de position et de dispersion
3 - Paramètres de dispersion
Il recouvre la moitié des observations.
3.3.2. Variable qualitative
La définition implique le calcule d'une différence, ce qui est impossible dans le cas
des variables nominales. Toutefois, dans le cas d'une variable qualitative ordinale,
nous pourrons exprimer l'écart interquartile par une phrase du type :
"Les premiers 25% des valeurs observées se situent en-deça de la valeur
'satisfaisant' tandis que les derniers 25% si situent au-delà de la valeur 'presque
parfait'."
3.3.3. Variable quantitative discrète
Reprenons l'exemple déjà étudié de la composition de ménage (tableau 3.2).
Composition du Ménage
1
1
1
1
1
1
1
1
2
2
2
3
3
3
3
4
4
4
4
6+
tableau 3.2 Composition du ménage
Ici, nous avons un peu de chance car nous disposons de 20 observations et 20 est
divisible par 4. Nous pouvons répartir les données en quatre lignes de cinq
données et nous sommes donc dans le cas (a) de la définition. Par conséquent, le
premier quartile est défini par la moyenne entre la cinquième et la sixième
observation :
Q1 =
x5 + x 6 1+1
=
=1
2
2
[eq. 3.6]
Nous procédons de même pour le troisième quartile
Q3 =
x15 + x16 3+ 4
=
= 3.5
2
2
[eq. 3.7]
L'écart interquartile [ eQ ] est la différence entre le troisième et le premier quartile :
eQ = 3.5 – 1 = 2.5
[eq. 3.8]
Dans le diagramme des fréquences cumulées, les quartiles correspondent à la
première barre traversée par l'horizontale tracée à 25% ou 75%, sauf si l'horizontale
coïncide avec le sommet de la barre, auquel cas nous ferons la moyenne des deux
valeurs adjacentes :
H. Schyns
3.5
Paramètres de position et de dispersion
3 - Paramètres de dispersion
fig. 3.3 Quartiles d'une variable discrète.
3.3.4. Variable quantitative continue
Dans le cas des variables quantitatives continues, la détermination des quartiles est
identique à ce qui a été vu au point précédent.
Repartons du tableau de chiffres sur la taille du conducteur (tableau 3.3).
Taille (m)
1.47
1.48
1.53
1.54
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.67
1.67
1.67
1.69
1.69
1.72
1.78
1.79
1.86
tableau 3.3 Taille du conducteur
Le découpage en quarts est identique à ce qui a été effectué plus haut. Pour le
premier et troisième quartile, nous avons :
Q1=1.54+1.55 =1.545 m
2
[eq. 3.9]
Q3 =1.69+1.69 =1.69 m
2
[eq. 3.10]
Nous pouvons aussi déterminer les quartiles et l'écart interquartile à partir du
tableau regroupé :
Taille du conducteur (m)
H. Schyns
Valeurs de
la variable
Fréquence
relative
Fréquence
relative
cumulée
xi
fi
Fi
[1.40 , 1.50 [
10 %
10 %
[1.50 , 1.60 [
40 %
50 %
[1.60 , 1.70 [
30 %
80 %
[1.70 , 1.80 [
15 %
95 %
[1.80 , 1.90 [
5%
100 %
Nbre observ.
100 %
100 %
3.6
Paramètres de position et de dispersion
3 - Paramètres de dispersion
En nous servant de la colonne des fréquences relatives cumulées, nous voyons que
le premier quartile (25%) se trouve dans l'intervalle [ 1.50 , 1.60 ]; la borne 1.50
correspondant à 10% et la borne 1.60, à 50%.
En appliquant les formules d'interpolation linéaire, nous trouvons :
Q1=1.50+[1.60-1.50]× 0.25-0.10
0.50-0.10
[eq. 3.11]
Q1=1.50+0.10× 0.15 =1.54
0.40
[eq. 3.12]
De même, le troisième quartile (75%) se trouve dans l'intervalle [ 1.60, 1.70 ]; la
borne 1.60 correspondant à 50% et la borne 1.70 à 80% :
Q3=1.60+[1.70-1.60]× 0.75-0.50
0.80-0.50
[eq. 3.13]
Q3=1.60+0.10× 0.25 =1.68
0.30
[eq. 3.14]
Nous en déduisons la valeur de l'écart interquartile :
eQ = 1.68 – 1.54 = 0.14 m
[eq. 3.15]
La détermination graphique des quartiles et de l'écart interquartile est illustrée sur le
diagramme des fréquences relatives cumulées de la fig. 3.4
fig. 3.4 Quartiles d'une variable continue.
3.3.5. Avantages et inconvénients
L'écart interquartile présente plusieurs avantages, semblables à ceux de la
médiane :
-
il est assez facile à déterminer,
il part du classement de toutes les observations; il est donc représentatif de
l'ensemble,
il est unique car chaque série n'a qu'un et un seul jeu de quartiles,
il est peu sensible aux valeurs extrêmes, ce qui en fait un paramètre
remarquablement stable,
L'écart interquartile présente aussi un inconvénient :
H. Schyns
3.7
Paramètres de position et de dispersion
-
3 - Paramètres de dispersion
quand on dispose de plusieurs échantillons qui observent la même variable, il
n'est pas possible de définir l'écart interquartile général à partir des écarts
interquartiles partiels.
Dans les tableurs tels que Excel et OpenOffice les quartiles sont calculés grâce à la
fonction QUARTILE(). qui prend en paramètre la série de données et le numéro du
quartile à calculer (0 à 4) (1). De là, on calcule facilement l'écart interquartile.
3.4.
Notion d'écart
Dans le cadre des paramètres de position, on appelle écart la différence
entre une valeur xi particulière et la moyenne de toutes les valeurs xi, soit xmoy
ei = xi - x
[eq. 3.16]
Le calcul de l'écart faisant intervenir une soustraction, il s'applique donc qu'aux
variables quantitatives
3.5.
L'écart moyen
Puisque les valeurs [ xi ] s'écartent plus ou moins de la moyenne, une première idée
qui vient à l'esprit consiste à calculer la moyenne des écarts et à prendre cette
valeur comme mesure de la dispersion.
La moyenne des écarts est toujours égale à zéro, quelle que soit la série de
nombres considérée !
Prenons une fois de plus l'exemple de la taille des conducteurs () :
Taille (m)
1.47
1.48
1.53
1.54
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.67
1.67
1.67
1.69
1.69
1.72
1.78
1.79
1.86
Moyenne des mesures
1.628
Ecarts (m)
-0.158 -0.148
-0.098 -0.088 -0.088
-0.078 -0.068
-0.058 -0.048 -0.038
-0.028
0.042
0.042
0.042
0.062
0.062
0.092
0.153
0.163
0.233
Moyenne des écarts
0.000
tableau 3.4 Ecarts à la moyenne
La somme des écarts négatifs compense exactement la somme des écarts
positifs (2).
1 Q0 et Q4 correspondent respectivement au minimum et au maximum observés.
2
A condition de ne pas arrondir les chiffres
H. Schyns
3.8
Paramètres de position et de dispersion
3 - Paramètres de dispersion
C'est toujours le cas et nous le démontrons aisément :
ei = xi - x
[eq. 3.17]
ei = å(xi - x )
å
i=1
i=1
[eq. 3.18]
N
N
å(
N
N
å
1 e =1
x -x
N i=1 i N i=1 i
N
N
å
)
[eq. 3.19]
N
å
å
1 × e = 1× x - 1 × x
N i=1 i N i=1 i N i=1
[eq. 3.20]
Or, dans le membre de droite, le premier terme n'est autre que la moyenne et, dans
le second, la moyenne ne fait pas intervenir l'indice et peut sortir de la somme (voir
7.2.1)
N
å
1 × e = x - 1 ×N×x
N
N i=1 i
[eq. 3.21]
N
å
1× e = 0
N i=1 i
3.6.
[eq. 3.22]
L'écart absolu moyen
Ainsi que nous venons de la voir, le fait que la moyenne des écarts soit nulle vient
du fait que les écarts négatifs compensent exactement les écarts positifs.
Cette compensation ne peut avoir lieu si nous remplaçons les écarts [ ei ] par leur
valeur absolue (1). Dès lors, la somme des écarts absolus est toujours différente de
zéro sauf si toutes les valeurs [ xi ] sont identiques. Il est donc possible de calculer
l'écart absolu moyen (ang.: average absolute deviation)
ei = xi - x
N
å
[eq. 3.23]
N
å
eABS = 1 × ei = 1 × xi - x
N i=1
N i=1
[eq. 3.24]
Ecarts absolus (m)
0.158
0.148
0.098
0.088
0.088
0.078
0.068
0.058
0.048
0.038
0.028
0.042
0.042
0.042
0.062
0.062
0.092
0.153
0.163
0.233
Moyenne des écarts absolus
0.089
tableau 3.5 Ecarts absolus à la moyenne
Dans les tableurs, l'écart absolu moyen est calculé par la fonction ECART.MOYEN().
1 La valeur absolue d'un nombre est ce nombre sans son signe : la valeur absolue d'un nombre positif est
ce même nombre; la valeur absolue d'un nombre négatif est ce nombre changé de signe (de – vers +)
H. Schyns
3.9
Paramètres de position et de dispersion
3.7.
3 - Paramètres de dispersion
La variance et écart-type
Lorsqu'ils veulent se débarrasser d'un nombre négatif, les mathématiciens utilisent
une astuce bien commode : ils l'élèvent au carré.
Nous pouvons appliquer ce principe pour calculer un paramètre de dispersion :
Au lieu de calculer la moyenne des écarts, nous calculons
la moyenne des carrés des écarts (ang.: mean of squared differences).
nous prenons ensuite
la racine carrée du résultat pour éliminer l'effet du carré.
Repartons du tableau 3.4 de notre exemple :
Carré des écarts (m2)
0.0250 0.0220 0.0100 0.0080 0.0080
0.0060 0.0050 0.0030 0.0020 0.0010
0.0010 0.0020 0.0020 0.0020 0.0040
0.0040 0.0090 0.0230 0.0260 0.0540
Ecart carré moyen (m2)
0.0109
Racine carrée (m)
0.104
L'écart carré moyen se nomme variance (ang.: variance) et sa racine carrée est
l'écart-type (ang.: standard deviation).
å(
)
N
N
å
Var = 1 × ei2 = 1 × xi - x 2
N i =1
N i=1
[eq. 3.25]
En développant la somme des différences, peut également écrire
æ N ö
N× x - N×çç x ÷÷
è i=1 ø
Var = i =1
2
N
N
å
²
å
2
N
å
2
eTYPE = s = Var = 1 × ei
N i=1
[eq. 3.26]
[eq. 3.27]
Dans les tableurs, ces deux grandeurs sont calculées par les fonctions VAR.P() ou
et ECARTYPE.P() ou ECARTYPE.P()
VARP()
Cette définition pose cependant un petit problème conceptuel :
Le but des statistiques est de définir les caractéristiques d'une population à
partir de celles d'un échantillon.
Ainsi, quand nous déterminons la moyenne d'un échantillon, nous espérons qu'elle
correspond à la moyenne de la population (à une certaine précision près)(1).
La théorie – qui sort du cadre de ce cours – nous démontre qu'il y a bien
correspondance. En langage statistique, on dit que :
1 Ce point fera l'objet du chapitre sur l'inférence statistique et les tests.
H. Schyns
3.10
Paramètres de position et de dispersion
3 - Paramètres de dispersion
La moyenne de l'échantillon est un estimateur non biaisé de la moyenne de la
population
De même, quand nous déterminons la dispersion d'un échantillon au moyen de sa
variance et de son écart-type, nous espérons que ces valeurs correspondent à
celles de la population. Hélas, ici, la théorie nous dit que c'est faux !
La variance et l'écart-type de l'échantillon tels que définis par les équations [3.25] et
[3.27] sous-estiment la variance de la population. Ce sont des indicateurs biaisés.
La théorie démontre que, pour corriger le biais, il faut diviser la somme des carrés
par [ N-1 ] et non par le nombre d'observations [ N ] (1).
å(
N
)
N
å
2
2
Var = 1 × ei = 1 × xi - x
N-1 i=1
N-1 i =1
æ N ö
N× x - N×çç x ÷÷
è i=1 ø
Var = i =1
N×(N-1)
N
å
²
eTYPE = s = Var =
å
[eq. 3.28]
2
N
å
1 × e2
N-1 i=1 i
[eq. 3.29]
[eq. 3.30]
Dans les tableurs, ces deux grandeurs sont calculées par les fonctions VAR() et
ECARTYPE().
Dans les applications, nous utiliserons toujours les expressions [ 3.28 ], [ 3.29 ] et
[ 3.30 ] (2).
L'unité dans laquelle s'exprime la variance est le carré de l'unité des observations.
Dans le cas présent, il s'agit de mètres carrés puisque la taille s'exprime en mètres
(ici var = 0.0109 m2). A cause de cette unité, la variance est difficile à interpréter.
Par contre, l'unité de l'écart-type est identique à celles des observations (ici
0.104 m). C'est donc une grandeur plus commode.
Comme le calcul fait intervenir le carré des écarts, il suffit qu'une observation
s'éloigne beaucoup de la moyenne pour que l'écart-type augmente énormément.
En fait, un seul grand écart a plus d'impact sur l'écart-type qu'une série de petits
écarts.
Nous pouvons aussi calculer les paramètres de dispersion à partir des tableaux
regroupés en classe (tableau 3.6)
1 La grandeur [ N-1 ] est souvent appelé "nombre de degrés de liberté"
2 Retenons que VAR() est utilisé dans le cas général et VARP()uniquement quand on dispose des chiffres
de toute la population.
H. Schyns
3.11
Paramètres de position et de dispersion
3 - Paramètres de dispersion
Classes
Centre
Fréq.
absolue
Produit
Ecarts
Carré
écarts
Produit
xi
ci
ni
ni·ci
ei = cimoy
ei2
ni·ei2
[1.40 - 1.50 [
1.45
2
2.90
-0.165
0.02722
0.05444
[1.50 - 1.60 [
1.55
8
12.40
-0.065
0.00422
0.03376
[1.60 - 1.70 [
1.65
6
9.90
0.035
0.00122
0.00732
[1.70 - 1.80 [
1.75
3
5.25
0.135
0.01822
0.05466
[1.80 - 1.90 [
1.85
1
1.85
0.235
0.05522
0.05522
20
32.30
SCE
0.20540
Var
Ec-Type
0.01081
0.104
Totaux
Moyenne
Racine
1.615
tableau 3.6 Classes de taille du conducteur
N
å
å (
K
)
2
2
Var = 1 × ni ×ei = 1 × ni × ci - x
N-1 i=1
N-1 i=1
[eq. 3.31]
La somme des carrés des écarts (SCE) est un concept très important en
statistiques; il reviendra dans d'autres chapitres (ici SCE = 0.20540).
Lorsque la distribution des observations suit la loi normale ou gaussienne, il existe
une relation entre l'écart interquartile, l'écart absolu moyen et l'écart-type :
3.8.
eQ » 1.35×s
[eq. 3.32]
eABS » 0.80×s
[eq. 3.33]
Contrôle industriel
La moyenne et l'écart-type sont les paramètres de position et de dispersion les plus
utilisés. Pourtant, dans l'industrie, et plus particulièrement dans le cadre du contrôle
de production, on leur préfère souvent la médiane et l'écart interquartiles.
En effet, pour suivre un processus, il faut effectuer des mesures. Certaines d'entre
elles sont continues et informatisées (p.ex.: température, pression,…); mais croire
que tout est automatisé est une erreur. Dans de nombreuses PME, une grande
partie des relevés se font à la main : un opérateur muni d'une feuille de route relève
périodiquement les chiffres affichés par les appareils de mesure.
Comment déléguer à cet opérateur qui est en première ligne une partie de l'analyse
des données quand on sait que ses connaissances en statistiques sont nulles et
que celles en mathématiques sont fort limitées.
Prenons l'exemple du suivi de la production de pots de confiture artisanale.
Nous demanderons à l'opérateur chargé de suivre une production de prélever un
certain nombres de pots de confiture.
En vertu de ce qui a été dit au point 3.3.1 le nombre [ n ] de pots à prélever sera de
la forme "multiple de 4 plus 3" :
n = 4·p + 3
[eq. 3.34]
soit 7, 11, 15, 19,… pots selon la précision voulue.
H. Schyns
3.12
Paramètres de position et de dispersion
3 - Paramètres de dispersion
Nous lui demanderons ensuite de les peser et de classer les poids obtenus dans
l'ordre croissant (ou décroissant) puis de noter uniquement le poids de certains
pots selon le tableau 3.7 afin de déterminer les quartiles et la médiane :
p
Nombre
de pots
Pot
Q1
Pot
Median
Pot
Q3
1
7
2 ème
4 ème
6 ème
2
11
3 ème
6 ème
9 ème
3
15
4 ème
8 ème
12 ème
4
19
5 ème
10 ème
15 ème
tableau 3.7 Position des quartiles en fonction du nombre de pots
Si les poids suivent une distribution gaussienne (1), alors la médiane donne une
bonne estimation de la moyenne et l'écart interquartile vaut environ 1.35 fois l'écarttype ainsi que vu plus haut.
x»~
x
[eq. 3.35]
s»
eQ
1.35
[eq. 3.36]
1 La distribution normale ou gaussienne sera définie dans un prochain chapitre
H. Schyns
3.13
Paramètres de position et de dispersion
4.
4 - Paramètres de formes
Paramètres de formes
4.1.
Asymétrie
(à développer…)
4.2.
Moments
(à développer…)
H. Schyns
4.1
Paramètres de position et de dispersion
5.
5 - Conclusion
Conclusion
Nous avons déjà vu que pouvons synthétiser un grand ensemble de données par un
histogramme et un polygone de fréquences relatives cumulées.
Nous avons vu dans ce chapitre que nous pouvons également remaner les données
à quelques grandeurs caractéristiques :
-
des paramètres de position
mode, médiane, moyenne
des paramètres de dispersion
amplitude, ecart absolu moyen, variance, écart-type
éventuellement un paramètre d'asymétrie
Lors de ces opération, le détail des données initiales s'estompe au profit de la
facilité de traitement.
La plus grosse difficulté n'est pas tant de calculer les paramètres que d'interpréter
leurs valeurs.
H. Schyns
5.1
Paramètres de position et de dispersion
6.
6 - Exercices
Exercices
Exercice 1
Quelles valeurs faut-il prendre pour définir le premier quartile, la médiane, et le
troisième quartile dans une série triée qui contient :
-
120 données
23 données
50 données
65 données
Exercice 2
En 2002, une revue d'économie publie le graphique ci-dessous :
En 2010, une revue médicale publie le graphique ci-dessous :
Pour chacun des graphiques
- de quoi s'agit-il ?
- les graphiques témoignent-ils d'une situation ou d'une évolution ?
- quelles informations pouvez-vous en tirer ?
- quelle est la situation la plus favorable (justifiez sur le graphique) ?
- les informations que vous en tirez sont elles cohérentes avec vos
connaissances générales ?
H. Schyns
6.1
Paramètres de position et de dispersion
6 - Exercices
Exercice 3
Dans un aéroport, on a pesé les valises d'un échantillon de 25 passagers pris au
hasard.
18.6
22.9
19.2
12.6
18.3
15.8
16.7
14.6
21.7
15.7
18.0
22.9
16.8
19.7
17.2
17.5
18.1
18.5
19.1
17.2
21.9
14.8
19.1
14.6
22.6
tableau 6.1 Poids des valises (kg)
Déterminez les paramètres de position de cette série
-
classe modale
médiane
moyenne arithmétique
ainsi que ses paramètres de dispersion
-
plage
écart interquartile
écart absolu moyen
variance
écart-type
Exercice 4
Une usine teste un nouveau procédé visant à économiser l'énergie et à lutter contre
la pollution.
Pendant 20 jours, on a prélevé un échantillon d'effluent à la fin de chacune des
pauses (06-14 / 14-22 / 22-06). L'analyse révèle la présence d'un agent polluant.
Les teneurs sont reprises au tableau ci-dessous.
Après la mise en place du nouveau procédé, on a procédé de la même manière
pendant 25 jours
On demande :
-
H. Schyns
Calculez la moyenne et la médiane des mesures effectuées dans chacune des
poses, avant et après modification du processus.
Calculez la variance, l'écart-type et l'écart interquartile des mesures effectuées
dans chacune des poses, avant et après modification du processus.
Y a-t-il des différences significatives de pollution entre les pauses ?
Peut-on dire que le nouveau processus a apporté une amélioration significative
par rapport à l'ancien ?
Peut-on admettre que le niveau de polluants est statistiquement nul ?
6.2
Paramètres de position et de dispersion
Jour
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Avant (g/kg)
Pause
06-14
14-22
26.6
20.4
21.9
19.1
22.8
25.7
22.6
21.1
28.0
25.4
23.0
18.7
28.0
21.9
20.3
21.2
19.1
21.9
21.6
20.9
20.7
25.4
16.1
21.4
20.6
20.1
26.1
25.9
27.3
22.1
33.4
19.7
22.9
26.7
25.3
20.7
17.2
12.9
21.6
21.3
6 - Exercices
Jour
22-06
28.6
28.4
34.3
28.9
34.3
26.0
24.6
27.4
26.4
21.3
26.3
32.2
33.5
40.2
28.8
31.4
22.6
27.3
26.1
36.3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Après (g/kg)
Pause
06-14
14-22
11.5
23.2
20.6
19.7
15.1
13.9
16.5
12.7
13.8
16.2
18.1
14.8
25.1
21.1
16.1
19.7
11.1
17.6
8.4
20.3
20.6
16.3
18.8
13.1
16.5
12.6
14.6
18.5
21.9
14.5
17.4
16.7
15.5
20
16
6.7
11.3
20.7
19.4
9.1
12
17.6
15.3
13.3
14.8
15.5
12.4
14.7
19.2
18.4
22-06
19.9
18.8
14.7
17.5
13.9
19.4
17.6
13.8
20.2
17.6
19.1
18.2
21.4
15.7
21.2
19.4
16.4
15.8
17.5
16.8
20.1
19.4
18.3
19.7
17.6
tableau 6.2 Teneur en polluants (g/kg)
H. Schyns
6.3
7 - Annexe : l'opérateur S
Paramètres de position et de dispersion
Annexe : l'opérateur S
7.
7.1.
Définition
Les additions sont très nombreuses en statistiques. Calculer un paramètre implique
presque toujours le calcul d'une somme de très nombreux termes.
Nous pouvons écrire l'expression d'une somme sous une forme explicite :
S = x 1 + x 2 + x 3 + ... + x N
[eq. 7.1]
Souvent, nous insèrerons au milieu de l'expression un terme générique tel que xi
ou xj ou xk :
S = x 1 + x 2 + x 3 + ... + x i + ... + x N
[eq. 7.2]
L'usage a consacré l'emploi des indices i, j, k, ... mais ce choix est arbitraire; nous
pourrions tout aussi bien utiliser des signes tels que §, ¨, ©, ª.
Ecrites de cette manière, les sommes prennent beaucoup de place et, lorsqu'il faut
combiner des sommes entre elles, l'écriture devient rapidement kilométrique et
illisible. Pour contourner ce problème les mathématiciens ont créé une écriture
symbolique qui utilise un caractère spécial appelé opérateur S (sigma).
Sous cette forme, la somme de l'équation 9.2 devient :
S=
N
å xi
[eq. 7.3]
i =1
L'expression se lit : la somme (S) de tous les x dont l'indice i (xi) prend les valeurs
entières allant de 1 à N.
L'écriture fait apparaître le terme générique xi ainsi que les premier et dernier
indices (1 et N). L'expression [ i=1 ] qui apparaît en dessous de l'opérateur rappelle
que c'est l'indice i de l'expression générique qui varie. Cet indice est purement
symbolique.
A titre d'illustration, toutes les expressions de l'équation 9.4
représentent exactement la même somme :
S=
N
å
xi =
i =1
N
å
xk =
k =1
N
å
x© =
©=1
N
å x Toto
[eq. 7.4]
Toto = 1
Dans un langage informatique, l'opérateur sigma se traduit par une boucle for...next
et le terme générique, l'argument de l'opérateur, forme le corps de la boucle. Dans
un langage tel que C ou PHP, nous aurions un segment de code ressemblant à :
somme = 0.;
for (i=1; i<= N; i++)
somme += x[i];
Parfois, on omet de réécrire les bornes lorsqu'elles ont déjà été définies ou lorsque
le contexte les rend évidentes :
S=
å xi
[eq. 7.5]
i
H. Schyns
7.1
Paramètres de position et de dispersion
7.2.
7 - Annexe : l'opérateur S
De l'opérateur symbolique à la somme explicite
La bonne utilisation de l'opérateur S demande un peu d'habitude. Au début, il est
plus aisé de passer de la forme symbolique à la forme explicite que de faire
l'inverse.
Dans ce paragraphe, nous allons développer quelques formes
rencontrées en pratique.
7.2.1. Formes simples
Nous savons déjà que
N
å x i = x1 + x 2 + x 3 + ... + x i + ... + x N
[eq. 7.6]
i =1
Dans le même ordre d'idées
20
å x i = x10 + x11 + x12 + ... + x 20
[eq. 7.7]
i = 10
Le terme générique peut faire apparaître un exposant constant :
N
å x k2 = x12 + x 22 + x 23 + ... + x k2 + ... + x N2
[eq. 7.8]
k =1
Il se peut que le terme générique ne contienne aucun "x" :
M
å j = 1 + 2 + 3 + ... + j + ... + M
[eq. 7.9]
j =1
En particulier, la somme de tous les nombres entiers entre 10 et 100 s'écrit
simplement :
100
å j = 10 + 11 + 12 + ... + 100
[eq. 7.10]
j = 10
De même pour la somme des carrés de 20 premiers nombres
20
å j2 = 12 + 2 2 + 3 2 + ... + 20 2 = 1 + 4 + 9 + ... + 400
[eq. 7.11]
j =1
L'indice générique peut aussi apparaître en exposant :
N
å 2k = 20 + 21 + 2 2 + ... + 2N = 1 + 2 + 4 + ... + 2N
[eq. 7.12]
k =0
Dans certaines circonstances, l'indice peut disparaître complètement.
signifie pas que l'opérateur est sans objet, au contraire ! Par exemple :
Cela ne
5
å 3 = 3 + 3 + 3 + 3 + 3 + 3 = 6 × 3 = 18
[eq. 7.13]
M=0
Pour comprendre ce cas, réécrivons l'équation sous la forme de la boucle for...next
du point 7.1
H. Schyns
7.2
7 - Annexe : l'opérateur S
Paramètres de position et de dispersion
somme = 0.;
for (M=0; i<= 5; i++)
somme += 3;
Nous voyons que le corps de boucle va être exécuté six fois (on énonce 6 nombres
quand on compte de 0 à 5). A chaque passage dans le corps de boucle, on ajoute
3 à la somme obtenue au passage précédent, ce qui correspond bien à l'expression
développée dans l'équation 9.12.
7.2.2. Formes évoluées
Les choses se compliquent quand l'indice apparaît plusieurs fois dans le terme
générique :
N
å i × x i = 1× x1 + 2 × x 2 + ... + N × x N
[eq. 7.14]
i =1
L'indice peut aussi faire l'objet d'une expression algébrique
10
a 2 j +1
a
a
a
a
= 1 + 3 + 5 + ... + 21
j +1
1
2
11
3
j =0
å
7.3.
[eq. 7.15]
De la somme explicite à l'opérateur symbolique
7.3.1. Séries algébriques
Le principe de base est d'examiner les termes successifs afin de distinguer "ce qui
bouge" de "ce qui se répète" d'un terme à l'autre.
7.3.2. Alternance de signe
L'algèbre présente souvent des séries dont les termes successifs sont
alternativement positifs et négatifs telles que
S1 = x - x2 + x3 - x4 + x5 -...
[eq. 7.16]
Le truc consiste à rechercher le terme générique comme si tous les termes étaient
positifs.
'
2
3
4
5
S1= x + x + x + x + x +...
[eq. 7.17]
On s'aperçoit que la seule chose qui change est l'exposant. Le terme générique est
donc
xk
[eq. 7.18]
et l'exposant varie de 1 à l'infini, d'où
S1' =
¥
xk
å
k =1
[eq. 7.19]
On utilise ensuite le fait que les puissances successives de –1 sont alternativement
positives et négatives
H. Schyns
7.3
7 - Annexe : l'opérateur S
Paramètres de position et de dispersion
(-1)0 = 1
(-1)1 = -1
(-1)2 = 1
(-1)3 = -1
(-1)4 = 1
Il suffit ensuite de multiplier la solution générale par une puissance de –1 initiale
adéquate pour obtenir la solution :
S1=
¥
(-1)k +1×xk
å
k =1
[eq. 7.20]
Dans le cas présent, l'exposant de –1 est [ k+1 ] car ce sont les termes en [ x ] dont
l'exposant est pair qui sont affectés du signe moins. Nous aurions aussi bien pu
écrire :
S1=
¥
(-1)k ×xk +1
å
k =0
[eq. 7.21]
7.3.3. Suites numériques
Les tests psychotechniques d'embauche présentent très souvent des suites de
nombres pour lesquelles il faut deviner le terme suivant. Le problème qui se pose
ici est assez semblable, sauf que les termes sont reliés par un opérateur [ + ] ou [ ].
Pour résoudre le problème, il faut transformer la suite numérique en une suite
algébrique. Plusieurs stratégies s'appliquent
-
Série linéaire
Partons d'un exemple simple :
SL = 32 + 38 + 44 + 50 + 56
[eq. 7.22]
Calculons la différence entre les différents termes
32
38
+6
44
+6
50
+6
56
+6
Chaque fois que l'indice avance d'une unité, la valeur augmente de 6. Nous en
déduisons que l'indice est multiplié par 6. L'expression doit donc faire apparaître
6·k
[eq. 7.23]
D'autre part, la série commence à 32; le terme générique est donc
xk = 32 + 6·k
[eq. 7.24]
Par contre, pour le premier terme, il ne faut pas ajouter 6, donc, pour le premier
terme
k = 0 puis 1, 2, 3, 4
En rassemblant les informations
SL = 32 + 38 + 44 + 50 + 56 =
H. Schyns
4
å(32+6×k )
[eq. 7.25]
k =0
Série quadratique
7.4
7 - Annexe : l'opérateur S
Paramètres de position et de dispersion
Partons de la suite :
SQ = 12 + 15 + 20 + 27 + 36
[eq. 7.26]
Calculons la différence entre les différents termes
15
12
+3
20
+5
27
+7
+2
+2
36
+9
+2
Les premières différences ne sont pas constantes. Elles montrent une progression
linéaire. Par contre, les secondes différences sont constantes. Nous en déduisons
que l'indice intervient au carré. Pourquoi le carré ? parce que nous avons du faire
deux rangs de différences :
2
k
[eq. 7.27]
Reprenons le tableau et reconstituons le terme générique en soustrayant l'évolution
due à l'indice puis calculons les différences des résidus :
xk
k
k2
12
0
15
1
20
2
27
3
36
4
0
1
4
9
16
2
xi - k 12
14
16
18
20
diff
+2
+2
+2
+2
Nous retombons sur quelque chose qui ressemble au premier cas vu plus haut
xk = 12 + 2·k + k2 avec k = 0, 1, 2,…
[eq. 7.28]
En faisant intervenir nos souvenirs d'algèbre, nous pouvons écrire
2
xk = 11+ 1 + 2·k + k2 = 11 + (k + 1)
[eq. 7.29]
En rassemblant les informations
[11 + (k + 1)2 ] = å[11 + k2 ]
å
k =0
k =1
SQ = 12 + 15 + 20 + 27 + 36 =
-
5
4
[eq. 7.30]
Suite exponentielle ou puissance
Partons de la suite :
SE = 3 + 5 + 9 + 17 + 33
[eq. 7.31]
Calculons la différence entre les différents termes
3
5
+2
9
+4
+2
17
+8
+4
33
+16
+8
Cette fois, la ligne des différences secondes est identique à celle des différences
premières. Nous nous trouvons en présence d'une série exponentielle dans
laquelle l'indice apparaît en exposant. Ici, nous reconnaissons la suite des
puissances de 2. Le terme générique fait donc intervenir
H. Schyns
7.5
7 - Annexe : l'opérateur S
Paramètres de position et de dispersion
2
k
[eq. 7.32]
Reprenons le tableau et reconstituons le terme générique en soustrayant l'évolution
due à l'indice puis calculons les différences des résidus :
xk
3
5
9
17
33
k
1
k
2
2
k
xi – 2 1
2
4
1
3
8
1
4
16
1
5
32
1
diff
0
0
0
0
Pourquoi avons-nous commencé l'indice à 1 et non à 0 comme précédemment ?
Parce que la première différence vaut 2, ce qui est 2 exposant 1. Nous avons donc
k
xk = 2 + 1
[eq. 7.33]
En rassemblant les informations
SE = 3 + 5 + 9 + 17 + 33 =
H. Schyns
(2k +1)
å
k =1
5
[eq. 7.34]
7.6
Paramètres de position et de dispersion
8.
8 - Sources
Sources
-
Théorie et méthodes statistiques (Vol 1, vol 2 et exercices)
Pierre Dagnelie
Presses Agronomiques de Gembloux
On ne peut que conseiller la lecture de cet excellent ouvrage de référence.
-
Biostatistiques
Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
cours de Biostatistiques, Faculté des Sciences.
http://webcampus.fundp.ac.be/claroline/document/goto/index.php/syllabus2004.pdf
-
Chimie Analytique
Skoog, West & Holler
De Boek
Les premiers chapitres constituent une excellente introduction aux statistiques.
-
Statistique descriptive (et articles connexes)
Anonyme
Wikipedia
fr.wikipedia.org
http://fr.wikipedia.org/wiki/Statistique_descriptive
H. Schyns
8.1
Téléchargement