Vocabulaire et notations - Jey - la construction de notre maison

publicité
Vocabulaire et notations
Vocabulaire et notations
Modalité : valeur
Ensemble des variables observées (I)
Les individus (n)
Ensemble des modalités observables (Mx)
La variable (X)
Taille de i (X(i))
Effectif d’une modalité : c’est le nombre d’individus chez qui on a observé cette modalité
Fréquence d’une modalité : c’est la proportion des individus chez qui on a observé cette modalité
Tableau de distribution : tableau dans lequel on indique les diverses modalités observables (en réalité, il
arrive assez fréquemment qu’on n’indique que les modalités observées effectivement. Cela dépend des
objectifs de l’analyse : on indique ce dont on a ou aura besoin)
Caractéristiques de centralité ou de localisation : nombres résumés de la collection d’observations à
l’aide desquels on tente de répondre à deux questions : où se situe la distribution sur l’axe des modalités ?
Quel est le centre de cette distribution ?
- Le mode (centre de concentration de la collection des observations)
- La médiane (centre de position de la collection des observations)
- La moyenne arithmétique (centre d’équilibre de la collection des observations)
Mode (Mo) : valeur (ou modalité) sur laquelle ou autour de laquelle la concentration (densité) des
observations est la plus forte. En d’autres mots, modalité qui a le plus grand effectif ou la plus grande
fréquence. Si d’autres modalités ont un effectif très proche, il est avisé de le signaler.
Médiane (quantile d’ordre ½) (Me) : valeur (ou modalité) qui, dans un rangement ordinal des
observations, a la moitié des observations à sa gauche et l’autre moitié à sa droite. Néanmoins, il est souvent
difficile d’avoir très précisément la moitié des observations de part et d’autre… on fait pour un mieux et on
précise alors si c’est médian ou quasi médian.
Moyenne (arithmétique) (n(x)) : centre d’équilibre de la collection d’observations. C’est la valeur par
rapport à laquelle les écarts des observations se compensent tous, c’est-à-dire qu’ils s’annulent.
Caractéristiques de dispersion : tentatives de donner un indicateur numérique de la dispersion d’une
distribution. On souhaite qu’il soit nul si la dispersion est nulle, et qu’il soit d’autant plus grand que la
dispersion est grande. Il y a plusieurs manières de procéder, qui s’articulent autour de deux idées : (1) la
dispersion comme étendue de la distribution et (2) la dispersion comme éloignement moyen entre les
observations et le centre de la distribution.
Dans la première catégorie : l’étendue et l’étendue interquartile
Dans la deuxième catégorie : l’écart absolu moyen et l’écart type qui se calcule en prenant la racine carrée
de la variance.
L’étendue (ETEx) : est l’écart entre la plus grande observation et la plus petite
L’étendue interquartile (EIQx) : est l’écart entre le premier quartile et le troisième quartile
L’écart absolu moyen (EAMx) : moyenne des écarts (en grandeur absolue) entre chaque observation et la
moyenne des n observations.
L’écart type ( x) : racine carrée de la variance, et la variance est la moyenne des carrés des écarts (en
grandeur absolue) entre chaque observation et la moyenne des n observations.
La valeur typique : pour un groupe constate 600 filles et 100 garçons, la valeur typique sera la fille
(souvent la valeur typique sera le mode).
Eléments généraux
1. Collecter les observations
1.1. Qu’est-ce qu’on désire observer ?
Le premier problème de l’observation c’est de savoir ce que l’on observe (il faut être précis)
1) On observe des individus dans une population
-
Qui sont les individus de la population (un recensement) ?
Qui sont les individus observés (toute la population ou juste une partie, dans tel cas on parlera alors
d’échantillon ?)
2) On observe un ou plusieurs caractères (variables) de ces individus
-
La variable doit être définie sans ambiguïté
Sa mesure doit être techniquement correcte :
-
!"
#
$
$
1.2. Comment fait-on pour collecter les observations ?
Il est important que la méthode d’observation ne modifie pas le résultat de l’observation. Il faut garder l’œil
critique et ne pas oublier le but ultime : obtenir des informations à propos de la population.
1.3. Le protocole de la collecte des observations
Dire l’essentiel des conditions de la collecte des observations :
- Qui (quels sont les individus qui compose l’échantillon) ?
- Quoi (quelles sont les modalités observées) ?
- Comment (quelle est l’échelle de mesure) ?
Si l’ensemble des valeurs est trop grand, on procèdera à un regroupement en classes.
1.3.1.
Types de variables, échelle de mesure, axes des modalités et structures de l’ensemble des modalités
Variable nominale (échelle nominale) : pas d’ordre vu qu’il ne s’agit pas de données numériques, on parle
alors de modalités.
Variable ordinale (échelle ordinale) : une échelle ordinale a une nature continue, on parle de différents
échelons.
Divisible à l’infini dont les modalités observables sont des catégories pour lesquelles il y a un ordre. On
peut les nommer avec des chiffres, mais ce n’est qu’une codification
#
%
%&
Variable numérique relative (échelle d’intervalles) : qui prend du sens par rapport à un point, le zéro.
On parle de valeurs discrètes (isolées les une des autres et non divisibles, exemple, le nombre d’enfants) ou
continues (divisibles à l’infini, exemple : mesure physiques, le temps pour courir le 100m)
#
$
Variable numérique absolue (échelle de rapports) : il n’y a pas de convention sur le niveau zéro
On parle de valeurs discrètes ou continues
Les variables, graphiques et caractéristiques synthétiques
1. LA VARIABLE NOMINALE
Une variable nominale ne peut être ni ordonnée, ni classée (exemple : rouge, vert, bleu,…)
1.1. Tableau de distribution
Titre du tableau
Modalités (xj)
x1
Effectifs (nj)
n1
Fréquences (fj)
f1
x2
n2
f2
x3
n3
f3
Total
n
1 (ou 100%)
La toute première chose à faire est indiquer le titre du tableau, c’est-à-dire de préciser quels sont les individus
observés, et selon quel caractère ils se distribuent.
Un tableau de distribution qui n’indique que les effectifs s’appelle un "tableau d’effectifs", tandis qu’un tableau
de distribution qui n’indique que les fréquences s’appelle "tableau de distribution des fréquences".
1.2. Graphiques
Le diagramme en bâtonnets
Le diagramme en bâtonnets est quasiment une traduction
graphique immédiate du tableau de distribution d’une
variable : sur un axe horizontal, on repère les modalités, et
au dessus de chaque modalité, on trace verticalement un
bâtonnet dont la longueur est proportionnelle à l’effectif
(ou à la fréquence) de la modalité.
Règles : indiquer le titre du graphique (son type), dire
quels sont les individus observés, et selon quel caractère ils
se distribuent
Le diagramme en barres verticales
Construction presque identique à celle du diagramme en
bâtonnets : les colonnes sont comme des bâtonnets qui
auraient pris de l’épaisseur.
NB : d’autres graphiques proches peuvent être utilisés tels
que les diagrammes en barres horizontale (même principe,
mais dans l’autre sens), les diagrammes linéaires (rectangle
divisé en compartiments), les diagrammes à secteur (le
fameux graphique en fromage ou tarte, c’est selon…), les
diagrammes figuratifs
1.3. Caractéristiques synthétiques
1.3.1.
Le mode
A partir du tableau de distribution : repérer la modalité qui a le plus grand effectif (une situation bi modale
peut exister)
A partir d’un graphique : repérer le bâtonnet ou la barre la plus haute
2. LA VARIABLE ORDINALE
Une variable ordinale peut être ordonnée en ordre croissant ou décroissant (exemple : défavorable – indifférent
– favorable).
Notons que l’on peut remplacer des mots par des chiffres mais que ceux-ci n’ont aucune valeur arithmétique.
2.1. Tableau de distribution
Titre du tableau
Echelons (xj)
a
b
c
Effectifs (nj)
352
420
212
Fréquences (fj) 0,3577 0,4268 0,2154
Effectifs cumulés (Ng)
0
352
772
984
Fréquences cumulées (Fg) 0
0,3577 0,7845
1
Total
984
100%)
A la différence d’une variable nominale, étant donné que les échelons sont ordonnés, on les disposera dans
l’ordre, soit en partant du plus bas vers le plus haut (croissant) ou l’inverse (décroissant).
La base du tableau est la même que pour une variable nominale, toutefois, la structure ordinale de l’ensemble
des modalités permet d’ajouter au simple tableau de distribution (des effectifs ou des fréquences), des
informations d’un nouveau type, qu’on appelle les effectifs (ou les fréquences) cumulé(e)s.
2.2. Graphiques
La différence majeure avec le cas d’une variable nominale, c’est que l’axe sur lequel on repère les modalités
(axe horizontal) est muni d’une flèche, pour indiquer que les modalités sont ordonnées. De plus, on marque la
continuité de la gradation des diverses modalités en les représentants toutes par des segments contigus sur l’axe.
Représentation graphique de la distribution des effectifs et/ou fréquences : diagramme en bâtonnets (ou en
barres jointes)
Représentation graphique du cumul des effectifs et/ou des fréquences : polygone cumulatif (voir dans la
partie "rangement en classes")
Le diagramme en bâtonnets & barres jointes (ou, dans sa version simple : dot plot)
2.3. Caractéristiques synthétiques
2.3.1.
Le mode
A partir d’un tableau de distribution : l’échelon ayant le plus grand effectif (ou fréquence)
A partir du graphique de distribution : bâtonnet le plus haut
A partir du polygone cumulatif : échelon au dessus duquel la pente est la plus forte
2.3.2.
La médiane
A partir de données brutes : le milieu de la liste
A partir du tableau de distribution : effectif cumulé n/2 est atteint
A partir du graphique : effacer les bâtonnets de manière symétrique en commençant par les extrémités
(s’il reste un bâtonnet entier, celui-ci est médian, en cas contraire, c’est quasi médiant)
A partir du polygone cumulatif : voir chapitre 4 page 53
3. LA VARIABLE NUMERIQUE
3.1. Tableau de distribution
Une variable numérique est une variable dont les modalités observables sont des nombres (qui ont sens en tant
que nombre !). On parlera alors des valeurs de la variable, plutôt que de ses modalités. On peut repérer ces
valeurs sur un axe numérique.
La distinction entre variable continue et variable discrète joue un rôle important. Rappelons que pour une
variable continue, M est un intervalle (les valeurs observables sont tous les nombres compris entre les deux
extrémités de cet intervalle). Pour une variable discrète, M est un ensemble de nombres isolés les uns des autres.
On notera dans la pratique, que les variables continues sont mesurées de manières discrète, parce qu’on se
satisfait d’un certain degré de précision (on dit j’ai 18 ans pour dire qu’on a un nombre d’année compris dans
l’intervalle [18,19[)
Les techniques utilisées pour traiter et étudier une variable numérique diffèrent selon que le nombre de, valeurs
observables est grand ou petit. Quand la variable est continue, M est toujours grand (en réalité, il contient un
nombre infini de valeurs différentes).
Quand la variable est discrète, M peut être petit (exemple : nombre d’enfant d’un couple)
Si M est petit : un tableau de distribution identique à la variable ordinale
Si M est grand : voir distribution en classes
3.2. Graphiques
Dans les graphiques concernant des variables numériques, l’axe sur lequel on repère les modalités (axe
horizontal) est un axe numérique. Sur un tel axe, il est impératif de respecter les distances.
Comme pour les tableaux, on distinguera le cas où l’ensemble des modalités observables est petit (variable
discrète) ou le cas où l’ensemble des modalités observables est assez grand pour nécessiter de grouper des
valeurs en classes (variable continue, ou variable discrète avec un grand nombre de valeurs observables
différentes) ?
Représentation graphique de la distribution des effectifs et/ou des fréquences : diagramme en bâtonnets si M
est petit, et histogramme si M est grand.
Représentation graphique du cumul des effectifs et/ou des fréquences : diagramme en escalier si M est petit
et polygone cumulatif si M est grand.
Le diagramme en escalier
Diagramme en escalier représentant le cumul des effectifs
(ou des fréquences) pour une distribution. On dit aussi
fonction cumulée pour la distribution.
3.3. Caractéristiques synthétiques
3.3.1.
Le mode
A partir d’un tableau de distribution : si M est petit, la valeur ayant le plus grand effectif, si M est grand,
la classe ayant le plus grand effectif
A partir du graphique de distribution : si M est petit, le bâtonnet le plus haut, si M est grand, le centre du
rectangle le plus haut
A partir du polygone cumulatif : si M est petit, F(x) fait le saut le plus grand, si M est grand, centre de la
classe au dessus de laquelle F(x) à la pente la plus forte
3.3.2.
La médiane
A partir d’un tableau de distribution : si M est petit, n/2 est atteint de l’effectif cumulé. Si la valeur des
effectifs à sa gauche est égal à sa droite c’est médian, en cas contraire c’est quasi médian. Si on est en
présence de coupures, on parle alors d’intervalle médian. Si M est grand, on repère la classe au sein de
laquelle l’nj (n/2) est atteint.
A partir du graphique : si M est petit, effacer les bâtonnets de manière symétrique, si à l’issue il reste un
bâtonnet entier c’est médian, sinon, c’est quasi médian. Si M est grand, c’est la valeur au dessus de
laquelle une verticale couperait l’histogramme en deux parties égales.
A partir de données brutes : rangement ordinal. On prend alors le milieu, si pair, on considère les deux
modalités, si impair (n/2 + ½).
A partir de la fonction cumulée : si M est petit, on trace une horizontale à n/2 sur l’axe des effectifs
cumulés. Cet axe rencontre la fonction cumulée en un point situé à la verticale de la valeur médiane.
3.3.3.
La moyenne
A partir d’un tableau de distribution : on somme toutes les observations et on diviser par leur nombre.
A partir d’un tableau d’un graphique : on se dit que le graphique est comme une balance et qu’il s’agit de
trouver le point d’équilibre.
3.3.4.
L’étendue
Ecart entre la plus grande observation et la plus petite. Si M est grand, la borne inférieure de la première
classe est la plus petite observation, la borne supérieure de la dernière classe est l’observation la plus grande.
3.3.5.
L’étendue interquartile
Il faut déterminer le 1er quartile et le 3Ième et calculer l’écart entre les deux. En d’autres mots, on exclu 25%
des observations à gauche et 25% à droite, de cette manière, on pallie au plus gros défaut de l’étendue.
3.3.6.
L’écart absolu moyen
L’idée est la suivante, nous avons vu que la moyenne d’un collection d’observations peut, à certains égards,
être considérée comme étant son centre. Ainsi, si on mesure la distance (l’écart absolu) entre chaque
observation et la moyenne, et qu’ensuite on calcule la moyenne de toutes ces distances (la moyenne des écarts
absolus), on aura bien une mesure de l’éloignement moyen entre les observations et le centre de la
distribution ; et ceci est bien une mesure de dispersion des observations autour de leur centre, puisque plus cet
éloignement moyen est petit, plus les observations sont (globalement) rapprochées du centre, et donc moins
elles sont dispersées.
3.3.7.
L’écart type (par la variance)
L’écart type est la racine carrée de la variance, intéressons-nous à calculer la variance. Notons avant que plus
l’écart type est petit, plus les observations sont près de la moyenne.
La variance est la moyenne des carrés des écarts entre chaque observation et la moyenne des n observations.
Exemple relatif à une variable numérique + divers
Exemple simple vu au cours
1. Les caractéristiques de localisation
On a les observations suivantes : 0 0 0 3 3 3 3 3 3 3 3 3 6 6 6 elles sont
rangées de manière ordinale.
Nous voyons à gauche la représentation sur un "dot plot"
Le mode (centre de concentration) : sachant que le mode est la valeur sur laquelle ou autour de laquelle la
densité des observations est la plus forte, nous pouvons déterminer que 3 est le mode.
La moyenne (centre d’équilibre) : (0+0+0+3+3+3+3+3+3+3+3+3+6+6+6) / 15 = 3
La médiane : l’idée, c’est la valeur ou modalité qui est elle que la moitié des observations sont à sa gauche,
l’autre à sa droite (définition idéale)
%
&' ( (
)
*' (+
' ,& ' ( ( %&
.
(&/
$
'
(
(&/
#
&' ( 0 %&
(
-
(
NB : si une distribution est symétrique, telle que dans notre exemple, le mode, la médiane et la moyenne sont
égaux
2. Les caractéristiques de dispersion
1er et 3ième quartile : 0 0 0 3 3 3 3 3 3 3 3 3 6 6 6
Les quartiles sont des quantiles d’ordre ¼. Il faut savoir que le terme quantile peut être d’un autre ordre. Ainsi,
on parlera d’un quantile d’ordre "p" (proportion), soit valeur ou modalité qui est telle que la proportion "p" des
observations est à sa gauche et la proportion "1-p" est à sa droite.
Notons ici que la médiane n’est d’autre que le quantile d’ordre ½. Le quantile d’ordre 1/5 s’appeler le quintile.
L’idée de coupure : dans l’exemple ci-dessus, donnez-moi les 50% les plus élevés. Ce n’est pas possible. Il n’y
a pas de coupure médiane mais son on exige, on choisira une coupure quasi médiane. Il y a donc 2 solutions soit
je prends soit j’en prend 3 (les 6) soit 12 (les 3 et les 6)…
Etendue : distance entre la plus grande et la plus petite : 6
Etendue interquartile : on supprime le quart des observations de part et d’autre et on calcule la distance entre le
nouvelles modalités extrêmes (située au 1er quartile et au 3ième quartile) : 0
Ecart absolu moyen : on calcule les écarts entre chaque modalité et la moyenne
Modalités
Ecarts absolus
000
333
333333333
000000000
666
333
Total
18
On divise ensuite le total des écart par le nombre d’effectifs : 18/15 = 1,2
Il s’agit de ma mesure de l’éloignement moyen de toutes les observations par rapport à la moyenne.
La variance : qui nous servira à calculer l’écart type on prend le carré des écarts que l’on divise par le nombre
d’observations : 54/15 = 3,6 (la variance est nulle si toutes les variables sont identiques)
Modalités
Ecarts absolus
Ecarts absolus au carré
000
333
999
333333333
000000000
000000000
666
333
999
Total
18
54
L’écart type : il s’agit du carré de la variance, soit, le carré de 3,6 = 1,897…
Attention, l’écart type est toujours supérieur à l’écart absolu moyen
12
4
4
6
3
5
5
5
3. Le théorème de Tchebychev
Il précise que ¾ des observations sont dans l’intervalle [n(x) - 2 ; n(x) + 2 ] ou moins d’un ¼ en dehors
On prend la moyenne et à partir de celle-ci, on prend 2 écart type à gauche et 2 à droite et on retrouve ¾ des
observations. Le dénominateur du rapport correspond au carré du nombre du nombre d’écart type, le numérateur
est égal au dénominateur - 1.
Autres exemples :
Soit 8/9 des observations sont dans l’intervalle [n(x) - 3 ; n(x) + 3 ] ou moins d’un 1/9 en dehors
Soit 15/16 des observations sont dans l’intervalle [n(x) - 4 ; n(x) + 4 ] ou moins d’un 1/16 en dehors
Soit 24/25 des observations sont dans l’intervalle [n(x) - 5 ; n(x) + 5 ] ou moins d’un 1/25 en dehors
Ce théorème justifie toute une série de choses, on sait que l’écart type est une caractéristique de dispersion, dès
lors, plus il est petit, plus les variables sont concentrées près de la moyenne.
4. La note standard (Zi)
Elle situe l’individu par rapport aux autres. Sa formule : (X(i) – n(x)) /
15/20 est-ce une bonne côté pour un examen ? A première vue oui, mais grâce à cette formule, on peut voir si
elle est bonne par rapport aux autres membres de la classe. Ainsi peut-être a-t-il une note Z de + 1 et alors il est
bon, mais peut-être a-t-il une note Z de – 3 et alors il n’est pas aussi bon par rapport aux autres.
Le rangement en classes (ou intervalles)
Cours du 6 juin 2005
Avec un regroupement en classe, on va perdre de l’information (et de la précision) et le graphique sera en
quelques sortes incorrect. Dans certains c’est indispensable en raison du grand nombre d’observations.
1) Combien de classes ?
Dans la plupart des cas, dès que le nombre d’observations double, on rajoute une classe
4$
@
.
(
:
%>
'.
,(
%.:
.,>
%
.
'
(
,
>
0
:
2) Comment on fait les classes ?
L’idée est que là où il y a très peu d’observations, on fait une grande classe. A l’inverse, où les observations
sont très concentrées, on fait des classes plus petites.
Moralité : toutes les classes n’auront pas la même largeur (amplitude).
7
$
#
'
[0,50[
88
Effectifs
[50,150[
100
[15,200]
12
1
#
#
9
#
$
#
Total
200
#
#
- 8
)
-
3#
6
:: ; ,& <
%&&; %&& <
%. ; ,& <
::=
,&; % 0>
%&&=
%&&; %
%.=
,&; &.(
1
#
- ?
#
$
::
$
%&&
3
@
- 7
%&&
$
3
?
5
>& %&
#
#
#
,&- ?
5
>&
$
#
5
-
5
,&
$
0&
5
$
A5
5
3
%&
,& %&
)
3
$ <@
5
C
0& C
$
-
B1
$
-" #
)
,&
5
0&< "
3) La classe modale
La classe modale est celle dans laquelle la concentration des effectifs est la plus forte. En effet, nous savons que
le mode est la modalité autour de laquelle la concentration est la plus forte. Dans le cas de ce graphique, il s’agit
la première classe (88/50). On choisira comme valeur modale le milieu de la classe : 25
4) Les quantiles
Calcul du 1er et 3ième quartile
?
5
.&& $
$
5
#
,&=
::-
,&- 63
$
'3
$
,&
7
$
- 1
#
$
$
::
5
%.
':
%&&
#
#
3
D
>.=
%&&-
Calcul de la médiane (on sait que la médiane est le quantile d’ordre ½, dès lors, en plus des 88 du premier
histogramme, on prendre encore 12 des 100 observations du deuxième).
5) Calcul des autres caractéristiques synthétiques
Etendue : 200 (valeur la plus petite 0, valeur la plus grande 200)
Etendue interquartile : 55,40 (la 51ième observation est 28,4, la 150ième est 83,8)
Moyenne : pour la calculer on prend le milieu de chaque classe que l’on multiplie par le nombre des
effectifs divisé par le total des effectifs, soit [(88*25) + (100*100) + (175*12)] / 200, soit 71,50
12 4
5
$
5 -7
#
5
3
::
#
%&&
3
%.
3
-
6) Graphique de la fonction cumulée (polygone cumulatif)
Effectifs
Effectifs cumulés
0
[0,50[
88
50
88
[50,150[
100
150
188
[15,200]
12
200
Total
200
200
1
#
#
$
E
$F
-
1
-
$
5#
-
Téléchargement