TRAITEMENTS DES DONNÉES

publicité
TRAITEMENT DES DONNÉES
Nous aurons l'occasion d'accumuler rapidement un grand nombre de résultats qu'il peut
être utile de résumer, au moins sommairement.
Il faut savoir que ce qui constitue une bonne méthode de résumer l'information est
déterminée par l'utilisation qu'on en fera.
Nous présentons ici quelques procédures standard de traitement des données pour
donner un support à ce que nous ferons à l'aide d'Excel.
Représentation des données
Un contractant s'intéresse au temps mis par une équipe pour préparer 1 km à recevoir
de l'asphalte. À partir de ses dossiers historiques, il obtient l'information suivante (en
heures)
6.2
8.5
7.2
5.4
7.4
6.4
7.3
6.8
7.6
8.8
5.6
7.2
9.2
7.6
8.6
7.5
8.3
6.6
6.7
9.1
8.3
12.1
8.7
7.2
10.2
9.2
8.8
8.3
5.6
7.1
Ce groupe de 30 données brutes contient toute l'information disponible au contractant
mais ne présente sous cette forme qu'un tableau de chiffres sans grande signification.
1
Une façon pratique d'organiser les données est de les regrouper par intervalle de
données. Chaque intervalle sera nommé une classe, de façon générale, on parlera
alors de données regroupées en classes.
La largueur de l'intervalle se nomme
l'amplitude de la classe.
Il n'y a pas de règle formelle quant au nombre de classes à constituer. En général, on
utilise entre 5 et 10 classes selon le niveau de détail désiré.
On remarquera que la plus petite valeur observée est 5.4 et que la plus grande des
valeurs est 12.1. Les observations ont alors une "étendue" (range) de
12.1 - 5.4 = 6.7 ( Max ( ) - Min ( ) )
Si on choisit de faire 8 classes (12.5 - 4.5 = 8), les "centres de classes" seront
entiers. Ce critère détermine le nombre de classes de façon à ce que les centres de
classes soient des nombres faciles à utiliser est un des plus utilisé.
Nous constituons la liste des intervalles en indiquant leurs bornes et les centres de
classes, puis nous parcourons les données et affectons chaque donnée à la classe à
laquelle elle appartient.
Classe
4.5  5.5
5.5  6.5
6.5  7.5
7.5  8.5
8.5  9.5
9.5  10.5
10.5  11.5
11.5  12.5
Centre
Affectation
Nombre
d’observations
fréquence
absolue effectif
Proportion des
observations dans
classe fréquence
relative
5
1
1
1/30
6
1111
4
4/30
7
11111 1111
9
9/30
8
11111 1
6
6/30
9
11111 111
8
8/30
10
1
1
1/30
11
-
0
0
12
1
1
1/30
2
Une parenthèse indique que la borne est exclue et un crochet indique que la borne est
incluse.
Représentation graphique
À partir des données recensées dans le tableau précédent nous pouvons obtenir une
représentation graphique simple qui rend un portrait efficace des données sans sacrifier
trop d’information. Ce graphique est l’histogramme.
Pour les données du contractant, l’histogramme est obtenu à partir du tableau des
données regroupées en classe sur l’axe horizontal nous inscrivons les intervalles et sur
l’axe vertical un rectangle dont la hauteur représente le nombre d’observations dans la
classe.
histogramme
10
effectifs
8
6
Series1
4
2
0
5
6
7
8
9
10
11
12
heures
Une autre représentation graphique utile est celle de la fréquence cumulée et du
polygone de fréquence cumulé. On commence par étendre le tableau en y insérant une
colonne de fréquence cumulée (effectif cumulé).
3
effectifs
no de la classe borne inf BorneSup centre
1
4.5
5.5
5
2
5.5
6.5
6
3
6.5
7.5
7
4
7.5
8.5
8
5
8.5
9.5
9
6
9.5
10.5
10
7
10.5
11.5
11
8
11.5
12.5
12
effectifs
cumules
1
4
9
6
8
1
0
1
0.033333
0.133333
0.3
0.2
0.266667
0.033333
0
0.033333
frequence
cumulee
1 0.033333
5 0.166667
14 0.466667
20 0.666667
28 0.933333
29 0.966667
29 0.966667
30
1
Un plan graphique est constitué de lignes horizontales et verticales. Une des lignes
horizontales est nommée l’axe horizontal et une des lignes verticales est appelée l’axe
vertical.
Le point où les deux lignes se croisent est appelé origine. Chaque point dans le plan
peut être représenté par une paire de nombres qui est nommée coordonnée.
La
première coordonnée est aussi appelée abscisse et représente la distance horizontale
du point de l’axe vertical.
La deuxième coordonnée est nommée l’ordonnée et
représente la distance verticale du point de l’axe horizontal.
Les points dessous l’axe horizontal auront une ordonnée négative et les points à
gauche de l’axe vertical, une abscisse négative.
Souvent l’axe horizontal sera nommé « axe des abscisses » et l’axe vertical « axe des
ordonnées ».
Graphique fréquence cumulée
Sur un graphique, on reporte les bornes des classes sur l’axe horizontal, la hauteur de
la classe représente les effectifs cumulés (ou la fréquence relative cumulée).
4
Cf
Graphique polygone fréquence cumulée
Le polygone de fréquence cumulée est obtenu en traçant une droite entre les centres
de classes, une classe artificielle d’égale amplitude est introduit avant la première
classe.
5
35
30
25
20
Series1
15
10
5
0
5
6
7
8
9
10
11
12
Le polygone de fréquence cumulée présente l’avantage de pouvoir rapidement calculer
approximativement le nombre d’observations qui se trouvent entre deux valeurs sur
l’axe horizontal.
Ex. : Le nombre approximatif de projets qui ont demandé entre 7 et 9 heures sera la
différence entre les valeurs correspondantes à 9h et à 7 heures sur l’axe vertical : soit
28  14  14 projets. Ce qui correspond à un peu moins que 50% des projets.
Un autre avantage de ce type de représentation est qu’elle fournit une méthode
pratique d’estimer les « percentiles » des observations.
Un percentile, disons le 60e percentile est le nombre tel que 60% des observations ont
une valeur plus petite ou égale à ce nombre et les autres ne sont pas plus petits. En se
référant à notre polygone, 60% des 30 observations = 18 observations, nous n’avons
qu’à chercher la valeur de l’axe horizontal qui correspond à 18 observations sur le
polygone, soit environ 7.75 heures.
Il y a un percentile qui présente un intérêt particulier, c’est le 50 e percentile, qui porte le
nom de Médiane et qui représente le « milieu » de la distribution des individus. C’est la
6
valeur des durées telle que 50% des observations seront plus petites ou égales à la
Médiane dans notre exemple cette valeur est environ 7.5.
De façon plus technique, si on ordonne les observations en ordre ascendant la médiane
correspondra au point milieu de celle-ci. Puisque nous avons 30 observations le milieu
correspond à un point entre la 15e et la 16e observation. Soit
7 .5  7 .6
 7.55 .
2
Si le nombre d’observations est impair la médiane est alors une des observations, si 31
observations avaient été prises la valeur de la 16 e sur le groupe ordonné sera la valeur
de la Médiane.
Mesures descriptives
Il y a quelques mesures qui résument l’information contenue dans un ensemble de
données. L’une de celles-ci est la moyenne.
Elle se définit comme la somme des observations divisée par le nombre d’observations
dans l’ensemble.
Si on note une observation par X et qu’il est nécessaire de distinguer des observations
successives, nous pouvons noter X, la première, X2 la seconde, X3 la troisième, etc. En
général, la ième observation sera Xi, s’il y a 30 observations, la dernière sera X30 et s’il
y a n observation la dernière sera Xn.
Pour la manipulation du symbole 
(sommation)
voir site Centre d’aide en
Mathématique.
La moyenne de l’échantillon sera
n

i 1
Xi
et notée X .
n
7
Cette valeur représente l’observation privilégiée qui représente l’ensemble des autres
s’il ne devrait en rester qu’une seule.
Dans l’exemple X  7.793 heures, ainsi un km de route prend de façon typique 7.793
heures à préparer.
Maintenant que nous pouvons calculer un représentant de l’ensemble des données,
nous pouvons déterminer la qualité de ce représentant i.e. est-ce que les autres
observations se regroupent autour de ce nombre de façon compacte ou dispersée.
La variabilité des données peut être mesurée de plusieurs façons, une des plus utile est
l’écart-type
Propriétés données
n
n
n
i 1
i 1
i 1
  X i  Yi    X i   Yi
n
 aX i
i 1
 n

 a   Xi 
 i 1 
n
 a  na
i 1
_________________

n
n
n
i 1
i 1
i 1
 aX i  bYi   a X i  b Yi
n
n
i 1
i 1
 a  bX i   ma  b X i
n
 X i  a
2
i 1
n
n
i 1
i 1
  X i  2a  X i  na 2
Cette mesure est obtenue de la variance de l’échantillon :
S2 

1 n
 Xi  X
n  1 i 1

2
8
en prenant la racine carré positive de celle-ci.

1  n
S
 Xi  X
n  1  i 1

2



1
2
 X i  X   0
n
car
i 1
Un regard sur l’équation montre que plus les observations sont proches de X plus le



terme X i  X sera petit et X i  X

2
sera aussi petit. Souvent on dira de la variance
qu’elle est la « moyenne des carrés des écarts à la moyenne ».
En général les calculs se font à partir de la variance et les interprétations à partir des
écart-types puisqu’ils sont dans les mêmes unités que les observations dont elles
proviennent. Dans l’exemple, la variance est de 2.1034 hres2 et l’écart-type de 1.4503
hres.
Propriétés :
S y2 
2 
1 n 2
X i  n X 




n  1  i 1
pour fin de calcul
Si Y  bX alors
Y  bX
Var Y   b 2 Var  X 
E.T. Y   b E.T . X 
Si W  a  bX alors
 
W  ab X
Var W   b 2 Var  X 
E.T .W   bE.T . X 
9
Téléchargement