TRAITEMENT DES DONNÉES Nous aurons l'occasion d'accumuler rapidement un grand nombre de résultats qu'il peut être utile de résumer, au moins sommairement. Il faut savoir que ce qui constitue une bonne méthode de résumer l'information est déterminée par l'utilisation qu'on en fera. Nous présentons ici quelques procédures standard de traitement des données pour donner un support à ce que nous ferons à l'aide d'Excel. Représentation des données Un contractant s'intéresse au temps mis par une équipe pour préparer 1 km à recevoir de l'asphalte. À partir de ses dossiers historiques, il obtient l'information suivante (en heures) 6.2 8.5 7.2 5.4 7.4 6.4 7.3 6.8 7.6 8.8 5.6 7.2 9.2 7.6 8.6 7.5 8.3 6.6 6.7 9.1 8.3 12.1 8.7 7.2 10.2 9.2 8.8 8.3 5.6 7.1 Ce groupe de 30 données brutes contient toute l'information disponible au contractant mais ne présente sous cette forme qu'un tableau de chiffres sans grande signification. 1 Une façon pratique d'organiser les données est de les regrouper par intervalle de données. Chaque intervalle sera nommé une classe, de façon générale, on parlera alors de données regroupées en classes. La largueur de l'intervalle se nomme l'amplitude de la classe. Il n'y a pas de règle formelle quant au nombre de classes à constituer. En général, on utilise entre 5 et 10 classes selon le niveau de détail désiré. On remarquera que la plus petite valeur observée est 5.4 et que la plus grande des valeurs est 12.1. Les observations ont alors une "étendue" (range) de 12.1 - 5.4 = 6.7 ( Max ( ) - Min ( ) ) Si on choisit de faire 8 classes (12.5 - 4.5 = 8), les "centres de classes" seront entiers. Ce critère détermine le nombre de classes de façon à ce que les centres de classes soient des nombres faciles à utiliser est un des plus utilisé. Nous constituons la liste des intervalles en indiquant leurs bornes et les centres de classes, puis nous parcourons les données et affectons chaque donnée à la classe à laquelle elle appartient. Classe 4.5 5.5 5.5 6.5 6.5 7.5 7.5 8.5 8.5 9.5 9.5 10.5 10.5 11.5 11.5 12.5 Centre Affectation Nombre d’observations fréquence absolue effectif Proportion des observations dans classe fréquence relative 5 1 1 1/30 6 1111 4 4/30 7 11111 1111 9 9/30 8 11111 1 6 6/30 9 11111 111 8 8/30 10 1 1 1/30 11 - 0 0 12 1 1 1/30 2 Une parenthèse indique que la borne est exclue et un crochet indique que la borne est incluse. Représentation graphique À partir des données recensées dans le tableau précédent nous pouvons obtenir une représentation graphique simple qui rend un portrait efficace des données sans sacrifier trop d’information. Ce graphique est l’histogramme. Pour les données du contractant, l’histogramme est obtenu à partir du tableau des données regroupées en classe sur l’axe horizontal nous inscrivons les intervalles et sur l’axe vertical un rectangle dont la hauteur représente le nombre d’observations dans la classe. histogramme 10 effectifs 8 6 Series1 4 2 0 5 6 7 8 9 10 11 12 heures Une autre représentation graphique utile est celle de la fréquence cumulée et du polygone de fréquence cumulé. On commence par étendre le tableau en y insérant une colonne de fréquence cumulée (effectif cumulé). 3 effectifs no de la classe borne inf BorneSup centre 1 4.5 5.5 5 2 5.5 6.5 6 3 6.5 7.5 7 4 7.5 8.5 8 5 8.5 9.5 9 6 9.5 10.5 10 7 10.5 11.5 11 8 11.5 12.5 12 effectifs cumules 1 4 9 6 8 1 0 1 0.033333 0.133333 0.3 0.2 0.266667 0.033333 0 0.033333 frequence cumulee 1 0.033333 5 0.166667 14 0.466667 20 0.666667 28 0.933333 29 0.966667 29 0.966667 30 1 Un plan graphique est constitué de lignes horizontales et verticales. Une des lignes horizontales est nommée l’axe horizontal et une des lignes verticales est appelée l’axe vertical. Le point où les deux lignes se croisent est appelé origine. Chaque point dans le plan peut être représenté par une paire de nombres qui est nommée coordonnée. La première coordonnée est aussi appelée abscisse et représente la distance horizontale du point de l’axe vertical. La deuxième coordonnée est nommée l’ordonnée et représente la distance verticale du point de l’axe horizontal. Les points dessous l’axe horizontal auront une ordonnée négative et les points à gauche de l’axe vertical, une abscisse négative. Souvent l’axe horizontal sera nommé « axe des abscisses » et l’axe vertical « axe des ordonnées ». Graphique fréquence cumulée Sur un graphique, on reporte les bornes des classes sur l’axe horizontal, la hauteur de la classe représente les effectifs cumulés (ou la fréquence relative cumulée). 4 Cf Graphique polygone fréquence cumulée Le polygone de fréquence cumulée est obtenu en traçant une droite entre les centres de classes, une classe artificielle d’égale amplitude est introduit avant la première classe. 5 35 30 25 20 Series1 15 10 5 0 5 6 7 8 9 10 11 12 Le polygone de fréquence cumulée présente l’avantage de pouvoir rapidement calculer approximativement le nombre d’observations qui se trouvent entre deux valeurs sur l’axe horizontal. Ex. : Le nombre approximatif de projets qui ont demandé entre 7 et 9 heures sera la différence entre les valeurs correspondantes à 9h et à 7 heures sur l’axe vertical : soit 28 14 14 projets. Ce qui correspond à un peu moins que 50% des projets. Un autre avantage de ce type de représentation est qu’elle fournit une méthode pratique d’estimer les « percentiles » des observations. Un percentile, disons le 60e percentile est le nombre tel que 60% des observations ont une valeur plus petite ou égale à ce nombre et les autres ne sont pas plus petits. En se référant à notre polygone, 60% des 30 observations = 18 observations, nous n’avons qu’à chercher la valeur de l’axe horizontal qui correspond à 18 observations sur le polygone, soit environ 7.75 heures. Il y a un percentile qui présente un intérêt particulier, c’est le 50 e percentile, qui porte le nom de Médiane et qui représente le « milieu » de la distribution des individus. C’est la 6 valeur des durées telle que 50% des observations seront plus petites ou égales à la Médiane dans notre exemple cette valeur est environ 7.5. De façon plus technique, si on ordonne les observations en ordre ascendant la médiane correspondra au point milieu de celle-ci. Puisque nous avons 30 observations le milieu correspond à un point entre la 15e et la 16e observation. Soit 7 .5 7 .6 7.55 . 2 Si le nombre d’observations est impair la médiane est alors une des observations, si 31 observations avaient été prises la valeur de la 16 e sur le groupe ordonné sera la valeur de la Médiane. Mesures descriptives Il y a quelques mesures qui résument l’information contenue dans un ensemble de données. L’une de celles-ci est la moyenne. Elle se définit comme la somme des observations divisée par le nombre d’observations dans l’ensemble. Si on note une observation par X et qu’il est nécessaire de distinguer des observations successives, nous pouvons noter X, la première, X2 la seconde, X3 la troisième, etc. En général, la ième observation sera Xi, s’il y a 30 observations, la dernière sera X30 et s’il y a n observation la dernière sera Xn. Pour la manipulation du symbole (sommation) voir site Centre d’aide en Mathématique. La moyenne de l’échantillon sera n i 1 Xi et notée X . n 7 Cette valeur représente l’observation privilégiée qui représente l’ensemble des autres s’il ne devrait en rester qu’une seule. Dans l’exemple X 7.793 heures, ainsi un km de route prend de façon typique 7.793 heures à préparer. Maintenant que nous pouvons calculer un représentant de l’ensemble des données, nous pouvons déterminer la qualité de ce représentant i.e. est-ce que les autres observations se regroupent autour de ce nombre de façon compacte ou dispersée. La variabilité des données peut être mesurée de plusieurs façons, une des plus utile est l’écart-type Propriétés données n n n i 1 i 1 i 1 X i Yi X i Yi n aX i i 1 n a Xi i 1 n a na i 1 _________________ n n n i 1 i 1 i 1 aX i bYi a X i b Yi n n i 1 i 1 a bX i ma b X i n X i a 2 i 1 n n i 1 i 1 X i 2a X i na 2 Cette mesure est obtenue de la variance de l’échantillon : S2 1 n Xi X n 1 i 1 2 8 en prenant la racine carré positive de celle-ci. 1 n S Xi X n 1 i 1 2 1 2 X i X 0 n car i 1 Un regard sur l’équation montre que plus les observations sont proches de X plus le terme X i X sera petit et X i X 2 sera aussi petit. Souvent on dira de la variance qu’elle est la « moyenne des carrés des écarts à la moyenne ». En général les calculs se font à partir de la variance et les interprétations à partir des écart-types puisqu’ils sont dans les mêmes unités que les observations dont elles proviennent. Dans l’exemple, la variance est de 2.1034 hres2 et l’écart-type de 1.4503 hres. Propriétés : S y2 2 1 n 2 X i n X n 1 i 1 pour fin de calcul Si Y bX alors Y bX Var Y b 2 Var X E.T. Y b E.T . X Si W a bX alors W ab X Var W b 2 Var X E.T .W bE.T . X 9