Vocabulaire et notations Vocabulaire et notations Modalité : valeur Ensemble des variables observées (I) Les individus (n) Ensemble des modalités observables (Mx) La variable (X) Taille de i (X(i)) Effectif d’une modalité : c’est le nombre d’individus chez qui on a observé cette modalité Fréquence d’une modalité : c’est la proportion des individus chez qui on a observé cette modalité Tableau de distribution : tableau dans lequel on indique les diverses modalités observables (en réalité, il arrive assez fréquemment qu’on n’indique que les modalités observées effectivement. Cela dépend des objectifs de l’analyse : on indique ce dont on a ou aura besoin) Caractéristiques de centralité ou de localisation : nombres résumés de la collection d’observations à l’aide desquels on tente de répondre à deux questions : où se situe la distribution sur l’axe des modalités ? Quel est le centre de cette distribution ? - Le mode (centre de concentration de la collection des observations) - La médiane (centre de position de la collection des observations) - La moyenne arithmétique (centre d’équilibre de la collection des observations) Mode (Mo) : valeur (ou modalité) sur laquelle ou autour de laquelle la concentration (densité) des observations est la plus forte. En d’autres mots, modalité qui a le plus grand effectif ou la plus grande fréquence. Si d’autres modalités ont un effectif très proche, il est avisé de le signaler. Médiane (quantile d’ordre ½) (Me) : valeur (ou modalité) qui, dans un rangement ordinal des observations, a la moitié des observations à sa gauche et l’autre moitié à sa droite. Néanmoins, il est souvent difficile d’avoir très précisément la moitié des observations de part et d’autre… on fait pour un mieux et on précise alors si c’est médian ou quasi médian. Moyenne (arithmétique) (n(x)) : centre d’équilibre de la collection d’observations. C’est la valeur par rapport à laquelle les écarts des observations se compensent tous, c’est-à-dire qu’ils s’annulent. Caractéristiques de dispersion : tentatives de donner un indicateur numérique de la dispersion d’une distribution. On souhaite qu’il soit nul si la dispersion est nulle, et qu’il soit d’autant plus grand que la dispersion est grande. Il y a plusieurs manières de procéder, qui s’articulent autour de deux idées : (1) la dispersion comme étendue de la distribution et (2) la dispersion comme éloignement moyen entre les observations et le centre de la distribution. Dans la première catégorie : l’étendue et l’étendue interquartile Dans la deuxième catégorie : l’écart absolu moyen et l’écart type qui se calcule en prenant la racine carrée de la variance. L’étendue (ETEx) : est l’écart entre la plus grande observation et la plus petite L’étendue interquartile (EIQx) : est l’écart entre le premier quartile et le troisième quartile L’écart absolu moyen (EAMx) : moyenne des écarts (en grandeur absolue) entre chaque observation et la moyenne des n observations. L’écart type ( x) : racine carrée de la variance, et la variance est la moyenne des carrés des écarts (en grandeur absolue) entre chaque observation et la moyenne des n observations. La valeur typique : pour un groupe constate 600 filles et 100 garçons, la valeur typique sera la fille (souvent la valeur typique sera le mode). Eléments généraux 1. Collecter les observations 1.1. Qu’est-ce qu’on désire observer ? Le premier problème de l’observation c’est de savoir ce que l’on observe (il faut être précis) 1) On observe des individus dans une population - Qui sont les individus de la population (un recensement) ? Qui sont les individus observés (toute la population ou juste une partie, dans tel cas on parlera alors d’échantillon ?) 2) On observe un ou plusieurs caractères (variables) de ces individus - La variable doit être définie sans ambiguïté Sa mesure doit être techniquement correcte : - !" # $ $ 1.2. Comment fait-on pour collecter les observations ? Il est important que la méthode d’observation ne modifie pas le résultat de l’observation. Il faut garder l’œil critique et ne pas oublier le but ultime : obtenir des informations à propos de la population. 1.3. Le protocole de la collecte des observations Dire l’essentiel des conditions de la collecte des observations : - Qui (quels sont les individus qui compose l’échantillon) ? - Quoi (quelles sont les modalités observées) ? - Comment (quelle est l’échelle de mesure) ? Si l’ensemble des valeurs est trop grand, on procèdera à un regroupement en classes. 1.3.1. Types de variables, échelle de mesure, axes des modalités et structures de l’ensemble des modalités Variable nominale (échelle nominale) : pas d’ordre vu qu’il ne s’agit pas de données numériques, on parle alors de modalités. Variable ordinale (échelle ordinale) : une échelle ordinale a une nature continue, on parle de différents échelons. Divisible à l’infini dont les modalités observables sont des catégories pour lesquelles il y a un ordre. On peut les nommer avec des chiffres, mais ce n’est qu’une codification # % %& Variable numérique relative (échelle d’intervalles) : qui prend du sens par rapport à un point, le zéro. On parle de valeurs discrètes (isolées les une des autres et non divisibles, exemple, le nombre d’enfants) ou continues (divisibles à l’infini, exemple : mesure physiques, le temps pour courir le 100m) # $ Variable numérique absolue (échelle de rapports) : il n’y a pas de convention sur le niveau zéro On parle de valeurs discrètes ou continues Les variables, graphiques et caractéristiques synthétiques 1. LA VARIABLE NOMINALE Une variable nominale ne peut être ni ordonnée, ni classée (exemple : rouge, vert, bleu,…) 1.1. Tableau de distribution Titre du tableau Modalités (xj) x1 Effectifs (nj) n1 Fréquences (fj) f1 x2 n2 f2 x3 n3 f3 Total n 1 (ou 100%) La toute première chose à faire est indiquer le titre du tableau, c’est-à-dire de préciser quels sont les individus observés, et selon quel caractère ils se distribuent. Un tableau de distribution qui n’indique que les effectifs s’appelle un "tableau d’effectifs", tandis qu’un tableau de distribution qui n’indique que les fréquences s’appelle "tableau de distribution des fréquences". 1.2. Graphiques Le diagramme en bâtonnets Le diagramme en bâtonnets est quasiment une traduction graphique immédiate du tableau de distribution d’une variable : sur un axe horizontal, on repère les modalités, et au dessus de chaque modalité, on trace verticalement un bâtonnet dont la longueur est proportionnelle à l’effectif (ou à la fréquence) de la modalité. Règles : indiquer le titre du graphique (son type), dire quels sont les individus observés, et selon quel caractère ils se distribuent Le diagramme en barres verticales Construction presque identique à celle du diagramme en bâtonnets : les colonnes sont comme des bâtonnets qui auraient pris de l’épaisseur. NB : d’autres graphiques proches peuvent être utilisés tels que les diagrammes en barres horizontale (même principe, mais dans l’autre sens), les diagrammes linéaires (rectangle divisé en compartiments), les diagrammes à secteur (le fameux graphique en fromage ou tarte, c’est selon…), les diagrammes figuratifs 1.3. Caractéristiques synthétiques 1.3.1. Le mode A partir du tableau de distribution : repérer la modalité qui a le plus grand effectif (une situation bi modale peut exister) A partir d’un graphique : repérer le bâtonnet ou la barre la plus haute 2. LA VARIABLE ORDINALE Une variable ordinale peut être ordonnée en ordre croissant ou décroissant (exemple : défavorable – indifférent – favorable). Notons que l’on peut remplacer des mots par des chiffres mais que ceux-ci n’ont aucune valeur arithmétique. 2.1. Tableau de distribution Titre du tableau Echelons (xj) a b c Effectifs (nj) 352 420 212 Fréquences (fj) 0,3577 0,4268 0,2154 Effectifs cumulés (Ng) 0 352 772 984 Fréquences cumulées (Fg) 0 0,3577 0,7845 1 Total 984 100%) A la différence d’une variable nominale, étant donné que les échelons sont ordonnés, on les disposera dans l’ordre, soit en partant du plus bas vers le plus haut (croissant) ou l’inverse (décroissant). La base du tableau est la même que pour une variable nominale, toutefois, la structure ordinale de l’ensemble des modalités permet d’ajouter au simple tableau de distribution (des effectifs ou des fréquences), des informations d’un nouveau type, qu’on appelle les effectifs (ou les fréquences) cumulé(e)s. 2.2. Graphiques La différence majeure avec le cas d’une variable nominale, c’est que l’axe sur lequel on repère les modalités (axe horizontal) est muni d’une flèche, pour indiquer que les modalités sont ordonnées. De plus, on marque la continuité de la gradation des diverses modalités en les représentants toutes par des segments contigus sur l’axe. Représentation graphique de la distribution des effectifs et/ou fréquences : diagramme en bâtonnets (ou en barres jointes) Représentation graphique du cumul des effectifs et/ou des fréquences : polygone cumulatif (voir dans la partie "rangement en classes") Le diagramme en bâtonnets & barres jointes (ou, dans sa version simple : dot plot) 2.3. Caractéristiques synthétiques 2.3.1. Le mode A partir d’un tableau de distribution : l’échelon ayant le plus grand effectif (ou fréquence) A partir du graphique de distribution : bâtonnet le plus haut A partir du polygone cumulatif : échelon au dessus duquel la pente est la plus forte 2.3.2. La médiane A partir de données brutes : le milieu de la liste A partir du tableau de distribution : effectif cumulé n/2 est atteint A partir du graphique : effacer les bâtonnets de manière symétrique en commençant par les extrémités (s’il reste un bâtonnet entier, celui-ci est médian, en cas contraire, c’est quasi médiant) A partir du polygone cumulatif : voir chapitre 4 page 53 3. LA VARIABLE NUMERIQUE 3.1. Tableau de distribution Une variable numérique est une variable dont les modalités observables sont des nombres (qui ont sens en tant que nombre !). On parlera alors des valeurs de la variable, plutôt que de ses modalités. On peut repérer ces valeurs sur un axe numérique. La distinction entre variable continue et variable discrète joue un rôle important. Rappelons que pour une variable continue, M est un intervalle (les valeurs observables sont tous les nombres compris entre les deux extrémités de cet intervalle). Pour une variable discrète, M est un ensemble de nombres isolés les uns des autres. On notera dans la pratique, que les variables continues sont mesurées de manières discrète, parce qu’on se satisfait d’un certain degré de précision (on dit j’ai 18 ans pour dire qu’on a un nombre d’année compris dans l’intervalle [18,19[) Les techniques utilisées pour traiter et étudier une variable numérique diffèrent selon que le nombre de, valeurs observables est grand ou petit. Quand la variable est continue, M est toujours grand (en réalité, il contient un nombre infini de valeurs différentes). Quand la variable est discrète, M peut être petit (exemple : nombre d’enfant d’un couple) Si M est petit : un tableau de distribution identique à la variable ordinale Si M est grand : voir distribution en classes 3.2. Graphiques Dans les graphiques concernant des variables numériques, l’axe sur lequel on repère les modalités (axe horizontal) est un axe numérique. Sur un tel axe, il est impératif de respecter les distances. Comme pour les tableaux, on distinguera le cas où l’ensemble des modalités observables est petit (variable discrète) ou le cas où l’ensemble des modalités observables est assez grand pour nécessiter de grouper des valeurs en classes (variable continue, ou variable discrète avec un grand nombre de valeurs observables différentes) ? Représentation graphique de la distribution des effectifs et/ou des fréquences : diagramme en bâtonnets si M est petit, et histogramme si M est grand. Représentation graphique du cumul des effectifs et/ou des fréquences : diagramme en escalier si M est petit et polygone cumulatif si M est grand. Le diagramme en escalier Diagramme en escalier représentant le cumul des effectifs (ou des fréquences) pour une distribution. On dit aussi fonction cumulée pour la distribution. 3.3. Caractéristiques synthétiques 3.3.1. Le mode A partir d’un tableau de distribution : si M est petit, la valeur ayant le plus grand effectif, si M est grand, la classe ayant le plus grand effectif A partir du graphique de distribution : si M est petit, le bâtonnet le plus haut, si M est grand, le centre du rectangle le plus haut A partir du polygone cumulatif : si M est petit, F(x) fait le saut le plus grand, si M est grand, centre de la classe au dessus de laquelle F(x) à la pente la plus forte 3.3.2. La médiane A partir d’un tableau de distribution : si M est petit, n/2 est atteint de l’effectif cumulé. Si la valeur des effectifs à sa gauche est égal à sa droite c’est médian, en cas contraire c’est quasi médian. Si on est en présence de coupures, on parle alors d’intervalle médian. Si M est grand, on repère la classe au sein de laquelle l’nj (n/2) est atteint. A partir du graphique : si M est petit, effacer les bâtonnets de manière symétrique, si à l’issue il reste un bâtonnet entier c’est médian, sinon, c’est quasi médian. Si M est grand, c’est la valeur au dessus de laquelle une verticale couperait l’histogramme en deux parties égales. A partir de données brutes : rangement ordinal. On prend alors le milieu, si pair, on considère les deux modalités, si impair (n/2 + ½). A partir de la fonction cumulée : si M est petit, on trace une horizontale à n/2 sur l’axe des effectifs cumulés. Cet axe rencontre la fonction cumulée en un point situé à la verticale de la valeur médiane. 3.3.3. La moyenne A partir d’un tableau de distribution : on somme toutes les observations et on diviser par leur nombre. A partir d’un tableau d’un graphique : on se dit que le graphique est comme une balance et qu’il s’agit de trouver le point d’équilibre. 3.3.4. L’étendue Ecart entre la plus grande observation et la plus petite. Si M est grand, la borne inférieure de la première classe est la plus petite observation, la borne supérieure de la dernière classe est l’observation la plus grande. 3.3.5. L’étendue interquartile Il faut déterminer le 1er quartile et le 3Ième et calculer l’écart entre les deux. En d’autres mots, on exclu 25% des observations à gauche et 25% à droite, de cette manière, on pallie au plus gros défaut de l’étendue. 3.3.6. L’écart absolu moyen L’idée est la suivante, nous avons vu que la moyenne d’un collection d’observations peut, à certains égards, être considérée comme étant son centre. Ainsi, si on mesure la distance (l’écart absolu) entre chaque observation et la moyenne, et qu’ensuite on calcule la moyenne de toutes ces distances (la moyenne des écarts absolus), on aura bien une mesure de l’éloignement moyen entre les observations et le centre de la distribution ; et ceci est bien une mesure de dispersion des observations autour de leur centre, puisque plus cet éloignement moyen est petit, plus les observations sont (globalement) rapprochées du centre, et donc moins elles sont dispersées. 3.3.7. L’écart type (par la variance) L’écart type est la racine carrée de la variance, intéressons-nous à calculer la variance. Notons avant que plus l’écart type est petit, plus les observations sont près de la moyenne. La variance est la moyenne des carrés des écarts entre chaque observation et la moyenne des n observations. Exemple relatif à une variable numérique + divers Exemple simple vu au cours 1. Les caractéristiques de localisation On a les observations suivantes : 0 0 0 3 3 3 3 3 3 3 3 3 6 6 6 elles sont rangées de manière ordinale. Nous voyons à gauche la représentation sur un "dot plot" Le mode (centre de concentration) : sachant que le mode est la valeur sur laquelle ou autour de laquelle la densité des observations est la plus forte, nous pouvons déterminer que 3 est le mode. La moyenne (centre d’équilibre) : (0+0+0+3+3+3+3+3+3+3+3+3+6+6+6) / 15 = 3 La médiane : l’idée, c’est la valeur ou modalité qui est elle que la moitié des observations sont à sa gauche, l’autre à sa droite (définition idéale) % &' ( ( ) *' (+ ' ,& ' ( ( %& . (&/ $ ' ( (&/ # &' ( 0 %& ( - ( NB : si une distribution est symétrique, telle que dans notre exemple, le mode, la médiane et la moyenne sont égaux 2. Les caractéristiques de dispersion 1er et 3ième quartile : 0 0 0 3 3 3 3 3 3 3 3 3 6 6 6 Les quartiles sont des quantiles d’ordre ¼. Il faut savoir que le terme quantile peut être d’un autre ordre. Ainsi, on parlera d’un quantile d’ordre "p" (proportion), soit valeur ou modalité qui est telle que la proportion "p" des observations est à sa gauche et la proportion "1-p" est à sa droite. Notons ici que la médiane n’est d’autre que le quantile d’ordre ½. Le quantile d’ordre 1/5 s’appeler le quintile. L’idée de coupure : dans l’exemple ci-dessus, donnez-moi les 50% les plus élevés. Ce n’est pas possible. Il n’y a pas de coupure médiane mais son on exige, on choisira une coupure quasi médiane. Il y a donc 2 solutions soit je prends soit j’en prend 3 (les 6) soit 12 (les 3 et les 6)… Etendue : distance entre la plus grande et la plus petite : 6 Etendue interquartile : on supprime le quart des observations de part et d’autre et on calcule la distance entre le nouvelles modalités extrêmes (située au 1er quartile et au 3ième quartile) : 0 Ecart absolu moyen : on calcule les écarts entre chaque modalité et la moyenne Modalités Ecarts absolus 000 333 333333333 000000000 666 333 Total 18 On divise ensuite le total des écart par le nombre d’effectifs : 18/15 = 1,2 Il s’agit de ma mesure de l’éloignement moyen de toutes les observations par rapport à la moyenne. La variance : qui nous servira à calculer l’écart type on prend le carré des écarts que l’on divise par le nombre d’observations : 54/15 = 3,6 (la variance est nulle si toutes les variables sont identiques) Modalités Ecarts absolus Ecarts absolus au carré 000 333 999 333333333 000000000 000000000 666 333 999 Total 18 54 L’écart type : il s’agit du carré de la variance, soit, le carré de 3,6 = 1,897… Attention, l’écart type est toujours supérieur à l’écart absolu moyen 12 4 4 6 3 5 5 5 3. Le théorème de Tchebychev Il précise que ¾ des observations sont dans l’intervalle [n(x) - 2 ; n(x) + 2 ] ou moins d’un ¼ en dehors On prend la moyenne et à partir de celle-ci, on prend 2 écart type à gauche et 2 à droite et on retrouve ¾ des observations. Le dénominateur du rapport correspond au carré du nombre du nombre d’écart type, le numérateur est égal au dénominateur - 1. Autres exemples : Soit 8/9 des observations sont dans l’intervalle [n(x) - 3 ; n(x) + 3 ] ou moins d’un 1/9 en dehors Soit 15/16 des observations sont dans l’intervalle [n(x) - 4 ; n(x) + 4 ] ou moins d’un 1/16 en dehors Soit 24/25 des observations sont dans l’intervalle [n(x) - 5 ; n(x) + 5 ] ou moins d’un 1/25 en dehors Ce théorème justifie toute une série de choses, on sait que l’écart type est une caractéristique de dispersion, dès lors, plus il est petit, plus les variables sont concentrées près de la moyenne. 4. La note standard (Zi) Elle situe l’individu par rapport aux autres. Sa formule : (X(i) – n(x)) / 15/20 est-ce une bonne côté pour un examen ? A première vue oui, mais grâce à cette formule, on peut voir si elle est bonne par rapport aux autres membres de la classe. Ainsi peut-être a-t-il une note Z de + 1 et alors il est bon, mais peut-être a-t-il une note Z de – 3 et alors il n’est pas aussi bon par rapport aux autres. Le rangement en classes (ou intervalles) Cours du 6 juin 2005 Avec un regroupement en classe, on va perdre de l’information (et de la précision) et le graphique sera en quelques sortes incorrect. Dans certains c’est indispensable en raison du grand nombre d’observations. 1) Combien de classes ? Dans la plupart des cas, dès que le nombre d’observations double, on rajoute une classe 4$ @ . ( : %> '. ,( %.: .,> % . ' ( , > 0 : 2) Comment on fait les classes ? L’idée est que là où il y a très peu d’observations, on fait une grande classe. A l’inverse, où les observations sont très concentrées, on fait des classes plus petites. Moralité : toutes les classes n’auront pas la même largeur (amplitude). 7 $ # ' [0,50[ 88 Effectifs [50,150[ 100 [15,200] 12 1 # # 9 # $ # Total 200 # # - 8 ) - 3# 6 :: ; ,& < %&&; %&& < %. ; ,& < ::= ,&; % 0> %&&= %&&; % %.= ,&; &.( 1 # - ? # $ :: $ %&& 3 @ - 7 %&& $ 3 ? 5 >& %& # # # ,&- ? 5 >& $ # 5 - 5 ,& $ 0& 5 $ A5 5 3 %& ,& %& ) 3 $ <@ 5 C 0& C $ - B1 $ -" # ) ,& 5 0&< " 3) La classe modale La classe modale est celle dans laquelle la concentration des effectifs est la plus forte. En effet, nous savons que le mode est la modalité autour de laquelle la concentration est la plus forte. Dans le cas de ce graphique, il s’agit la première classe (88/50). On choisira comme valeur modale le milieu de la classe : 25 4) Les quantiles Calcul du 1er et 3ième quartile ? 5 .&& $ $ 5 # ,&= ::- ,&- 63 $ '3 $ ,& 7 $ - 1 # $ $ :: 5 %. ': %&& # # 3 D >.= %&&- Calcul de la médiane (on sait que la médiane est le quantile d’ordre ½, dès lors, en plus des 88 du premier histogramme, on prendre encore 12 des 100 observations du deuxième). 5) Calcul des autres caractéristiques synthétiques Etendue : 200 (valeur la plus petite 0, valeur la plus grande 200) Etendue interquartile : 55,40 (la 51ième observation est 28,4, la 150ième est 83,8) Moyenne : pour la calculer on prend le milieu de chaque classe que l’on multiplie par le nombre des effectifs divisé par le total des effectifs, soit [(88*25) + (100*100) + (175*12)] / 200, soit 71,50 12 4 5 $ 5 -7 # 5 3 :: # %&& 3 %. 3 - 6) Graphique de la fonction cumulée (polygone cumulatif) Effectifs Effectifs cumulés 0 [0,50[ 88 50 88 [50,150[ 100 150 188 [15,200] 12 200 Total 200 200 1 # # $ E $F - 1 - $ 5# -