S TATISTIQUES DESCRIPTIVES . Alexandre Popier Université du Maine, Le Mans Octobre 2010 A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 1 / 39 P LAN DU COURS 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 2 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 3 / 39 P RATIQUE SPORTIVE DES JEUNES . E NQUÊTE du ministère des Sports (source INSEE, 2003) : Q UESTION : y a-t-il un lien entre la pratique d’un sport chez les jeunes et le revenu et/ou le diplôme des parents ? A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 4 / 39 P RATIQUE SPORTIVE DES JEUNES . E NQUÊTE du ministère des Sports (source INSEE, 2003) : Q UESTION : y a-t-il un lien entre la pratique d’un sport chez les jeunes et celle de ces parents ? Le sexe joue-t-il un rôle ? A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 4 / 39 P RATIQUE SPORTIVE DES JEUNES . E NQUÊTE du ministère des Sports (source INSEE, 2003) : Q UESTION : y a-t-il un lien entre l’âge, la classe et la pratique d’un sport chez les jeunes ? A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 4 / 39 S ANTÉ DES FRANÇAIS (INSEE 2000). C ONCLUSION ? A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 5 / 39 S TATISTIQUES ? D ÉFINITION Science qui s’intéresse à la production et au traitement de l’information sous forme numérique. Q UATRE PRINCIPALES ACTIVITÉS : 1 Produire de bonnes données : bien choisir ce qu’on mesure, bien mesurer, etc. 2 Organiser ces données → statistiques descriptives (chapitre 2). 3 Comparer, relier, croiser les données → ACP, régressions, indépendance (test du χ2 ). 4 Évaluer la confiance que l’on peut avoir dans les résultats obtenus → estimations, tests. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 6 / 39 P RODUCTION DE DONNÉES I Erreurs de mesure : mesure individuelle = vraie valeur + biais + variation aléatoire. I Sondages : comment sélectionner l’échantillon représentatif ? Sondages de convenance, Sondages par quotas, Sondages par boule de neige, Sondages aléatoires. Que faire des non-réponses (problème de contact, de refus, de mensonge) ? I Expérimentations. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 7 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 8 / 39 O RGANISER DES DONNÉES . Temps (min) réalisé par 22 marathoniens : 216 195 230 175 211 220 235 229 227 153 176 203 185 196 I Comment explorer ces données ? I Comment les résumer ? I Comment les présenter ? A. Popier (Le Mans) 183 197 179 200 Statistiques (partie 1). 195 213 215 273 Octobre 2010 9 / 39 S TATISTIQUES D ’ ORDRE . D ÉFINITION On appelle statistiques d’ordre les données rangées de la plus petite à la plus grande. E XEMPLE : 153 185 200 216 235 175 195 203 220 273 176 195 211 227 179 196 213 229 183 197 215 230 P ROPOSITION Les statistiques d’ordre permettent en particulier de calculer la valeur minimum des données notée min, et la valeur maximum notée max. E XEMPLE : min = 153 et max = 273. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 10 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 11 / 39 L IGNE DE POINTS . D ÉFINITION Dans la ligne de points, la position d’un point sur la ligne indique la valeur de la donnée correspondante. Si certaines données sont égales, les points correspondants sont empilés. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 12 / 39 H ISTOGRAMME . D ÉFINITION L’histogramme représente la concentration des données dans une série d’intervalles. Pour construire un histogramme : 1 On divise l’étendue des données en intervalles de même longueur. 2 On compte le nombre de données dans chaque intervalle. 3 Les rectangles constituant l’histogramme prennent pour base les intervalles successifs et pour hauteur l’effectif correspondant. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 13 / 39 H ISTOGRAMME . E XEMPLE : histogramme débutant à 150 avec intervalles de longueur 20 : Intervalles Effectif ]150; 170] 1 5 ]170; 190] ]190; 210] 6 ]210; 230] 8 ]230; 250] 1 0 ]250; 270] ]270; 290] 1 A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 13 / 39 H ISTOGRAMME . E XEMPLE : histogramme débutant à 150 avec intervalles de longueur 20 : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 13 / 39 H ISTOGRAMME . R EMARQUES Préférable à la ligne de points quand le nombre de données est grand (supérieur à trente). Règle de Moore : nombre de classes proche de la racine carrée du nombre d’observations. Grande variabilité suivant le choix de l’origine et de la largeur des classes. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 13 / 39 VARIABILITÉ D ’ UN HISTOGRAMME . Décalage de la première valeur de l’histogramme : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 14 / 39 VARIABILITÉ D ’ UN HISTOGRAMME . Largeur des classes : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 14 / 39 Q UE RECHERCHER DANS CES GRAPHIQUES ? I Centre : valeur capable de situer le jeu de données, d’en donner l’ordre de grandeur (exemple : moyenne). I Dispersion : comment les valeurs s’écartent du centre ? A un impact sur la confiance à accorder au centre (exemple : écart-type). I Symétrie : écartement à gauche par rapport à écartement à droite. I Points extrêmes : comprendre la singularité de ces points. I Regroupements : avec comme conséquence une hétérogénéité dans la population. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 15 / 39 E XEMPLE . Sur différents jeux de données avec même moyenne et même écart-type : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 16 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 17 / 39 S TATISTIQUES DE CENTRE . M ÉDIANE : D ÉFINITION La moitié des données est plus grande que la médiane et l’autre moitié plus petite. On la note Q2 . R EMARQUE La médiane n’est pas unique. Convention : si le nombre de données est impair, la médiane est la valeur centrale des statistiques d’ordre ; si le nombre de données est pair, la médiane est le milieu des deux valeurs centrales des statistiques d’ordre. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 18 / 39 S TATISTIQUES DE CENTRE . M OYENNE : D ÉFINITION La moyenne est la somme des données divisée par leur nombre. Si les n observations sont y1 , y2 , . . . , yn , leur moyenne est y1 + y2 + . . . + yn ȳ = . n R EMARQUE La moyenne n’est pas forcément égale à une donnée. C’est un centre de gravité. C OMPARAISON MÉDIANE - MOYENNE : Ce sont deux valeurs distinctes ! La médiane est une statistique plus résistante à la présence de points extrêmes que la moyenne. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 18 / 39 S TATISTIQUES DE DISPERSION . É TENDUE : D ÉFINITION L’étendue est la différence entre la valeur maximum et la valeur minimum. R EMARQUE L’étendue dépend de la taille de l’échantillon. Elle n’est absolument pas résistante à la présence de points extrêmes. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 19 / 39 S TATISTIQUES DE DISPERSION . Q UARTILES ET ÉTENDUE INTER - QUARTILES : D ÉFINITION La médiane sépare la distribution en deux groupes d’effectifs égaux. Elle est le deuxième quartile Q2 . Le premier quartile Q1 se calcule en prenant la médiane des données plus petites que la médiane. Le troisième quartile Q3 se calcule en prenant la médiane des données plus grandes que la médiane. D ÉFINITION L’étendue inter-quartiles exprime la dispersion de la portion centrale des données ; elle est l’écart entre le premier et le troisième quartile et se note EIQ. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 19 / 39 R ÉSUMÉ ET BOÎTE À MOUSTACHES . D ÉFINITION Le résumé comprend donc : le minimum, le premier quartile Q1 , la médiane Q2 , le troisième quartile Q3 , le maximum, la moyenne. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 20 / 39 R ÉSUMÉ ET BOÎTE À MOUSTACHES . R EPRÉSENTATION Le résumé se représente par une boîte à moustaches construite comme suit : 1 une boîte dont la largeur est définie par Q1 et Q3 ; 2 un trait vertical est placé dans la boîte à la hauteur de Q2 ; 3 un trait vertical est placé à la hauteur de la moyenne ; 4 on tire à l’extérieur de la boîte deux traits horizontaux, dits moustaches, l’un allant de Q1 jusqu’au minimum, l’autre de Q3 jusqu’au maximum. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 20 / 39 R ÉSUMÉ ET BOÎTE À MOUSTACHES . Sur l’exemple des marathoniens : min = 153, Q1 = 185, Q2 = 201, 5, Q3 = 220, max = 273, moyenne ȳ = 204, 8. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 20 / 39 VARIANCE ET ÉCART- TYPE . D ÉFINITION La différence y − ȳ entre une donnée et la moyenne de l’échantillon est appelée déviation. La variance est la moyenne des déviations mises au carré. On la note Var (y ). Si les n observations sont y1 , y2 , . . . , yn avec pour moyenne ȳ , alors Var (y ) = = 1 (y1 − ȳ )2 + (y2 − ȳ )2 + . . . + (yn − ȳ )2 n i 1h 2 2 2 y + y2 + . . . + yn − (ȳ )2 . n 1 D ÉFINITION L’écart-type est la racine carrée de la variance : s = A. Popier (Le Mans) Statistiques (partie 1). p Var (y ). Octobre 2010 21 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 22 / 39 P OURQUOI S ’ Y INTÉRESSER ? I Erreurs de mesure ou de saisie à éliminer pour réaliser des analyses de qualité. I Données intéressantes par leur marginalité : pour comprendre le problème, pour diriger vers de nouvelles pistes de recherche. I Ne jamais les supprimer sans réflexion préalable. Sinon préciser leur nombre et leur valeur dans la présentation des résultats. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 23 / 39 N ORMALISATION . D ÉFINITION On appelle donnée normalisée la différence entre la donnée et la moyenne, divisée par l’écart-type. Pour p n données y1 , y2 , . . . , yn avec moyenne ȳ et écart-type sy = Var (y ), yi − ȳ zi = . sy R EMARQUE Pour les données normalisées, la moyenne est 0, la variance vaut 1. D ÉFINITION On considère une donnée comme point éloigné si la donnée normalisée correspondante dépasse deux en valeur absolue, et comme point très éloigné si elle dépasse trois. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 24 / 39 P OINTS EXTRÊMES . D ÉFINITION On appelle point extrême toute valeur inférieure à Q1 − 1, 5EIQ ou supérieure à Q3 + 1, 5EIQ. E N CAS DE PRÉSENCE de points extrêmes : modification de la boîte à moustaches : on tire la moustache jusqu’à la limite Q1 − 1, 5EIQ (resp. Q3 + 1, 5EIQ) et on marque l’emplacement des points extrêmes par de petits cercles. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 25 / 39 P OINTS EXTRÊMES . E XEMPLE : poids de 41 sumotoris 100 133 140 145 152 162 192 105 133 141 146 154 166 192 114 134 141 147 158 166 196 115 134 142 148 158 167 222 126 136 142 150 158 168 284 131 140 144 150 159 176 Avec min = 100, Q1 = 135, Q2 = 147, Q3 = 164, max = 284, ȳ = 152, 8. Comme Q1 − 1, 5EIQ = 91, 5 et Q3 + 1, 5EIQ = 207, 5, deux points extrêmes : 222 et 284. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 25 / 39 P OINTS EXTRÊMES . E XEMPLE : poids de 41 sumotoris A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 25 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 26 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 27 / 39 D ISTRIBUTION SYMÉTRIQUE . D ÉFINITION Une distribution symétrique est dispersée de façon similaire à droite et à gauche du centre. R EMARQUE La médiane et la moyenne ne se confondent pas dans les distributions asymétriques. L’écart-type est mal adapté à la description des distributions asymétriques. Dans les distributions symétriques, les deux quartiles sont sensiblement à même distance de la médiane. B OÎTE À MOUSTACHES : déséquilibre visuel de la boîte signale distribution asymétrique. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 28 / 39 J EUX DE DONNÉES AVEC MÊME MOYENNE ET MÊME ÉCART- TYPE . D ISTRBUTIONS SYMÉTRIQUES : D ISTRBUTIONS ASYMÉTRIQUES : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 29 / 39 G RAPHIQUE DE SYMÉTRIE . D ÉFINITION Le graphique de symétrie de Wilk et Gnanadesikan consiste à représenter sur un graphe la moitié supérieure des valeurs ordonnées contre la moitié inférieure, c’est-à-dire pour un échantillon ordonné y1 , y2 , . . . , yn de taille n, les poins (y1 , yn ), (y2 , yn−1 ), . . . Si la distribution est symétrique, les points sont proches d’une droite de pente -1 passant par le point de coordonnées (Q2 , Q2 ), ligne que l’on ajoute au graphe. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 30 / 39 E XEMPLE : TRANSFERTS EN L IGUE 1 (2000-2001). En million de francs : 3 3 0.9 1 35 9 7 25 8 70 51 2 1.5 10 8.5 7 4.5 1 25 22.5 20 10 8 8 5 8.5 8.5 3.5 3 15 10 40 20 15 15 28 19 12.5 12.5 2 10 8 5 3 25 9 6 5 15 10 25 25 13 25 140 60 50 35 18 50 35 13 5 200 90 40 18 16 40 23 66 38 20 14 8 6 1.5 Médiane Q2 = 13 et moyenne ȳ = 22, 45. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 31 / 39 E XEMPLE : TRANSFERTS EN L IGUE 1 (2000-2001). Histogramme très désaxé : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 31 / 39 E XEMPLE : TRANSFERTS EN L IGUE 1 (2000-2001). Graphique de symétrie : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 31 / 39 P LAN 1 I NTRODUCTION 2 O UTILS CLASSIQUES Graphiques Statistiques les plus usuelles Points extrêmes 3 AUTRES OUTILS D ’ ANALYSE Symétrie Quantiles A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 32 / 39 E XEMPLE : COURSE DE 10 KMS . Temps réalisé en minutes pour les 45 premiers participants sur 100 : 43.83 48 50.60 53.07 55.58 45.15 48.20 50.83 53.90 55.58 46.17 48.68 50.88 53.98 55.85 46.35 48.33 51.05 54.20 56.05 46.48 49.60 51.40 54.22 56.08 46.73 49.97 51.72 54.35 56.18 47 50.03 52.08 54.95 56.83 47.72 50.08 52.22 54.97 56.85 47.72 50.50 52.97 55.33 56.97 R ÉSUMÉ : min = 43.83, Q1 = 52.15, Q2 = 58.72, Q3 = 64.955, max = 75.17, moyenne ȳ = 59.14. Q UESTIONS : Quel temps réaliser pour arriver parmi les 10% de tête ? Je fais 72.87 minutes. Suis-je ou non dans les derniers 20 % ? A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 33 / 39 I NTÉRÊT ET DÉFINITION . Les quantiles vont généraliser la notion de quartiles. P OURQUOI ? Ils permettent de quantifier de nouveaux aspects d’une distribution (au-delà de son centre et de sa dispersion) ; de comparer la distribution de l’échantillon à une situation de référence en statistiques, dite loi normale. D ÉFINITION Le quantile d’ordre f (avec 0 < f < 1) est une valeur telle qu’un pourcentage f des données lui est inférieur ou égal. On le note q(f ). A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 34 / 39 G RAPHIQUE DES QUANTILES . D ÉFINITION Le graphique des quantiles représente la i-ème valeur ordonnée d’un i − 1/2 échantillon de taille n sur l’axe vertical contre la fraction fi = n sur l’axe vertical. Pour n = 100, f1 = 0.005, f2 = 0.015, ... On place les points (0.005; 43.83), (0.015; 45.15), ... I NTERPOLATION : on relie les points successifs par des droites. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 35 / 39 R ETOUR SUR L’ EXEMPLE . Graphique des quantiles brut : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 36 / 39 R ETOUR SUR L’ EXEMPLE . Graphique des quantiles interpolé : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 36 / 39 R ETOUR SUR L’ EXEMPLE . Du graphique interpolé on déduit par exemple : q(0, 1) = 48.1 : il faut faire moins de 48 minutes pour être dans les premiers 10%. q(0, 8) = 69.11 : il faut arriver en moins de 1h09. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 36 / 39 L OIS NORMALES . D ÉFINITION Ensemble de courbes de densité le plus répandu et le plus utile en statistiques : (x − µ)2 1 fµ,σ2 (x) = √ exp − . 2σ 2 σ 2π µ ∈ R est la moyenne, σ > 0 l’écart-type. P ROPRIÉTÉ Pour toutes les lois normales, 68% des valeurs sont situées à un écart-type de la moyenne ; 95% à deux écart-types ; 99,7% à trois écart-types. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 37 / 39 L OIS NORMALES . Représentation graphique : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 37 / 39 L OIS NORMALES . Représentation graphique : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 37 / 39 L OIS NORMALES . N ORMALISATION Si une distribution y a une loi normale de paramètres µ et σ, alors z= y −µ σ a une loi normale dite standard, c’est-à-dire de moyenne 0 et de variance 1. D ÉFINITION Les quantiles de la loi normale standard sont appelés quantiles normaux et sont notés qn (f ). Q UELQUES VALEURS : qn (0.5) = 0, qn (0.25) = −0.674, qn (0.75) = 0.674, qn (0.1) = −1.281, qn (0.9) = 1.281. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 37 / 39 Q UANTILES OBSERVÉS VS . QUANTILES NORMAUX . D ÉFINITION Le graphique quantiles observés contre quantiles normaux représente les quantiles observés sur l’axe vertical contre les quantiles normaux correspondants sur l’axe horizontal. On ajoute souvent la droite passant par les deux paires de quartiles. C OMMENTAIRES : Lorsque la distribution est proche d’une loi normale, le graphique prend la forme d’une droite (sauf aux extrémités). Lorsque l’histogramme est asymétrique, le graphique a une forme parabolique. La médiane s’obtient comme l’ordonnée de l’abscisse nulle. L’étendue inter-quartiles est l’écart entre les ordonnées correspondant aux points −0.674 et 0.674. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 38 / 39 E XEMPLES . Montant des transferts de Ligue 1 : A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 39 / 39 E XEMPLES . Temps pour une course de 10 kms. A. Popier (Le Mans) Statistiques (partie 1). Octobre 2010 39 / 39