Chapitre 4 Statistiques CONTENUS Statistique descriptive, analyse de données Caractéristiques de dispersion : variance, écart-type. Diagramme en boîte. CAPACITÉS ATTENDUES COMMENTAIRES • Utiliser de façon appropriée les deux couples usuels qui permettent de résumer une série statistique : (moyenne, écarttype) et (médiane, écart interquartile). • Étudier une série statistique ou mener une comparaison pertinente de deux séries statistiques à l’aide d’un logiciel ou d’une calculatrice. On utilise la calculatrice ou un logiciel pour déterminer la variance et l’écart-type d’une série statistique. 1 Des travaux réalisés à l’aide d’un logiciel permettent de faire observer des exemples d’effets de structure lors du calcul de moyennes. Première S Chapitre 4 - Statistiques 2 - Lycée Pierre-Gilles de Gennes Table des matières 4 Statistiques I- 1 Diagramme en boite (ou boite à moustache) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 II - Variance et écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 III - Résumé d’une série statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Dans ce chapitre, on considère des séries à caractères quantitatifs discrètes ou continues (avec dans le cas d’une série continue l’hypothèse d’une répartition uniforme à l’intérieur de chaque classe). Notation • p est un entier supérieur ou égal à 1 ; • x1 , x2 , ... , xp sont les valeurs ou les centres des classes ; • n1 , n2 , ... , np sont les effectifs des valeurs x1 , x2 , ... , xp ; • f1 , f2 , ... , fp sont les fréquences des valeurs x1 , x2 , ... , xp ; p p X X ni ∀i = 1, 2, ..., p et fi = 1. • N est l’effectif total : N = n1 + n2 + ... + np = ni . Donc fi = N i=1 i=1 I - Diagramme en boite (ou boite à moustache) On considère une série ordonnée par ordre croissant : x1 6 x2 6 ... 6 xp . Méthode pour calculer les quartiles • Cas d’un caractère quantitatif discret – Le premier quartile Q1 est la valeur xi du caractère dont l’indice i est le plus petit entier supérieur ou égal n à . 4 – Le troisième quartile Q3 est la valeur xi du caractère dont l’indice i est le plus petit entier supérieur ou 3n égal à . 4 • Cas d’un caractère quantitatif continu Le premier quartile Q1 est l’abscisse du point de la courbe des fréquences cumulées croissantes d’ordonnée 0,25 et le troisième quartiles Q3 est l’abscisse du point de la courbe des fréquences cumulées d’ordonnée 0,75. Remarques : • Une série admet trois quartiles : le deuxième quartile Q2 n’est pas utilisé ; • Attention les calculatrices donnent pour Q1 la valeur médiane de la sous série constituée des valeurs de la série comprises entre la valeur minimale et la valeur médiane ; dans ce cas Q1 n’est pas nécessairement une valeur de la série ce qui est contradictoire avec la définition ci-dessus. Pour retrouver les mêmes résultats que ceux du cours (lorsqu’ils sont différents), il faut prendre la plus grande valeur de la série inférieure au quartile trouvé par la calculatrice. • On peut définir de manière analogue les déciles d’une série : on utilisera en générale seulement le premier décile D1 et la neuvième décile D9 . Un diagramme en boite est un rectangle delimité par Q1 et Q3 : 3 Première S Chapitre 4 - Statistiques Q1 Me Q3 max min Q3 − Q1 e On peut également faire apparaître le premier et le neuvième décile de la série, ainsi que les valeurs extrêmes qui sont en dehors de l’intervalle interdécile. D1 min b b Q1 Me Q3 D9 b b b b b max Exemple 1 Exercice 22 du livre (avec utilisation de la calculatrice). II - Variance et écart type Définition 1 La variance d’une série statistique est notée V et a pour valeur : V = p n1 (x1 − x)2 + n2 (x2 − x)2 + ... + np (xp − x)2 1 X = ni (xi − x)2 (moyenne des carrés des écarts). n1 + n2 + ... + np N i=1 On note s = √ V l’écart type de la série. Théorème 1 La variance peut aussi se calculer des deux manières suivantes : (1) V = p X i=1 p 1 X (2) V = ni x2i − x2 . N 2 fi (xi − x) . i=1 Démonstration (1) V = (2) V = p p p X X ni 1 X fi (xi − x)2 ; (xi − x)2 = ni (xi − x)2 = N i=1 N i=1 i=1 p p p p p 1 X 1 X 1 X 1 X 1 X ni (xi − x)2 = ni (x2i − 2xi x + x2 ) = ni x2i − 2x ni xi +x2 ni . N i=1 N i=1 N i=1 N i=1 N i=1 | | {z } {z } x N p p 1 X 1 X ni x2i − 2x2 + x2 = ni x2i − x2 . V = N i=1 N i=1 Remarque : Dans la pratique, on utilise la formule (2) pour calculer la variance. 4 - Lycée Pierre-Gilles de Gennes Première S Chapitre 4 - Statistiques Exemple 2 Une équipe de football dresse le bilan de sa dernière saison : Nombre de buts marqués par match Nombre de matchs 0 17 1 23 2 13 3 7 4 4 5 1 17 × 0 + 23 × 1 + 13 × 2 + 7 × 3 + 4 × 4 + 1 × 5 91 = = 1, 4. 17 + 23 + 13 + 7 + 4 + 1 65 La variance est : 2 91 8281 6474 227 1 2 2 2 2 2 2 (17 × 0 + 23 × 1 + 13 × 2 + 7 × 3 + 4 × 4 + 1 × 5 ) − − = ≃ 1, 53. = V = 65 65 91 4225 4225 r √ 6474 6474 Donc, l’écart-type est s = = ≃ 1, 24. 4225 65 Le nombre moyen de buts marqués par match est : x = Théorème 2 (1) La moyenne x est la valeur qui minimise la fonction de dispersion des carrés des écarts, notée d, p X définie par : d(x) = ni (xi − x)2 . i=1 (2) La médiane M e est la valeur qui minimise la fonction de dispersion des écarts absolus, notée f et p X définie par f (x) = ni |xi − x| oà x1 < x2 < ... < xp . i=1 Remarque : L’écart type, contrairement à la variance, possède la même unité que les valeurs de la série, il permet de mesurer la dispersion de la série autour de la moyenne. III - Résumé d’une série statistique Résumer une série, c’est indiquer la répartition des données en utilisant différents indicateurs. Deux questions peuvent alors être posées : • Autour de quelle valeur centrale les données sont-elles réparties ? • Quelle est l’importance de la dispersion des données autour de cette valeur centrale ? On utilise habituellement un paramètre de position indiquant un tendance centrale et un paramètre de dispersion. Ainsi pour résumer une série, on peut déterminer puis, interpréter suivant l’étude désirée, l’un des couples définis dans le tableau ci-dessous : Paramètre de tendance centrale médiane : M e moyenne : x Paramètre de dispersion écart interquartile : Q3 − Q1 écart-type : s 5 - Lycée Pierre-Gilles de Gennes Propriété peu sensible aux valeurs extrêmes sensible aux valeurs extrêmes