I MOYENNES MOBILES 1° Série chronologique Définition Une série chronologique porte sur des observations réalisées dans le temps, usuellement à intervalles égaux. EXEMPLE : On a relevé les précipitations, en mm/m2, dans le Var, pendant les douze mois de l'année 1996 : Mois 1 2 3 4 5 6 7 8 9 10 11 12 Pluie 79 73 66 12 75 2 16 1 46 63 42 1 Afin de dégager une tendance générale, on élimine les fluctuations les plus grandes en lissant la série. 2° Moyenne mobile d'ordre 3 Définition Soit une série chronologique prenant les valeurs x1, x2, ..., xN aux dates d1, d2, dN. Lisser la série par les moyennes mobiles d'ordre 3 revient à remplacer la série (x1, x2,..., xN) par la série (y2, y3,.., yN–1) x + xi + xi+1 pour 0 ≤ i ≤ N – 1. avec yi = i–1 3 Remarque : La série lissée comporte deux valeurs en moins. d2 … dN–1 dN Date d1 Série initiale x1 x2 xN–1 xN x1 + x2 + x3 yN–1 Série lissée y2 = 3 Un exemple On considère la série chronologique suivante donnant les températures moyennes mensuelles en un lieu donné. Les mois de janvier à décembre sont notés de 1 à 12. date 1 2 3 4 5 6 7 8 9 10 11 12 température t. 5 3 6 10 5 18 25 24 20 14 10 8 Considérons la nouvelle série définie ainsi : t +t +t t +t +t t +t +t t +t +t T2 = l 2 3 T3 = 2 3 4 T4 = 3 4 5 …. T11 = 10 11 12 3 3 3 3 Ainsi, T2 est la moyenne des nombres t1, t2 , t3 ; T3 est la moyenne des nombres t2 , t3 , t4 , etc. Cette nouvelle série ainsi définie est appelée série des moyennes mobiles d'ordre 3. Remarque : Cette série contient 10 valeurs, T2, T3, ..., T11 , et non pas 12 comme la série initiale. On peut représenter les deux séries dans un même tableau. rang 1 2 3 4 5 6 7 8 9 10 11 12 série initiale ti 5 3 6 10 15 18 25 24 20 14 10 8 14 19 31 43 58 67 58 44 32 23 série des moyennes mobiles Ti d'ordre 3 3 3 3 3 3 3 3 3 2 Représentation graphique Sur le diagramme ci-dessous sont représentées deux séries : • la série initiale, en vert contenant 12 valeurs ; • la série des moyennes mobiles, en rouge, contenant 10 valeurs. Pour chacune des séries, les points sont reliés par une ligne polygonale. 3° Moyennes mobiles d'ordre k À partir de la série chronologique précédente (paragraphe 4.1), on définit de même s la série des moyennes mobiles d'ordre 5 : t +t +t +t +t t +t +t +t +t T3 = l 2 3 4 5 T4 = 2 3 4 5 6 2 5 Cette nouvelle série ne contient que 8 valeurs. Plus généralement, on définit de manière analogue la série des moyennes mobile d'ordre 5. II DIAGRAMMES EN BOITE 1° Quartiles a) Définition Soit une série statistique dont les valeurs sont rangées par ordre croissant. x1 ≤ x2 ≤ … ≤ xn Les quartiles partagent cette série en quatre parties qui ont toutes sensiblement le même effectif. Le premier quartile Q1 d’une série statistique est la plus petite valeur de la série telle qu’au moins 25% des valeurs de celle-ci lui soit inférieures ou égales. Le troisième quartile Q3 d’une série statistique est la plus petite valeur de la série telle qu’au moins 75% des valeurs de celle-ci lui soit inférieures ou égales. b) Méthode pratique Si N est l'effectif total de la série. Le premier quartile Q1 de la série est la valeur xi dont l'indice i est le plus petit entier supérieur ou égal à Le troisième quartile Q3 est la valeur xi dont l'indice i est le plus petit entier supérieur ou égal à c) Exemple 1 x2 x3 x4 x5 x6 xl 1 3 4 6 9 10 N N = 8 : = 2 donc Q1 = x2 = 3. 4 3N = 6 donc Q3 = x6 = 10 4 d) Avec des effectifs cumulés 14,2 xi 10,5 11,3 ni 11 34 12 11 45 57 x7 12 x8 15 x1 1 x2 2 N=9 : x3 4 x4 5 x5 9 x6 9 N = 2,25 donc Q1 = x3 = 4. 4 3N = 6,75 donc Q3 = x7 = 10. 4 15,1 25 82 25,2 37 119 34,5 28 147 39,2 11 158 158 = 39,5 et 11 < 39,5 ≤ 45 donc Q1est la valeur de rang 40 c'est à dire 11,3 4 158 = 79 et 57 < 79 ≤ 82 donc Me est la valeur de rang 79 c'est à dire 15,1 2 3 × 158 = 118,5 et 82 < 118,5 ≤ 119 donc Q3 est la valeur de rang 119 c'est à dire 25,2. 4 2° Ecart interquartile L'intervalle [Q1 ; Q3] est appelé intervalle interquartile. Le réel Q3 – Q1 est appelé écart interquartile. Généralement, on a : x7 10 N . 4 3N 4 x8 15 x9 18 3° Diagramme en boîte On place sur un axe : • le minimum, le maximum, le premier quartile, le troisième quartile et la médiane • On construit alors une boîte rectangulaire de largeur arbitraire dont les extrémités sont Q1 et Q3. • Un trait dans la boîte représente la médiane. Le diagramme en boîte d'une série statistique en est alors la représentation suivante : Exemple: Pour la série 1 ; 2 ; 4 ; 5 ; 9; 9 ; 10 ; 15 ; 18, on a : Me = 9, Q1 = 4 et Q3 = 10. Remarque : On peut aussi construire cette boîte verticalement. Remarque : les « moustaches » s’arrêtent parfois aux déciles D1 et D9. Définitions : Le premier décile D1 d’une série statistique est la plus petite valeur de la série telle qu’au moins 10% des valeurs de celle-ci lui soit inférieures ou égales. Le neuvième décile D9 d’une série statistique est la plus petite valeur de la série telle qu’au moins 90% des valeurs de celle-ci lui soit inférieures ou égales. Ce diagramme, appelé aussi boîte à moustaches ou boite à pattes a été inventé par John W. Tukey (1915-2000). Exemple xi 10,5 11,3 14,2 15,1 25,2 34,5 ni 11 34 12 25 37 28 11 45 57 82 119 147 158 = 39,5 donc Q1est la valeur de rang 40 c'est à dire 11,3 4 158 = 79. Donc Me est la valeur de rang 79 c'est à dire 15,1 2 3 × 158 = 118,5 Donc Q3 est la valeur de rang 119 c'est à dire 25,2. 4 min Q1 Me Q3 39,2 11 158 Max III MOYENNE, VARIANCE ET ECART-TYPE 1° La moyenne a) Définition : La moyenne d’une série statistique est le quotient de la somme de toutes les valeurs de cette série par x. l’effectif total. On la note − n x + n x + … + np xp n1 x1 + n2 x2 + … + np xp 2 2 On a : − x= 1 1 = avec N = n1 + n2 + … + np (effectif total). n1 + n2 + … + np N p ∑ n i xi i=1 x= p On note − ∑ ni i=1 p Avec les fréquences : x = f1 x1 + f2 x2 + … + fp xp = ∑ fi xi. i=1 Dans le cas d’un caractère continu dont les valeurs sont regroupées en classe, on calcule la moyenne en choisissant comme valeurs du caractère les centres des classes. b) Propriétés : • Si une série est partagée en deux séries d’effectifs N et P, et de moyennes − x et − y alors la moyenne de la série totale − − N x + P y − est z= N+P • Linéarité : - Si on multiplie chaque valeur de la série par un réel a (a ≠ 0), alors la moyenne est multipliée par a. - Si on ajoute à chaque valeur de la série le réel b, alors la moyenne augmente de b. 2° Dispersion des valeurs autour de la moyenne a) Variance Sans effectif Soit la série statistique (x1, x2, ..., xn) de moyenne − x La variance V de la série est la moyenne des carrés des écarts entre chaque valeur et la moyenne. (x – − x)2 + (x2 – − x)2 + … + (xN – − x)2 V= 1 N Avec effectifs La variance de cette série est le réel V tel que : Valeur effectif x1 n1 x2 n2 …. ….. xp np Total N xp fp Total 1 p ∑ ni (xi – −x)2 2 2 2 − − − n (x – x) + n2 (x2 – x) + … + np (xp – x) i = 1 V= 1 1 = N N Avec fréquences La variance de cette série est le réel V tel que : Valeur effectif x1 f1 x2 f2 p …. ….. V = f1 (x1 – − x)2 + f2 (x2 – − x)2 + … + fp (xp – − x)2 = ∑ fi (xi – − x)2 i=1 Autre formule p ∑ n i x i2 –− x2 N La variance est égale à la moyenne des carrés moins le carré de la moyenne. V= i=1 Remarque (x1 – x)2 + (x2 – x)2 + … + (xN – x)2 . N La variance est le minimum de cette fonction c'est à dire que pour tout réel x, f(x) ≥ f(− x) et f(− x) = V En effet on a : 1 f(x) = (x12 – 2 x1 x + x2 + x22 – 2 x2 x + x2 + … + xN2 – 2 xN x + x2) N 1 = (x12 + x22 + … + xN2 – 2 x (x1 + x2 + … + xN) + N x2) N x + x2 + … xN N x2 x12 + x22 + … + xN2 x 2 + x22 + … + xN2 –2x 1 + = –2x− x + x2 = 1 N N N N x 2 + x22 + … + xN2 = (x – − x)2 – − x2+ 1 N 2 − = (x – x) + V. Pour tout réel x on a : (x – − x)2 ≥ 0 donc f(x) ≥ V et V = f(− x). f(− x) = V est donc bien le minimum de la fonction f. Soit la fonction définie sur IR par f(x) = b) Ecart type Afin de mesurer la dispersion avec la même unité que les valeurs de la série, on définit l'écart type de la série par σ = V. Variance et écart-type sont des mesures de dispersion par rapport à la moyenne. Plus les données sont dispersées par rapport à la moyenne, plus la variance et l’écart type sont grands. 3° Exemple xi 10,5 ni 11 11,3 34 14,2 12 15,1 25 25,2 37 34,5 28 39,2 11 11 × 10,5 + 34 × 11,3 + 12 × 14,2 + 25 × 15,1 + 37 × 25,2 + 28 × 34,5 + 11 × 39,2 3377,2 − x= = ≈ 21,4 158 158 11 × 10,5 + 34× 11,3 + 12 × 14,2 + 25 × 15,1 + 37 × 25,2 + 28 × 34,5 + 11 × 39,2 3377,22 – 158 158 2 V= = 2 2 87400,66 11405479 600956,11 – = ≈ 95,29 24964 6241 158 σ= 2 2 ∑ x2 n 2 2 –− x2 600956,11 ≈ 9,813 6241 En résumé Mesure de position ou mesure de tendance centrale Mode Moyenne Médiane Médiane Mesure de dispersion Etendue Ecart-type Ecart interquartiles Quartiles Etendue Ecart interquartiles Très facile à calculer mais peu significatif (− x , σ) : très dépendant des valeurs extrêmes. (Me, Q3 – Q1) peu dépendant des valeurs extrêmes. Diagramme en boîte : très visuel. ∑x n IV TABLEAU A DOUBLE ENTREE 1° Etude fréquentielle Pour étudier la répartition des 200 élèves de première d'un lycée selon leur série (ES ou L ou S) et leur régime (demipensionnaire (DP) ou externe (E)), on donne le tableau à double entrée : 30 élèves sont en série L et sont externes. Série ES L S Total La ligne «Total » et la colonne «Total » sont les marges Régime du tableau. DP 40 20 60 120 80 élèves sont en S E 30 30 20 80 120 élèves sont demi-pensionnaires. Total 70 50 80 200 Le tableau des fréquences s'obtient en divisant chaque effectif par l'effectif total. •0,15 est la fréquence des élèves qui sont en ES et qui sont externes. Série ES L S Total Autrement dit, 15 % de la totalité des élèves sont des externes de la Régime série ES. DP 0,20 0,10 0,30 0,60 •La ligne « Total » et la colonne « Total » donnent les fréquences E 0,15 0,15 0,10 0,40 marginales. Total 0,35 0,25 0,40 1 •0,25 est la fréquence des élèves qui sont en L. 25 % des élèves sont en série L. 2° Fréquence conditionnelle On s'intéresse aux 50 élèves de la série L de l'exemple ci-dessus. Parmi ces élèves, 30 sont externes : 30 soit 0,6 est la fréquence conditionnelle des externes parmi les élèves de L ; on l'appelle aussi fréquence de E 50 sachant L et on la note fL(E). 30 Remarque : fL(E) = 0,6 alors que fE(L) = = 0,375. 80 Pour calculer fE(L) on s'intéresse aux 80 élèves externes. parmi ces élèves 30 sont des élèves de la série L. 3° Arbre Les fréquences de répartition des élèves de première peuvent se donner aussi à l'aide d'un arbre. 40 1 30 3 20 2 20 f DP(ES) = = fE(L) = = fS(E) = = fL(DP) = 120 3 80 8 80 8 50 1/3 4/7 ES ES 1/6 DP L 0,6 0,35 3/7 1/2 S 3/8 0,4 ES 3/8 E 1/4 0,25 DP E 2/5 DP 3/5 E 3/4 DP L L S 0,40 S On envisage la répartition des séries ES, L, S parmi les élèves demi-pensionnaires et les élèves externes 1/4 ES On envisage la répartition des élèves demi-pensionnaires et des élèves externes parmi les séries ES, L, S 4° Exemple On effectue une enquête auprès de 100 personnes, hommes (H) et femmes (F), pour connaître leurs préférences entre les deux activités suivantes : • regarder à la télévision des émissions musicales • regarder à la télévision des émissions sportives (S). L'arbre ci-contre indique les résultats de cette enquête : Représenter les résultats : 1° à l'aide d'un tableau à double entrée ; 2° à l'aide d'un arbre dont les deux premières branches sont 3° calculer les fréquences marginales 10 M 30 S 40 M 20 S H 40 60 F M S V SERIES DE DONNEES ET LEURS REPRESENTATIONS 1° Nature des données Une étude statistique traite de données de différents types : effectifs, pourcentages, indices, ... Le caractère quantitatif étudié peut être discret quand il ne prend que des valeurs isolées (nombre d'enfants : 1 ou 2) ou continu quand il prend ses valeurs dans des intervalles appelés classes (taille en centimètres d'individus dans les classes [165 ; 170[, [170 ; 175[ ). Définition 1 Pour un caractère prenant ses valeurs dans des classes, on construit des rectangles dont les aires sont proportionnelles aux effectifs. La représentation ainsi obtenue s'appelle un histogramme. Remarque Si tous les intervalles ont la même amplitude, la hauteur des rectangles est proportionnelle à l'effectif. EXEMPLE : On donne la répartition des notes de30 élèves Note [0; 5[ [5 ; 10[ [10;15[ [15 ; 20[ Effectif 4 7 13 6