Statistiques à une variable I. Les différents paramètres d’une série statistique Exemple La répartition des notes des 2 classes de 1S sur une devoir commun de maths est donnée par le tableau cidessous : ( toute ressemblance avec des évènements et des personnages existants ……. ) Les notations sont : : note ( variable statistique ) : effectif : fréquence 1 1 Effectifs Fréquences cumulés cumulées Effectifs Fréquences cumulés cumulées 02 2 06 2 05 2 08 2 08 3 09 6 10 5 10 7 12 4 11 5 13 3 13 3 17 3 14 3 19 2 16 4 Total 1. Compléter les deux tableaux 2. Calculer la moyenne de chaque classe : (notées Total pour la et pour la ) 3. Calculer pour chaque classe : L’étendue Le mode La médiane Le premier quartile Le troisième quartile Parmi ces 5 paramètres caractéristiques des deux séries statistiques , lequel (ou lesquels) permet (ou permettent ) de donner une idée de l’homogénéité ou de l’hétérogénéité des classes ? Conclusion : Moyenne , médiane ,mode , quartiles sont des paramètres de position d’une série statistique L’étendue est un paramètre de dispersion .Elle est généralement associée au mode 1 II. Le couple (médiane – écart interquartile ) 1. Rappels pour les séries à caractère discret a. Variable discrète : Une variable statistique est dite discrète si elle ne prend qu’un nombre fini de valeurs ( en fait : un nombre suffisamment faible pour que l’ on puisse toutes les écrire dans un tableau ) b. Médiane : Lorsque les valeurs sont rangées dans l’ordre croissant , la médiane est la valeur qui laisse autant de valeurs avant elle qu’après elle . Il y a donc 50% des valeurs de la série qui sont plus petites que la médiane et 50% qui sont plus grandes. Si l’effectif total de la série est impair N = 2k + 1 , la médiane est la valeur de rang k + 1 . ( il y en a k avant et k après ) Si l’effectif total de la série est pair N = 2k , la médiane est la moyenne des valeurs de rang k et k + 1 c. Quartiles : Le premier quartile des valeurs avant elle Le troisième quartile des valeurs avant elle est la première valeur de la série qui laisse 25% (donc 1/4) est la première valeur de la série qui laisse 75% ( donc 3/4) d. Ecart interquartile : L’écart interquartile est le nombre e = premier quartile , différence entre le troisième et le L’écart interquartile e est un paramètre de dispersion : 50% de l’effectif de la série est dans l’intervalle interquartile [ ; ] , donc , plus e est petit , plus la série est concentrée autour de la valeur médiane et plus e est important , plus la série est dispersée autour de la médiane . e. Remarque On peut aussi définir les neufs déciles : et les 99 centiles : par exemple : , , , , , ….. , , ….. , est la première valeur de la série qui laisse 3/10 des valeurs avant elle et est la première des valeurs de la série qui laisse 24% des valeurs avant elle . f. exemple : Pour notre exemple de départ , donner les écarts interquartiles et conclure pour les comparaisons des classes . 2 2. Cas des séries à caractère continu a. Variable continue Lorsqu’elle n’est pas discrète , la variable est dite continue . dans ce cas les valeurs sont regroupées dans des intervalles : les classes de valeurs . b. Calculs des quartiles Les médianes , quartiles , déciles , centiles se calculent par interpolation linéaire à partir des effectifs (ou fréquences) cumulés . Exemple : (source INSEE ) Revenus annuels en € (2004) Revenus annuels en € (2008) Population ( en %) [0 ; 17 000] ]17 000 ; 35 300] ]35 300 ; 80 500] ]80 500 , 201 300] ]201 300 ; 551 900] ]551 900 , 3 000 000( ?)] [0 ;18 300] ]18 300 ;37000] ]37 000 ;88 200] ]88 200 ;239 300] ]239 300 ;732 300] ]732 300 ;4 000 000( ?)] 50 40 9 0.9 0.09 0.01 Fréquences cumulées croissantes ( ?) chiffre non communiqué ( pour mémoire en 2011 Michel Rollier (Michelin) a touché 4 500 000 € ) Compléter le tableau Remarques : Il est évident que , pour l’année 2004 , le revenu annuel médian est 17 000 € puisque 50% de la population a un salaire inférieur à cette valeur . De même le 9 ième décile vaut 80 500 et le 99 ième centile vaut 201 300 pour 2004 . Le tableau étant orienté vers l’étude des hauts revenus , les autres paramètres sont entachés d’une grosse incertitude ( on peut cependant les trouver en valeurs précises sur le site de l’INSEE) Calcul du premier quartile : Il est clair que est entre 0 et 17 000 puisque 25 % est entre 0 et 50% et même dans ce cas , le calcul est vite fait : puisque 25 % est le « milieu » de [0% ; 50%] , sera le centre de la classe [0 ; 17 000] donc Calcul du troisième quartile : Il est clair que est dans ]17 000 ; 35 300] puisque 75 % est entre 50% et 90% ( 50% ont un revenu inférieur à 17 000 € et 90% ont un revenu inférieur à 37 500 €) Soient les points A( 17000 ; 50) et B( 35 300 ;90) du polygone des fréquences cumulées croissantes .Le point Q( q ; 75 ) - où q est le 3ième quartile - est sur le segment [AB] en considérant que la répartition se fait uniformément . On dit que l’on fait une interpolation linéaire La méthode (bien connue du cours de seconde)d’identification des coefficients directeurs des droites (confondues) (AB) et (AQ) nous permet d’écrire : = et donc soit = d’où q-17000 = q = 17000 + le 3ième quartile est donc de 28 437.50 € 3 3. Représentation graphique : Diagramme en boîte (« Boîte à moustaches ») Cette représentation fait apparaître sur un axe gradué le couple (médiane-écart interquartile)ainsi que l’étendue . Exemple : Le diagramme permet de visionner immédiatement la répartition de la série et de lire : Médiane : 11.7 environ Ecart interquartile : 13-9.5 = 3.5 Etendue : 17-7=10 25% des valeurs de la série sont entre 7 et 9.5 25% des valeurs de la série sont entre 9.5 et 11.7 25% des valeurs de la série sont entre 11.7 et 13 25% des valeurs de la série sont entre 13 et 17 Exercice : Faire les diagrammes en boîte pour les deux classes de 1S . 4 III. Le couple (moyenne-écart type) 1. La moyenne : Elle est notée x et donnée par x = = On a aussi x = Error! = x1 f1 + x2 f2 + x3 f3 + …….+ xp fp En effet = + + + …+ = x1 f1 + x2 f2 + x3 f3 + ...+ xpfp Cas d’une variable continue : Dans ce cas les valeurs sont les centres des classes . les formules restent les mêmes . Exercice Un professeur de maths a donné le même contrôle dans les deux groupes de sa classe de seconde . les notes sont les suivantes : Groupe 1 : 4 ; 4 ; 5 ; 8 ; 9 ;10 ; 10 ; 12 ; 12 ; 12 ; 13 ; 17 ; 18 ; 20 Groupe 2 : 7 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 12 ; 12 ; 14 ; 16 ; 16 a. Calculer la moyenne de chaque groupe . b. Quel est à votre avis le groupe le plus homogène ? c. Pour montrer la dispersion des notes par rapport à la moyenne dans chaque groupe on calcule les écarts de chaque note par rapport à la moyenne x . Puis on calcule la moyenne de ces écarts . Que constate-t-on ? Groupe 1 Notes xi 4 5 8 9 10 12 13 17 18 20 Effectifs Ecart ni (x – x ) Groupe 2 Carrés des écarts (x – x)2 Notes xi Effectifs Ecart (x – ni x ) Carrés des écarts : (x – x)2 7 8 9 10 11 12 14 16 d. On calcule la moyenne des carrés des écarts (c’est la variance V) puis , pour revenir à une grandeur correspondant à un écart , on calcule la racine carrée de cette variance ( c’est l’écart type s ) . Calculer la variance et l’écart type de chaque groupe . e. Pour chaque groupe , quel pourcentage d’élèves ont une note comprise entre x – s et x + s ? 2. Variance et écart type 5 a. La variance V d’une série statistique est la moyenne des carrés des écarts par rapport à la moyenne . Donc V= = b. L’écart type s est la racine carrées de la variance c. donc s= Autre formule de la variance V= C’est à dire : « variance = moyenne des carrés de x moins carré de la moyenne de x » Démonstration : d. Exercices Exercice 1 Deux éleveurs de poulets d’une même commune compare leurs productions respectives . On a le tableau statistique suivant : Masse des poulets (en kg) Effectifs pour l’élevage A Effectifs pour l’élevage B 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.5 9 10 13 15 33 25 54 25 19 15 7 10 7 8 2 3 9 12 30 35 78 35 19 12 6 3 1 5 Quel est l’élevage le plus performant ?(justifier par des calculs de grandeurs statistiques ) Exercice 2 Un laboratoire fabrique des crèmes cicatrisantes . Sur la notice ,il est indiqué la présence de 0.90 g de calendula ( puissant cicatrisant ) par tube de pommade .Le service contrôle qualité du laboratoire effectue un prélèvement de 100 tubes de crème sur la chaine de fabrication et teste ces tubes .On obtient les résultats suivants : Masse de calendula Nombres de tubes 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 2 9 16 48 15 7 1 2 Calculer la moyenne , la variance et l’écart type de cette série statistique . 6 La production de la chaine est jugée bonne si 0.89 x 0.91 et s 0.02 et si la proportion de tubes hors de l’intervalle [ x – 2s ; x + 2s ] ne dépasse pas 5% . La chaine fonctionne-t-elle correctement ? De nouvelle norme européenne imposent que la proportion de tubes en dehors de l’intervalle [ x – 3s ; x + 3s ] soit inférieure à 1 % . La chaine est-elle encore conforme ? e. Effet d’une transformation affine sur la moyenne , la variance et l’écart type . Propriété : soient a et b deux réels et une série statistique de variable x , de moyenne , de variance et d’écart type alors la série statistique de variable y telle que y = ax + b pour moyenne = a + b pour variance pour écart type a = a² = Démonstration (à prendre au verso ) Utilité : aller plus vite dans les calculs Pour calculer la moyenne et l’écart type de la série statistique suivante : 1.0012 1.0017 1.0020 1.0024 5 12 15 9 1.003 2 On travaille d’abord sur la série ci-dessous plus facile à manipuler 12 5 Calculer En déduire 17 12 , 20 15 24 9 30 2 et , et ( on a x = y + 1) IV. Petit complément sur la moyenne et la variance Propriété : La moyenne est la valeur pour laquelle la fonction f définie par f(x) = est minimum et ce minimum est Démonstration : 7