© Chapitre 7- La statistique SECTION 1 : L’ETUDE STATISTIQUE A) Définitions o Données statistiques : Peuvent être des nombres, des numéros ou des mots. Quantitative (numérique) : nombre qui se compte Qualitative (alphanumérique) : un ou des mots o Valeurs : les formes différentes que prennent les données statistiques c’est-à-dire des nombres, des numéros ou des mots. o Caractère : Les sujets sur lesquels porte la recherche de données (ce qu’on désire étudier) o Variable ou données statistiques : C’est un caractère susceptible de prendre différentes valeurs. Discrète : C’est une variable dont on pourrait énumérer toutes les valeurs. Elle ne peut prendre aucune valeur intermédiaire. Continue : C’est une variable qui peut prendre toutes les valeurs intermédiaires entre deux valeurs possibles. o Population : L’ensemble des individus sur lesquels porte une étude statistique. Homogène : C’est une population qui a toutes les mêmes caractéristiques Hétérogène :C’est une population qui a des caractéristiques différentes o Échantillon : Sous ensemble de la population (doit être représentatif et en nombre suffisant d’individus) o Taille de la population ou de l’échantillon : Le nombre d’individus qui le compose. o Fréquence relative : en nb décimal effectif effectif total , ce rapport peut être en fraction, en a/b ou B) L’étude statistique Voici 2 types d’étude statistique : Un recensement est une recherche d’information sur un caractère donné auprès de toute une population. Exemple : Lors du renouvellement de leur permis de conduire, tous les conducteurs du Québec (population) indiquent s’ils portent des lentilles correctrices pour la vue (caractère étudié). Un sondage est une recherche d’information sur un caractère donné, qui porte sur un sous-ensemble de la population. Ce sous-ensemble constitue un échantillon. Exemple : Dans une usine produisant des ballons, toutes les heures on gonfle un ballon (échantillon) prêt pour l’emballage pour en vérifier la résistance (caractère étudié). Les sondages sont plus courants que les recensements, car ils sont moins longs et moins coûteux à mener. Si l’échantillon est représentatif de la population, c’est-à-dire s’il reflète ses caractéristiques, les résultats du sondage pourront être généralisés à l’ensemble de la population. C) La méthode d’échantillonnage Selon le caractère étudié, la population peut être homogène ou hétérogène. Cela influence le choix de la méthode d’échantillonnage. Voici quatre méthodes pour constituer un échantillon représentatif : Méthode d’échantillonnage Aléatoire simple Exemple Sélectionner 12 cartes de façon aléatoire pour constituer l’échantillon. Remarque Produire une liste de numéros de façon aléatoire permet de bien simuler le hasard. Sélectionner la 2e carte, la 6e carte, la 10e carte du paquet ainsi de suite jusqu’à ce que l’échantillon soit complet. L’intervalle régulier est déterminé par une approximation du rapport suivant. Taille de la population Taille de l’échantillon Le rang de la première donnée est sélectionné aléatoirement. En grappes - Faire 13 piles de 4 cartes. Sélectionner trois de ces piles de façon aléatoire pour constituer l’échantillon. L’échantillon est constitué par tous les individus des grappes sélectionnées de façon aléatoire. Stratifiée - Subdiviser le jeu en quatre strates : - Sélectionner au hasard trois cartes de chaque strate. Population hétérogène Population homogène Systématique Le nombre d’individus sélectionnés dans chacune des strates est proportionnel au nombre d’individus qui forment la strate. D) Les sources de biais de l’étude statistique Une étude statistique comprend trois étapes : 1- la préparation de l’étude 2- la collecte des données 3- la communication des résultats. Les biais sont les ennemis de l’étude statistique, car ils faussent les résultats. Une bonne connaissance des sources de biais permet de les déceler et d’évaluer avec un œil critique les résultats transmis. Des méthodes d’échantillonnage inadéquates L’implication et l’intérêt des personnes… Les erreurs de mesures ( ordi,lecteur optique,…) Un taux de réponse trop faible Les conditions de l’interrogatoire… L’attitude du sondeur La présentation des résultats Voici une liste non exhaustive de sources de biais possibles accompagnées d’exemples : 3-Communication des résultats 2-Collecte des données 1-Préparation de l’étude Choix de l’échantillon et la taille non aléatoire, trop ou pas assez engagé par rapport au caractère étudié, trop petit, etc. En vue de tirer des conclusions sur les habitudes de l’ensemble de la population québécoise, aller dans un terminus d’autobus et poser systématiquement à 1 passant sur 10 la question : « Combien de fois par mois utilisez-vous le transport en commun ? » Attitude du sondeur Formulation de la question question tendancieuse question vague, question trop longue, etc. En vue de connaître l’opinion des élèves quant à l’aménagement d’un local, poser la question : « Ne croyez- vous pas qu’il est temps de mettre une table de billard à la disposition des élèves de l’école ? » Taux de participation manque d’uniformité d’un sondeur à répondants refusant de répondre l’autre répondants indécis parti pris répondant ne présentant pas le caractère promesse de récompense, etc. étudié, etc. En vue de connaître le degré de En vue de connaître les intentions de vote des satisfaction de la clientèle à l’égard du syndiqués d’une entreprise concernant un savon Colombe, le fabricant engage un mandat de grève, collecter les données sondeur qui remet un échantillon et un suivantes : 26 % sont pour, 19 % sont contre et chèque-cadeau aux volontaires qui 55 % préfèrent ne pas exprimer leur opinion. répondent à la question : « Quelle est votre marque de savon préférée : Colombe, Ivoire, Blanc ou une autre ? » Représentation des données Conclusion de l’étude graphique trompeur mauvaise compilation données, etc. des En vue de déterminer l’action d’un médicament, retirer après coup de l’échantillon les résultats des individus sur lesquels le médicament est inopérant. lien de cause à effet non établi titre accrocheur, etc. En vue d’évaluer l’efficacité d’un engrais pour les plantes, étudier la croissance des bambous avec et sans l’engrais. Voici les résultats : sans engrais, augmentation moyenne de 0,2 cm par jour ; avec engrais, augmentation moyenne de 0,3 cm par jour. Titre : « Cet engrais fera croître toutes vos plantes deux fois plus vite ! » SECTION 2 : L’ORGANISATION DES DONNEES A) Les tableaux de distribution de données Les tableaux de distribution de données offrent une vue d’ensemble des données et facilitent leur l’analyse et leur interprétation. Tableaux de distribution Premier cas : Les données sont nombreuses et ont tendance à se répéter, de telle sorte que les valeurs sont peu nombreuses Le caractère étudié est de type qualitatif ou quantitatif discret. Deuxième cas : Les données sont nombreuses et ont tendance à ne pas se répéter, de telle sorte que les valeurs sont nombreuses le caractère étudié est de type quantitatif continu ou quantitatif discret. Tableau à données regroupées Tableau à données condensées 1ère colonne : valeur 2ième colonne : effectif 1ère colonne : classe 2ième colonne : effectif On groupe les données numériques par paquets qu’on appelle des classes. Les classes sont de même amplitude (longueur de la classe) et incluent toutes les données Généralement, on utilise entre 5 et 12 classes pour une distribution. Ex. [30, 40[ EXEMPLE TABLEAU DE DONNÉES CONDENSÉES Voici les groupes sanguins de 32 donneurs de sang Les groupes sanguins de 32 donneurs de sang B O A A A O A AB A O O A O O O O Groupe sanguin Effectif Fréquence (%) O O B O O B AB A A 10 31,25 O A O A B O A O B 4 12,50 O 16 50,00 AB 2 6,25 Total 32 100,00 EXEMPLE TABLEAU DE DONNÉES REGROUPÉES Voici les résultats de 25 personnes à un tournoi de golf. Les résultats de 25 personnes à un tournoi de golf 132 125 98 123 147 115 103 119 88 121 136 107 94 128 126 115 131 111 136 138 141 129 109 112 85 La première classe comprend la plus petite donnée (85). Cette classe comprend toutes les valeurs supérieures ou égales à 130 et inférieures à 140. L’amplitude des classes est de 10. La dernière classe comprend la plus grande donnée (147). La distribution des résultats de 25 personnes à un tournoi de golf Fréquenc Résultat Effectif e (%) [80, 90[ 2 8 [90, 100[ 2 8 [100,110[ 3 12 [110, 120[ 5 20 [120, 130[ 6 24 [130, 140[ 5 20 [140, 150[ 2 8 Total 25 100 B) L’histogramme Représentation graphique d’une distribution de données groupées en classes. La hauteur des bandes correspond à l’effectif ou à la fréquence des classes. Caractéristiques : _1___Avoir un titre___________________________________ _2___Placer sur l’axe vertical (y) les effectifs ou fréquences _3___Placer sur l’axe horizontal (x) le caractère représenté ( Classes ) _4___Graduer l’axe des (x)_( Amplitude ) 5 ___ Construire les bandes Les effectifs ou la fréquence des classes On gradue généralement l’axe vertical de façon que la hauteur de l’histogramme corresponde environ aux deux tiers de sa largeur. La graduation de l’axe horizontal doit tenir compte des classes choisies. Comme dans tout graphique, le titre est un élément essentiel à la compréhension. Dans l’histogramme, les bandes sont collés. Le caractère représenté Section 3 : Les mesures de tendance centrale A) Les mesures de tendance centrale Les mesures de tendance centrale sont des mesures statistiques qui décrivent le centre d’une distribution de données. La moyenne, le mode et la médiane sont des mesures de tendance centrale. Les mesures de tendance centrale Mode (noté Mod) Médiane (notée Méd) Moyenne (notée x ) – Valeur qu’auraient les données si elles étaient toutes égales. – Valeur ou modalité qui a le plus grand effectif. – Valeur qui partage une distribution ordonnée de données en deux parties égales. – Centre d’équilibre d’une distribution de données. — Centre de concentration d’une distribution de données. – Centre de position d’une distribution de données. Remarque : La moyenne est sensible aux données éloignées. Remarque : Une distribution peut avoir un seul mode ou plusieurs. Elle peut aussi n’en avoir aucun. Remarque : La médiane n’est pas nécessairement une donnée de la distribution. La méthode de calcul des mesures de tendance centrale dépend du type de représentation des données. Type de représentation Données non groupées Données condensées Moyenne ( x ) Somme des données Nombre de données Mode (Mod) Valeur ou classe qui a le plus grand effectif. Somme des produits des valeurs par leur effectif Nombre de données Médiane (Méd) Dans une distribution ordonnée, si le nombre de données est impair, la médiane est la donnée du centre ; s’il est pair, la médiane est la moyenne des deux données du centre. Pour les données groupées en classes, on ne peut qu’estimer les mesures de tendance centrale. Type de représentation Données groupées en classes Moyenne ( x ) Somme des produits des milieux de classes par leur effectif Nombre de données Classe modale Classe médiane Classe qui a Classe qui le plus grand contient la effectif. médiane. On estime la médiane par le milieu de la classe médiane. L’étendue d’une distribution : C’est l’écart entre la plus petite et la plus grande valeur de la distribution. Voici trois exemples du calcul des mesures de tendance centrale selon le type de présentation des données : Nombre de coups de Mélanie à chacune de ses 14 parties de golf de la saison. Les données non groupées 96 95 89 94 96 91 94 93 90 88 94 88 91 87 Ordonner les données permet de repérer facilement la médiane et le mode. 87 88 88 89 90 91 91 93 94 94 94 95 96 96 Mod Méd x = 8788888990919193949494959696 = 1286 ≈ 91,9 14 14 Mod = 94 Méd = 9193 = 92 2 Les données condensées La moyenne est d’environ 91,9 coups par partie. Le mode est 94 coups et la médiane est 92 coups. Le nombre d’animaux des élèves d’une classe du préscolaire Nombre d’animaux Effectif 0 10 1 9 2 4 3 1 4 1 Total 25 x = 0 10 1 9 2 4 3 1 4 1 25 = 24 = 0,96 25 Mod = 0, soit la valeur qui a le plus grand effectif. Méd = 1, soit la 13e donnée de la distribution. 25÷ 2 = 12,5 donc 13e La moyenne est de 0,96 animal par élève. Le mode est 0 animal et la médiane est 1 animal. Les données groupées en classe Le revenu hebdomadaire d’un groupe de 29 étudiants Revenu Effectif hebdomadaire ($) [0, 50[ 6 [50, 100[ 8 [100, 150[ 7 [150, 200[ 6 [200, 250[ 2 Total x = 25 6 75 8 125 7 175 6 225 2 29 = 3125 = 29 107,76 Classe modale = [50, 100[ , soit la classe qui a le plus grand effectif. Classe médiane = [100, 150[ , soit la classe qui contient la 15e donnée. 29÷ 2 =14,5 donc 15e 29 La moyenne est d’environ 107,76 $ par étudiant pour une semaine et l’estimation de la médiane est de 125 $ de revenu par semaine. Les données à caractère qualitatif Seul le mode peut être utilisé pour décrire une distribution de données à caractère qualitatif. Le mode correspond à la modalité qui a le plus grand effectif. Les données groupées en classes Exemple : Une réunion de la famille Coulombe Membres Effectif présents Poupons 5 Enfants 12 Adolescents 3 Adultes 17 Aînés 5 Pour la réunion de la famille Coulombe, le mode des membres présents est « Adultes ». B) La moyenne pondérée La moyenne pondérée est la moyenne affectée de pondération qui indiquent l’importance relative de chaque valeur dans le calcul. Exemple : Le bulletin de Stéphane en mathématique comprend une note en pourcentage pour chacune des trois compétences disciplinaires visées. Le résultat disciplinaire en mathématique tient compte de l’importance relative (pondération) attribuée à chacune des compétences. Le bulletin de Stéphane en mathématique Compétence Note (%) Pondération (%) Résoudre une situation-problème 80 30 Déployer un raisonnement mathématique 76 45 Communiquer à l’aide du langage 86 25 mathématique Moyenne pondérée = 80 • 0,3 ++ 76 • 0,45 ++ 86 • 0,25 = 79,7 Le résultat disciplinaire de Stéphane en mathématique est de 80 %. Remarque : Dans une distribution de données condensées ou groupées, les fréquences relatives indiquent l’importance relative de chaque valeur. La moyenne de ces distributions correspond donc aussi à une moyenne pondérée. C) Analyse d’une distribution L’analyse statistique d’une situation commence par la construction de tableaux de distribution ou de diagrammes appropriés qui permettent de mieux percevoir l’ensemble de toutes les données. Elle se poursuit , entre autres, par le calcul de l’étendue, du mode, de la moyenne et de la médiane, qui permettent de dégager certaines caractéristiques importantes de la distribution. o L’étendue permet de savoir jusqu’à quel point les données sont regroupées ou éloignées les unes des autres. La donnée maximale – la donnée minimale o Le mode ou la classe modale permet de déceler les regroupements ou les concentrations de données. o La moyenne donne la valeur qu’auraient les données si elles étaient toutes égales. o La médiane permet de localiser le centre de la distribution. Souvent, cette mesure est plus significative et représentative que la moyenne, surtout lorsqu’il y a des données très élevées ou très basses par rapport aux autres. Une moyenne près de la médiane indique que les données plus élevées sont en nombre et en valeur comparables aux données les moins élevées. Une moyenne plus grande que la médiane indique l’existence de données très élevées . Une moyenne plus petite que la médiane indique l’existence de données très faibles. Selon les situations, on peut attacher plus d’importance à l’une de ces mesures qu’aux autres. Appliqués aux situations, ces éléments d’analyse augmentent la compréhension de la situation. Mais il ne faut pas perdre de vue que la situation elle-même et les connaissances qu’on peut en avoir nous aident à améliorer notre compréhension des situations. Exemples : 1-Chaque année, avant Noël, on met en branle l’Opération nez rouge dans plusieurs municipalités du Québec. Voici quelques données de la dernière opération dans une ville du Québec. Nombre d’appels pour les 12 jours de l’opération : 23, 42, 95, 232, 264, 29, 16, 59, 79, 231, 173, 85. Commandites : 10 commanditaires pour un total de 12 000$ Répartition des pourboires Pourboire (en $) Effectif 470 0, 5 566 5, 10 288 10, 15 69 15, 20 24 20, 25 3 25, 30 a. Quelle est l’étendue des données portant sur le nombre d’appels? b. Combien de personnes ont recouru à ce service pour l’ensemble des 12 jours ? c. Quelle est la moyenne du nombre d’appels par jour ? d. Détermine la médiane de la distribution du nombre d’appels . e. La médiane représente-t-elle mieux que la moyenne le nombre d’appels par jour ? f. L’organisation se finance avec des commanditaires et les pourboires que les laissent les gens. Quelle somme d’argent l’organisation a-t-elle recueillie l’an dernier ? g. En moyenne, quelle somme les gens laissent-ils en pourboire ? h. Quelle est la moyenne des dons si on ajoute les commanditaires aux pourboires ? i. Quelle somme les gens laissent-ils le plus fréquemment en pourboire ? 2- Voici une série de nombres : {8, __ ,10, 15, 12, 8} a) Ajoute une valeur à cette série pour obtenir une médiane égale à 10. b) Ajoute une valeur à cette série pour obtenir une moyenne de 9. 3- Régine a obtenu les résultats suivants : {70, 72, 68, 74,__} a) Quel résultat devra-t-elle obtenir à la 5e étape pour conserver une moyenne supérieur ou égale à 70% ? b) Quel résultat devra-t-elle obtenir à la 5e étape pour conserver une moyenne de 75% ? 4- Remplace la variable de chaque série par un nombre naturel de façon à obtenir un 5 comme médiane. a) {6, 6, 1, 4, x, 6} b) {3, 8, 2, 2, 8, x} SECTION 4 : LES QUARTILES ET LES MESURES DE DISPERSION Une mesure de dispersion est une mesure qui sert à décrire l’étalement des données d’une distribution de données. Les mesures de tendance centrale et de dispersion sont complémentaires. Utilisées ensemble, elles permettent de décrire avec précision une distribution de données. A) Les quartiles Les quartiles (Q1, Q2 et Q3 ) sont des valeurs qui séparent une distribution de données en quatre parties (quarts) qui contiennent le même nombre de données. Dans une distribution de données ordonnées : − le premier quartile (Q1) est la médiane des données qui précèdent Q2 ; − le deuxième quartile (Q2) est la médiane ; − le troisième quartile (Q3 ) est la médiane des données qui suivent Q2. Exemple : Voici la distribution ordonnée du nombre de petits-enfants des membres d’un club d’aînés : Q2 = Médiane de l’ensemble de données = 9 2 3 4 6 6 8 9 Q1 = Médiane des données qui précèdent Q2 Q1 = 46 2 =5 9 10 10 12 15 22 Q3 = Médiane des données qui suivent Q2 Q3 = 1012 2 = 11 L’étendue, l’étendue des quarts et l’étendue interquartile sont des mesures de dispersion. Mesure Étendue (É) = Valeur maximale – Valeur minimale Étendue d’un quart = Différence entre la limite supérieure et la limite inférieure du quart Étendue interquartile (ÉI) = Q3 – Q1 Exemple É = 22 – 2 = 20 Étendue du premier quart = Q1 – Valeur minimale =5–2=3 ÉI = 11 – 5 = 6 B) Le diagramme de quartiles Le diagramme de quartiles est une représentation graphique de statistiques relatives à une distribution de données. Il est construit à partir : o de la valeur minimale o de la valeur maximale o des trois quartiles de la distribution de données(Q1, Q2 et Q3). Voici les informations représentées par le diagramme de quartiles : Remarques : • Chacun des quarts du diagramme contient environ 25 % des données. • Plus l’étendue d’un quart est grande, plus les données sont dispersées. Très important Un quartile est une valeur alors qu’un quart est un intervalle. C) La construction du diagramme de quartiles Moustache : segment horizontal qui relie la valeur minimale à Q1. Titre qui décrit la distribution de données. Graduation de l’axe horizontal qui tient compte des valeurs minimale et maximale des données. Boîte : rectangle qui s’étend de Q1 à Q3 et comprend environ 50 % des données Moustache : segment horizontal qui relie Q3 à la valeur maximale. Caractère représenté et, s’il y a lieu, unité de mesure. Étapes : 1) 2) 3) 4) 5) Placer les données en ordre croissant Graduer l’axe et l’identifier, mettre un titre Tracer Q1, Q2 et Q3 Tracer la donnée maximale et minimale Tracer les moustaches et la boîte. D) Exemples 1-Voici une distribution de données : 0 1 1 1 2 2 4 4 5 5 5 5 6 7 7 8 9 11 11 12 13 15 18 18 19 21 22 22 Construis un diagramme de quartiles 2- Voici deux diagrammes de quartiles. Pour chacun des diagrammes crée une distribution d’au moins 10 données. E) La comparaison de distributions de données Les diagrammes de quartiles servent souvent à comparer deux distributions de données ou plus. Ils sont particulièrement utiles pour les comparaisons parce qu’ils permettent de voir à la fois le centre, la dispersion et la concentration des données d’une distribution de données.