Somme des données

publicité
©
Chapitre 7- La statistique
SECTION 1 : L’ETUDE STATISTIQUE
A) Définitions
o Données statistiques : Peuvent être des nombres, des numéros ou des
mots.
 Quantitative (numérique) : nombre qui se compte
 Qualitative (alphanumérique) : un ou des mots
o Valeurs : les formes différentes que prennent les données statistiques
c’est-à-dire des nombres, des numéros ou des mots.
o Caractère : Les sujets sur lesquels porte la recherche de données (ce
qu’on désire étudier)
o Variable ou données statistiques : C’est un caractère susceptible de
prendre différentes valeurs.
 Discrète : C’est une variable dont on pourrait énumérer toutes les
valeurs. Elle ne peut prendre aucune valeur intermédiaire.
 Continue : C’est une variable qui peut prendre toutes les valeurs
intermédiaires entre deux valeurs possibles.
o Population : L’ensemble des individus sur lesquels porte une étude
statistique.
 Homogène : C’est une population qui a toutes les mêmes
caractéristiques
 Hétérogène :C’est une population qui a des caractéristiques
différentes
o Échantillon : Sous ensemble de la population (doit être représentatif et en
nombre suffisant d’individus)
o Taille de la population ou de l’échantillon : Le nombre d’individus qui le
compose.
o Fréquence relative :
en nb décimal
effectif
effectif total
, ce rapport peut être en fraction, en a/b ou
B) L’étude statistique
Voici 2 types d’étude statistique :

Un recensement est une recherche d’information sur un caractère donné
auprès de toute une population.
Exemple : Lors du renouvellement de leur permis de conduire,
tous les conducteurs du Québec (population) indiquent s’ils
portent des lentilles correctrices pour la vue (caractère étudié).

Un sondage est une recherche d’information sur un caractère donné, qui
porte sur un sous-ensemble de la population. Ce sous-ensemble constitue
un échantillon.
Exemple : Dans une usine produisant des ballons, toutes les
heures on gonfle un ballon (échantillon) prêt pour l’emballage
pour en vérifier la résistance (caractère étudié).
Les sondages sont plus courants que les recensements, car ils sont moins longs et
moins coûteux à mener.
Si l’échantillon est représentatif de la population, c’est-à-dire s’il reflète ses
caractéristiques, les résultats du sondage pourront être généralisés à l’ensemble de
la population.
C) La méthode d’échantillonnage
Selon le caractère étudié, la population peut être homogène ou hétérogène. Cela
influence le choix de la méthode d’échantillonnage.
Voici quatre méthodes pour constituer un échantillon représentatif :
Méthode
d’échantillonnage
Aléatoire simple
Exemple
Sélectionner 12 cartes de
façon aléatoire pour
constituer l’échantillon.
Remarque
Produire une liste de numéros
de façon aléatoire permet de
bien simuler le hasard.
Sélectionner la 2e carte, la
6e carte, la 10e carte du
paquet ainsi de suite jusqu’à
ce que l’échantillon soit
complet.
L’intervalle régulier est
déterminé par une
approximation du rapport
suivant.
Taille de la population
Taille de l’échantillon
Le rang de la première
donnée est sélectionné
aléatoirement.
En grappes
- Faire 13 piles de 4 cartes.
Sélectionner trois de ces
piles de façon aléatoire
pour constituer
l’échantillon.
L’échantillon est constitué
par tous les individus des
grappes sélectionnées de
façon aléatoire.
Stratifiée
-
Subdiviser le jeu en
quatre strates :
-
Sélectionner au hasard
trois cartes de chaque
strate.
Population
hétérogène
Population homogène
Systématique
Le nombre d’individus
sélectionnés dans chacune
des strates est proportionnel
au nombre d’individus qui
forment la strate.
D) Les sources de biais de l’étude statistique
Une étude statistique comprend trois étapes :
1- la préparation de l’étude
2- la collecte des données
3- la communication des résultats.
Les biais sont les ennemis de l’étude statistique, car ils faussent les résultats.
Une bonne connaissance des sources de biais permet de les déceler et d’évaluer
avec un œil critique les résultats transmis.
Des méthodes d’échantillonnage inadéquates
L’implication et l’intérêt des personnes…
Les erreurs de mesures ( ordi,lecteur optique,…)
Un taux de réponse trop faible
Les conditions de l’interrogatoire…
L’attitude du sondeur
La présentation des résultats
Voici une liste non exhaustive de sources de biais possibles accompagnées
d’exemples :
3-Communication des résultats
2-Collecte des données
1-Préparation de l’étude
Choix de l’échantillon et la taille
 non aléatoire,
 trop ou pas assez engagé par
rapport au caractère étudié, trop
petit, etc.
En vue de tirer des conclusions sur les
habitudes de l’ensemble de la population
québécoise, aller dans un terminus
d’autobus et poser systématiquement à 1
passant sur 10 la question : « Combien de
fois par mois utilisez-vous le transport en
commun ? »
Attitude du sondeur
Formulation de la question
 question tendancieuse
 question vague,
 question trop longue, etc.
En vue de connaître l’opinion des élèves
quant à l’aménagement d’un local, poser la
question : « Ne croyez- vous pas qu’il est
temps de mettre une table de billard à la
disposition des élèves de l’école ? »
Taux de participation
 manque d’uniformité d’un sondeur à  répondants refusant de répondre
l’autre
 répondants indécis
 parti pris
 répondant ne présentant pas le caractère
 promesse de récompense, etc.
étudié, etc.
En vue de connaître le degré de
En vue de connaître les intentions de vote des
satisfaction de la clientèle à l’égard du
syndiqués d’une entreprise concernant un
savon Colombe, le fabricant engage un
mandat de grève, collecter les données
sondeur qui remet un échantillon et un
suivantes : 26 % sont pour, 19 % sont contre et
chèque-cadeau aux volontaires qui
55 % préfèrent ne pas exprimer leur opinion.
répondent à la question : « Quelle est
votre marque de savon préférée :
Colombe, Ivoire, Blanc ou une autre ? »
Représentation des données
Conclusion de l’étude
 graphique trompeur
 mauvaise
compilation
données, etc.
des
En vue de déterminer l’action d’un
médicament, retirer après coup de
l’échantillon les résultats des individus
sur lesquels le médicament est
inopérant.
 lien de cause à effet non établi
 titre accrocheur, etc.
En vue d’évaluer l’efficacité d’un engrais pour les
plantes, étudier la croissance des bambous avec
et sans l’engrais. Voici les résultats : sans
engrais, augmentation moyenne de 0,2 cm par
jour ; avec engrais, augmentation moyenne de
0,3 cm par jour.
Titre : « Cet engrais fera croître toutes vos
plantes deux fois plus vite ! »
SECTION 2 : L’ORGANISATION DES DONNEES
A) Les tableaux de distribution de données
Les tableaux de distribution de données offrent une vue d’ensemble
des données et facilitent leur l’analyse et leur interprétation.
Tableaux de distribution
Premier cas :
 Les données sont nombreuses et
ont tendance à se répéter, de telle
sorte que les valeurs sont peu
nombreuses
 Le caractère étudié est de type
qualitatif ou quantitatif discret.
Deuxième cas
:
 Les données sont nombreuses et
ont tendance à ne pas se
répéter, de telle sorte que les
valeurs sont nombreuses
 le caractère étudié est de type
quantitatif continu ou quantitatif
discret.
Tableau à données regroupées
Tableau à données condensées
 1ère colonne : valeur
 2ième colonne : effectif
 1ère colonne : classe
 2ième colonne : effectif
 On groupe les données
numériques par paquets qu’on
appelle des classes.
 Les classes sont de même
amplitude (longueur de la classe)
et incluent toutes les données
 Généralement, on utilise entre 5 et
12 classes pour une distribution.
Ex. [30, 40[
EXEMPLE TABLEAU DE DONNÉES CONDENSÉES
Voici les groupes sanguins de 32 donneurs de sang
Les groupes sanguins de 32
donneurs de sang
B
O
A
A
A
O
A
AB
A
O
O
A
O
O
O
O
Groupe
sanguin
Effectif
Fréquence
(%)
O
O
B
O
O
B
AB
A
A
10
31,25
O
A
O
A
B
O
A
O
B
4
12,50
O
16
50,00
AB
2
6,25
Total
32
100,00
EXEMPLE TABLEAU DE DONNÉES REGROUPÉES
Voici les résultats de 25 personnes à un tournoi de golf.
Les résultats de 25
personnes à un tournoi de
golf
132 125
98
123 147
115 103
119
88
121
136 107
94
128
126
115 131
111
136
138
141
129
109
112
85
La première classe
comprend la plus petite
donnée (85).
Cette classe comprend
toutes les valeurs
supérieures ou égales à
130 et inférieures à 140.
L’amplitude des classes est
de 10.
La dernière classe
comprend la plus grande
donnée (147).
La distribution des résultats
de 25 personnes à un
tournoi de golf
Fréquenc
Résultat Effectif
e
(%)
[80, 90[
2
8
[90, 100[
2
8
[100,110[
3
12
[110, 120[
5
20
[120, 130[
6
24
[130, 140[
5
20
[140, 150[
2
8
Total
25
100
B) L’histogramme
Représentation graphique d’une distribution de données groupées en classes.
La hauteur des bandes correspond à l’effectif ou à la fréquence des classes.
Caractéristiques :
 _1___Avoir un titre___________________________________

_2___Placer sur l’axe vertical (y) les effectifs ou fréquences

_3___Placer sur l’axe horizontal (x) le caractère représenté ( Classes )

_4___Graduer l’axe des (x)_( Amplitude )
5 ___ Construire les bandes
Les effectifs ou la
fréquence des
classes
On gradue
généralement
l’axe vertical de
façon que la
hauteur de
l’histogramme
corresponde
environ aux deux
tiers de sa
largeur.
La graduation de
l’axe horizontal doit
tenir compte des
classes choisies.
Comme dans
tout graphique,
le titre est un
élément
essentiel à la
compréhension.
Dans
l’histogramme,
les bandes
sont collés.
Le caractère
représenté
Section 3 : Les mesures de tendance centrale
A) Les mesures de tendance centrale
Les mesures de tendance centrale sont des mesures statistiques qui décrivent le
centre d’une distribution de données. La moyenne, le mode et la médiane sont des
mesures de tendance centrale.
Les mesures de tendance centrale
Mode (noté Mod)
Médiane (notée Méd)
Moyenne (notée x )
– Valeur qu’auraient
les données si
elles étaient toutes
égales.
– Valeur ou modalité
qui a le plus grand
effectif.
– Valeur qui partage
une distribution
ordonnée de
données en deux
parties égales.
– Centre d’équilibre
d’une distribution
de données.
— Centre de
concentration d’une
distribution de
données.
– Centre de position
d’une distribution
de données.
Remarque : La
moyenne est sensible
aux données
éloignées.
Remarque : Une
distribution peut avoir
un seul mode ou
plusieurs. Elle peut
aussi n’en avoir aucun.
Remarque : La
médiane n’est pas
nécessairement une
donnée de la
distribution.
La méthode de calcul des mesures de tendance centrale dépend du type de
représentation des données.
Type de
représentation
Données non
groupées
Données
condensées
Moyenne ( x )
Somme des données
Nombre de données
Mode
(Mod)
Valeur ou
classe qui
a le plus
grand
effectif.
Somme des produits des valeurs par leur effectif
Nombre de données
Médiane (Méd)
Dans une
distribution
ordonnée, si le
nombre de données
est impair, la
médiane est la
donnée du centre ;
s’il est pair, la
médiane est la
moyenne des deux
données du centre.
Pour les données groupées en classes, on ne peut qu’estimer les mesures de tendance
centrale.
Type de
représentation
Données
groupées en
classes
Moyenne ( x )
Somme des produits des milieux de classes par
leur effectif
Nombre de données
Classe
modale
Classe
médiane
Classe qui a Classe qui
le plus grand contient la
effectif.
médiane.
On estime la médiane par le milieu de la classe médiane.
L’étendue d’une distribution : C’est l’écart entre la plus petite et la plus grande valeur de la
distribution.
Voici trois exemples du calcul des mesures de tendance centrale selon le type de
présentation des données :
Nombre de coups de Mélanie à chacune de ses 14 parties de golf de la saison.
Les données non groupées
96
95
89
94
96
91
94
93 90
88
94
88
91
87
Ordonner les données permet de repérer facilement la médiane et le mode.
87
88
88
89
90
91
91
93 94
94
94
95
96
96
Mod
Méd
x = 8788888990919193949494959696 = 1286 ≈ 91,9
14
14
Mod = 94
Méd = 9193 = 92
2
Les données condensées
La moyenne est d’environ 91,9 coups par partie. Le mode est 94 coups et la médiane est
92 coups.
Le nombre d’animaux des
élèves d’une classe du
préscolaire
Nombre d’animaux
Effectif
0
10
1
9
2
4
3
1
4
1
Total
25
x =
0  10  1  9  2  4  3  1  4  1
25
= 24 = 0,96
25
Mod = 0, soit la valeur qui a le plus grand effectif.
Méd = 1, soit la 13e donnée de la distribution.
25÷ 2 = 12,5 donc 13e
La moyenne est de 0,96 animal par élève. Le mode
est 0 animal et la médiane est 1 animal.
Les données groupées en classe
Le revenu hebdomadaire
d’un groupe de 29 étudiants
Revenu
Effectif
hebdomadaire ($)
[0, 50[
6
[50, 100[
8
[100, 150[
7
[150, 200[
6
[200, 250[
2
Total
x =
25  6  75  8  125  7  175  6  225  2
29
= 3125 =
29
107,76
Classe modale = [50, 100[ , soit la classe qui a le
plus grand effectif.
Classe médiane = [100, 150[ , soit la classe qui
contient la 15e donnée.
29÷ 2 =14,5 donc 15e
29
La moyenne est d’environ 107,76 $ par étudiant pour
une semaine et l’estimation de la médiane est de 125
$ de revenu par semaine.
Les données à caractère qualitatif
Seul le mode peut être utilisé pour décrire une distribution de
données à caractère qualitatif. Le mode correspond à la modalité qui
a le plus grand effectif.
Les données groupées en classes
Exemple :
Une réunion de la famille
Coulombe
Membres
Effectif
présents
Poupons
5
Enfants
12
Adolescents
3
Adultes
17
Aînés
5
Pour la réunion de la famille Coulombe, le mode des membres présents est « Adultes ».
B) La moyenne pondérée
La moyenne pondérée est la moyenne affectée de pondération qui
indiquent l’importance relative de chaque valeur dans le calcul.
Exemple :
Le bulletin de Stéphane en mathématique comprend une note en
pourcentage pour chacune des trois compétences disciplinaires
visées. Le résultat disciplinaire en mathématique tient compte de
l’importance relative (pondération) attribuée à chacune des
compétences.
Le bulletin de Stéphane en mathématique
Compétence
Note (%)
Pondération (%)
Résoudre une situation-problème
80
30
Déployer un raisonnement mathématique
76
45
Communiquer à l’aide du langage
86
25
mathématique
Moyenne pondérée = 80 • 0,3 ++ 76 • 0,45 ++ 86 • 0,25 = 79,7
Le résultat disciplinaire de Stéphane en mathématique est de 80 %.
Remarque : Dans une distribution de données condensées ou
groupées, les fréquences relatives indiquent l’importance relative de
chaque valeur. La moyenne de ces distributions correspond donc
aussi à une moyenne pondérée.
C) Analyse d’une distribution
L’analyse statistique d’une situation commence par la construction de tableaux de
distribution ou de diagrammes appropriés qui permettent de mieux percevoir l’ensemble
de toutes les données. Elle se poursuit , entre autres, par le calcul de l’étendue, du
mode, de la moyenne et de la médiane, qui permettent de dégager certaines
caractéristiques importantes de la distribution.
o L’étendue permet de savoir jusqu’à quel point les données sont regroupées ou
éloignées les unes des autres.
La donnée maximale – la donnée minimale
o Le mode ou la classe modale permet de déceler les regroupements ou les
concentrations de données.
o La moyenne donne la valeur qu’auraient les données si elles étaient toutes
égales.
o La médiane permet de localiser le centre de la distribution. Souvent, cette mesure
est plus significative et représentative que la moyenne, surtout lorsqu’il y a des
données très élevées ou très basses par rapport aux autres.
 Une moyenne près de la médiane indique que les données plus élevées
sont en nombre et en valeur comparables aux données les moins élevées.
 Une moyenne plus grande que la médiane indique l’existence de données
très élevées .
 Une moyenne plus petite que la médiane indique l’existence de données
très faibles.
Selon les situations, on peut attacher plus d’importance à l’une de ces mesures
qu’aux autres.
Appliqués aux situations, ces éléments d’analyse augmentent la compréhension de la
situation. Mais il ne faut pas perdre de vue que la situation elle-même et les
connaissances qu’on peut en avoir nous aident à améliorer notre compréhension des
situations.
Exemples :
1-Chaque année, avant Noël, on met en branle l’Opération nez rouge dans
plusieurs municipalités du Québec. Voici quelques données de la dernière
opération dans une ville du Québec.
Nombre d’appels pour les 12 jours de l’opération : 23, 42, 95, 232, 264, 29, 16, 59,
79, 231, 173, 85.
Commandites : 10 commanditaires pour un total de 12 000$
Répartition des pourboires
Pourboire (en $)
Effectif
470
0, 5
566
5, 10
288
10, 15
69
15, 20
24
20, 25
3
25, 30
a. Quelle est l’étendue des données portant sur le nombre d’appels?
b. Combien de personnes ont recouru à ce service pour l’ensemble des 12 jours
?
c. Quelle est la moyenne du nombre d’appels par jour ?
d. Détermine la médiane de la distribution du nombre d’appels .
e. La médiane représente-t-elle mieux que la moyenne le nombre d’appels par
jour ?
f. L’organisation se finance avec des commanditaires et les pourboires que les
laissent les gens. Quelle somme d’argent l’organisation a-t-elle recueillie l’an
dernier ?
g. En moyenne, quelle somme les gens laissent-ils en pourboire ?
h. Quelle est la moyenne des dons si on ajoute les commanditaires aux
pourboires ?
i.
Quelle somme les gens laissent-ils le plus fréquemment en pourboire ?
2- Voici une série de nombres : {8, __ ,10, 15, 12, 8}
a) Ajoute une valeur à cette série pour obtenir une médiane égale à 10.
b) Ajoute une valeur à cette série pour obtenir une moyenne de 9.
3- Régine a obtenu les résultats suivants : {70, 72, 68, 74,__}
a) Quel résultat devra-t-elle obtenir à la 5e étape pour conserver une
moyenne supérieur ou égale à 70% ?
b) Quel résultat devra-t-elle obtenir à la 5e étape pour conserver une
moyenne de 75% ?
4- Remplace la variable de chaque série par un nombre naturel de façon à obtenir
un 5 comme médiane.
a) {6, 6, 1, 4, x, 6}
b) {3, 8, 2, 2, 8, x}
SECTION 4 : LES QUARTILES ET LES MESURES DE DISPERSION
Une mesure de dispersion est une mesure qui sert à décrire l’étalement des données
d’une distribution de données. Les mesures de tendance centrale et de dispersion sont
complémentaires. Utilisées ensemble, elles permettent de décrire avec précision une
distribution de données.
A) Les quartiles
Les quartiles (Q1, Q2 et Q3 ) sont des valeurs qui séparent une distribution de
données en quatre parties (quarts) qui contiennent le même nombre de données.
Dans une distribution de données ordonnées :
− le premier quartile (Q1) est la médiane des données qui précèdent Q2 ;
− le deuxième quartile (Q2) est la médiane ;
− le troisième quartile (Q3 ) est la médiane des données qui suivent Q2.
Exemple :
Voici la distribution ordonnée du nombre de petits-enfants des
membres d’un club d’aînés :
Q2 = Médiane de l’ensemble de données = 9
2
3
4
6
6
8
9
Q1 = Médiane des données qui
précèdent Q2
Q1 =
46
2 =5
9
10 10
12
15
22
Q3 = Médiane des données
qui suivent Q2
Q3 =
1012
2 = 11
L’étendue, l’étendue des quarts et l’étendue interquartile sont des mesures de dispersion.
Mesure
Étendue (É) = Valeur maximale – Valeur
minimale
Étendue d’un quart = Différence entre la
limite supérieure et la limite inférieure du
quart
Étendue interquartile (ÉI) = Q3 – Q1
Exemple
É = 22 – 2 = 20
Étendue du premier quart
= Q1 – Valeur minimale
=5–2=3
ÉI = 11 – 5 = 6
B) Le diagramme de quartiles
Le diagramme de quartiles est une représentation graphique de statistiques
relatives à une distribution de données.
Il est construit à partir :
o de la valeur minimale
o de la valeur maximale
o des trois quartiles de la distribution de données(Q1, Q2 et Q3).
Voici les informations représentées par le diagramme de quartiles :
Remarques :
• Chacun des quarts du diagramme contient environ 25 % des données.
• Plus l’étendue d’un quart est grande, plus les données sont dispersées.
Très important
Un quartile est une
valeur alors qu’un
quart est un
intervalle.
C) La construction du diagramme de quartiles
Moustache : segment
horizontal qui relie la
valeur minimale à Q1.
Titre qui décrit la
distribution de données.
Graduation de l’axe horizontal
qui tient compte des valeurs
minimale et maximale des
données.
Boîte : rectangle qui s’étend
de Q1 à Q3 et comprend
environ 50 % des données
Moustache : segment
horizontal qui relie Q3
à la valeur maximale.
Caractère représenté
et, s’il y a lieu, unité
de mesure.
Étapes :
1)
2)
3)
4)
5)
Placer les données en ordre croissant
Graduer l’axe et l’identifier, mettre un titre
Tracer Q1, Q2 et Q3
Tracer la donnée maximale et minimale
Tracer les moustaches et la boîte.
D) Exemples
1-Voici une distribution de données :
0 1 1 1 2 2 4 4 5 5 5 5 6 7 7 8 9 11 11 12 13 15 18 18 19
21 22 22
Construis un diagramme de quartiles
2- Voici deux diagrammes de quartiles.
Pour chacun des diagrammes crée une distribution d’au moins 10
données.
E) La comparaison de distributions de données
Les diagrammes de quartiles servent souvent à comparer deux
distributions de données ou plus. Ils sont particulièrement utiles pour
les comparaisons parce qu’ils permettent de voir à la fois le centre, la
dispersion et la concentration des données d’une distribution de
données.
Téléchargement