T.P. 3 – Partie 1 Étude de la dispersion

publicité
T.P. 3 – Partie 1
Étude de la dispersion
Connaissances préalables :
Buts spécifiques :
Outils nécessaires :
Consignes :
Notions de moyenne, TP2, TP1
Comprendre les méthodes d’évaluation de la dispersion, essentiellement la variance et l’écart
type. Pouvoir utiliser et comprendre la notation statistique, principalement le signe sigma et ses
propriétés.
Papier, crayon, éventuellement une machine à calculer.
Dites-vous que vous adorez les statistiques ? ! Et pour rappel : les exercices supplémentaires
ne sont pas facultatifs.
1. Voici deux séries statistiques rangées par ordre croissant, avec les X i représentant les points
obtenus par des étudiants à un examen noté sur 20.
Série A :
i
1
2
3
4
5
6
Série B :
Xi
0
2
10
14
20
20
i
1
2
3
4
5
6
Xi
10
10
10
10
12
14
a) Calculez la moyenne de chacune de ces séries. Indiquez la formule utilisée.
Réponses :
b) Quelle est la place de l’étudiant qui a 14/20 dans le classement par ordre décroissant ?
Réponses :
Place dans la série A =
Place dans la série B =
c) Que valent les différences entre la note minimale et la note maximale de chacune des séries ?
Cette mesure s’appelle l’étendue . Indiquez la formule utilisée pour les données rangées par
ordre croissant.
Sachez pour ce faire que de manière générale : X 1 = minimum de X et que X N = maximum de X.
Réponses :
Etendue de la série A =
Etendue de la série B =
TP 3 – 2006/2007
1/30
d) Admettons que l’on ait une série de cent sujets dont le moins bon a 1/20 et le meilleur a 19/20
mais que les 98 autres aient des résultats variant entre 8 et 14/20. Pensez-vous que l’étendue
vous donne une bonne idée de la dispersion des résultats ?
Réponse :
Un autre moyen d’envisager la dispersion est de calculer les écarts de chaque note par rapport à la
moyenne de la série et de prendre la moyenne de ces écarts.
e) Calculez les écarts à la moyenne pour chacune des données de la série A et notez- les dans la
colonne appropriée, puis calculez la moyenne de ces écarts et indiquez la formule utilisée.
i
X i (Série A)
1
0
2
2
3
10
4
14
5
20
6
20
Écarts à la moyenne
Xi − X
Moyenne des écarts à la moyenne :
Ce résultat sera toujours le même quelle que soit la série. C’est parce que les différences positives
sont annulées par les différences négatives. Dès lors, on ne peut pas prendre conscience des
différences qui existent réellement par rapport à la moyenne. Un moyen de contourner ce problème
est d’élever toutes les différences au carré. Ainsi, tous les termes deviendront positifs. Nous
prendrons ensuite la moyenne du carré des écarts à la moyenne que nous appellerons variance ( S X2 ).
TP 3 – 2006/2007
2/30
f) Calculez donc le carré des écarts à la X pour les deux série s, puis la X de ces écarts au carré.
i
X i (Série A)
1
0
2
2
3
10
4
14
5
20
6
20
i
X i (Série B)
1
10
2
10
3
10
4
10
5
12
6
14
Carrés des écarts à la
moyenne
( X i − X ) 2 (Série A)
Moyenne des carrés des écarts à la
moyenne pour la série A
(Variance de la série A) :
Carrés des écarts à la
moyenne
( X i − X ) 2 (Série B)
Moyenne des carrés des écarts à la
moyenne pour la série B
(Variance de la série B) :
g) Dans quelle série cette valeur est-elle la plus basse ? Cela est- il en accord avec la dispersion que
vous constatez en comparant les séries ?
Réponse :
Les unités de la variance sont élevées au carré. Si on avait une moyenne en centimètres, on aurait
des cm au carré, si on avait des kg, on aurait des kg au carré, si on avait des degrés, on aurait des
degrés au carré…
TP 3 – 2006/2007
3/30
Donc, pour revenir à des valeurs du même ordre d’unité que la moyenne de départ, on peut prendre
la racine carrée de la moyenne des écarts à la moyenne, c’est-à-dire la racine carré de la variance, et
on obtient ainsi ce que l’on appelle l’écart type (S X ) .
h) Calculez l’écart type pour les deux séries. Notez-en la formule.
Réponse :
Conclusion : La dispersion d’une série statistique se calcule en prenant la moyenne des carrés des
écarts par rapport à la moyenne. Plutôt que de donner ce terme à rallonge, on l’appellera la
VARIANCE (calculée au point f), elle est notée « S2 ». Pour retourner dans des unités semblables à
celles des données de base on prend la racine carrée de cette variance, c’est ce que, plutôt que
l’appeler « racine carrée des carrés des écarts par rapport à la moyenne », on dénommera l’ÉCART
TYPE (calculé au point h), il est noté « S ». Ces deux valeurs sont les indices de dispersion les plus
utilisés en statistique.
Vous avez probablement pu réaliser les différents calculs sans trop de problème. Cependant il n’y
avait que 6 sujets. Certaines études statistiques en comptent plusieurs centaines voire plusieurs
milliers. Les calculs sont exactement identiques à ceux que vous avez réalisés tant pour la moyenne
que pour les indices de dispersion. Cependant, il existe une notation simple qui permet d’écrire en
quelques signes un calcul portant sur des milliers de sujets. Vous devez IMPERATIVEMENT être
parfaitement familiarisés avec cette notation et en connaître les propriétés.
Voici les trois formules (dont, pour rappel, la formule de la moyenne) pour une série statistique :
Moyenne :
1 N
X = ∑ Xi
N i=1
Variance :
1 N
2
2
SX = ∑(X i − X )
N i=1
Écart type :
1
N
SX =
N
∑(X
i =1
i
− X )2 =
S X2
Pour une distribution statistique non groupée des fréquences absolues, vous devrez appliquer
les formules suivantes :
Moyenne :
1 J
X = ∑nj X j
N j =1
Variance :
1 J
S 2X = ∑ n j ( X j − X ) 2
N j =1
Écart type :
SX =
1
N
J
∑n
j =1
j
( X j − X ) 2 = S 2X
Vous appliquerez ces formules en résolvant les exercices supplémentaires correspondants.
TP 3 – 2006/2007
4/30
T.P. 3 – Partie 2
Moyenne, variance et écart-type : exercice récapitulatif
Pour que la variance S x2 d'une série statistique simple
condition suivante soit remplie.
{X 1 , X 2 ,... X N }soit nulle, il
Condition
1
X=0
2
Toutes les valeurs de la série sont égales entre elles
3
La série statistique est symétrique par rapport à la moyenne
4
L'écart type est nul
TP 3 – 2006/2007
5/30
Vrai
suffit que la
Faux
T.P. 3
Quantiles : rappels théoriques
Rappels théoriques
Quantiles (ou fractiles) : Déterminer des quantiles signifie diviser la distribution en un certain
nombre de portions qui contiennent les mêmes proportions (les mêmes pourcentages) des
observations. Pour déterminer un quantile, quel qu’il soit, il faut toujours d’abord ranger les
données par ordre croissant des valeurs de la variable.
Médiane : la médiane est un quantile qui est la valeur de la variable qui partage la distribution des
données en deux parties contenant chacune le même nombre d’observations. On détermine la
position médiane ou rang médian soit en regardant les fréquences relatives cumulées, soit en
utilisant la formule (N+1)/2. La médiane sera la valeur de la variable correspondant à ce rang.
Quartiles : Les quartiles partagent la distribution des données en quatre parties égales qui
contiennent chacune environ 25% des observations. On les note Q1 , Q2 ( avec Q2 = médiane) et Q3
qu’on appelle respectivement premier, deuxième et troisième quartile.
On peut aussi déterminer d’autres quantiles comme les percentiles (ou centiles), les déciles, les
tiertiles,...
Rang : le rang est la place qu’occupe une valeur (le numéro d’ordre) dans une série statistique une
fois que les données ont été triées par ordre croissant. Dans une série statistique, le rang correspond
aux valeurs de l’indice « i » que nous utilisons comme indice de sommation.
Écart interquartile : c’est la différence entre le troisième quartile et le premier : Q3 − Q1 .
TP 3 – 2006/2007
6/30
T.P. 3 – partie 3
Calcul des quantile
Connaissances préalables :
Buts spécifiques :
Outils nécessaires :
Consignes :
Notion de moyenne, utilisation du signe Σ.
Acquérir la notion de quantiles. Introduction à la notion de symétrie-asymétrie (lien entre
médiane et moyenne).
Papier, crayon. Les TP précédents.
Les exercices sont extrêmement simples et ont pour but de vous faire comprendre une logique
qui se complexifiera dans les TP suivants. Arrondissez à deux décimales.
Voici les données d’un test de QI de trois enfants de 8 ans : 105, 115, 95.
1. Représentez- les graphiquement.
Graphe :
2. Ordonnez ces données par ordre croissant et déterminez la médiane intuitivement, puis utilisez
la formule pour la trouver.
Réponse :
3. Calculez la moyenne de cette série statistique. Notez la formule utilisée et sa décomposition.
Comparez la moyenne et la médiane.
Réponse :
TP 3 – 2006/2007
7/30
4. Transformez cette série de manière à ce que la médiane ne change pas, mais soit plus petite que
la moyenne, sans ajouter de données. Vérifiez votre réponse en calculant la moyenne.
Exemple de réponse :
5. Représentez cette série graphiquement.
Graphe :
6. Ajoutons à la série de base, 4 données à nouveau mais uniquement d’un seul côté (à droite ou à
gauche). Déterminez la médiane et commentez le résultat en la comparant avec la médiane de la
série de base.
Exemple de réponse :
TP 3 – 2006/2007
8/30
Dans tous les exemples précédents, le nombre de valeurs de la série était impair.
7. Calculez le rang médian puis la médiane pour la série suivante dont le nombre de valeurs est
pair. Que pouvez-vous dire de la symétrie de cette série ?
99 100 113 114
Réponse :
8. Représentez ces données graphiquement.
Graphe :
9. Soit la série suivante :
99 100 113 145
Calculez la moyenne et la médiane.
Réponse :
TP 3 – 2006/2007
9/30
10. Commentez les valeurs de la moyenne et de la médiane.
Réponse :
La valeur de la médiane est assez facile à déterminer sur la seule base des rangs, mais pour les
autres quantiles et pour des séries ou des distributions plus grandes, il est beaucoup plus simple de
se baser sur les distributions de fréquences relatives.
Ci-dessous les données relatives à la pratique du sport pour 181 étudiants en psycho Les données
sont présentées sous la forme d’une auto-évaluation à quatre niveaux sur la question «Êtes- vous
sportif ? ». Les réponses ont été recodées de la manière suivante :
1 = pas du tout
2 = un peu
Catégorie de la
variable sport
1
Fréquences
absolues
30
2
99
3
44
4
8
3 = beaucoup
Fréquences
absolues cumulées
Fréquences
relatives
4 = intensif
Fréquences
relatives cumulées
N.B. : La somme des fréquences relatives devrait être de 1. Elle est ici de 0,99 ; ceci est dû aux
erreurs d’arrondis.
12. Sur quelle type d’échelle de mesure nous situons-nous ?
Réponse :
13. Complétez les cellules vides du tableau ci-dessus.
TP 3 – 2006/2007
10/ 30
14. Pour quelle valeur de la variable sport, ordonnée de manière croissante, les effectifs cumulés
dépassent- ils la moitié de l’effectif total ? Justifiez de deux manières votre réponse.
Réponse :
15. Déterminez les quantiles 1/4 (premier quartile), 1/2 (deuxième quartile ou médiane) et 3/4
(troisième quartile).
Premier quartile :
Deuxième quartile :
Troisième quartile :
16. La deuxième valeur de la variable sport déterminée au point précédent est le quantile ½, appelé
aussi Q2 ou médiane. Que signifie ce paramètre ?
Réponse :
TP 3 – 2006/2007
11/ 30
17. Tracez un diagramme en barres des fréquences absolues cumulées et indiquez graphiquement où
se situe la médiane.
Graphique :
Dans le cas particulier où la proportion correspondant au quantile est exactement atteinte
pour une valeur de la variable, le quantile est défini par convention comme la moyenne entre
cette valeur et la valeur suivante.
Déterminons par exemple le seizième percentile. La fréquence relative cumulée 0.16 est tout juste
atteinte pour la catégorie 1. On fait donc la moyenne entre cette valeur et la suivante pour trouver le
seizième percentile. On a donc comme seizième percentile
1+ 2
= 1,5
2
et notre seizième percentile correspondra donc à la valeur de la variable 1,5 (même si celle-ci
n’existe pas dans nos données).
N.B. : Dans cet exemple, le rang est confondu avec les valeurs de la variable, mais c’est bien la
valeur de la variable qui donne le quantile et non son rang.
18. Sur base de cette règle, déterminez les seizième, septante et unième, et nonante-cinquième
percentiles.
Seizième percentile
Septante et unième percentile
Nonante-cinquième percentile
TP 3 – 2006/2007
12/ 30
T.P. 3 – partie 4
Quantiles et boîte à moustaches modifiée et non modifiée
Ci-dessous les données relatives au poids de 181 étudiants de psycho de l’ULB.
Poids Fr. abs.
40
41
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
1
1
4
3
1
3
1
4
4
13
9
6
11
4
7
15
3
16
4
7
6
6
Fr. abs.
Cum.
1
2
6
9
10
13
14
18
22
35
44
50
61
65
72
87
90
106
110
117
123
129
Fr. rel.
0,006
0,006
0,022
0,017
0,006
0,017
0,006
0,022
0,022
0,072
0,050
0,033
0,061
0,022
0,039
0,083
0,017
0,088
0,022
0,039
0,033
0,033
Fr. rel.
Cum.
0,006
0,011
0,033
0,050
0,055
0,072
0,077
0,099
0,122
0,193
0,243
0,276
0,337
0,359
0,398
0,481
0,497
0,586
0,608
0,646
0,680
0,713
65
66
67
68
69
70
71
72
73
74
75
77
78
4
1
4
5
5
2
1
3
2
2
7
1
4
Fr. abs.
Cum.
133
134
138
143
148
150
151
154
156
158
165
166
170
83
84
85
86
88
91
1
1
1
1
1
1
176
177
178
179
180
181
Poids Fr. abs.
0,022
0,006
0,022
0,028
0,028
0,011
0,006
0,017
0,011
0,011
0,039
0,006
0,022
Fr. rel.
Cum.
0,735
0,740
0,762
0,790
0,818
0,829
0,834
0,851
0,862
0,873
0,912
0,917
0,939
0,006
0,006
0,006
0,006
0,006
0,006
0,972
0,978
0,983
0,989
0,994
1,000
Fr. rel.
1. Déterminez à partir du tableau ci-dessus les quantiles suivants, ainsi que l’écart interquartile :
Premier quartile
Médiane
Troisième quartile
Écart interquartile
Pour représenter graphiquement les principaux quantiles, on utilise ce qu’on appelle une boîte à
moustache. La version non modifiée se présente sous la forme générale suivante :
min X
TP 3 – 2006/2007
Q1
Méd.
13/ 30
Q3
MaxX
2. Tracez la boîte à moustaches non modifiée à partir du tableau ci-dessus.
Boîte à moustaches non modifiée :
Quand les moustaches sont trop longues, cela peut refléter l’existence de valeurs extrêmes. Pour les
mettre en évidence, on va choisir une limite à partir de laquelle on considèrera qu’un valeur est
extrême. Ces valeurs sont appelées pivot droit et pivot gauche et indiquent le point à partir duquel
on s’éloigne respectivement de Q1 vers la gauche et de Q3 vers la droite, de plus d’une fois et demi
la largeur de la boîte.
Pour les calculer, on utilise la formule suivante :
p d = Q3 + 1,5(Q3 − Q1 )
p g = Q1 − 1,5(Q3 − Q1 )
3. Calculez les vale urs pivots correspondant à nos données :
Réponses :
Une fois qu’on a les valeurs pivots, on cherche les valeurs adjacentes qui seront les limites
extérieures de nos moustaches. On les trouve en regardant le tableau de données de la manière
suivante :
a g = la première valeur rencontrée telle que a g ≥ p g .
a d = la première valeur rencontrée telle que a d ≤ p d .
4. Déterminez les valeurs adjacentes pour nos données :
Réponses :
TP 3 – 2006/2007
14/ 30
5. Tracez la boîte à moustaches modifiée après avoir déterminé les valeurs adjacentes.
Boîte à moustaches modifiée :
6. Commentez ces graphiques.
Commentaires :
TP 3 – 2006/2007
15/ 30
T.P. 3 – Exercice supplémentaire 1
Sommes simples
Introduction au calcul de la variance
Connaissances préalables :
Buts spécifiques :
Outils nécessaires :
Consigne :
Règles fondamentales d’utilisation du signe SOMME ;
Préparation au calcul de la variance.
Papier/Crayon.
Utilisez la forme développée et calculer ensuite pour les valeurs données.
Considérons les couples de valeurs ci-après :
X1
=
X2
= 8, Y 2
= 3
X3
=
4, Y 3
=
5
X4
=
5, Y 4
=
2
X5
=
5, Y 5
= 1
3, Y1
=
9
Evaluez les sommes suivantes :
FORME
SIGMA
1
2
FORME DEVELOPPEE
1 5
2
( X i − 5) =
∑
5 i −1
1 5
2
(Yi − 4) =
∑
5 i −1
TP 3 – 2006/2007
16/ 30
RES.
Que vient -on
de calculer ?
T.P. 3 – Exercice supplémentaire 2
Calcul de la moyenne, de la variance et de l’écart type
d’une série statistique
Revoici les formules de calcul de la moyenne, de la variance et de l’écart type d’une série
statistique .
Formule de la moyenne : X =
1
N
N
∑Xi
Formule de la variance : S 2X =
i= 1
1
N
∑ (X
N
i
−X
i= 1
)
2
Formule de l’écart type : S X = S 2X
Voici le QI de dix enfants : 105, 100, 99, 138, 89, 104, 103, 98,110, 101.
1. Calculez le QI moyen de ces enfants. Indiquez la formule utilisée et le détail de votre calcul.
Réponse :
2. Calculez la variance du QI de ces enfants. Indiquez la formule utilisée et le détail de votre
calcul.
Réponse :
3. Calculez l’écart type du QI de ces enfants. Indiquez la formule utilisée.
Réponse :
TP 3 – 2006/2007
17/ 30
T.P. 3 – Exercice supplémentaire 3
Calcul de la moyenne, de la variance et de l’écart type
d’une distribution statistique
Revoici les formules de calcul de la moyenne, de la variance et de l’écart type d’une distribution
statistique non groupée des fréquences absolues :
Formule de la moyenne : X =
1
N
J
∑n
j =1
j
Xj
Formule de la variance : S 2X =
1
N
∑ n (X
J
j =1
j
j
−X
)
2
Formule de l’écart type : S X = S X2
Voici la distribution statistique correspondant à l’âge d’étudiants en BA2 de psycho.
j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Valeurs de la variable
Xj
18
19
20
21
22
23
24
25
26
27
29
32
33
40
42
Fréquences absolues
nj
1
49
46
31
25
11
4
2
2
2
2
2
2
1
1
N=181
1. Calculez l’âge moyen des étudiants de notre échantillon. Indiquez la formule utilisée et le détail
de votre calcul.
Réponse :
TP 3 – 2006/2007
18/ 30
2. Calculez manuellement la variance des âges de nos étudiants. Indiquez la formule utilisée et le
détail de votre calcul. Arrondissez à deux décimales.
Réponse :
3. Calculez l’écart type de la taille des étudiants du premier groupe. Indiquez la formule utilisée.
Réponse :
TP 3 – 2006/2007
19/ 30
T.P. 3 – Exercice supplémentaire 4
Moyenne et variance :
Effet de l’ajout et de la suppression de données
Attention :
Répondez aux différentes questions posées sans utiliser votre calculatrice. Faites
plutôt appel à votre bon sens.
Les auteurs d'un manuel de statistique ont représenté les situations suivantes, comme si elles étaient
placées sur une balance. La moyenne se trouve au point d’équilibre de la balance et en constitue
donc le centre de gravité. C’est d’ailleurs pour cela que la somme des écarts par rapport à la
moyenne est toujours nulle.
SITUATION INITIALE
Scores : 2; 3; 3; 3; 5; 5; 5; 5; 5; 5; 7; 7; 10
Moyenne des scores : 5
SITUATION # 1
On considère la situation nouvelle #1 obtenue en supprimant le score 10.
1. Représentez la balance et son inclinaison après cette modification.
Dessin :
TP 3 – 2006/2007
20/ 30
2. Indiquez par une croix l'effet de cette modification sur la moyenne.
La moyenne se déplace vers la gauche (elle diminue)
La moyenne reste inchangée
La moyenne se déplace vers la droite (elle augmente)
3. Indiquez par une croix l'effet de cette modification sur la variance.
La variance des scores augmente
La variance des scores ne change pas
La variance des scores diminue
4. Où faudrait- il mettre la base de la balance pour rétablir son équilibre ? Faites les calculs
nécessaires pour la rééquilibrer.
Dessin :
SITUATION # 2
Partant de la situation initiale, on considère maintenant une situation nouvelle #2 obtenue en
supprimant le score 2.
5. Représentez la balance et son inclinaison après cette modification.
Dessin :
TP 3 – 2006/2007
21/ 30
6. Indiquez par une croix l'effet de cette modification sur la moyenne.
La moyenne se déplace vers la gauche (elle diminue)
La moyenne reste inchangée
La moyenne se déplace vers la droite (elle augmente)
7. Indiquez par une croix l'effet de cette modification sur la variance.
La variance des scores augmente
La variance des scores ne change pas
La variance des scores diminue
8. Où faudrait- il mettre la base de la balance pour rétablir son équilibre ? Faites les calculs
nécessaires pour la rééquilibrer.
Dessin :
SITUATION # 3
On considère enfin une troisième modification de la situation initiale obtenue en supprimant cinq
des six scores 5. On a donc les figures suivantes.
Scores : 2; 3; 3; 3; 5; 7; 7; 10
9. Représentez la balance et son inclinaison après cette modification.
Dessin :
TP 3 – 2006/2007
22/ 30
10. Indiquez par une croix l'effet de cette modification sur la moyenne.
La moyenne se déplace vers la gauche (elle diminue)
La moyenne reste inchangée
La moyenne se déplace vers la droite (elle augmente)
11. Indiquez par une croix l'effet de cette modification sur la variance.
La variance des scores augmente
La variance des scores ne change pas
La variance des scores diminue
12. Le cas échéant, où faudrait-il mettre la base de la balance pour rétablir son équilibre ? Faites les
calculs nécessaires pour la rééquilibrer.
Dessin :
TP 3 – 2006/2007
23/ 30
T.P. 3 – Exercice supplémentaire 5
Moyenne, variance et écart type
Pour chacune des propositions suivantes, mettez une croix dans la case correspondant à la bonne
réponse.
Proposition
1
La moyenne et l'écart type sont mesurés dans les mêmes
unités.
2
La moyenne d'une distribution est égale à une valeur
observée de cette distribution.
3
La moyenne d'une distribution est comprise entre la plus
grande et la plus petite valeur observée.
TP 3 – 2006/2007
24/ 30
Toujours Parfois Jamais
vraie
vraie
vraie
T.P. 3 - Exercice supplémentaire 6
Effet d’une transformation linéaire sur la moyenne,
sur l’écart type et sur la variance
Chaque année, le rapport de la Banque Nationale de Belgique publie un certain nombre de
statistiques. Parmi celles-ci, vous vous intéressez, au niveau de l’épargne des ménages (variable Y)
par rapport aux revenus de ceux-ci (variable X). Les données se rapportent à une année antérieure à
2002.
Afin de pourvoir comparer ces résultats avec ceux de chercheurs étrangers, vous décidez de
transformer toutes les valeurs dans une monnaie commune (1 euro = 40 francs belges).
Vous allez donc opérer les changements de variable :
X' =
X
Y
et Y' =
40
40
On demande de calculer les nouvelles valeurs des statistiques après ce changement d’unités de
compte (la première ligne du tableau est un exemple de réponse correcte).
Nous avons déterminé que :
c=
1
pour la variable X
40
0
1
Valeurs pour analyse en
milliers de FB
X = 94
Y = 19,50
2
S 2X = 1804
3
S 2Y = 129.25
TP 3 – 2006/2007
et
d=
Valeurs pour analyse en
milliers d’euros
25/ 30
1
pour la variable Y.
40
Justification (formule
théorique utilisée)
T.P. 3 – Exercice supplémentaire 7
Formules de la moyenne et de la variance d’une distribution
basées sur les fréquences relatives
La moyenne, la variance et l’écart type d’une distribution statistique peuvent aussi être calculées sur
base des fréquences relatives f j :
Formule de la moyenne :
X=
1
N
Formule de la variance :
1 J
S 2X = ∑ n j X j − X
N j =1
(
J n
J
1
j
nj X j = ∑ X j = ∑ f j X j
j =1 N
j =1 N
j =1
J
J
∑nj X j = ∑
j =1
) = ∑ N1 n (X
2
J
j =1
j
j
−X
) = ∑ nN (X
2
J
j
j =1
j
−X
) = ∑ f (X
2
J
j =1
j
j
−X
)
2
Formule de l’écart type :
S X = S 2X
Voici une distribution statistique correspondant à l’âge d’étudiants de 2ème BA psycho.
j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Valeurs de la variable : X j
18
19
20
21
22
23
24
25
26
27
29
32
33
40
42
TP 3 – 2006/2007
Fréquences absolues : n j
1
49
46
31
25
11
4
2
2
2
2
2
2
1
1
N = 181
26/ 30
Fréquences relatives : f j
0,006
0,271
0,254
0,171
0,138
0,061
0,022
0,011
0,011
0,011
0,011
0,011
0,011
0,006
0,006
Total = 1
1. Calculez manuellement l’âge moyen des étudiants de notre échantillon sur base des formules
utilisant les fréquences relatives. Indiquez la formule utilisée et le détail de votre calcul.
Arrondissez à trois décimales.
Réponse :
2. Calculez manuellement la variance des âges de nos étudiants. Indiquez la formule utilisée et le
détail de votre calcul. Arrondissez à deux décimales.
Réponse :
3. Calculez l’écart type de l’âge de nos étudiants. Indiquez la formule utilisée.
Réponse :
TP 3 – 2006/2007
27/ 30
T.P. 3 – Exercice supplémentaire 8
Quantiles et boîte à moustaches non modifiée
Connaissances préalables :
Buts spécifiques :
Outils nécessaires :
Consignes :
Fréquences absolues, relatives, cumulées.
Pouvoir identifier un quantile au moyen d’un tableau statistique.
Machine à calculer (éventuellement), papier, crayon.
Résolvez cet exercice en le replaçant dans le contexte de la partie 3 du TP 3.
Reprenons la série de scores de QI suivante, à partir de laquelle nous avons travaillé au TP :
105, 115, 95
1. Transformez cette série de manière à ce que la médiane ne change pas, mais soit plus grande
que la moyenne, sans ajouter de données. Vérifiez votre réponse en calculant la moyenne.
Exemple de réponse :
2. Ajoutez 6 données à la série de base de telle sorte que 105 en reste la médiane. Utilisez des
données proches de celles déjà existantes. Calculez la moyenne de votre nouvelle série.
Exemple de réponse :
TP 3 – 2006/2007
28/ 30
3. Ajoutez 6 données à la série de base de telle sorte que 105 en reste la médiane. Utilisez des
données éloignées de celles déjà existantes à droite et proches à gauche. Comparez la médiane
et la moyenne. Cette série est-elle symétrique ou asymétrique ?
Exemple de réponse :
4. Commentez la valeur du septante et unième percentile que vous avez calculé au point 13 de la
partie 3 du TP 3.
Commentaire :
5. Dessinez la boîte à moustaches non modifiée pour la variable sport de la partie 3 du TP 3.
Commentez- la.
Boîte à moustaches non modifiée :
TP 3 – 2006/2007
29/ 30
T.P. 3 – Exercice supplémentaire 9
Synthèse
1. Indiquez par OUI ou NON si les statistiques suivantes ont un sens en fonction du type de variable
Statistique
Variable nominale Variable ordinale
Variable de
rapports
Médiane
Ecart interquartile
Ecart type
Mode
Moyenne
2. Indiquez par OUI ou NON si les statistiques suivantes sont de tendance centrale ou de dispersion
Statistique
Tendance centrale
Médiane
Ecart interquartile
Ecart type
Moyenne
TP 3 – 2006/2007
30/ 30
Dispersion
Téléchargement