Ecart-type

publicité
STATISTIQUES
INTRODUCTION
I Statistique descriptive à une dimension
- fréquence d'une distribution.
- représentation graphique.
- Les paramètres de position.
- Les paramètres de dispersion : la variance et l'écart-type.
II Probabilités et distributions théoriques
- binomiale
- normale
III Statistique descriptive à deux dimensions
- corrélation
- régression
IV Tests d'hypothèse
- test de Student
- test de ² (chi 2)
- Analyse de variance (ANOVA).
DEFINITIONS :
- Statistiques : ensemble des méthodes scientifiques, à partir desquelles on recueille,
organise, résume, présente, et analyse les données qui permettent d'en tirer des conclusions et
de prendre des décisions judicieuses.
- Population et échantillon : Quand on rassemble des données caractéristiques d'un ensemble
d'individus ou d'objets, il est difficile d'observer toutes les données. On en examine une partie,
c'est ce qu'on appelle l'échantillon.
Une population peut-être finie : échantillon.
Une population peut-être infinie : nombre de lancers : n, n+1, n+2, ...
- Statistique descriptive et inductive : -Lorsqu'un échantillon est représentatif de la
population, on peut tirer des conclusions sur la population entière : c'est la statistique
inductive. Lorsqu'on a un échantillon et qu'on se borne à le décrire, c'est de la statistique
descriptive ou déductive.
- Variables discrètes et variables continues :
Variable : symbole qui peut prendre toutes les valeurs d'un ensemble donné, le domaine de la
variable.
Lorsqu'une variable ne peut prendre qu'une seule valeur, on dit que c'est une variable
constante. Une variable peut théoriquement prendre toutes les valeurs situées entre deux
valeurs données : c'est une variable continue (Ex : la taille des gens)
Dans le cas contraire, on dit que c'est une variable discrète (Ex : nombre d'enfants).
LA STATISTIQUE DESCRIPTIVE A UNE DIMENSION
I Les distributions de fréquences
Enumération de données observées : série statistique.
On peut regrouper ces données dans la fréquence.
A) La fréquence absolue (FA)
C'est le nombre d'occurrences d'une même valeur donnée.
Exemple :
la taille : 1.76 m - 1.76 m - 1.68 m - 1.68 m - 1.80 m - 1.72 m - 1.64 m
FA:
2
2
2
2
1
1
1
B) La distribution de fréquence
C'est l'ensemble des valeurs xi , rangés par ordre croissant, avec en face les fréquences
correspondantes ni .
i p
N : nombre d'observations total
Exercice :
Tailles
162
164
169
170
171
180
181
FA
1
1
5
6
4
2
1
 ni = N = effectif total
i 1
FAC (Cumulés)
1
2
7
13
17
19
20=N
FR
1/20
1/20
5/20
6/20
4/20
2/20
1/20
FRCumulés
1/20
2/20
7/20
13/20
17/20
19/20
20/20=1
n'i =ni / N  Fréquence relative (FR).
FRC xn =1
II Représentation graphique
Polygones de fréquence (= histogramme) :
diagramme en ligne :
représentation en bâton :
III Les paramètres de position
A) La moyenne arithmétique
Elle est notée .
n
x
x1  x 2... xn
1
= i 1 =
N
N
N
i
N termes : x1, x2, ..., xn.
n
x
i
i 1
.
p
n1x1  n2 x 2 ... npxp
Si x1...xp avec des fréquences n1...np :
=
n1  n2 ... np
n x
i i
i 1
p
n
i
i 1
p
Or,
 ni = N
i 1
Moyenne arithmétique de l'ensemble des tailles :
=
1
N
p
n x
i i
i 1
=
162x1  164x1  169x5  170x 6  171x 4  180x 2  182x1
20
=
162  164  845  1020  684  360  182
20
=
3417
= 170,85 m.
20
La moyenne d'une distribution de fréquence, c'est la moyenne des xi, pondérée par ni.
Quelques propriétés de la moyenne :
n
* x' =
 (xi  x ) = 0.
i 1
* a et b constantes :
x'i = a+bxi
' = a+b
On montre que la moyenne de plusieurs séries statistiques est égale à la moyenne des
moyennes pondérés par les effectifs des différentes séries.
B) La médiane
x~ : paramètre tel que la moitié des observations lui soit inférieure ou égale, et la moitié des
observations lui soit supérieure ou égale.
n 1 ~
- n impair : la médiane est l'observation de rang
=x
2
Exemple : 3,4,4,5,6,8,8,8,10
n=9
n

1
9

1

 5  x5  6
x~ =
2
2
 n  n 
    1
2
2

- n pair : la médiane est l'observation de rang
2
Exemple : 3,4,4,5,6,8,8,8,10,11
n=10
 x 5  6 6  8
5 6


7
x~ =
2
x 6  8 2

Lorsque n est impair, la médiane appartient toujours à la série.
Lorsque n est pair, la médiane peut ne pas appartenir à la série.
C) Le mode (M)
Ce mode correspond à la valeur xi, qui a la plus grande fréquence ni. Une même série
statistique peut avoir un seul mode (série unimodale), ou plusieurs (série plurimodale).
RELATION ENTRE LES PARAMETRES :
* Pour une série unimodale et symétrique : M= x~ =.
normale).
(Loi de Gauss, ou distribution
M= x~ = 
* Pour une série unimodale et dissymétrique à gauche (a une skewness négative) : M < x~ < 
< x~ < 
Mode
* Pour une série unimodale et dissymétrique à droite : M > x~ > 
Le mode et la médiane ne sont pas influencés par des valeurs extrêmes, au contraire de la
moyenne.
IV Les paramètres de dispersion
A) L'étendue (e)
Soit une série statistique : x1, ..., xn.
On définie l'étendue e, telle que e = xn - x1 , si les x sont rangés par ordre croissant.
B) La variance
La variance d'une série statistique ou d'une distribution de fréquence correspond à la moyenne
des carrés des écarts par rapport à la moyenne.
V=
1
N
V=
1
N
n
 (x  x )²
i
i 1
p
 n ( x  x )²
i
i
i 1
Exemple :
0
1
2
3
4
pour une distribution de fréquence.
(xi- x )²
(0-5)²




25
16
9
4
1






5
6
7
8
9
10
0
1
4
9
16
25
 (x  x )²  110
i
110
 10  V  10
11
C) Ecart-type
En prenant l'écart-type, on a une valeur de dispersion, standardisée par rapport à la moyenne.
En moyenne, les valeurs de la série xi s'étalent de la valeur  autour de la moyenne.
Ecart-type = Variance
1 n
=
 ( xi  x )²
N i 1
Ecart-type = E.T.= 
Exemples : variance et écart-type de la série statistique :
1
2
3
4
5
(xi- x )²
4
1
0
1
4
10
5
10
15
20
25
(xi- x )²
100
25
0
25
100
250
*
*
x =3
10/5=2  V=2   =
2
x =3
250/5=50  V=50   = 50
On utilise les symboles suivants :
Variance = ² ,pour une population, et Variance= S², pour un échantillon ou une estimation
Ecart-type = 
x
x'i =
xi  x

x i  0
xi  1
x'i est une série statistique centrée ( x =0) et réduite ( = 1).
x'i permet de placer deux séries statistiques sur le même graphique.
Seulement 68.27 % de la population appartient à l'intervalle  x   ; x    ,
mais 95.45% de la population appartient à l'intervalle  x  2 ; x  2  ,
et 99.73% de la population appartient à l'intervalle  x  3 ; x  3  .
PROBABILITE ET DISTRIBUTION THEORIQUE DES PROBABILITES
I) PROBABILITE
Soit E consiste en n expériences également probables. Parmi les n cas, où il y ait H cas
favorables à E, on définit la probabilité de e comme étant :
H
P(E) =
n
nH
Probabilité de la non-réalisation de E : P( E )=Q=
 1  P( E ) .
n
P+Q= 1
Un dé : 1,2,3,4,5,6.
 P(5) = 1/6
P(3 ou 4) = 1/3
P( 3ou4) = 2/3
Probabilité de tirer une dame ou un coeur dans un jeu de 52 cartes :
P(dame) = 4 / 52 
4 13 1 16 4
 P( DouC ) 




P(coeur) = 13 / 52
52 52 52 52 13
Si A et B sont deux éléments distincts, on désigne par P(B / A), c'est à dire la probabilité
conditionnelle de B sachant que A s'est produit : P(B / A) = P(B) si A n'influence pas B
P(A et B) = P(A)  P(B / A).
Une boîte renferme 3 boules blanches et 2 boules noires.
Soit A : la première est noire.
Soit B : la deuxième est noire.
Si les événements sont exhaustifs, quelle est la probabilité de (A et B) ?
P(A et B)
= P(A)  P(B / A)
= 2/5  1/4 = 2/20 = 1/10
II) DISTRIBUTION THEORIQUE DE PROBABILITES DISCRETES
Soit X (variable aléatoire) une variable prenant les valeurs x1 à xn.
P(x1) = P(X=x1)
P(x) est la distribution de probabilité de la variable aléatoire.
Fonction de distribution :
F(x)= P(X  x)
ou = P(X  x)
Exemples :
X
1
P(X) 1/6
* Dé à 6 faces. Calculer la distribution de probabilité.
2
3
4
5
6
1/6 1/6 1/6 1/6 1/6
* Calculer la distribution de probabilité d'une variable aléatoire définie par la
différence entre le lancer du dé numéro 1 et du dé numéro 2.
X
P(X)
-5
1/36
-4
2/36
-3
3/36
-2
4/36
-1
5/36
0
6/36
1
5/36
2
4/36
3
3/36
4
2/36
5
1/36
En s'aidant du tableau suivant :
1
2
3
4
5
6
1
0
-1
-2
-3
-4
-5
2
1
0
-1
-2
-3
-4
3
2
1
0
-1
-2
-3
4
3
2
1
0
-1
-2
5
4
3
2
1
0
-1
6
5
4
3
2
1
0
* Dans une famille de trois enfants, calculer la distribution de probabilité des
garçons et des filles, sachant qu'il y a équiprobabilité des naissances.
FFF
FFG
FGF
GFF
GGF
GFG
FGG
GGG
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
Que des garçons :
Que des filles :
Deux garçons, une fille :
Deux filles, un garçon :
1/8
1/8
3/8
3/8
III) LA LOI BINOMIALE
n expériences identiques et indépendantes. A chacune sont associés deux événements
exclusifs A et B.
Identiques : P(A) et P(B) ne varient pas d'une expérience à une autre.
Soit P(A) = p
P(B) = q = 1-p
 Schéma de Bernouilli
(Exemple : pièce de monnaie)
Nombre de réalisation X de l'événement A au cours des n expériences est une variable
aléatoire discontinue, dont la loi de probabilité est :
x
C n px q n  x = p(X=x).
n!
x
Par convention : 0! = 1
C n = x !( n  x )!
Soit X la variable aléatoire représentée par le résultat du lancer d'une pièce de monnaie. Si on
effectue dix lancers, quelle est la loi de probabilité de cette variable aléatoire ?
x
10  x
10
 1  1
 1
1
x
x
x
x
 C10     C10  10
P(X=x) = C n  px  q n  x  C10      
 2  2
 2
2
1
10!
1
5040
1
210 105
 10 



10 
2
4! 6! 2
24 1024 1024 512
P(au moins 8 faces identiques) = P(X=8) + P(X=9) + P(X=10)  0,05.
P(4 faces identiques) =

10
C
4
Calculer la distribution de probabilité dans une feuille de trois enfants :
X = nombre de garçon
P(X=0) = 1/8
P(X=1) = 3/8
P(X=2) = 3/8
P(X=3) = 1/8
Exercice : La probabilité pour qu'un étudiant sorte diplômé de l'université est de 0,4, quelle
est la probabilité pour que sur cinq étudiants, aucun, un seul, au moins un, et tous soient
diplômés ?
Quelle est la loi suivie par la variable aléatoire ?
P(aucun) = 0,65 = 0,07776.
1
1
P(un seul) = 0,64 0,4  C 5  0,05184  C 5  0,05184  5  0,2592 .
P(au moins un) = 1 - P(aucun) = 1-0,07776=0,92224.
P(tous) = 0,45 = 0,01024
IV) LA DISTRIBUTION NORMALE
Si l'on considère la distribution binomiale, et que l'on fasse varier n sans faire varier la
probabilité, lorsque n tend vers l'infini, la variable aléatoire tend à être continue.
On obtient une ligne continue, et non constituée seulement de points reliés.
1/ 2 ( X   )²
   np
1
Avec : y 
avec
e ²
 8
  npq

Et : A 
 f ( x ) dx  1
ce qui permet de calculer : P(x0  X).

Distribution cumulée de l'ensemble des probabilités : utilisation de tables.
Exemple : La taille moyenne de 500 élèves d'un lycée est de 1,51m, avec un écart-type de
15cm.
 N(151, 15)
On va utiliser la table N(0, 1). Comment passer de la table N(, ) à la table N(0, 1).
x ' i  0
x0  
 x'i 
Loi normale centrée réduite.
avec

 ( xi )  1
Quelle la probabilité pour qu'un élève ne mesure pas plus de 155cm ?
P(X  155)=
 X  151 155  151
 X  151 4 
 X  151

  P
P

   P
 0,26
 15
 15
 15

15 
15 
On note  (0,26), et on trouve grâce à la table :
0,01 0,02 ...
0,06
0,1
0,2
0,6026
0,3
 (0,26) = 60,26%
P= 60,26%
Quelle est la probabilité pour qu'un élève mesure moins de 140 cm ?
 X  151 140  151
 X  151
 X  151

11
  P
P

    P
 0,73
 15
 15
 15

15 
15 
 ( 0,73)  1   ( 0,73)  1  0,6773  0,3227
Quelle est la probabilité pour qu'un élève mesure entre 140 et 162cm ?
140  151 X  151 162  151

P 140  X  162  P


 15
15
15 


X  151
 P 0,73 
 0,73


15
   0,73    0,73
  ( 0,73)  [1   ( 0,73)]
  ( 0,73)  1   ( 0,73)
 0,7673  0,7673  1  0,5346
Quelles sont les valeurs limites 1 et 2, telles que 95% de la population soit comprises entre
1 et 2 ?
P (1  X  2) = 0,95
 (2) -  (1) = 0,95
1 = -2 ou 2 = -1
 (2) -  (2) = 0,95
 (2) - 1 +  (2) = 0,95
2 (2) = 1,95
  (2) = 0,975
 1 = -1,96 et 2 = 1,96
Ces chiffres, très important en statistiques, servent pour des tests à très grands effectifs.
V) CŒFFICIENT D'ASYMETRIE ET D'APLATISSEMENT
Kurtosis)
Z
Skewness (Cœfficient d'asymétrie) =
3
avec : Z 
N
(=
Skewness
x0  x

Pour faciliter le calcul, on peut le représenter sous forme de tableau (comme pour la variance
et l'écart-type).
Si : -1,96  Skewness  1,96
On dit que la symétrie est normale.
Kurtosis (Cœfficient d'aplatissement) =
Si : -1,96  Kurtosis  1,96
Z
N
4
3
On dit que l'aplatissement est normal.
Si la symétrie et l'aplatissement sont normaux, alors la population est normale.
STATISTIQUE DESCRIPTIVE A DEUX DIMENSIONS
Elle a pour objectif de mettre en évidence les relations ou les différences qui existent entre
deux séries d'observation réalisées en même temps.
 Tests statistiques.
I) Cœfficient de corrélation linéaire
- PEARSON
- SPEARMAN
Cov ( x; y )
r
 ( x ) ( y )
avec Cov ( x; y ) = Covariance
Sachant que Cov ( x; y ) 
1
(xi  x )( yi  y )
N
Pour simplifier les calculs, on peut utiliser un tableau :
x
y
X = xi - x Y = yi - y
XY
1
...
n
 XY  Cov ( x; y )
x y
N
N
N
X²
Y²
 X²
 Y²
N
N
écarts- type
Exercice sur la loi normale : On considère que la taille des individus sur le plan national suit
une loi normale de moyenne 175 cm, et d'écart-type 10 cm.
Calculer la probabilité qu'un individu mesure moins de 180 cm, qu'un individu mesure plus de
160 cm, et qu'un individu mesure entre 160 et 180 cm.
 X  175 180  175 
 X  175

  P
P( X  180)  P

 0,5   ( 0,5)  0,6915  69,15% .
 10
 10

10 
 X  175 160  175 
 X  175
3
  1  P
P( X  160)  1  P( X  160)  1  P

 
 10

 10
10
2
 1   ( 1,5)  1  1   (1,5)  93,32%.
P(160  X  180)  P 1,5  X  0,5   ( 0,5)  1   (1,5)  0,6915  1  0,9332  62,47%.
Exemple d'annales : Le muscle vaste latéral comporte un contingent de fibres de type lent
(type 1) dont la proportion moyenne est susceptible de varier avec l'âge. Chez des individus
d'âges différents, on recueille les pourcentages des fibres de type 1 :
Age
Fibres
17
55%
18
52%
21
53%
22
51%
23
50%
24
49%
25
50%
27
48%
 Déterminer la corrélation qui lie ces deux variables.
 Estimer une valeur ponctuelle de la proportion de fibres lentes chez un individu de 30 ans.
 Déterminer un encadrement pour cette valeur avec un intervalle de confiance de 95%.
 On trouve, en réalisant le tableau, r = -0,91
Le cœfficient de corrélation doit toujours être tel que :
-1  r  1
De plus :
- lorsque r tend vers 1, on dit qu'il y a corrélation, ou co-variation (les deux séries varient dans
le même sens.
- lorsque r tend vers -1, on dit qu'il y a variation inverse (les deux séries varient en sens
inverses : quand l'une augmente, l'autre descend, ou inversement).
- lorsque r tend vers 0, les deux séries n'ont rien à voir.
Tables de corrélation : les colonnes représentent les cœfficients de corrélation théoriques. On
compare rcalculé et rthéorique.
N (nombre de sujets) - 1 = df
.05 = .666
Ici : N - 1 = 8 - 1 = 7
 
.01 = .798
- Si rcalculé < rthéorique  On prend l'hypothèse H0 : les deux séries sont indépendantes l'une de
l'autre.
- Si rcalculé > rthéorique  On rejette l'hypothèse H0, avec le risque  de la table (.05 = 5% ou
.01 = 1%), et on prend l'hypothèse H1 : les deux séries sont liées. Le risque ne doit jamais
excédé 5%.
Ici : rcalculé  0,9  rthé orique  0.666  les deux séries sont donc liées, avec un risque égal à
5%. On pourrait même prendre un risque égal à 1%, car 0,9 est aussi supérieur à 0,798.
Formules pour calculer le cœfficient de corrélation r :
r
r
r
r
cov( x; y )
 ( x ) ( y )
 ZxZy
avec Z(valeurs standardisé es)=
N
xi  x
 (x)
 xy  (xy )
N
 ( x ) ( y )
N   xy     x    y 
 N   x ²     x  ²  N   y ²     y  ²
Test réalisé par un psychologue, cherchant à montrer l’anxiété des personnes âgées à l’idée de
perdre leur conjoint :
Age
Anxiété
65
114
x
65
73
66
63
62
73
62
76
68
72
______
680
x = 68
r

73
135
66
140
y
114
135
140
115
105
207
102
260
125
167
_______
1470
et
63
115
62
105
x²
4225
5329
4356
3969
3844
5329
3844
5776
4624
5184
________
46480
73
207
62
102
y²
12996
18225
19600
13225
11025
42849
10404
67600
15625
27889
________
239438
76
260
68
125
72
167
xy
7410
9855
9240
7245
6510
15111
6324
19760
8500
12024
_________
101979
y = 147
N  xy   x  y 
N  x²    x ²N  y ²    y ²

10  101979  680  1470
10  46480  46240010  239438  2160900
1019790  999600
20190

 0,85
2367,75
2400  233480
On a donc : r = 0,85
les deux séries sont donc liées, avec un risque de .01, soit 1%.
rcalculé  rthéorique
Il y a donc co-variation.  Plus les gens sont âgés, plus ils sont anxieux à l’idée de perdre
leur conjoint.
r² = 0,72 : signification du cœfficient = variance commune
 72% de la variation en y est expliquée par la variation en x. 72% de l’augmentation de
l’anxiété est expliquée par l’augmentation de l’âge. Les autres 28% sont sans explication.
Si r = 0,2  r² = 0,04, soit 4% de variance commune.
Ici, r ( = 72%) a une bonne significativité.
Graphiquement :
y
co-variation  r = 1
r<1, la droite de régression
linéaire.
variation inverse
X
Les droites définies par :
y = ax+b
 r ( y )
a   ( x )

avec 
b    r ( y )  x   y



  ( x) 
TESTS D’HYPOTHESE
I) TEST DE STUDENT
Ce test permet de comparer deux moyennes, l’une par rapport à l’autre, donc de déterminer si
l’une des deux moyennes est significativement supérieure à l’autre.
n1 et n2 < 30.
x1  x 2
degré de liberté = n1 + n2 – 2 ddl
t
 1²  2²

n1
n2
tcalculé < tthéorique  H0 acceptée  x 1 et x 2 sont semblables. Donc x1 = x2.
tcalculé > tthéorique  H0 rejetée au risque  = .05 (au moins). On accepte donc H1 au risque .
Si les deux moyennes sont différentes, il faut bien sûr préciser laquelle est supérieure à
l’autre.
Exercice : Le psychologue qui faisait ses études sur l’anxiété a en fait utilisé un échantillon
représentatif de dix personnes, sur les 25 qu’il avait à sa disposition. Voici les âges des
personnes non retenues : 72, 70, 69, 67, 61, 58, 51, 49, 47, 43, 42, 41, 40, 40, 35.
Peut-on considérer que les dix personnes retenues sont réellement représentatives de
l’échantillon ? Que peut-on en déduire ?
Moyenne des sujets retenus : x1  68 ans. Ecart-type : 1 = 4.89
Moyenne des sujets non retenus : x 2  52,3 ans.
Calcul de 2 :
X
X = xi - x
72
19,7
70
17,7
69
16,7
67
14,7
61
8,7
58
5,7
51
-1,3
49
-3,3
47
-5,3
43
-9,3
42
-10,3
41
-11,3
X²
388,09
313,29
278,89
216,09
75,69
32,49
1,69
10,89
28,09
86,49
106,09
127,69
40
40
35
 X ²  2267,35
Donc :
t
x1  x 2

 1²  2²

n1
n2
-12,3
-12,3
-17,3
Donc 2 =
151,29
151,29
299,29
2267,35
 151,15  12,29
15
68  52,3
15,7
15,7


 4,45
4,89² 12,29²
12,461 3,53

10
15
On a donc tcalculé = 4,45.
Or, d’après les tables, tthéorique = 3,767 à .001
On a donc tcalculé > tthéorique avec un risque  = 0,001 = 0,1%.
D’où, à un risque de 0,1%.
Les deux moyennes ne sont donc pas semblables, et x 1 est supérieur à x 2 : le psychologue a
donc, dans son étude de départ, pris les sujets qui l’arrangeaient le mieux. L’étude 1 n’est
donc pas valide, et devrait donc être recommencée soit avec les 25 personnes, soit avec un
échantillon réellement représentatif.
Les personnes retraitées de l’étude 1 ont une anxiété qui est donc plus grande que des
personnes ayant un âge allant de 35 à 72 ans.
² : significativité de la différence.
t²  1
4,45²  1
18,80
² 


 0,43
t ²  n1  n2  1 4,45²  25  1 43,8
43% de la différence entre x 1 et x 2 provient de l’âge. La différence observée entre deux séries
est bien imputable au choix des deux séries.
Exemple : On fait passer trois épreuves distinctes à 17 sportifs. On recueille pour chaque
épreuve la VO2 max.
Moyenne
Ecart-type
Piste
56,8
7,1
Navette
51,1
6,9
Tapis
54,4
6,7
1°) Comparer les valeurs de VO2 max. obtenues lors du test sur piste et lors du test par
navette. D’un point de vue physiologique, peut-on conclure à une similitude entre ces deux
tests ?
2°) Tester l’hypothèse que le test en laboratoire reproduit les conditions de la piste, au seuil de
signification de 5%. Que peut-on en conclure ?
1°) Calcul de t :
x1  x 2
56,8  51,1
t


 1²  2²
7,1² 6,9²


n1
n2
17
17
5,7
5,7

 2,375
50,41 47,61 2,4

17
17
tcalculé = 2,375
tthéorique = 2,04
tth < tcal  Rejet de H0  H1 : les 2 tests sont différents.
 On a une consommation de O2 supérieure par le test sur piste, comparativement au test sur
navette.
2°)
tcal = 1,01
tth > tcal  acceptation de H0.
tth = 2,042
Conclusion : le test sur tapis roulant représente bien le test sur piste. La différence observée
est non représentative par rapport à l'échantillonnage.
II) TEST ² (CHI 2 OU CHI CARRE)
Brun
70
40
110 (NA)
Garçon
Fille
Total
Blond
30
60
90 (NB)
Total
100 (N1)
100 (N2)
200 (N)
La couleur de cheveu est-elle liée au sexe ?
Tableau d'effectif théorique :
Garçon
Fille
² 
Brun
NA  NB
 55
N
NA  N2
 55
N
Blond
NB  N1
 45
N
NB  N2
 45
N
²  
ddl = (l – 1) (c – 1)
ddl = (nombre de lignes – 1) (nombre de colonnes – 1)
70  55²  30  45²  40  55²  60  45²
55
45
55
(obs - th)²
th
45

225 25 25 15 250 40





 18,18
55 45 55 45 55 45
² = 18,18
H0 : il y a indépendance entre la couleur des cheveux et le sexe.
Si ²th < ²obs  Rejet de H0  H1
Si ²th > ²obs  H0
Ici : ddl = 1.
P = 0,05  ²th = 3,85
On a : ²th < ²obs à p = 0,001.
 Rejet de H0  H1 : le sexe influence la couleur des cheveux.
Exercice : Un professeur d'EPS enseigne à deux classes de terminale :à la première terminale,
il enseigne en présentant de façon séquentielle, à la seconde par une méthode de
démonstration globale.
Pour l'évaluation, il juge des effets des deux apprentissages, en comptant le nombre d'élèves
possédant une bonne, moyenne, ou faible maîtrise de l'habileté :
Bonne
Moyenne
Faible
Total
Méthode séqu.
15
27
13
55
Méthode globale
21
19
12
52
Total
36
46
25
107
Que pouvez-vous en conclure ?
Après avoir fait un tableau d'effectif théorique, et calculé ², on trouve :
²cal = 2,378
Or, ²th = 5,99, à p = .05, donc, on a : ²cal < ²th
H0 est donc conservée : les deux méthodes sont indépendantes, donc le résultat ne dépend pas
de la méthode de travail. La maîtrise de l'habileté ne dépend du choix de la méthode. Est-ce
que l'habileté considérée n'influence pas les résultats ?
Exercice : On cherche à comparer l'influence du travail de musculation sur la morphologie des
individus chez les deux groupes de sportifs qui s'entraînent soit en travail dynamique, soit en
travail statique. On mesure le rapport entre la circonférence et la longueur de la cuisse (dont la
longueur moyenne est égale à 1). On compare alors le nombre d'individus, qui, dans chaque
groupe considéré, présente un rapport supérieur ou inférieur à 1. (rapport = )
 < 1  > 1 Total
Travail dynamique
11
19
30
Travail statique
6
9
15
Total
17
28
45
Posez l'hypothèse d'analyse des résultats. Que peut-on en conclure sur l'influence du type de
travail sur la morphologie des sujets ? Le gain de masse musculaire est-il favorisé par un type
d'entraînement particulier ?
On trouve : ² = 0,046
Or, ²th = 3,84 à p = .05
 ²obs < ²th  H0
 Les deux types de travail sont équivalents, donc le gain de masse musculaire est identique
pour les deux types d'entraînement.
EXERCICES
I) La taille moyenne de 500 élèves de petite classe d'un lycée est de 151 cm, d'écart-type 15
cm. Si la taille est distribuée normalement, calculer :
1°) La probabilité qu'un élève mesure 128 cm.
2°) La probabilité qu'un élève mesure au moins 120 cm.
3°) La probabilité qu'un élève ne mesure pas plus de 155 cm.
4°) Combien d'élèves ont leur taille comprise entre 120 et 155 cm.
5°) Combien d'élèves mesure au moins 185 cm.
1°) Il faut tout d'abord ramener N (151 ; 15) à N (0 ; 1), et, en plus faire un encadrement
proche
de
128
cm,
soit
:
127
,
9

151
X

151
128
,
1

151
X

151




P(127,9  X  128,1)  P


 1,526 
  P  1,54 
15
15
15
15




1   (1,54)  P( X )  1   (1,526)
P( X )  1   (1,526)  1   (1,54)
P( X )  0,937  0,9382
P( X )  0,0012
 P( X )  0,12%
2°) Il faut trouver P(X120) :
 X  151 120  151 
P( X  120)  1  P

   (t )  2,06
15
 15

 (t )  1   (t )  1  1   (t )  1  1   (t )  98,08%
3°) Il faut trouver P(X155) :
 X  155 155  151 
P( X  15)  P

   (0,27)  60,64%
15
 15

4°) Il faut trouver P(120X155) :
 120  151 X  151 155  151 
P


   (2,06)  P( X )   (027)
15
15
 15

 P( X )   (0,27)   (2,07)   (0,27)  1   (2,07)  58,72%
Soit environ 294 élèves.
5°)Il faut trouver P(X185) :
 X  151 185  151 
P( X  185)  1  P( X  185)  1  P

  1   (2,27)  1  98,81%  1,2%
15
 15

Soit environ 6 élèves.
II) On va comparer deux méthodes de mise à niveau de certaines notions en mathématiques.
On dispose de 20 individus, auxquels on fait subir un pré-test, avant de les affecter
aléatoirement à deux groupes de 10 (chacun a une méthode de travail).
La même épreuve sert de post-test. Voici les résultats :
Méthode 1
Pré-test
10
7
8
4
9
7
3
8
9
6
Méthode 2
Post-test
15
8
11
7
10
10
6
10
12
11
Pré-test
5
8
5
9
11
8
7
6
4
6
Post-test
10
9
13
11
11
11
14
12
9
10
Tester les hypothèses suivantes :
1°) Il n'y a pas de différence significative entre les individus au pré-test.
2°) Chaque méthode permet une amélioration des connaissances.
3°) L'amélioration par la méthode 1 est corrélée négativement au résultat du pré-test.
1°)
t
Moyenne du pré-test de la méthode 1 : 7,1
Moyenne du post—test de la méthode 1 : 10
Ecart-type : 2,12
Ecart-type : 2,45
Moyenne du pré-test de la méthode 2 : 6,9
Moyenne du post-test de la méthode 2 : 11
Ecart-type : 2,02
Ecart-type : 1,55
x1  x 2

 1²  2²

n1
n2
7,1  6,9

2,12² 2,02²

10
10
0,2
 0,216
0,858
Au risque  = 0.05 : tthéorique > tcalculé
 H0 acceptée : les deux groupes sont équitables (les individus sont équitablement répartis).
2°) t 
x1  x 2

 1²  2²

n1
n2
10  7,1
2,9

 2,83
2,12² 2,45²
1,05

10
10
Au risque  = 0.02 : tthéorique < tcalculé
H0 est rejetée  acceptation de H1 : les deux moyennes sont différentes.
Comme x1 > x2, les connaissances ont augmenté.
généralités
Toute série statistique porte sur un ensemble appelé population, dont les éléments sont
appelés les individus. L'étude peut porter sur un sous-ensemble de la population, appelé
échantillon, dont le nombre d'éléments est appelé effectif.
Le caractère étudié est quantitatif s'il est mesurable, qualitatif dans les autres cas. Quand il est
quantitatif, il peut être continu (s'il peut prendre toutes les valeurs possibles entre les deux
limites) ou discret (discontinu) dans le cas contraire (il ne peut alors prendre que des valeurs
isolées).
Exemple de qualitatif : la couleur des yeux d'un individu.
exercice (test droitier / gaucher)
La population est à caractère discret (pas de demi-points). On peut faire des regroupements
par classe. Soit x le caractère étudié (la note) : x1, x2, … xn représentent les notes 1, 2, … 20.
Si l'on connaît pour chaque valeur de x le nombre ni d'individus qui présentent ce caractère,
alors l'ensemble des couples (xi, ni) constitue une série statistique.
effectif de la classe ni
effectif total n
6
Exemple : f 11   0,19  19%
31
La fréquence fi 
Mesures de la tendance centrale
i n
x
i





La moyenne : x 
i 1
n
La médiane : la médiane d'un ensemble de nombres rangés par ordre croissant est la
valeur du milieu (cas impairs) ou la moyenne des deux valeurs centrales (cas pairs).
Le mode : c'est la valeur du caractère que l'on rencontre le plus souvent.
Mesures de la dispersion
L'étendue : c'est la différence entre la plus petite et la plus grande valeur.
Les quartiles : ce sont les valeurs Q1, Q2 et Q3 qui partagent la série ordonnée en 4 parties
de même effectif. Q2 est donc aussi la médiane. (Q3-Q1) est aussi appelé l'écart
interquartile.
Exemple de l'exercice :

Droitiers
Gauchers
Moyenne
11,94
11,74
Mode
11
11
Médiane
12
12
Q1
10
11
Q2
12
12
Q3
13
14
Le diagramme de Turkey (aussi appelé boîte de dispersion, ou boîte à moustaches).
Mini
Droitiers
4
Gauchers
8
Max
Etendue
19
15
16
8
0
5
10
15
Q1
Q2
Droitiers
20
Q3
12
4
10
14
19
Mode
Q2
Q1
Q3
12
Gauchers
8
11
13
16
 Variance et écart-type : la variance représente la moyenne des carrés des écarts à la
moyenne.
i n
 ( x  x )²
i
La variance d'un ensemble de n valeurs :  ² 
i 1
n
.
i n
L'écart-type est égal à la racine carrée de la variance :  
 ( xi  x )²
i 1
n
i n
x ²
i

i 1
n
 x² .
statistiques descriptives à deux variables
Covariance :
1 n
1 n

(
x
i

x
)(
y
i

y
)

   xiyi   x y

n i 1
 n i 1

Application : Test anaérobie
On évalue la puissance maximale anaérobie lors d'une exercice de courte durée. Pour chaque
sujet on relève la puissance et l'on dispose de données anthropométriques. Dans un premier
temps on présente la puissance développée en fonction de l'âge du sujet (variable expliquée y
en fonction de la variable explicative x).
Ensuite, on présente la puissance développée en fonction du volume musculaire de la jambe.
Cov( X , Y ) 
1- Pour chacune des variables A, V et P, calculer la moyenne et l'écart-type de la population.
2- A) Calculer la covariance (A, P)
B) Calculer les paramètres a et b de la droite de régression liant P à A, ainsi que le
coefficient de corrélation r.
C) Comparer les valeurs à celles du graphique.
3- Sachant que r² est égal au rapport de la variance expliquée sur la variance totale, quelle est
la part en pourcentage de la variance non expliquée par l'ajustement affine P = 73,8A –
470. Par quoi peut-elle s'expliquer ?
4- A partir de quel âge un enfant est-il susceptible dans cet exercice de fournir une puissance
de 500W ? 1000W?
5- Reprendre les questions 2 et 3 pour une étude de P en fonction de V. Calculer le
coefficient de régression.
6- Quelle variable A ou V exprime le mieux la puissance P musculaire par ajustement
linéaire ?
 A  11,59 ans
1- Age : 
A  1,54 an
P  385,54 W
Puissance : 
P  141,41 W
V  5,45 L
Volume : 
V  1,02 L
60424,8
1

2- A) Cov( A, P)     xy   x y 
 11,59  385,54  179,65
13
 13

Cov( A, P) 179,65
B) b 

 73,8
A²
1,54²
M ( A , P ) vérifie y  73,8 x  a
a  385,54  73,8 11,5  470
 P  470  73,8A
Cov( A, P)
179,65
r

 0,81
A  P
1,56 141,4
r ²  0,66
3- La variance non expliquée est égale à 33%. Elle peut être due à l'adresse, à
l'entraînement…. des différents sujets.
4- Interpolations et extrapolations :
P  73,8 A  470
500  73,8 A  470
970
 13,1 ans. C' est une interpolat ion (l' âge se situe dans les bornes étudiées).
73,8
1000  73,8 A  470
1470
 19,9 ans.
73,8
Ce dernier chiffre est une extrapolation, car il se situe en dehors des bornes étudiées. Il n'est
donc pas sûr. Par exemple, on pourrait extrapoler pour une puissance de 10000W, et on
tomberai sur un centenaire.
5- On arrive par les mêmes calculs à P = 133,1 V – 340.
On trouve de même r = 0,922, et donc r² = 0,91. Seulement 9% des cas ne sont donc pas
expliqués par le volume musculaire.
6- C'est donc V qui explique le mieux la performance (0,91 > 0,67).
la distribution normale
(exemples et exercices)
Cf. feuilles de cours
Attention au changement de variable : t 
xx


x

, possible mais pas obligatoire.
Taille des individus
La moyenne nationale est de 174cm pour les hommes, avec un écart-type de 9cm. Elle est de
168 chez les femmes, avec un écart-type de 6cm.

Combien d'individus ont une taille inférieure à 183cm?
183  176
x  183cm, donc t  t 
 1 donc t  1   (t )  84,13%
7
 Quelle est la probabilité pour qu'un individu pris au hasard est une taille supérieure à
185cm?
t  t 
185  176 9
  1,286
7
7

 (1  t )  0,90

 (t )  10%

Quelles sont les tailles minimales et maximales à prendre en compte pour couvrir de
manière bilatérale 95% de la population féminine ?
 (t )  0,95  t  1,96
b
b  168

6
11,76  b  168  b  179,8
b  168-11,8  b  156,2
t 

1,96 
et
 1,96 
b  168
6
statistiques mathématiques
C'est faire des inférences, des estimations sur l'ensemble de la population d'où sont issus les
échantillons.
Danger : si l'échantillon n'est pas parfaitement représentatif (corrélation qui n'existe pas avec
la population, ou si l'on passe à côté de quelque chose de particulier qui pourrait exister dans
la population).
On peut néanmoins contrôler le risque d'erreur, en calculant une fourchette autour de la valeur
trouvée et en précisant les chances que la valeur réelle se trouve bien dans cet intervalle de
confiance (loi normale).
La probabilité que le "vrai" résultat se trouve dans un intervalle de confiance Ic autour de la
valeur mesurée sur l'échantillon est le plus souvent donné par la loi normale.
Si l'on prend un grand intervalle de confiance : faible risque d'erreur. Si l'on prend un petit
intervalle de confiance, on a un risque d'erreur plus important.
Masse corporelle
On a mesuré la masse corporelle de 35 individus. On trouve comme valeur moyenne :
m  67,6kg , avec un écart-type e  6,9kg . En supposant l'échantillon représentatif de la
population masculine française et la distribution normale, calculer un intervalle de confiance à
95% de la moyenne nationale.
Donné un encadrement bilatéral de la masse corporelle, prenant en compte 95% de la
population.

Il faut commencer par estimer la valeur de l'écart-type "réel", à partir de celui qui nous est
fourni :
35
se  6,9kg  s  6,9 
 7kg
34
xx
t 
 1,96  x1  7 1,96  67,6  81,3
s
 x 2  67,6  7 1,96  53,9
53,8  m  81,3 est un encadrement bilatéral prenant en compte 95% de la population.
Attention de ne pas confondre avec une autre question :
7
7
67,6  1,96 
 m  67,6  1,96 
35
35
65,28  m  69,92 est un intervalle de confiance à 95% de la moyenne nationale.
Saut en hauteur
Dans un groupe de 15 élèves, la performance réalisée en saut en hauteur présente les
caractéristiques suivantes : x  110cm , se  19cm . Donner un intervalle de  à 95% de
confiance.

Formule à utiliser quand on a un groupe de petite taille (<30 éléments) :
x  t 
s
s
 m  x  t 
n
n
15
 19,7
14
Pour t , on prend 2,145 [loi de Student : t (0,005 ; 14)], car il faut prendre  = n-1 = 14.
19,7
19,7
Donc, ici : 110  2,145 
   110  2,145 
15
15
99,1    120,9 est donc un encadrement de la moyenne à 95 % de confiance.
Calcul, de s : s  19 
Fumeurs et non-fumeurs
Sur un groupe de 100 étudiants, on constate que 41 sont des fumeurs ; estimer au risque de
5% la proportion de fumeurs sur l'ensemble de la population étudiante.

Il faut rechercher l'intervalle de confiance d'une fréquence, on utilisera donc la formule :
p(1  p)
p(1  p)
p  u
 P  p  u
n
n
fe(1  fe)
fe(1  fe)
 P  fe  u
n
n
0,41(0,59)
0,41(0,59)
Ici : 0,41  1,96
 P  0,41  1,96
100
100
On peut aussi la noter : fe  u
Donc : 31,36%  P  50,64%
comparaison de fréquences
exercices
fumeurs et non fumeurs
Il nous est donné le tableau suivant :
Cancer
Pas de
cancer
TOTAL
Non fumeurs
Echantillon 1
20
10%
180
90%
n1 = 200
Fumeurs
Echantillon 2
40
TOTAL
60
20%
160
15%
340
80%
n2 = 200
85%
400
Soit H0 : "La fréquence d'apparition d'un cancer est la même chez les fumeurs et les nonfumeurs, la différence observée étant due aux fluctuations d'échantillonage."
Sous H0, la fréquence commune d'apparition du cancer est :
n1  fe1  n 2  fe2 200  0,1  200  0,2 20  40 60
pˆ 



 15%
n1  n 2
400
400
400
fe1  fe2
0,1  0,2
 0,1
u


 2,80
1  0,0357
1 1
 1
pˆ (1  pˆ )  
0,15  0,85


 n1 n2 
 200 200 

Pour   5% : on fait un test bilatéral (on ne sait pas de quel côté ça va varier), donc
t  1,96 .
u  1,96;1,96 donc on rejette H0.
La fréquence d'apparition d'un cancer est significativement différente dans les populations
fumeurs et non fumeurs.

Pour   5% : on fait un test unilatéral (on pense que le fait d'être fumeur peut entraîner
un cancer), donc t  1,65 .
u   1,65;1,65
 On rejette H0.
ou u  1,65 
taux de réussite en deug staps
En 1998, le taux de réussite national en DEUG STAPS a été de 77,4%.
1- A Limoges, 92 étudiants sur 141 ont été reçus. Les résultats du département sont-ils
conformes au taux de réussite nationale avec un risque  = 5% ?
2- A Poitiers, 212 reçus sur 286 candidats. Peut-on décider, avec  = 5%, que les résultats à
Limoges et Poitiers sont significativement différents ?
3- 1999 fut une année faste : 136 reçus sur 144 candidats. En totalisant pour Limoges les
résultats obtenus en 1998 et en 1999, et en supposant le taux de réussite nationale constant
et égal à 77,4%, dire si le taux de réussite à Limoges est conforme au taux national.
1- Le taux de réussite nationale est de 77,4%, soit de 0,774.
La fréquence de réussite à Limoges est de 92/141, soit 0,652.
Soit H0 : "La différence observée n'est pas significative".
fe  p
0,652  0,774
 0,122
u


 3,48
p(1  p)
0,774  0,226 0,03522
n
141
  5%  u  1,96 (test bilatéral)
u   1,96;1,96
On rejette donc H0.
2- La fréquence de réussite à Poitiers est de 212/286 = 0,741.
Soit H0 : "La différence observée n'est pas significative, et s'explique par les aléas
d'échantillonnage".
Sous H0, on réunit Limoges et Poitiers :
n  141  286  427
pˆ 
u
92  212
 0,712
427
fLimoges  fPoitiers

0,652  0,741

 0,089
 1,91
0,0466
1 
1 
 1
 1
0,712  0,288

pˆ (1  pˆ )



 141 286 
 nLimoges nPoitiers 
u   1,96;1,96 On ne peut pas rejetter H0. La différence n' est donc pas significat ive.
analyse de la variance à un facteur
L'analyse de variance permet de comparer plus de deux moyennes (c'est une extension de la
comparaison de moyennes).
Exercice du polycopié :
Soit H0 : "Le facteur durée de pratique hebdomadaire n'a pas d'incidence sur la fréquence
cardiaque."

La variance totale QT se calcule par :
QT    xij ²  nx ²  561065  26 146²  5329,56  5330
i

j
La variance à l'intérieur des colonnes QI se calcule par :
QI  
i

 x ²   n x ²  561065  (6 161²  6 147²  5 140,2²  4 140,5²  5 138²)
ij
j
i i
i
QI  3423,8  3424
La variance à l'extérieur ou Entre les colonnes QE se déduit ensuite :
QT  QI  QE  QE  5330  3424  1906
Il faut ensuite calculer le rapport f :
QE
1906
ddl QE  k  1  4
ddl QE
Avec : 
f 
 4 2,92
QI
3424
ddl QI  n  k  26  5  21
ddl QI
21
Il faut ensuite se rapporter à la table de Fischer :
La valeur critique F  F ( 1  4; 2  21)  2,87
f > 2,87, on rejette donc H0. Donc, la durée hebdomadaire de pratique sportive a une
incidence significative sur le rythme cardiaque.
Téléchargement