1iereS. statistiques

publicité
1ière S
Paramètres d’une série statistique
Les données statistiques qui font l’objet d’une étude peuvent-être de différents types : effectifs, fréquences, taux, moyennes …
Ex : On a relevé la taille de 65 adolescents
taille (en cm)
effectif
La variable étudiée est la taille, elle est dite quantitative continue ,
[150 ; 160[
6
[160 ; 170[ [170 ; 180[ [180 ; 190[
13
35
11
car elle peut prendre toutes les valeurs d’un intervalle de R.
Ex : Une variable quantitative qui ne peut prendre que des valeurs isolées est dite quantitative discrète.
valeur
1
effectif série A 1
effectif série B 7
1.
2
1
5
3
2
1
4
6
1
5
10
2
6
5
0
7
2
1
8
2
6
9
1
7
Rappels
-
x1 , x2 , … , xk sont les valeurs d’une série statistique ou les centres des classes si ces valeurs sont regroupées en classes ;
n1 , n2 , … , nk sont les effectifs respectifs des valeurs x1 , x2 , … , xk ;
f1 , f2 , … , fk sont les fréquences respectives des valeurs x1 , x2 , … , xk ;
k
-
n
est
l’effectif total :
n = n1 + n2 + … + nk .
n=
∑n
k
i=1
2.
-
Caractéristiques de position de tendance centrale
le(s) mode(s) : une valeur dont l’effectif associé est le plus grand
son intérêt est lié au fait qu’il désigne une valeur de la variable qui revient le plus souvent à l’occasion des observations faites.
-
médiane : Me , qui partage la population étudiée en deux groupes de même effectif ;
c’est la valeur de la variable qui correspond à une fréquence cumulée égale à 0,5 .
pour une variable statistique continue, on peut calculer la médiane à partir d’une interpolation linéaire
-
3.
moyenne : x =
Activité
1
( n1 x1 + n2 x2 + ... + nk xk ) = f1 x1 + f 2 x2 + ... + f k xk
n
x=
1
n
k
∑n
i
xi
i=1
montrer que les séries statistiques A et B ont même moyenne, même médiane.
Ont-elles même étendue ? ( mesure de dispersion )
Pour étudier la répartition des valeurs d’une série, on définit les quartiles et un nouvel outil graphique : le diagramme en boîte.
4.
Caractéristiques de dispersion : l’intervalle interquartile et l’écart interquartile.
pour éviter d’effectuer des calculs sur des valeurs extrêmes et souvent aberrantes, face au phénomène étudié, on choisit souvent de les écarter.
avec l’intervalle interquartile, on perd de l’information mais on gagne en homogénéité.
-
premier quartile : Q1 , d’une distribution statistique est la valeur telle que 25 % des valeurs prises par la variable
-
troisième quartile : Q3 , d’une distribution statistique est la valeur telle que 75 % des valeurs prises par la variable
lui soient inférieures et 75 % supérieures.
lui soient inférieures et 25 % supérieures.
en conséquence, le deuxième quartile se confond avec la médiane. Pour une variable statistique continue,Q1 correspond à une fréquence cumulée de 0,25
Q3 correspond à une fréquence cumulée de 0,75
-
intervalle interquartile : [ Q1 ; Q3 ] contient 50 % des observations
-
écart interquartile : Q3 – Q1 , mesure la dispersion des valeurs de la série autour de la médiane.
Remarque : de la même manière, les déciles partagent la série en dix parties ; D9 – D1 est l’écart interdécile.
5.
Diagramme en boîte
Ex (sur une série statistique de petite taille ) : les valeurs sont les suivantes :
7 - 9 - 10 - 12 - 15 - 18 - 20 - 25 - 26
n
.
4
3n
Pour Q3 on prend la valeur xj dont l’indice j est le plus petit entier supérieur ou égal à
.
4
Pour Q1 on prend la valeur xi dont l’indice i est le plus petit entier supérieur ou égal à
Ex : comparer deux séries statistiques à l’aide de leurs diagrammes en boîte
les valeurs des séries suivantes ( rangées par ordre croissant ) donnent les précipitations moyennes mensuelles en mm à Nice et à Paris
les précipitations sont plus régulières à Paris (
6.
série moins dispersée ), pour Nice plus de la moitié des mois ont des précipitations supérieures au maximum de Paris…
Caractéristiques de dispersion : Variance et écart type empiriques
l’ écart type est une moyenne d’écarts, c’est un des indicateurs de dispersion les plus utilisés ,il se définit à partir de la variance.
moyenne des carrés des écarts : soit une série statistique ( x1 , x2 , … , xn ) de taille n .
1 n
La fonction f définie sur R par f ( x ) =
( xi − x )2 , moyenne des carrés des écarts de chaque terme au réel x, admet un minimum en
n i =1
-
∑
variance : V, d’une série statistique ( x1 , x2 , … , xn ) de taille n , c’est le minimum de la fonction
-
f:x֏
1
n
∑( x
n
i
−x
)
x.
2
i =1
1 n
V = ∑ ( xi − x
n i =1
)
2
ou encore
1 n 2
V = ∑ xi − x 2
n i =1
lorsque la série est connue par toutes les valeurs x1 , x2 , … , xk et les effectifs ni , ou les fréquences fi correspondantes,
la variance est le réel égal à la moyenne des valeurs ( x − x ) pondérés par les effectifs ni , ou par les fréquences fi .
2
i
1 k
V = ∑ ni ( xi − x
n i =1
)
2
k
=
∑f (x
i
i
−x
i =1
écart type : c’est la racine carrée de la variance.
-
)
1 k
2
V = ∑ ni xi
− x2
n i =1
2
s=
V
s
k
avec
n=
∑n
k
i=1
mesure l’étalement de la distribution autour de la moyenne.
Ex : deux élèves Camille et Mylène ont 10 de moyenne, avec 9 et 11 pour Camille et 4 et 16 pour Mylène
pour Camille : V =
( 9 − 10 )
2
+ (11 − 10 )
2
7.
2
=
1+1
= 1 ; l’écart type
2
s=
1 =1. Pour Mylène : V =
( 4 − 10 )
2
+ (16 − 10 )
2
2
=
36 + 36
= 36 ;
2
s = 36 = 6
Résumé d’une série statistique
on résume souvent une série statistique par une mesure de tendance centrale associée à une mesure de dispersion.
le
le
couple ( moyenne, écart type )
couple ( médiane , écart interquartile )
qui à l’inconvénient d’associer deux mesures sensibles aux valeurs extrêmes.
qui n’a pas ce défaut mais dont la détermination est moins pratique.
la médiane et l’écart interquartile : Q3 – Q1 sont dits « robustes » par rapport aux valeurs extrêmes.
Téléchargement