CHAPITRE I. STATISTIQUES DESCRIPTIVES
I.A RAPPEL THEORIQUE
Variables quantitatives (métriques): les valeurs sont numériques
Exemples:
- continues: Taille d’un être humain, Poids d’un animal, Taux de cholestérol, Température,
Vitesse d’un mobile, …
- discontinues ou discrètes (dénombrements): Nombre d’enfants dans une famille, Nombre
de têtes de bétail par exploitation agricole, Nombre de buts marqués par match au
football …
Mesures de LOCALISATION (tendance centrale, position), de DISPERSION, de
FORME.
Exemples: 1. Positions différentes: {1, 2, 3, 4, 5, 6, 7} et {8, 9, 10, 11, 12, 13, 14}
2. Dispersions différentes: {0, 3, 5, 6, 7, 9, 12} et {5, 5, 5, 6, 7, 7, 7}
3. Formes différentes: symétrie {4, 5, 6, 7, 8, 9, 10}
asymétrie gauche {5, 5, 5, 5, 5, 8, 10}
asymétrie droite {5, 7, 10, 10, 10, 10, 10}
Variables qualitatives (non métriques): les valeurs sont non numériques
Exemples:
- ordinales: Classe de BMI, Intensité d’une douleur (absente, minime, légère, modérée,
sévère, extrême), Echelle de satisfaction d’un produit (insuffisant, moyen, bon,
excellent), Poids d’un bébé (petit poids, poids moyen, poids élevé), Vélocid’un chien
(lent, assez rapide, rapide), …
- nominales: Sexe, Etat-civil, Commune de résidence, Profession, Faculté d’un étudiant,
Couleur des cheveux, Groupe sanguin, Fonction d’un chien (chien de compagnie, de
chasse, d’utilité, …), …
Moins riches en paramètres.
0
5
10
15
20
25
30
35
1 2 3 4 5
Fréquence
X DISTRIBUTION SYMETRIQUE
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5
Fréquence
X DISTRIBUTION ASYMETRIQUE A GAUCHE
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5
Fréquence
X DISTRIBUTION ASYMETRIQUE A DROITE
On s’intéresse aux représentations graphiques pour visualiser la répartition entre les différentes
modalités (appelées aussi items).
Exemples: Camemberts, Tartes, …
Exemple graphique: le mode d’accouchement pour les naissances en Communauté Française de
Belgique de 1994 à 2003 (échantillon de 250.379 naissances).
Statistiques de localisation
I) X: x1, x2, x3, ……, xn Petites séries de données
II) X: x1*, x2*, x3*, ……, xc* Séries groupées Variables continues
Données regroupées en classes de centres x1*, x2*, ...,
xc*;
n1, n2 , n3, ……., nc n1+n2+n3+…...+nc = N
III) X: x1, x2, x3, ……, xc Séries groupées Variables discrètes
n1, n2, n3, ……, nc Données répétées; n1+n2+n3+…...+nc = N
1. La moyenne arithmétique
x
Définition, pour les trois types de séries de données:
I)
x
=
1
1n
i
ix
n
II)
x
=
*
1
1jj
c
jnx
N
III)
(Petites séries) (Données groupées, variable continue) (Données groupées, variable discrète)
-
x
est influencée par la présence de valeurs «extrêmes»
spontané
179513
72%
ventouse
19460
8%
forceps
10015
4%
césarienne
40993
16%
manœuvre sur siège
398
0%
Mode d'accouchement ( ONE / 1994 -2003 / échantillon de 250379 naissances)
Exemple: la série {10, 10, 10, 10, 80} donne une moyenne de (10+10+10+10+80)/5 = 24
qui ne reflète pas vraiment une valeur de tendance centrale.
- La somme des écarts entre les valeurs observées et la moyenne est nulle
1 1 1
()
n n n
ii
i i i
x x x x n x n x
 
   
 
Influence d’une transformation linéaire: X
Y =a X + b
La moyenne d’une transformation linéaire des xi est la transformation linéaire de la moyenne
x
.
X → Y = a X + b =>
x
y
= a
x
+ b (yi = axi + b).
Vérification:
Rappel préalable: 3 propriétés de ∑ 1) ∑ (xi + yi) = ∑ xi + ∑ yi
2) ∑ (axi) = a ∑ xi
3) ∑ a = na
(! Remarque: lorsqu’il n’y a pas de confusion possible, nous notons
1
n
i
ix
= ∑ xi)
Démonstration:
ii
y (ax b)
y ax b
nn
+
= = = +
åå
2. La médiane
x
(prononcer “x tilde”)
La moitié des observations lui sont inférieures (ou égales) et la moitié supérieures (ou égales)
a) Pour les séries non groupées en classes, la série étant ordonnée:
- Si n est impair: la médiane est l’observation de rang (n + 1)/2:
x
= x ((n+1)/2)
Exemples: {2, 2, 3, 4, 5}
x
= 3
{1, 7, 11}
x
= 7
- Si n est pair: la médiane est la moyenne arithmétique des observations x(n/2) et x ((n/2)+1):
x
= (x(n/2) + x((n/2)+1)) / 2
Exemples: {2, 2, 3, 3}
x
= (2+3)/2 = 2,5
{1, 1, 1, 3, 3, 7, 8, 157}
x
= (3+3) / 2 = 3
b) Pour les données groupées en classes, la «classe médiane» est la classe qui contient la
médiane.
- La médiane possède une grande stabilité par rapport aux valeurs extrêmes, (parfois
aberrantes): elle n’est pas influencée par la valeur de telles observations.
Exemple: la série {9, 10, 10, 11, 80} a comme moyenne 24 et comme médiane
10.
3. Le mode (cf. «à la mode», ) xM
a) Pour les ries non groupées en classes, le(s) mode(s) est (sont) la ou les valeur(s)
observée(s) de fréquence maximum
b) Pour les séries groupées en classes, la ou les classe (s) modale(s) est (sont) la ou les
classes de fréquence maximum si l’intervalle de classe est constant ou de fréquence
unitaire maximum si cet intervalle n’est pas constant
En fonction du nombre de modes, on parle de distribution unimodale, bimodale,
- Le mode est une caractéristique intéressante à connaître notamment dans le cas de
distributions asymétriques. (C’est un paramètre également utilisable dans le cas de
données qualitatives nominales!).
Le mode peut ne pas exister: exemple la série {1, 2, 3, 4, 5} xM = ???
Il peut y en avoir 2: exemple la série {1, 1, 3, 3, 8, 11} xM = 1 et 3 (distribution
bimodale)
Ou plus de 2: exemple la série {1, 1, 1, 2, 2, 2, 7, 7, 7, 23} xM = 1, 2 et 7 (distribution
trimodale)
4. Quantiles
Cas particuliers: Médiane, Quartiles, Déciles, Centiles, Percentiles,
Les quantiles d’ordre k: Q1, Q2, ……, Q k-1 divisent la série statistique ordonnée en k parties de
même effectif.
0
5
10
15
20
25
1 2 3 4 5
FREQ.ABS.
X / LE MODE UNIQUE = 3
Les quartiles inférieur, moyen (=médiane) et supérieur divisent la série ordonnée en 4 parties de
même effectif.
Les déciles D1, D2,……, D9 la divisent en 10 parties; les centiles en 100.
Le qème percentile d’une distribution est la valeur en dessous de laquelle q% des observations se
trouvent (lui sont inférieures ou égales). La médiane est donc le 50ème percentile, le premier
quartile est le 25ème percentile, le 3ème quartile est le 75ème percentile.
Statistiques de dispersion
Elles quantifient les écarts autour de la moyenne.
Des séries statistiques peuvent avoir les mêmes moyennes mais se différencier par la dispersion
des valeurs observées autour de cette moyenne.
Exemples: les 3 séries ont la même moyenne mais leurs dispersions sont très différentes
Série 1: {10, 10, 10, 10, 10} →
x
= 10
Série 2: {5, 5, 10, 15, 15} →
x
= 10
Série 3: {0, 0, 10, 20, 20} →
x
= 10
1. L’étendue E (ou «l’amplitude» ou en anglais, le «range»)
E = x (n) x (1)
L’étendue se définit comme la différence entre la plus grande et la plus petite des valeurs
observées (la série étant ordonnée, le maximum = x(n) et le minimum = x(1)).
Elle est sensible à la présence de valeurs aberrantes et ne peut donc, en conséquence, qu’être
retenue pour des séries dont les observations sont réparties «convenablement» (sans valeurs
extrêmes).
Illustration:
********************___________________________________________*
x(1) x(n)
L’étendue ne convient pas ici
*_________________________***********_______________________*
x(1) x(n)
L’étendue ne convient pas ici
*___*__*__*___*__**_**___***__****_***_**_*_**___**__*___*__*__
x(1) x(n)
L’étendue convient, les données sont bien réparties
2. La variance:
2
x
s
Construction: 1) Ecarts à la moyenne: xi -
x
1 / 30 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !