III) Les paramètres de réduction

publicité
Faculté de médecine de Sousse
Module : Biostatistique
PCEM2 2011-2012
Les statistiques
descriptives
Iheb Bougmiza
03 novembre 2011
Iheb Bougmiza
Les statistiques descriptives
1
Iheb Bougmiza
Les statistiques descriptives
2
Place des statistiques…
Problème Recherche
Question de recherche
Type d’étude
Population cible
Échéancier
Iheb Bougmiza
Instr. mesure
Budget
Planifier
Analyse données
Éthique
Les statistiques descriptives
3
Iheb Bougmiza
Les statistiques descriptives
4
Approches

Faire des exercices +++

« we learn by doing »

« j’entends et j’oublie. Je vois et je retiens, je fais et je
comprend »

Le moins de mathématique possible et le plus orienté
possible vers la résolution de problèmes concrets
Iheb Bougmiza
Les statistiques descriptives
5
Les objectifs
A la fin du cours, l’étudiant sera capable de
1.
2.
3.
4.
5.
6.
Définir la notion de variable
Identifier les types de variables
Présenter les données par des tableaux de fréquence
Présenter les données par des graphiques
Décrire les paramètres de tendance centrale
Décrire les paramètres de dispersion
Iheb Bougmiza
Les statistiques descriptives
6
Au menu ….
I) la notion de variables et de mesure
1. Définitions
2. Types de variables
II) La présentation des données
1. Méthode tabulaire
2. Méthode graphique
III) Les paramètres de réduction
1.Les paramètres de tendance centrale
2.Les paramètres de dispersion
Iheb Bougmiza
Les statistiques descriptives
7
La statistique en médecine…

Outil pour répondre à plusieurs questions
—
Quelle est la valeur normale de la glycémie ?
—
Quel est le risque de complication d’une maladie X ?
—
Quel est le risque d’un traitement ?
—
Le traitement A est-il plus efficace que le traitement B ?
Iheb Bougmiza
Les statistiques descriptives
8
La variabilité est la règle (1)…
Iheb Bougmiza
Les statistiques descriptives
9
La variabilité est la règle (2)…

La variabilité totale = variabilité expérimentale et
variabilité biologique.

Variabilité biologique = variabilité intra-individuelle +
variabilité inter-individuelle

La décision dans l’incertain (diagnostic, traitement,
pronostic..)
Iheb Bougmiza
Les statistiques descriptives
10
Une petite réflexion…

8% des accidents mortels sur autoroute sont
directement provoqués par des conducteurs ayant
emprunté l’autoroute en sens inverse
Cela signifie que 92% des accidents mortels sont
imputables à des conducteurs ayant roulé en bon
sens
Conclusion : il est statistiquement moins dangereux
de prendre l’autoroute en sens inverse !!!!!!
Iheb Bougmiza
Les statistiques descriptives
11
I) la notion de variables et de mesure
1. Définitions

Une variable est une propriété commune aux individus de la
population étudiée (taille, poids, glycémie, genre…) et qui
varie en fonction du temps, du lieu et de l’individu

Les modalités d'une variable sont les différentes valeurs que
celle-ci peut prendre
— variable situation familiale : célibataire, marié, veuf..
— variable genre: homme, femme.
— variable prénom : El Fehem, Mohamed, Salah…
Iheb Bougmiza
Les statistiques descriptives
12
I) la notion de variables et de mesure
2. Types de variables

Variable quantitative :les modalités s’expriment par des
valeurs numériques
—
Variable continue :prend un nombre infini de valeurs à
l’intérieur d’un intervalle donné (nombre réel)
 Taille, poids, glycémie…
—
Variable discrète : prend un nombre fini de valeur à
l’intérieur d’un intervalle donné (nombre entier)
 Nbr de lits dans un hôpital, nbr d’enfants dans une famille

On transforme parfois une variable continue en une
variable discrète = Discrétisation = groupement par classe
(plus simple mais perte de l’information)
Iheb Bougmiza
Les statistiques descriptives
13
I) la notion de variables et de mesure
2. Types de variables

Variable qualitative : les modalités s’expriment par des
qualités (genre, système ABO, état civil...)
—
ordinale : s’exprime en classes qui peut être ordonnée selon une
échelle de valeurs (degré de satisfaction, niveau d’étude, NSE, taille
vestimentaire)
—
Nominales : les classes ne peuvent pas être hiérarchisées. L’ordre de
précision est arbitraire (ABO, état civile, religion…)
—
Binaires ne prennent que 2 valeurs (H/F, malade/sain…) appelées
aussi: Variables dichotomiques, Variables booléennes: vrai ou faux ou
Variables de Bernouilli (0/1)
Iheb Bougmiza
Les statistiques descriptives
14
I) la notion de variables et de mesure
2. Types de variables (résumé)
Iheb Bougmiza
Les statistiques descriptives
15
I) la notion de variables et de mesure
2. Types de variables (résumé)
QUALITATIVE
QUANTITATIVE
ordinale
continue
nominale
discrète
temporelle
binaire
Iheb Bougmiza
Les statistiques descriptives
16
Indiquez le type et l’échelle de mesure
Applications : indiquer pour chaque
variable
l’échelle de mesure appropriée
Variables
Échelle
Age de l’enfant en mois
……
Gnre de l’enfant : G/F
…..
Poids de l’enfant en gr
…..
Origine : Monastir, Sousse, Mahdia
…..
État vaccinal : non vacc/incomplet/complet
……
Profession père : Agricult/Comercant/autres
……
Iheb Bougmiza
Les statistiques descriptives
17
Indiquez le type et l’échelle de mesure
Applications : indiquer pour chaque
variable l’échelle de mesure appropriée
Variables
Type et échelle
Date de naissance
……
Age en classe
…..
Statut tabagique (Fumeur/Non Fumeur)
…..
Couleur des yeux
…..
Le nombre de dents
……
Nationalité
……
Iheb Bougmiza
Les statistiques descriptives
18
II) La présentation des données brutes

Comment les structurer et les interpréter ?
Groupes
Age (années)
A
58 ; 55 ; 50 ; 49 ; 43 ; 43 ; 42 ; 40 ; 35 ; 32
B
; 39 ; 38 ; 36 ; 36 34 33 ; 31 ; 31 ; 30 ; 29 ; 27 ; 27 ; 26 ; 22
53 ; 51 ; 46 ; 44 ; 42 ; 39
C
29 ; 29 ; 28 ; 28 ; 28 ; 26 ; 24 ; 24 ; 24 ; 23 ; 22 ; 21 ; 20 ; 20
45 ; 45 ; 43 ; 41 ; 38 35 ; 33 ; 33 ; 32 ; 30 ;
Iheb Bougmiza
Les statistiques descriptives
19
II) La présentation des données
1. Méthode tabulaire


Il faut présenter l’effectif absolu (faire un tri à plat)
Il faut présenter la proportion d’individus dans une modalité par rapport
au total = fréquence relative qui peut s’exprimer en pourcentages ou non
Situation
familiale
Effectif
(ou fréq.
absolue)
Fréquence
relative
Fréquence
relative (%)
Marié
390
0,46
46%
célibataire
463
0,54
54%
Total
853
1,00
100%
C’est la même chose !
Iheb Bougmiza
Les statistiques descriptives
20
II) La présentation des données
1. Méthode tabulaire

Il faut faire attention aux données manquantes +++

Elles peuvent êtres liées :
— Au refus de réponse
— A des mesures non pratiquées ou oublis de saisie

Tenter de récupérer le maximum de données manquantes

En tenir compte dans le tableau de fréquences
Iheb Bougmiza
Les statistiques descriptives
21
II) La présentation des données
2. présentation graphique




Méthode visuelle pour saisir rapidement la forme
d’une distribution
Le choix du graphique est déterminé par l’échelle de
mesure de la variable
Les Variables qualitatives :
— Diagramme en bâtons
— Diagramme en secteur
Les Variables quantitatives
— Histogrammes
— polygones de fréquence
Iheb Bougmiza
Les statistiques descriptives
22
II) La présentation des données
2. Méthode graphique (diagramme en bâtons)
Iheb Bougmiza
Les statistiques descriptives
23
II) La présentation des données
2. Méthode graphique (diagramme en secteurs)
Iheb Bougmiza
Les statistiques descriptives
24
II) La présentation des données
2. Méthode graphique (Polygone de fréquences)
Année de
1ère
inscription
Effectif
1998
8
500
1999
27
400
2000
42
300
2001
88
2002
115
2003
192
2004
381
Iheb Bougmiza
Année de 1ère inscription
200
100
0
1998
1999
Les statistiques descriptives
2000
2001
2002
2003
2004
25
II) La présentation des données
2. Méthode graphique (Boite à moustaches)
100
Maximum
80
60
Q3
Médiane
40
Q1
20
Minimum
0
-20
N=
672
AGE
Iheb Bougmiza
Les statistiques descriptives
26
III) Les paramètres de réduction
1. Définition et types

Ce sont des valeurs numériques qui résument les
mesures d’une variable quantitative

Paramètres de tendance centrale
—

Des mesures qui localisent « le centre » d’une
distribution
Paramètres de dispersion
—
Renseignent sur l’étalement de la série autour de
la mesure de tendance centrale
Iheb Bougmiza
Les statistiques descriptives
27
III) Les paramètres de réduction
1. Définition et types
Fréquences
Tendances
centrales
MEDIANE
MOYENNE
MODE
Iheb Bougmiza
Dispersion
ETENDUE
Les statistiques descriptives
ECART-TYPE
28
III) Les paramètres de réduction
2. Les paramètres de tendance centrale
Où situeriez-vous le "centre" ? A la valeur 6, qui est la plus fréquente ? ou
bien plus à droite, par exemple de façon à partager les observations en
paquets égaux ? Si oui, où, exactement ? 7, 8, 9 ?
Iheb Bougmiza
Les statistiques descriptives
29
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Moyenne)

Mesure la plus connue

Division de la somme de
toutes les valeurs de
l'échantillon par sa taille (n).

Le point auquel il faudrait
placer un support pour que
la "planche" reste en
équilibre.
Iheb Bougmiza
X 1  X 2  ...  X n
m
N
Les statistiques descriptives
30
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Moyenne)
Iheb Bougmiza
Les statistiques descriptives
31
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Moyenne)

On compare deux classes de 10 élèves
A
11
11
12
11
12
11
13
11
10
20
Moy
12,2
Iheb Bougmiza
Les statistiques descriptives
B
13
13
14
13
12
14
13
15
12
0
Moy
11,9
32
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Moyenne)


Inconvénient de la moyenne +++
Sensibilité aux valeurs extrêmes
—
—
erreurs
cas particuliers
Données
danseuse 1
danseuse 2
danseuse 3
danseuse 4
danseuse 5
danseuse 6
danseuse 7
danseuse 8
sumotori
Moyenne
Formule
70,78 =MOYENNE(A2:A10)
51
52
45
50
51
51
53
49
235
les danseuses ont de quoi
se faire du sushi
Iheb Bougmiza
Les statistiques descriptives
33
Oops !!!!!!!
A
11
11
12
11
12
11
13
11
10
20
Moy
11,3
Iheb Bougmiza
B
13
13
14
13
12
14
13
15
12
0
Moy
13,2
Les statistiques descriptives
34
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Médiane)


Valeur pour laquelle il y a autant d'observations à gauche
qu'à droite.
La meilleure mesure de TC pour les variables ordinales

Pour la calculer :
—
—


on classe les observations par ordre croissant
on cherche quelle est la valeur qui divise les observations en deux
groupes égaux ?
Si le nombre d'observations est pair: la médiane est la
moyenne entre les observations n/2 et n/2 + 1
Si le nombre d'observations est impair: la médiane est la
valeur (n+1)/2.
Iheb Bougmiza
Les statistiques descriptives
35
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Médiane)
50%
50%
Iheb Bougmiza
50%
50%
Les statistiques descriptives
36
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Médiane)
Iheb Bougmiza
Les statistiques descriptives
37
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Médiane)
La médiane se situe entre174 et 176 cm.
Iheb Bougmiza
Les statistiques descriptives
38
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (la Médiane)
A
11
11
12
11
12
11
13
11
10
20
Moy
12,2
Med
11,0
Iheb Bougmiza
B
13
13
14
13
12
14
13
15
12
0
Moy
11,9
Med
13,0
Les statistiques descriptives
39
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (le mode)


La valeur la plus fréquente
dans un échantillon. Si
l'échantillon est divisé en
classes, la classe modale
constitue la classe la plus
fréquente.
Distributions bimodales, ou
multimodales
le mode
est 6
Iheb Bougmiza
Les statistiques descriptives
40
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (le mode)
Exemple : 156, 178, 189, 178, 152, 1, 34 : le mode = ??
Iheb Bougmiza
Les statistiques descriptives
41
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (les quartiles,
déciles et percentiles)

Quartiles : 3 valeurs qui partagent la distribution en 4
— 1er quartile : divise d’un coté les 25 % des valeurs
les plus faibles et de l’autre coté les 75 % restants
— 2ème quartile = Médiane
—
3ème quartile : divise l’échantillon en ¾ - ¼

Déciles (9 valeurs : 10 %, 20 % ……., 90 %)

Percentiles (1%, 2%.........99%)
Iheb Bougmiza
Les statistiques descriptives
42
III) Les paramètres de réduction
2. Les paramètres de tendance centrale (les quartiles,
déciles et percentiles)
130, 124, 147, 160, 139, 105, 112, 137, 122, 134
1 – On range en premier lieu les données par ordre croissant
Ordre
1
2
3
4
5
6
7
8
9
10
Valeur 105 112 122 124 130 134 137 139 147 160
Me
2 – On calcule la position de Q1 et Q3
P (q1) = n +1/ 4 = 2,75
P (q3) = (n +1/ 4) x 3 = 8,25
q1 = entre 112 et 122 mm
q3 = entre 139 et 147 mm
Iheb Bougmiza
Les statistiques descriptives
43
III) Les paramètres de réduction
2. Les paramètres de dispersion

Problème :
— moyenne identique
— étalement différent des
données +++

Nécessité de mesurer la
dispersion des données
Iheb Bougmiza
Les statistiques descriptives
44
III) Les paramètres de réduction
2. Les paramètres de dispersion (l’étendue)

Mesure l'écart entre la valeur la plus élevée et la plus petite
Etendue (Et.) = Valeur maximale (Vmax) -Valeur minimale (Vmin)
—
Exemple : 220 cm - 171 cm = 49 cm.
Iheb Bougmiza
Les statistiques descriptives
45
III) Les paramètres de réduction
2. Les paramètres de dispersion (l’étendue)

Mesure l'écart entre la valeur la plus élevée et la plus petite
Etendue (Et.) = Valeur maximale (Vmax) -Valeur minimale (Vmin)
—
Exemple : 220 cm - 171 cm = 49 cm.
Iheb Bougmiza
Les statistiques descriptives
46
III) Les paramètres de réduction
2. Les paramètres de dispersion (la variance)
X
1
X-M
-5,3
(X-M)2
28,2
3
-3,3
10,9
3
-3,3
10,9
4
-2,3
5,3
5
-1,3
1,7
5
-1,3
1,7
6
-0,3
0,1
7
0,7
0,5
8
1,7
2,9
9
2,7
7,2
10
3,7
13,6
10
3,7
13,6
11
4,7
22,0
Moyenne
0,0
9,1
Iheb Bougmiza


Moyenne des carrés des écarts
à la moyenne
La variance n’est pas dans la
même unité que les données
— m  m2
— kg  kg2
2 
2
(
x


)

Les statistiques descriptives
N
47
III) Les paramètres de réduction
2. Les paramètres de dispersion (l’écart-type)





Caractérise la dispersion des valeurs de part et d’autre
de la moyenne.
Plus l'écart-type est grand, plus la dispersion est
grande également.
racine carrée de la variance
même unité que les données
Formule :

Iheb Bougmiza
2
(
x


)

N
Les statistiques descriptives
48
Relation entre les trois indices
(1)


La relation dépend de la forme la distribution
Distribution symétrique (ou à peu près) : mode =
médiane = moyenne
So ?
Iheb Bougmiza
Les statistiques descriptives
49
Relation entre les trois indices
(2)

Distribution asymétrique
— Etalée à gauche : mode < médiane <moyenne
Iiiik !!!
Iheb Bougmiza
http://www.faecesoftheworld.co.uk/
Les statistiques descriptives
50
Relation entre les trois indices
(3)

Distribution asymétrique
— Etalée à droite : mode > médiane > moyenne
Yuuuk !!!
Iheb Bougmiza
p://www.faecesoftheworld.co.uk/
Les statistiques descriptives
51
Notions essentielles…

La variabilité est une caractéristique de toutes les mesures

Pour la description d’une population
— Méthode tabulaire
— Méthode graphique (dépend de la nature des variables)
— Méthode numérique : il est indispensable de définir des
indices synthétiques
 Les paramètres de tendance centrale
 Les paramètres de dispersion
Iheb Bougmiza
Les statistiques descriptives
52
Iheb Bougmiza
Les statistiques descriptives
53
Téléchargement