PowerPoint Presentation - SantePub

publicité
Mesures de tendance centrale
Choisir les bonnes mesures
Introduction : Concept
• Résumer la répartition d’une variable quantitative
de manière pertinente
• Tendance centrale : Point autour duquel la les
données sont réparties
– Moyenne arithmétique, médiane, moyenne
géométrique
• Dispersion
– Montre à quel point les données sont proches de la
mesure de tendance centrale
– Écart type, intervalle interquartile, écart type
géométrique
Prérequis : Faire un histogramme !
Nettement moins résumé que moyenne ± écart type
N=97
0.030
0.030
n=Nombre de sujets dans l’intervalle
w=Largeur de l’intervalle
N=Nombre total de sujets
d = n/(N × w) = (n/N)/w
0.025
0.025
Densité
Densité
0.020
0.020
0.015
0.015
0.010
0.005
n=1 n=1 n=0
w=10w=20w=10
N=97N=97N=97
d=0.001
d=0.001d=0
n=3 n=11 n=8
n=19n=44n=25
n=14n=33n=19
n=8 n=8 n=0
w=10w=20w=10
w=10w=20w=10
w=10w=20w=10
w=10w=20w=10
N=97N=97N=97
N=97N=97N=97
N=97N=97N=97
N=97N=97N=97
d=0.003
d=0.006
d=0.008 d=0.02
d=0.023
d=0.026 d=0.014
d=0.017
d=0.02 d=0.008
d=0.004d=0
n=0 n=0 n=0
w=10w=20w=10
N=97N=97N=97
d=0 d=0 d=0
0.000
-60
-40
-20
0
20
40
Distance entre bifurcation VCI et plateau inf L4
Le tapis est très complet mais difficile à lire.
Il ne permet pas bien de voir les ex-aequo (sauf si on rajoute du jitter/sautillement)
60
Tracer des histogrammes à diverses précisions !
N=97
N=97
0.035
0.030
0.030
0.025
0.025
Densité
Densité
0.035
0.020
0.020
0.015
0.015
0.010
0.010
0.005
0.005
0.000
0.000
-60
-40
-20
0
20
40
-60
60
-40
-20
0
20
40
60
Distance entre bifurcation VCI et plateau inf L4
Distance entre bifurcation VCI et plateau inf L4
N=97
N=97
0.030
0.030
0.025
0.025
Densité
0.035
Densité
0.035
0.020
0.020
0.015
0.015
0.010
0.010
0.005
0.005
0.000
0.000
-60
-40
-20
0
20
40
Distance entre bifurcation VCI et plateau inf L4
60
-60
-40
-20
0
20
40
Distance entre bifurcation VCI et plateau inf L4
60
Résumer l’histogramme numériquement
• Moyenne ± écart type : -1,83 ± 16,4
• Loi normale
– ~2/3 des valeurs sont comprises entre moyenne ± SD
– 95% des valeurs sont comprises entre moyenne ± 1,96×SD
Si la loi est normale
Ces deux chiffres résument complètement
la distribution
N=97
0.035
0.030
Densité
0.025
0.020
0.015
0.010
0.005
0.000
-60
-40
-20
0
20
40
Distance entre bifurcation VCI et plateau inf L4
60
Exemple 1
0.10
Densité
0.08
0.06
0.04
0.02
0.00
0
10
20
30
40
50
Durée du passage aux urgences (h)
Moyenne ± SD = 12,1 ± 8,9
Médiane = 8,9
Q1Q3 = [5,9 ; 16,7]
Moyenne géo ×÷ écart type géo = 9,5 ×÷ 2,1
Question : Effet de la demande d’avis
spécialisé sur la durée de passage aux urg
Exemple 2
N=18
N=18
0.025
0.025
0.020
Densité
0.020
Densité
0.015
0.015
0.010
0.010
0.005
0.005
0.000
0
50
100
150
200
250
300
0.000
0
50
100
150
200
Pad test pré-op
Pad test post-op
Pré-op : moyenne ± SD = 86 g ± 46 g
Post-op : moyenne ± SD = 77 g ± 85 g
Médiane pré-op = 70 g
Médiane post-op = 48 g
Question : Efficacité de la chirurgie (ballonnet)
250
300
Exemple 3
Moyenne ± SD = 7,39 ± 0,11
Médiane = 7,41
Q1Q3 = [7,33 ; 7,46]
5
4
Densité
3
2
1
0
6.6
6.8
7.0
7.2
7.4
7.6
7.8
pH sanguin
Perspective : Pronostic pour la mortalité à 30 jours (service de réanimation)
Définition : moyenne arithmétique
• Autres noms :
– Moyenne
– Espérance (surtout lorsqu’on s’intéresse à la population)
• Valeur que tous les sujets auraient si on redistribuait
leurs points équitablement sans en changer la somme
• Cas n=2 : m est le nombre tel que 𝑥1 − 𝑚 = 𝑚 −
𝑥2 (nombre à distance égale de 𝑥1 et de 𝑥2 )
• Échantillon fini : Somme de toutes les valeurs divisé par
le nombre d’observations
– 𝑚=
𝑥1 +⋯+𝑥𝑛
𝑁
Propriétés : moyenne arithmétique
•
•
•
•
Moyenne(différences)=différence(moyennes)
Moyenne(somme)=somme(moyennes)
Exemple : Pad-test pré-op vs post-op
Sur 4 valeurs
Pad test
Obs 1 Obs 2
Obs 3
Obs 4
Moyenne
Pré-op (g)
138
50
100
30
79,5
Post-op (g)
100
50
0
46
49
Différence post-op moins pré-op
-38
0
-100
+16
-30,5
La réduction de la moyenne est égale à la moyenne des réductions individuelles
Vrai sur toute population comme sur tout échantillon
Quelque soit la distribution. Quelque soit la corrélation entre les moyennes.
Propriétés : Moyenne arithmétique
• Moyenne arithmétique ≈ médiane lorsque la distribution
est symétrique
• Comparer des moyennes suppose implicitement que
redistribuer les points entre les sujets n’a pas
d’importance.
• Une réduction/augmentation d’un point est supposé
équivalent quel que soit le niveau de base
• Exemple 1 : Coûts (€) d’hospitalisation
• Exemple 2 : Pad-test :
– 300->200 pour 1 sujet
– 20->30 pour 10 sujets
– Réduction moyenne = 0
Propriétés : Moyenne arithmétique
• Influencée par des valeurs atypiques (outliers)
• Changement d’unité
– Moyenne(c+a×X)=c+a×moyenne(X)
• Exemple : Temp moy à Rouen en janvier =
3,8°C
• Donc, temp moy (°F) à Rouen en janvier =
32+1,8×3,8 = 38,8 °F
Définition : Médiane
• Valeur telle que 50% des observations sont situées en
dessous de la médiane et 50% des observations sont
situées au dessus
• Découpe l’échantillon (ou la population) en deux
parties égales
• Associée habituellement à l’intervalle [Q1; Q3]
• Q1 : 25% des observations sont situées en dessous
• Q3 : 25% des observations sont situées au dessus
• 50% des observations sont dans [Q1 ; Q3] et 50% des
observations sont en dehors
• IQR = Q3-Q1
Propriétés : médiane
• Changement d’unité
• On peut convertir les médianes entre °C et °F
comme pour les moyennes
• Respecte toute transformation monotone :
• Médiane(log(X))=log(médiane(X))
• Doit-on s’intéresser à [H+] ou à pH=–
log10([H+]) ?
– Peu importe pour la médiane
Propriétés : médiane
• Peu influencé par les valeurs atypiques.
• La médiane des différences n’est
habituellement pas égale à la différence des
médianes
Pad test (données
imaginaires)
Obs 1
Obs 2
Obs 3
Obs 4 Obs 5
Médiane
Pré-op (g)
500
400
300
200
100
300
Post-op (g)
460
350
340
140
30
340
Différence post-op moins
pré-op
-40
-50
+40
-60
-70
-50
Cette situation est exceptionnelle. Le plus souvent la médiane des différences
a le même signe que la différence des médianes sans toutefois lui être égale
Définition : Moyenne géométrique
• Valeur que tous les sujets auraient si on assignait la même valeur à
tous sans changer le produit total
• Si n=2, la moyenne géométrique c entre 𝑥1 et 𝑥2 est le nombre 𝑚 à
distance multiplicative égale de 𝑥1 et 𝑥2 , c.à.d.
–
𝑥2
𝑚
=
𝑚
𝑥1
ou encore 𝑥1 × 𝑥2 = 𝑚 × 𝑚
• Exemple : La moyenne géométrique entre
– 𝑥1 = 10 et 𝑥2 = 90
30
90
– Vaut 𝑚 = 30 car 10 = 30
• Note : La moyenne géométrique est égale à l’exponentielle
de la moyenne arithmétique des logarithmes des valeurs
individuelles
– 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑔é𝑜 = exp mean log 𝑋
– Écart type géométrique = exp(mean(sd(𝑋)) sans unité !
Propriétés : moyenne géométrique
𝑋
𝑌
• 𝑚𝑔é𝑜
=
𝑚𝑔é𝑜 𝑋
𝑚𝑔é𝑜 𝑌
• Égale à la médiane (dans la population) pour
une distribution log-normale
0.4
Densité
0.3
0.2
0.1
0.0
0
10
20
30
40
X
50
60
70
Propriétés : moyenne géométrique
• Indéfinie dès qu’il y a un zéro ou une valeur négative !
• Dans une moindre mesure : Toute valeur trop proche
de zéro a une influence excessive
• Problème : du fait d’arrondis, les zéros existent souvent
• Bidouille : Ajouter une petite valeur (p.e. précision de
la mesure) à toutes les observations ou assigner un
« minimum » à toute observation en dessous d’un
seuil.
• Le choix de cette petite valeur doit avoir un impact
minime sur le résultat principal, sinon, changer de
modèle.
Propriétés : moyenne géométrique
• Exemple du pad test
• Comparer des moyennes géométriques suppose
implicitement l’équivalence entre : 300->100 et
30->10 et 9->3
– Suppose aussi qu’une réduction 300->100 compense
une augmentation 10->30
• Comparer des moyennes arithmétiques suppose
implicitement l’équivalence entre : 300->280 et
30->10
– Suppose qu’une aussi qu’une réduction 300->100
compense dix augmentations 10->30
Comment choisir : descriptif
• Distribution symétrique
• Privilégier moyenne ± écart type
• Distribution asymétrique
• Privilégier médiane [Q1 ; Q3]
• Intervalle correspondant à une norme clinique ou
biologique (par exemple pH)
• Recoder en variable catégorielle
• Catégorie de la norme : [7,38; 7,42]
• Autres catégories : Seuils définis par la littérature ou
découpages selon la distribution observée (quantiles)
• Décrire la proportion dans chaque catégorie
Comment choisir : analytique
• Selon l’effet attendu
– Durée de passage au SAU et avis spécialisé : Effet
attendu additif
• Exprimer en moyennes et estimer une différence de
moyennes
– Pad-test : Le chirurgien pense que l’effet de la
chirurgie est multiplicatif
• Exprimer en moyennes géométriques et estimer un rapport
de moyennes géométriques
– pH et mortalité à 30 jours : Proportion de mortalité
dans chaque catégorie découpée
Conclusion
• Moyenne arithmétique ± SD est le standard en
matière de statistique descriptive
• Penser aussi à :
– médiane [Q1 ; Q3] pour décrire une distribution
asymétrique
– La moyenne géométrique ×÷ écart type
géométrique lorsque des effets multiplicatifs
entrent en jeu
– Décrire des sous-groupes (échapper à la dictature
de la moyenne)
Téléchargement