Mesures de tendance centrale Choisir les bonnes mesures Introduction : Concept • Résumer la répartition d’une variable quantitative de manière pertinente • Tendance centrale : Point autour duquel la les données sont réparties – Moyenne arithmétique, médiane, moyenne géométrique • Dispersion – Montre à quel point les données sont proches de la mesure de tendance centrale – Écart type, intervalle interquartile, écart type géométrique Prérequis : Faire un histogramme ! Nettement moins résumé que moyenne ± écart type N=97 0.030 0.030 n=Nombre de sujets dans l’intervalle w=Largeur de l’intervalle N=Nombre total de sujets d = n/(N × w) = (n/N)/w 0.025 0.025 Densité Densité 0.020 0.020 0.015 0.015 0.010 0.005 n=1 n=1 n=0 w=10w=20w=10 N=97N=97N=97 d=0.001 d=0.001d=0 n=3 n=11 n=8 n=19n=44n=25 n=14n=33n=19 n=8 n=8 n=0 w=10w=20w=10 w=10w=20w=10 w=10w=20w=10 w=10w=20w=10 N=97N=97N=97 N=97N=97N=97 N=97N=97N=97 N=97N=97N=97 d=0.003 d=0.006 d=0.008 d=0.02 d=0.023 d=0.026 d=0.014 d=0.017 d=0.02 d=0.008 d=0.004d=0 n=0 n=0 n=0 w=10w=20w=10 N=97N=97N=97 d=0 d=0 d=0 0.000 -60 -40 -20 0 20 40 Distance entre bifurcation VCI et plateau inf L4 Le tapis est très complet mais difficile à lire. Il ne permet pas bien de voir les ex-aequo (sauf si on rajoute du jitter/sautillement) 60 Tracer des histogrammes à diverses précisions ! N=97 N=97 0.035 0.030 0.030 0.025 0.025 Densité Densité 0.035 0.020 0.020 0.015 0.015 0.010 0.010 0.005 0.005 0.000 0.000 -60 -40 -20 0 20 40 -60 60 -40 -20 0 20 40 60 Distance entre bifurcation VCI et plateau inf L4 Distance entre bifurcation VCI et plateau inf L4 N=97 N=97 0.030 0.030 0.025 0.025 Densité 0.035 Densité 0.035 0.020 0.020 0.015 0.015 0.010 0.010 0.005 0.005 0.000 0.000 -60 -40 -20 0 20 40 Distance entre bifurcation VCI et plateau inf L4 60 -60 -40 -20 0 20 40 Distance entre bifurcation VCI et plateau inf L4 60 Résumer l’histogramme numériquement • Moyenne ± écart type : -1,83 ± 16,4 • Loi normale – ~2/3 des valeurs sont comprises entre moyenne ± SD – 95% des valeurs sont comprises entre moyenne ± 1,96×SD Si la loi est normale Ces deux chiffres résument complètement la distribution N=97 0.035 0.030 Densité 0.025 0.020 0.015 0.010 0.005 0.000 -60 -40 -20 0 20 40 Distance entre bifurcation VCI et plateau inf L4 60 Exemple 1 0.10 Densité 0.08 0.06 0.04 0.02 0.00 0 10 20 30 40 50 Durée du passage aux urgences (h) Moyenne ± SD = 12,1 ± 8,9 Médiane = 8,9 Q1Q3 = [5,9 ; 16,7] Moyenne géo ×÷ écart type géo = 9,5 ×÷ 2,1 Question : Effet de la demande d’avis spécialisé sur la durée de passage aux urg Exemple 2 N=18 N=18 0.025 0.025 0.020 Densité 0.020 Densité 0.015 0.015 0.010 0.010 0.005 0.005 0.000 0 50 100 150 200 250 300 0.000 0 50 100 150 200 Pad test pré-op Pad test post-op Pré-op : moyenne ± SD = 86 g ± 46 g Post-op : moyenne ± SD = 77 g ± 85 g Médiane pré-op = 70 g Médiane post-op = 48 g Question : Efficacité de la chirurgie (ballonnet) 250 300 Exemple 3 Moyenne ± SD = 7,39 ± 0,11 Médiane = 7,41 Q1Q3 = [7,33 ; 7,46] 5 4 Densité 3 2 1 0 6.6 6.8 7.0 7.2 7.4 7.6 7.8 pH sanguin Perspective : Pronostic pour la mortalité à 30 jours (service de réanimation) Définition : moyenne arithmétique • Autres noms : – Moyenne – Espérance (surtout lorsqu’on s’intéresse à la population) • Valeur que tous les sujets auraient si on redistribuait leurs points équitablement sans en changer la somme • Cas n=2 : m est le nombre tel que 𝑥1 − 𝑚 = 𝑚 − 𝑥2 (nombre à distance égale de 𝑥1 et de 𝑥2 ) • Échantillon fini : Somme de toutes les valeurs divisé par le nombre d’observations – 𝑚= 𝑥1 +⋯+𝑥𝑛 𝑁 Propriétés : moyenne arithmétique • • • • Moyenne(différences)=différence(moyennes) Moyenne(somme)=somme(moyennes) Exemple : Pad-test pré-op vs post-op Sur 4 valeurs Pad test Obs 1 Obs 2 Obs 3 Obs 4 Moyenne Pré-op (g) 138 50 100 30 79,5 Post-op (g) 100 50 0 46 49 Différence post-op moins pré-op -38 0 -100 +16 -30,5 La réduction de la moyenne est égale à la moyenne des réductions individuelles Vrai sur toute population comme sur tout échantillon Quelque soit la distribution. Quelque soit la corrélation entre les moyennes. Propriétés : Moyenne arithmétique • Moyenne arithmétique ≈ médiane lorsque la distribution est symétrique • Comparer des moyennes suppose implicitement que redistribuer les points entre les sujets n’a pas d’importance. • Une réduction/augmentation d’un point est supposé équivalent quel que soit le niveau de base • Exemple 1 : Coûts (€) d’hospitalisation • Exemple 2 : Pad-test : – 300->200 pour 1 sujet – 20->30 pour 10 sujets – Réduction moyenne = 0 Propriétés : Moyenne arithmétique • Influencée par des valeurs atypiques (outliers) • Changement d’unité – Moyenne(c+a×X)=c+a×moyenne(X) • Exemple : Temp moy à Rouen en janvier = 3,8°C • Donc, temp moy (°F) à Rouen en janvier = 32+1,8×3,8 = 38,8 °F Définition : Médiane • Valeur telle que 50% des observations sont situées en dessous de la médiane et 50% des observations sont situées au dessus • Découpe l’échantillon (ou la population) en deux parties égales • Associée habituellement à l’intervalle [Q1; Q3] • Q1 : 25% des observations sont situées en dessous • Q3 : 25% des observations sont situées au dessus • 50% des observations sont dans [Q1 ; Q3] et 50% des observations sont en dehors • IQR = Q3-Q1 Propriétés : médiane • Changement d’unité • On peut convertir les médianes entre °C et °F comme pour les moyennes • Respecte toute transformation monotone : • Médiane(log(X))=log(médiane(X)) • Doit-on s’intéresser à [H+] ou à pH=– log10([H+]) ? – Peu importe pour la médiane Propriétés : médiane • Peu influencé par les valeurs atypiques. • La médiane des différences n’est habituellement pas égale à la différence des médianes Pad test (données imaginaires) Obs 1 Obs 2 Obs 3 Obs 4 Obs 5 Médiane Pré-op (g) 500 400 300 200 100 300 Post-op (g) 460 350 340 140 30 340 Différence post-op moins pré-op -40 -50 +40 -60 -70 -50 Cette situation est exceptionnelle. Le plus souvent la médiane des différences a le même signe que la différence des médianes sans toutefois lui être égale Définition : Moyenne géométrique • Valeur que tous les sujets auraient si on assignait la même valeur à tous sans changer le produit total • Si n=2, la moyenne géométrique c entre 𝑥1 et 𝑥2 est le nombre 𝑚 à distance multiplicative égale de 𝑥1 et 𝑥2 , c.à.d. – 𝑥2 𝑚 = 𝑚 𝑥1 ou encore 𝑥1 × 𝑥2 = 𝑚 × 𝑚 • Exemple : La moyenne géométrique entre – 𝑥1 = 10 et 𝑥2 = 90 30 90 – Vaut 𝑚 = 30 car 10 = 30 • Note : La moyenne géométrique est égale à l’exponentielle de la moyenne arithmétique des logarithmes des valeurs individuelles – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑔é𝑜 = exp mean log 𝑋 – Écart type géométrique = exp(mean(sd(𝑋)) sans unité ! Propriétés : moyenne géométrique 𝑋 𝑌 • 𝑚𝑔é𝑜 = 𝑚𝑔é𝑜 𝑋 𝑚𝑔é𝑜 𝑌 • Égale à la médiane (dans la population) pour une distribution log-normale 0.4 Densité 0.3 0.2 0.1 0.0 0 10 20 30 40 X 50 60 70 Propriétés : moyenne géométrique • Indéfinie dès qu’il y a un zéro ou une valeur négative ! • Dans une moindre mesure : Toute valeur trop proche de zéro a une influence excessive • Problème : du fait d’arrondis, les zéros existent souvent • Bidouille : Ajouter une petite valeur (p.e. précision de la mesure) à toutes les observations ou assigner un « minimum » à toute observation en dessous d’un seuil. • Le choix de cette petite valeur doit avoir un impact minime sur le résultat principal, sinon, changer de modèle. Propriétés : moyenne géométrique • Exemple du pad test • Comparer des moyennes géométriques suppose implicitement l’équivalence entre : 300->100 et 30->10 et 9->3 – Suppose aussi qu’une réduction 300->100 compense une augmentation 10->30 • Comparer des moyennes arithmétiques suppose implicitement l’équivalence entre : 300->280 et 30->10 – Suppose qu’une aussi qu’une réduction 300->100 compense dix augmentations 10->30 Comment choisir : descriptif • Distribution symétrique • Privilégier moyenne ± écart type • Distribution asymétrique • Privilégier médiane [Q1 ; Q3] • Intervalle correspondant à une norme clinique ou biologique (par exemple pH) • Recoder en variable catégorielle • Catégorie de la norme : [7,38; 7,42] • Autres catégories : Seuils définis par la littérature ou découpages selon la distribution observée (quantiles) • Décrire la proportion dans chaque catégorie Comment choisir : analytique • Selon l’effet attendu – Durée de passage au SAU et avis spécialisé : Effet attendu additif • Exprimer en moyennes et estimer une différence de moyennes – Pad-test : Le chirurgien pense que l’effet de la chirurgie est multiplicatif • Exprimer en moyennes géométriques et estimer un rapport de moyennes géométriques – pH et mortalité à 30 jours : Proportion de mortalité dans chaque catégorie découpée Conclusion • Moyenne arithmétique ± SD est le standard en matière de statistique descriptive • Penser aussi à : – médiane [Q1 ; Q3] pour décrire une distribution asymétrique – La moyenne géométrique ×÷ écart type géométrique lorsque des effets multiplicatifs entrent en jeu – Décrire des sous-groupes (échapper à la dictature de la moyenne)