Introduction à l’analyse statistique LAOUENAN Cédric 20/11/2008 [email protected] Utilité des statistiques • Résumer des données : statistiques descriptives (déductives) • Tester des hypothèses : inférence statistique (inductives) • Outils de la statistiques descriptive : tables de distribution de fréquence, résumés numériques (position, dispersion), graphiques • Outils de la statistique inférentielle : estimation, intervalle de confiance, tests statistiques Statistiques descriptives • Le but des statistiques descriptives est de décrire un ensemble d’observations à l’aide de quelques éléments caractéristiques Exemple : la taille moyenne des français adultes Types de variables • Qualitative (on définie des classes) – Nominal : – – – – – malade/non malade groupe sanguin sexe catégorie socio-professionnelle Ordinal (si il existe un ordre sur les classes) – niveau d’étude – stade de gravité d’une maladie • Quantitative – Discrète : – nombre d’enfants d’une famille – âge en années – Continue : – poids – dosage biologique : Caractérisation des données qualitatives et ordinales • Fréquence absolue et tableau des effectifs = nombre d’individus par classe Description de l’échantillon des groupes sanguins • Fréquences relatives = pour chaque classe, le rapport de son effectif au nombre total d’individus Fréquences relatives (exprimées en pourcentage) Caractérisation des données qualitatives et ordinales • Fréquences cumulées (relatives et absolues) Les fréquences cumulées sont utilisées pour les données ordinales Cette présentation permet de dire, par exemple, que 92% des sujets examinés ont un stade inférieur ou égal à 2. Caractérisation des données qualitatives et ordinales • Diagramme « camembert » On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l’effectif Caractérisation des données qualitatives et ordinales • Diagramme en bâtons, mode Pour les données ordinales, on peut également représenter les fréquences absolues, relatives ou cumulées par un diagramme en bâtons Caractérisation des données quantitatives • Les paramètres de position – Moyenne arithmétique : série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0) Moyenne = 72 kg – Médiane : nombre égal d’observations de part et d’autre il faut ordonner cette série de mesures (68,5 ; 70 ; 72,5 ; 73,0 ; 76,0) Médiane = 72,5 Kg (autant de mesures < 72,5 que de mesures > 72,5) La médiane est moins influencée que la moyenne par les valeurs extrêmes – Mode : modalité observée avec la plus haute fréquence – Quantiles (percentiles, déciles, quartiles) :on partage la distribution en un nombre quelconque de parties (100, 10, 4, etc.) Caractérisation des données quantitatives Médiane • Nombre impair d’observations (n=5) – 1, 3, 7, 10, 15 – 2 obs. inférieures, 2 obs. supérieures • Nombre pair d’observations (n=6) – 1, 3, 7, 10, 15, 20 – Médiane = (7+10)/2 = 8,5 Quantiles • Exemple des quartiles : on définie 3 valeurs appelées quartiles : Q1, Q2 et Q3 qui partagent l’effectif total, après l’avoir ordonné, en 4 classes de même effectif (Q2 = médiane) Caractérisation des données quantitatives Si la distribution de fréquences est symétrique et unimodale, moyenne, médiane et mode sont confondus Caractérisation des données quantitatives • Paramètres de dispersion Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10 Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10 mais la dispersion des mesures autour de la moyenne est ≠ Caractérisation des données quantitatives • Paramètres de dispersion – Variance : moyenne des carrés des écarts à la moyenne de l’échantillon Exemple : Calcul de la variance et de l’écart-type de la mesure des poids de 5 individus dans un échantillon de moyenne 72 kg s2 2 ( x x ) i n 1 Caractérisation des données quantitatives • Paramètres de dispersion – Ecart-type : racine carrée de la variance – Étendue : différence entre la plus grande et la plus petite valeur de la série – Intervalle inter-quartile : représente 50 % des observations centrées sur la médiane. La largeur de cet intervalle = (Q3 - Q1) Caractérisation des données quantitatives • Histogramme Les données quantitatives continues peuvent être représentées par un histogramme La surface de chacun des rectangles est proportionnelle au nombre d’individus de la classe Caractérisation des données quantitatives • Boîtes à moustache max Q75 Q50 Q25 min Statistique inférentielle (1) Estimation et intervalle de confiance Définitions • Population : ensembles d’unités sur lesquelles une caractéristique peut être relevée NB : les questions que l’on se pose, les hypothèses que l’on formule concernent la population • Echantillon : partie de la population d’intérêt de taille suffisamment petite pour que la caractéristique auquel on s’intéresse puisse être effectivement mesurée sur tous les sujets qui le composent NB : Les observations faites sur l’échantillon servent à répondre aux questions que l’on se pose sur la population Les caractéristiques observées sont des variables aléatoires Population, échantillon Le statisticien n’étudie pas le caractère sur l’ensemble de la population mais sur un échantillon extrait de la population, pour plusieurs raisons, entre autres : • La taille de la population peut être très importante et le coût de l’enquête serait trop important • L’accès à tous les individus de la population est matériellement impossible Un bon échantillon doit constituer une image réduite de l’ensemble de la population (= être représentatif) dont on veut étudier un caractère bien défini. Dans le cas contraire, on dit que l’échantillon est biaisé Échantillonnage Comment choisir un échantillon pour qu’il soit représentatif ? Techniques d’échantillonnage par Tirage au sort (= sondage aléatoire) Problème de l’estimation • Comment les paramètres de la population peuvent-ils être estimés à partir de l'échantillon ? • Il s’agit d’évaluer un paramètre sur un échantillon pour pouvoir estimer ce paramètre pour la population entière Estimateur • Un bon estimateur doit : – Être sans biais – Avoir une faible variance Biais et variance pour 3 estimateurs d’un paramètre θ : U1 et U2 sont 2 estimateurs sans biais avec Var(U1) < Var(U2) U3 est un estimateur biaisé Intervalle d’estimation = intervalle de confiance = intervalle, déterminé à partir des données d’un échantillon, dans lequel on peut parier que se situe la vraie valeur de la population cible (avec un risque de se tromper acceptable) • L’intervalle de confiance d’une valeur estimée dépend – De la variabilité des données – De la taille de l’échantillon – Du niveau de confiance (probabilité que la vraie valeur se trouve dans un intervalle) Construction de 100 estimations d’intervalle. La vraie valeur μ est correctement encadrée dans 95 % des situations Attention ! µ reste constant, c'est l'intervalle de confiance qui varie autour de µ pour chaque échantillon Problèmes des échantillons 1. Représentativité 2. Fluctuation d’échantillonnage : – variation de l’estimation de la vraie valeur (en population) d’un échantillon à l’autre du fait du simple hasard Fluctuations aléatoires Échantillon 1 48% Obtenir pile à pile ou face (Probabilité = 50%) Échantillon 2 52% Échantillon 3 50% Échantillon 4 45% Fluctuations aléatoires Échantillon 1 9% Même type de patients (Probabilité d'AVC = 12%) Échantillon 2 12% Échantillon 3 16% Échantillon 4 26% Fluctuations aléatoires d'échantillonnage • Fortes pour des effectifs petits et moyens • Faibles pour des grands effectifs • Jamais nulles Fluctuations aléatoires d'échantillonnage • Conséquences pour la comparaison de 2 échantillons – les proportions observées dans 2 échantillons peuvent être différentes – uniquement du fait du hasard – même si dans ces 2 échantillons la vraie probabilité était la même • Elles sont susceptibles de fausser les comparaisons Conséquences des fluctuations Effet du traitement = 0 Vrai risque = 10% Vrai risque = 10% Groupe T+ Groupe T- Risque observé = 6% Risque observé = 12% Différence observée = -6% Problématique des comparaisons • La différence observée de -6% est-elle ? – une manifestation des fluctuations aléatoires : donc due uniquement au hasard – la traduction d’une réelle différence entre les deux groupes : donc d’un effet non nul du traitement et donc décider d'utiliser le nouveau traitement • Comment départager ces 2 possibilités ? Solution = test statistique • Le hasard peut faire apparaître une différence qui n'existe pas en réalité • Inversement, le hasard peut réduire une différence qui existe réellement donc 2 façons de fausser la conclusion Statistique inférentielle (2) Principes généraux des tests statistiques Les tests statistiques • Il s’agit de tirer des conclusions sur la population à partir de l’étude d’un ou plusieurs caractères observés sur les individus d’un ou de plusieurs échantillons issus de cette population • Tests d’hypothèses : ils permettent de faire des inférences statistiques • Outils d'aide à la décision Risques d’erreur statistique • Deux risques d'erreur – Risque alpha – Risque bêta • Erreurs statistiques – dues uniquement au hasard • Principe – conclure à une différence – que si le risque de faire une erreur est faible Erreur statistique alpha (petit p) • Risque alpha (faux positif) : – risque de conclure à une différence qui n’existe pas – considérer comme efficace un traitement qui ne l’est pas Échantillon 1 7.5% Différence non réelle Vrai valeur 12% Échantillon 2 15% Erreur statistique bêta (puissance) • Risque bêta (faux négatif) : – risque de ne pas mettre en évidence une différence qui existe réellement – ne pas conclure alors que le traitement est efficace Vrai valeur 12% Échantillon 1 15% Fausse absence de différence Vrai valeur 19% Échantillon 2 15% Réalité Conclusion Différence Pas de différence Différence Pas d’erreur Erreur bêta Pas de différence Erreur alpha Pas d’erreur Principe général du test statistique p1 = 7% Quelle est la probabilité de commettre une erreur si je conclus à partir de ces données à l'existence d'une réelle différence p0 = 13% Probabilité faible Probabilité forte Conclusion Pas de conclusion Conclure à l'existence d'une différence que si le risque de faire une conclusion erronée est faible Démarche du test statistique • Calcul de la probabilité p • p : probabilité que "la différence observée soit due uniquement au hasard" • p représente le risque de faire une conclusion erronée si l'on décidait de conclure • p est une quantification du risque alpha • On ne conclut que si ce risque d'erreur est suffisamment petit Seuil de risque • Seuil de risque de conclusion erronée acceptable – seuil de risque alpha = 5% si p<0,05 rejeter H0 conclusion = diff. significative si p>0,05 ne pas rejeter H0 conclusion = diff. non significative • On contrôle le risque alpha – mais le risque d'erreurs alpha persiste – 100 essais avec un traitement sans efficacité conclusion à tort à l'efficacité dans 5 essais Signification statistique Différence observée Test Différence significative p<0.05 Il est peu probable que la différence observée soit due au hasard Différence non significative p>0.05 La probabilité que la différence observée soit due au hasard est forte Seuil de signification statistique = 5% Réalisation du test • Calcul à partir des données de la probabilité de commettre une erreur alpha = p p = 0.04 p<5% conclusion à l'existence de la différence parce que le risque de faire une conclusion fausse est faible p = 0.25 p>5% impossible de conclure à l'existence d'une différence car si on concluait à une différence, le risque d'erreur serait trop fort p1 = 7% p0 = 13% p1 = 20% p0 = 17% Risque d'erreur bêta • Le risque bêta est incalculable • Impossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de différence – il est donc impossible de faire ce type de conclusion – les tests permettent seulement de conclure à l'existence d'une différence – en cas de différence non signification • impossible de conclure • et ne permet surtout pas de conclure à l'absence de différence vu que le risque d'erreur est inconnu • "l'absence de preuve n'est pas la preuve de l'absence" Différence non significative (NS) Absence réelle d'effet Résultat non significatif ? Manque de puissance Exemple OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine chez des patientes atteintes une pyélonéphrite aiguë RÉSULTATS : 118 patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. - 2 échecs sont survenus dans le groupe tobramycine - et 4 dans le groupe placebo (p non significatif). CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës (ou manque de puissance…?) Dualité entre test et intervalle de confiance Intervalle de confiance • Intervalle qui a 95% de chance de contenir la vraie valeur « IC 95% » • il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%) • il est peu probable (prob 5%) – que la vraie valeur soit > à la borne sup – ou que la vraie valeur soit < à la borne inf – il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC Intervalle de confiance • Différence = -6% • IC 95% = [-8%;-4%] • L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie valeur de la différence • Reflète l'incertitude de l'estimation • Il n'est pas possible d'exclure que le vrai effet ne soit que de -4% NS p<0.05 IC 95% -8 -6 Résultat observé -4 Relation entre IC et test • IC d’une différence n'incluant pas 0 – [-10% ; -4%] – la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero est <=5% – donc il est possible de conclure à une différence non nulle car le risque d’erreur alpha est <=5% = différence significative (au seuil de 5%) • IC de la différence des risques incluant 0 – [-20% ; 20%] = différence non significative -5% [-10%,-2%] P<0.05 -2% [-9%;+2%] NS 0 Différence