différence non signification

publicité
Introduction à l’analyse
statistique
LAOUENAN Cédric
20/11/2008
[email protected]
Utilité des statistiques
• Résumer des données : statistiques descriptives
(déductives)
• Tester des hypothèses : inférence statistique
(inductives)
• Outils de la statistiques descriptive : tables de
distribution de fréquence, résumés numériques
(position, dispersion), graphiques
• Outils de la statistique inférentielle : estimation,
intervalle de confiance, tests statistiques
Statistiques descriptives
• Le but des statistiques descriptives est de
décrire un ensemble d’observations à l’aide
de quelques éléments caractéristiques
Exemple : la taille moyenne des français adultes
Types de variables
• Qualitative (on définie des classes)
– Nominal :
–
–
–
–
–
malade/non malade
groupe sanguin
sexe
catégorie socio-professionnelle
Ordinal (si il existe un ordre sur les classes)
– niveau d’étude
– stade de gravité d’une maladie
• Quantitative
– Discrète :
– nombre d’enfants d’une famille
– âge en années
– Continue :
– poids
– dosage biologique
:
Caractérisation des données qualitatives et ordinales
• Fréquence absolue et tableau des effectifs
= nombre d’individus par classe
Description de l’échantillon des groupes sanguins
• Fréquences relatives
= pour chaque classe, le rapport de son effectif au
nombre total d’individus
Fréquences relatives (exprimées en pourcentage)
Caractérisation des données qualitatives et ordinales
• Fréquences cumulées (relatives et absolues)
Les fréquences cumulées sont utilisées pour les données ordinales
Cette présentation permet de dire, par exemple, que 92% des sujets examinés
ont un stade inférieur ou égal à 2.
Caractérisation des données qualitatives et ordinales
• Diagramme « camembert »
On peut représenter les effectifs absolus ou relatifs des classes par
des secteurs de cercle dont la surface est proportionnelle à l’effectif
Caractérisation des données qualitatives et ordinales
• Diagramme en bâtons, mode
Pour les données ordinales, on peut également représenter les
fréquences absolues, relatives ou cumulées par un diagramme en bâtons
Caractérisation des données quantitatives
• Les paramètres de position
– Moyenne arithmétique :
série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0)
Moyenne = 72 kg
– Médiane : nombre égal d’observations de part et d’autre
il faut ordonner cette série de mesures (68,5 ; 70 ; 72,5 ; 73,0 ; 76,0)
Médiane = 72,5 Kg (autant de mesures < 72,5 que de mesures > 72,5)
La médiane est moins influencée que la moyenne par les valeurs extrêmes
– Mode : modalité observée avec la plus haute fréquence
– Quantiles (percentiles, déciles, quartiles) :on partage la distribution
en un nombre quelconque de parties (100, 10, 4, etc.)
Caractérisation des données quantitatives
Médiane
• Nombre impair d’observations (n=5)
– 1, 3, 7, 10, 15
– 2 obs. inférieures, 2 obs. supérieures
• Nombre pair d’observations (n=6)
– 1, 3, 7, 10, 15, 20
– Médiane = (7+10)/2 = 8,5
Quantiles
• Exemple des quartiles : on définie 3 valeurs appelées
quartiles : Q1, Q2 et Q3 qui partagent l’effectif total,
après l’avoir ordonné, en 4 classes de même effectif
(Q2 = médiane)
Caractérisation des données quantitatives
Si la distribution de fréquences est symétrique et unimodale,
moyenne, médiane et mode sont confondus
Caractérisation des données quantitatives
• Paramètres de dispersion
Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10
Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10
mais la dispersion des mesures autour de la moyenne est ≠
Caractérisation des données quantitatives
• Paramètres de dispersion
– Variance : moyenne des carrés des écarts à la moyenne
de l’échantillon
Exemple : Calcul de la variance et de l’écart-type de la mesure des poids de
5 individus dans un échantillon de moyenne 72 kg
s2 
2
(
x

x
)
 i
n 1
Caractérisation des données quantitatives
• Paramètres de dispersion
– Ecart-type : racine carrée de la variance
– Étendue : différence entre la plus grande et la plus
petite valeur de la série
– Intervalle inter-quartile : représente 50 % des
observations centrées sur la médiane. La largeur de
cet intervalle = (Q3 - Q1)
Caractérisation des données quantitatives
• Histogramme
Les données quantitatives continues peuvent être représentées par un
histogramme
La surface de chacun des rectangles est proportionnelle au nombre
d’individus de la classe
Caractérisation des données quantitatives
• Boîtes à moustache
max
Q75
Q50
Q25
min
Statistique inférentielle (1)
Estimation et intervalle de confiance
Définitions
• Population : ensembles d’unités sur lesquelles une caractéristique
peut être relevée
NB : les questions que l’on se pose, les hypothèses que l’on formule
concernent la population
• Echantillon : partie de la population d’intérêt de taille suffisamment
petite pour que la caractéristique auquel on s’intéresse puisse être
effectivement mesurée sur tous les sujets qui le composent
NB : Les observations faites sur l’échantillon servent à répondre aux
questions que l’on se pose sur la population
Les caractéristiques observées sont des variables aléatoires
Population, échantillon
Le statisticien n’étudie pas le caractère sur l’ensemble de la
population mais sur un échantillon extrait de la population,
pour plusieurs raisons, entre autres :
• La taille de la population peut être très importante et
le coût de l’enquête serait trop important
• L’accès à tous les individus de la population est
matériellement impossible
Un bon échantillon doit constituer une image réduite de
l’ensemble de la population (= être représentatif) dont
on veut étudier un caractère bien défini. Dans le cas
contraire, on dit que l’échantillon est biaisé
Échantillonnage
Comment choisir un échantillon pour qu’il soit
représentatif ?
Techniques d’échantillonnage par Tirage au
sort (= sondage aléatoire)
Problème de l’estimation
• Comment les paramètres de la population peuvent-ils être
estimés à partir de l'échantillon ?
• Il s’agit d’évaluer un paramètre sur un échantillon pour
pouvoir estimer ce paramètre pour la population entière
Estimateur
• Un bon estimateur doit :
– Être sans biais
– Avoir une faible variance
Biais et variance pour 3 estimateurs d’un paramètre θ :
U1 et U2 sont 2 estimateurs sans biais avec Var(U1) < Var(U2)
U3 est un estimateur biaisé
Intervalle d’estimation = intervalle de confiance
= intervalle, déterminé à partir des données d’un
échantillon, dans lequel on peut parier que se situe la
vraie valeur de la population cible
(avec un risque de se tromper acceptable)
• L’intervalle de confiance d’une valeur estimée dépend
– De la variabilité des données
– De la taille de l’échantillon
– Du niveau de confiance (probabilité que la vraie valeur se trouve
dans un intervalle)
Construction de 100 estimations d’intervalle. La vraie valeur μ est
correctement encadrée dans 95 % des situations
Attention !
µ reste constant, c'est l'intervalle de confiance qui varie autour de µ
pour chaque échantillon
Problèmes des échantillons
1. Représentativité
2. Fluctuation d’échantillonnage :
–
variation de l’estimation de la vraie valeur (en
population) d’un échantillon à l’autre du fait
du simple hasard
Fluctuations aléatoires
Échantillon 1
48%
Obtenir pile à pile ou face
(Probabilité = 50%)
Échantillon 2
52%
Échantillon 3
50%
Échantillon 4
45%
Fluctuations aléatoires
Échantillon 1
9%
Même type de patients
(Probabilité d'AVC = 12%)
Échantillon 2
12%
Échantillon 3
16%
Échantillon 4
26%
Fluctuations aléatoires d'échantillonnage
• Fortes pour des effectifs petits et moyens
• Faibles pour des grands effectifs
• Jamais nulles
Fluctuations aléatoires d'échantillonnage
• Conséquences pour la comparaison de 2 échantillons
– les proportions observées dans 2 échantillons peuvent être
différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même
• Elles sont susceptibles de fausser les comparaisons
Conséquences des fluctuations
Effet du traitement = 0
Vrai risque = 10%
Vrai risque = 10%
Groupe T+
Groupe T-
Risque observé = 6%
Risque observé = 12%
Différence observée = -6%
Problématique des comparaisons
• La différence observée de -6% est-elle ?
– une manifestation des fluctuations aléatoires :
donc due uniquement au hasard
– la traduction d’une réelle différence entre les deux groupes :
donc d’un effet non nul du traitement
et donc décider d'utiliser le nouveau traitement
• Comment départager ces 2 possibilités ?
Solution = test statistique
• Le hasard peut faire apparaître une différence
qui n'existe pas en réalité
• Inversement, le hasard peut réduire une
différence qui existe réellement
donc 2 façons de fausser la conclusion
Statistique inférentielle (2)
Principes généraux des tests statistiques
Les tests statistiques
• Il s’agit de tirer des conclusions sur la population à
partir de l’étude d’un ou plusieurs caractères
observés sur les individus d’un ou de plusieurs
échantillons issus de cette population
• Tests d’hypothèses : ils permettent de faire des
inférences statistiques
• Outils d'aide à la décision
Risques d’erreur statistique
• Deux risques d'erreur
– Risque alpha
– Risque bêta
• Erreurs statistiques
– dues uniquement au hasard
• Principe
– conclure à une différence
– que si le risque de faire une erreur est faible
Erreur statistique alpha (petit p)
• Risque alpha (faux positif) :
– risque de conclure à une différence qui n’existe pas
– considérer comme efficace un traitement qui ne l’est pas
Échantillon 1
7.5%
Différence
non réelle
Vrai valeur
12%
Échantillon 2
15%
Erreur statistique bêta (puissance)
• Risque bêta (faux négatif) :
– risque de ne pas mettre en évidence une différence qui existe réellement
– ne pas conclure alors que le traitement est efficace
Vrai valeur
12%
Échantillon 1
15%
Fausse absence
de différence
Vrai valeur
19%
Échantillon 2
15%
Réalité
Conclusion
Différence
Pas de différence
Différence
Pas d’erreur
Erreur bêta
Pas de différence
Erreur alpha
Pas d’erreur
Principe général du test statistique
p1 = 7%
Quelle est la probabilité de commettre une erreur
si je conclus à partir de ces données
à l'existence d'une réelle différence
p0 = 13%
Probabilité faible
Probabilité forte
Conclusion
Pas de conclusion
Conclure à l'existence d'une différence que si le
risque de faire une conclusion erronée est faible
Démarche du test statistique
• Calcul de la probabilité p
• p : probabilité que "la différence observée soit
due uniquement au hasard"
• p représente le risque de faire une conclusion
erronée si l'on décidait de conclure
• p est une quantification du risque alpha
• On ne conclut que si ce risque d'erreur est
suffisamment petit
Seuil de risque
• Seuil de risque de conclusion erronée acceptable
– seuil de risque alpha = 5%
si p<0,05  rejeter H0  conclusion = diff. significative
si p>0,05  ne pas rejeter H0  conclusion = diff. non significative
• On contrôle le risque alpha
– mais le risque d'erreurs alpha persiste
– 100 essais avec un traitement sans efficacité
conclusion à tort à l'efficacité dans 5 essais
Signification statistique
Différence
observée
Test
Différence significative
p<0.05
Il est peu probable que la
différence observée soit due
au hasard
Différence non significative
p>0.05
La probabilité que la
différence observée soit due
au hasard est forte
Seuil de signification statistique = 5%
Réalisation du test
• Calcul à partir des données de la probabilité de
commettre une erreur alpha = p
p = 0.04
p<5%  conclusion à l'existence
de la différence
parce que le risque de faire une
conclusion fausse est faible
p = 0.25
p>5%  impossible de conclure à
l'existence d'une différence
car si on concluait à une différence,
le risque d'erreur serait trop fort
p1 = 7%
p0 = 13%
p1 = 20%
p0 = 17%
Risque d'erreur bêta
• Le risque bêta est incalculable
• Impossible de quantifier le risque d'erreur quand on fait
une conclusion d'absence de différence
– il est donc impossible de faire ce type de conclusion
– les tests permettent seulement de conclure à l'existence d'une
différence
– en cas de différence non signification
• impossible de conclure
• et ne permet surtout pas de conclure à l'absence de différence vu
que le risque d'erreur est inconnu
• "l'absence de preuve n'est pas la preuve de l'absence"
Différence non significative (NS)
Absence réelle
d'effet
Résultat
non significatif
?
Manque de
puissance
Exemple
OBJECTIF : Evaluer l’efficacité d’une injection unique de
tobramycine chez des patientes atteintes une pyélonéphrite aiguë
RÉSULTATS : 118 patientes ont été inclues, 60 dans le groupe
tobramycine et 58 dans le groupe placebo.
- 2 échecs sont survenus dans le groupe tobramycine
- et 4 dans le groupe placebo (p non significatif).
CONCLUSION : L’administration d’une dose de tobramycine
n’améliore aucun paramètre clinique dans le traitement des
pyélonéphrites aiguës (ou manque de puissance…?)
Dualité entre test
et intervalle de confiance
Intervalle de confiance
• Intervalle qui a 95% de chance de contenir la vraie valeur
« IC 95% »
• il est raisonnable de parier que la vraie valeur est dans
l'intervalle (prob de 95%)
• il est peu probable (prob 5%)
– que la vraie valeur soit > à la borne sup
– ou que la vraie valeur soit < à la borne inf
– il est donc peu raisonnable de parier que la vraie valeur soit à
l'extérieur de l'IC
Intervalle de confiance
• Différence = -6%
• IC 95% = [-8%;-4%]
• L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie
valeur de la différence
• Reflète l'incertitude de l'estimation
• Il n'est pas possible d'exclure que le vrai effet ne soit que
de -4%
NS
p<0.05
IC 95%
-8
-6
Résultat
observé
-4
Relation entre IC et test
• IC d’une différence n'incluant pas 0
– [-10% ; -4%]
– la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero
est <=5%
– donc il est possible de conclure à une différence non nulle car le
risque d’erreur alpha est <=5%
= différence significative (au seuil de 5%)
• IC de la différence des risques incluant 0
– [-20% ; 20%]
= différence non significative
-5% [-10%,-2%]
P<0.05
-2% [-9%;+2%]
NS
0
Différence
Téléchargement