PACES - APEMK UE 4 Evaluation des méthodes d`analyses

PACES - APEMK
UE 4
Evaluation des méthodes d’analyses appliquées aux
sciences de la vie et de la santé
Estimateur et Estimation
Prof Franck Bonnetain
Unité de méthodologie & de qualité de vie
en cancérologie (EA3181)
CHRU Besançon
Plan du cours
I - Echantillon et estimation
II -Estimateur et estimateur ponctuel
III - Distribution d’échantillonnage
IV - Estimation par intervalle de confiance
V - Imprécision et taille de l’échantillon
ECHANTILLON
ET
ESTIMATION
Evaluer un paramètre (une caractéristique)
sur un échantillon afin d’estimer (inférence) ce
paramètre pour la population entière.
Echantillon et estimation
Fonction de
distribution d’une
variable
•
Echantillon obtenu par sondage aléatoire simple = Représentatif de la population étudiée
•
Réaliser une estimation ponctuelle qui revient à attribuer une valeur, l’estimation, au paramètre
de la population à partir des données provenant de l’échantillon.
•
On est ainsi amené à construire un estimateur qui est une fonction qui associe l’estimation à
l’échantillon
•
D’un échantillon à l’autre l’estimateur utilisé est le même mais on peut avoir des estimations
ponctuelles différentes
Estimateurs
et
Estimation ponctuelle
Définition de la procédure d’estimation
L’estimateur est une nouvelle variable aléatoire construite à
partir des données expérimentales-de l’ échantillon et dont la
valeur se rapproche du paramètre que l’on cherche à connaître.
Définition d’un estimateur et d’une
estimation
un estimateur du paramètre
θ est une variable
aléatoire φ fonction des Xi
L'estimation de θ est une variable aléatoire φ dont la distribution de probabilité
s'appelle la distribution d'échantillonnage du paramètre θ. L'estimateur φ admet
donc une espérance E(φ) et une variance V(φ).
Les propriétés requises pour un bon
estimateur
son espérance
mathématique tend vers
θ quand n augmente
indéfiniment
sa variance tend vers
0 quand n augmente
indéfiniment
Estimation ponctuelle :
moyenne et pourcentage
Estimation ponctuelle
variance
Variance Moyenne des
carrés des écarts à la
moyenne
Distribution
d’échantillonnage
Distribution d’échantillonnage
de la moyenne
Distribution d’échantillonnage
de la moyenne
• Estimation de la moyenne d’une population
• Soient μ et σ2 la moyenne et la variance (inconnues), obtenues
à partir d’un échantillon pris au hasard, d’une v.a. que l’on
cherche à estimer.
• Supposons que l’on effectue z échantillonnages (tirages au sort),
tous d’effectif n, dans cette population et que l’on obtienne les
résultats suivants :
–
–
–
–
x1, x2, …, xn : premier échantillon d’effectif n
y1, y2, …, yn : deuxième échantillon d’effectif n
…
z1, z2, …, zn : z ième échantillon d’effectif n
Distribution d’échantillonnage
de la moyenne
• On peut, pour chacun des échantillons, calculer leur moyenne :
- Chacune des moyennes est une estimation
de la moyenne de la population ;
- Celles ci sont différentes
Distribution d’échantillonnage
de la moyenne
Estimation
par intervalle
de confiance
Définition
d’un intervalle de confiance
Si je répète 100 fois l’ expérience i.e. l’estimation de la moyenne j’ai, avec
un risque d’erreur de 5%, 95% de Chance que la moyenne de la
population dans soit dans l’IC
Définition
d’un intervalle de confiance
Construction de 100
estimations d’intervalle pour
les 100 échantillons.
La vraie valeur μ est
correctement encadrée dans
95 % des situations
Bien distinguer :
• Intervalle de pari
Concerne la loi connue d’un paramètre (moyenne, proportion, …)‫‏‬
• A priori, on veut demontrer que l’estimation se trouve dans un intervalle
fixé
• Intervalle de confiance
Concerne l’estimation d’un paramètre inconnu à partir
d’observations tirées d’un échantillon
Intervalle de Pari & Intervalle de
confiance
Si l'on extrait d'une population parfaitement définie (µ et σ connus) des échantillons
suffisamment grands ( en pratique n>30)
IP = 95 % des valeurs moyennes des n échantillons appartiennent à l'intervalle fixé
au préalable
Intervalle de confiance d’une moyenne
Cas le plus courant
Ecart type de la moyenne
Estimation de la moyenne
Estimation de la variance de la population
Ecart type de la moyenne
Intervalle de confiance d’une moyenne
Intervalle de confiance d’un
pourcentage
Facteurs influençant l’IC
Mais pas les mêmes
conséquences sur la précision
des estimations
IC d’autres paramètres
Imprécision et taille de
l’échantillon
Imprécision - Risque d’erreur - taille de
l’échantillon
Imprécision absolue et relative
Taille de l’échantillon – Estimation
d’une moyenne
Taille de l’échantillon – Estimation d’un
pourcentage
PACES - APEMK
UE 4
Evaluation des méthodes d’analyses appliquées aux
sciences de la vie et de la santé
Le Principe des tests
d’hypothèse
Prof Franck Bonnetain
Unité de méthodologie & de qualité de vie en
cancérologie (EA3181)
CHRU Besançon
Plan
• GENERALITES
– 1. a ) Fluctuations d’échantillonnage et tests statistiques
– 1. b ) Qu’est-ce qu’un test statistique (ou d’hypothèses) ?
– 1. c ) Les étapes de mise en œuvre et réalisation d’un test.
• II. FORMULATION DES HYPOTHESES
– Test unilatéraux et test bilatéraux
• III . RISQUES D’ERREUR
• IV . VARIABLE DE DECISION ou CHOIX DU TEST STATISTIQUE
Plan
• V . DEFINITION DE LA ZONE DE REJET DU TEST
– 5. a) Test unilatéraux
– 5. b) Test bilatéraux
• VI. CONCLUSION DU TEST
– 6. a) Calcul de la valeur expérimentale de la variable
de décision.
– 6. b) Conclusion du test : Rejet ou non de Ho
– 6. c) Calcul du degré de signification « p »
Généralités
Généralités
Définir l’Hypothèse nulle H0
que l’on souhaite rejeter
Fixer le risque d’erreur global acceptable du
test dans l’hypothèse où H0 est vraie
Formulation des hypothèses
Attention : la formulation des hypothèses ne se fait pas avec les
estimateurs mais avec les paramètres que l’on souhaite estimer
Les risques d’erreur
Pas d’erreur
Risque α = Faux positif
Les risques d’erreur
Risque β = Faux négatif
Les risques d’erreur
Choix de la variable de décision
Choix de la variable de décision
• Méthode classique
– Avec la «méthode classique», la conclusion au test statistique repose sur la
comparaison entre la valeur du résultat de la statistique du test choisie et la
valeur seuil
– Fonction d’un risque d’erreur α fixé a priori et arbitrairement
• Rejet de H0 si
– |résultat de la statistique du test| ≥|valeur seuil|
• Non rejet = Conservation de H0 si
– |résultat de la statistique du test| <|valeur seuil|
• Calcul du degré de signification
– Quantifie la crédibilité de H0 au vue des données observées
– p: probabilité d’observer une différence au moins aussi importante que celle
observée sous H0
Définition des valeurs seuils de rejet
Z = valeur seuil
de décision
Valeur seuil de décision
Valeur seuil de décision
Conclusion du test
Conclusion du test
Degré de signification
Calcul du degré de signification
- Quantifie la crédibilité de H0 au vue des données observées
- p: probabilité d’observer une différence au moins aussi importante que
celle observée sous H0
Degré de signification
p = Proba(valeur de la statistique ≥ valeur calculée si H0 est vraie)
Synthèse
• La conclusion du test statistique repose sur la
comparaison entre la valeur du degré de signification et
la valeur de α
• Rejet de H0 si
– p <α
• Non rejet = Conservation de H0 si
– p ≥α
• En général on conclu avec un risque d’erreur α et on
donne le degré de signification p
Synthèse
• p < α ⇔ valeur calculée de la statistique > valeur seuil
• Valeur calculée de la statistique ↗⇒↘p
• p n’est pas le risque ou la probabilité de rejeter à tord l’hypothèse
nulle
• p traduit en terme de probabilité l’éloignement entre la valeur
observée de la statistique et la valeur attendue sous H0
• p ne s’interprète pas en terme de force de différence
• p ↘quand écart entre la réalité et H0 est grand, puissance élevée,
les deux, hasard (risque α)