PACES - APEMK UE 4 Evaluation des méthodes d’analyses appliquées aux sciences de la vie et de la santé Estimateur et Estimation Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie (EA3181) CHRU Besançon Plan du cours I - Echantillon et estimation II -Estimateur et estimateur ponctuel III - Distribution d’échantillonnage IV - Estimation par intervalle de confiance V - Imprécision et taille de l’échantillon ECHANTILLON ET ESTIMATION Evaluer un paramètre (une caractéristique) sur un échantillon afin d’estimer (inférence) ce paramètre pour la population entière. Echantillon et estimation Fonction de distribution d’une variable • Echantillon obtenu par sondage aléatoire simple = Représentatif de la population étudiée • Réaliser une estimation ponctuelle qui revient à attribuer une valeur, l’estimation, au paramètre de la population à partir des données provenant de l’échantillon. • On est ainsi amené à construire un estimateur qui est une fonction qui associe l’estimation à l’échantillon • D’un échantillon à l’autre l’estimateur utilisé est le même mais on peut avoir des estimations ponctuelles différentes Estimateurs et Estimation ponctuelle Définition de la procédure d’estimation L’estimateur est une nouvelle variable aléatoire construite à partir des données expérimentales-de l’ échantillon et dont la valeur se rapproche du paramètre que l’on cherche à connaître. Définition d’un estimateur et d’une estimation un estimateur du paramètre θ est une variable aléatoire φ fonction des Xi L'estimation de θ est une variable aléatoire φ dont la distribution de probabilité s'appelle la distribution d'échantillonnage du paramètre θ. L'estimateur φ admet donc une espérance E(φ) et une variance V(φ). Les propriétés requises pour un bon estimateur son espérance mathématique tend vers θ quand n augmente indéfiniment sa variance tend vers 0 quand n augmente indéfiniment Estimation ponctuelle : moyenne et pourcentage Estimation ponctuelle variance Variance Moyenne des carrés des écarts à la moyenne Distribution d’échantillonnage Distribution d’échantillonnage de la moyenne Distribution d’échantillonnage de la moyenne • Estimation de la moyenne d’une population • Soient μ et σ2 la moyenne et la variance (inconnues), obtenues à partir d’un échantillon pris au hasard, d’une v.a. que l’on cherche à estimer. • Supposons que l’on effectue z échantillonnages (tirages au sort), tous d’effectif n, dans cette population et que l’on obtienne les résultats suivants : – – – – x1, x2, …, xn : premier échantillon d’effectif n y1, y2, …, yn : deuxième échantillon d’effectif n … z1, z2, …, zn : z ième échantillon d’effectif n Distribution d’échantillonnage de la moyenne • On peut, pour chacun des échantillons, calculer leur moyenne : - Chacune des moyennes est une estimation de la moyenne de la population ; - Celles ci sont différentes Distribution d’échantillonnage de la moyenne Estimation par intervalle de confiance Définition d’un intervalle de confiance Si je répète 100 fois l’ expérience i.e. l’estimation de la moyenne j’ai, avec un risque d’erreur de 5%, 95% de Chance que la moyenne de la population dans soit dans l’IC Définition d’un intervalle de confiance Construction de 100 estimations d’intervalle pour les 100 échantillons. La vraie valeur μ est correctement encadrée dans 95 % des situations Bien distinguer : • Intervalle de pari Concerne la loi connue d’un paramètre (moyenne, proportion, …) • A priori, on veut demontrer que l’estimation se trouve dans un intervalle fixé • Intervalle de confiance Concerne l’estimation d’un paramètre inconnu à partir d’observations tirées d’un échantillon Intervalle de Pari & Intervalle de confiance Si l'on extrait d'une population parfaitement définie (µ et σ connus) des échantillons suffisamment grands ( en pratique n>30) IP = 95 % des valeurs moyennes des n échantillons appartiennent à l'intervalle fixé au préalable Intervalle de confiance d’une moyenne Cas le plus courant Ecart type de la moyenne Estimation de la moyenne Estimation de la variance de la population Ecart type de la moyenne Intervalle de confiance d’une moyenne Intervalle de confiance d’un pourcentage Facteurs influençant l’IC Mais pas les mêmes conséquences sur la précision des estimations IC d’autres paramètres Imprécision et taille de l’échantillon Imprécision - Risque d’erreur - taille de l’échantillon Imprécision absolue et relative Taille de l’échantillon – Estimation d’une moyenne Taille de l’échantillon – Estimation d’un pourcentage PACES - APEMK UE 4 Evaluation des méthodes d’analyses appliquées aux sciences de la vie et de la santé Le Principe des tests d’hypothèse Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie (EA3181) CHRU Besançon Plan • GENERALITES – 1. a ) Fluctuations d’échantillonnage et tests statistiques – 1. b ) Qu’est-ce qu’un test statistique (ou d’hypothèses) ? – 1. c ) Les étapes de mise en œuvre et réalisation d’un test. • II. FORMULATION DES HYPOTHESES – Test unilatéraux et test bilatéraux • III . RISQUES D’ERREUR • IV . VARIABLE DE DECISION ou CHOIX DU TEST STATISTIQUE Plan • V . DEFINITION DE LA ZONE DE REJET DU TEST – 5. a) Test unilatéraux – 5. b) Test bilatéraux • VI. CONCLUSION DU TEST – 6. a) Calcul de la valeur expérimentale de la variable de décision. – 6. b) Conclusion du test : Rejet ou non de Ho – 6. c) Calcul du degré de signification « p » Généralités Généralités Définir l’Hypothèse nulle H0 que l’on souhaite rejeter Fixer le risque d’erreur global acceptable du test dans l’hypothèse où H0 est vraie Formulation des hypothèses Attention : la formulation des hypothèses ne se fait pas avec les estimateurs mais avec les paramètres que l’on souhaite estimer Les risques d’erreur Pas d’erreur Risque α = Faux positif Les risques d’erreur Risque β = Faux négatif Les risques d’erreur Choix de la variable de décision Choix de la variable de décision • Méthode classique – Avec la «méthode classique», la conclusion au test statistique repose sur la comparaison entre la valeur du résultat de la statistique du test choisie et la valeur seuil – Fonction d’un risque d’erreur α fixé a priori et arbitrairement • Rejet de H0 si – |résultat de la statistique du test| ≥|valeur seuil| • Non rejet = Conservation de H0 si – |résultat de la statistique du test| <|valeur seuil| • Calcul du degré de signification – Quantifie la crédibilité de H0 au vue des données observées – p: probabilité d’observer une différence au moins aussi importante que celle observée sous H0 Définition des valeurs seuils de rejet Z = valeur seuil de décision Valeur seuil de décision Valeur seuil de décision Conclusion du test Conclusion du test Degré de signification Calcul du degré de signification - Quantifie la crédibilité de H0 au vue des données observées - p: probabilité d’observer une différence au moins aussi importante que celle observée sous H0 Degré de signification p = Proba(valeur de la statistique ≥ valeur calculée si H0 est vraie) Synthèse • La conclusion du test statistique repose sur la comparaison entre la valeur du degré de signification et la valeur de α • Rejet de H0 si – p <α • Non rejet = Conservation de H0 si – p ≥α • En général on conclu avec un risque d’erreur α et on donne le degré de signification p Synthèse • p < α ⇔ valeur calculée de la statistique > valeur seuil • Valeur calculée de la statistique ↗⇒↘p • p n’est pas le risque ou la probabilité de rejeter à tord l’hypothèse nulle • p traduit en terme de probabilité l’éloignement entre la valeur observée de la statistique et la valeur attendue sous H0 • p ne s’interprète pas en terme de force de différence • p ↘quand écart entre la réalité et H0 est grand, puissance élevée, les deux, hasard (risque α)