Stage de Pré-Rentrée 2015 – Biostatistiques UE 4 Diaporama réalisé par l’équipe d’UE4

publicité
Stage de Pré-Rentrée 2015
UE 4 – Biostatistiques
Diaporama réalisé par l’équipe d’UE4
*
Introduction
• À partir d'observations :
- il est possible de bâtir a posteriori une théorie susceptible
d'expliquer les faits observés ; c’est une démarche inductive.
- mais une seule observation inattendue suffit à la falsifier.
• L'approche scientifique impose :
- d'énoncer une hypothèse préalable à tout essai d'explication.
- de tester cette hypothèse par l'expérimentation.
- de corroborer ou de réfuter l’hypothèse.
Le but étant d’établir un lien causal entre une cause et sa
conséquence (entre la prise d’un médicament et l’amélioration de la
condition du patient par exemple).
Attention : il ne faut pas confondre lien statistique et lien causal, le lien statistique n’est
qu’un argument en faveur d’un lien causal, il n’a donc pas la même portée.
Lien causal= faisceau d’arguments
Le faisceau d’arguments suivant est nécessaire à la conclusion à un
lien causal.
1. Preuves expérimentales.
2. Reproductibilité : caractère systématique ou presque du lien.
3. Temporalité : la cause doit précéder son effet.
4. Relation dose-effet : plus la "dose" de cause augmente plus son
effet (positif ou négatif) est augmenté.
5. Suppression de la cause : si la cause est supprimée, l'effet dû à la
cause disparaît.
6. Spécificité : innocenter d'autres causes.
7. Cohérence avec d'autres données scientifiques;
8. Force de l'association
Démarche en sciences de la vie
Les paramètres étudiés en sciences de la vie présentent certaines
difficultés :
- ils sont difficilement isolables.
- les mesures ne peuvent pas être répétées à l’identique :
• Variabilité analytique : due aux instruments de mesure…
• Variabilité biologique : due aux différences entre plusieurs
individus
- il existe une variabilité inter et intra-individuelle.
• On se rapproche de la démarche expérimentale.
- émettre une hypothèse.
- écrire un protocole : conditions + hypothèse + méthode.
- tester l’hypothèse par une « expérimentation » :
• sur groupe(s) de sujets aussi déterminé(s) que possible.
• effectuer les mesures.
- calculer et comprendre les résultats :
• corroborer ou invalider l’hypothèse sur le(s) groupe(s).
• tenir compte de l’incertitude.
- généraliser à une population.
Partie I : Probabilités
INTRODUCTION
(n1,m1,σ1)
Comparaison
par des Test
d’inférence
statistique
Estimation
Echant1
échantillonnage
Population2
(N2,µ2,)
Estimation
échantillonnage
Population 1
(N1,µ1,)
Echant2
(n2,m2, σ2)
N et n = nombres de sujets ; µ et m = moyennes (ou espérances) ;
σ = écart type.
• Population : série exhaustive.
– finie ou infinie.
– critères précis d’appartenance.
• Échantillon : sous-ensemble fini.
– extrait d’une population.
– représentatif de la population P si extrait au hasard de P.
Espace fondamental et événement
A∩B
F
A
B
A∪B
• On en déduit avec le dessin :
P(A∪B)=P(A)+P(B)-P(A∩B)
Mesures de Probabilités
• La probabilité est une fonction mathématique qui associe à chaque
événement un nombre réel entre 0 et 1.
• P(E)∈ [0;1], une proba n’est jamais un pourcentage %.
• Propriétés: P(Ω)=1 ; P(Ø)=0.
– Si A∩B=0 ⇒ P(A∪B)=P(A)+P(B), les deux évènements sont
incompatibles.
– Si A1, A2, …, Ak sont k évènements (k fini) qui s’excluent
mutuellement (Ai ∩ Aj = 0) ⇒ P(A1+A2+....+Ak)=P(A1)+P(A2)+ ...
+P(Ak), comme le lancer de dè.
– Deux événements A et B sont indépendants si
P(A∩B)=P(A)xP(B).
– Deux évènements A et B sont équiprobables si P(A)=P(B).
Attention : incompatibilité et indépendance sont deux choses différentes, deux évènements
sont incompatibles lorsqu’il ne peuvent pas se produire tous les deux alors que deux
évènements sont indépendants lorsque l’évènement A n’a pas d’influence sur l’évènement
B et inversement (les deux évènements pouvant se produire et étant donc compatibles).
Probabilités combinatoires
1)
Permutations : P(n)
• n objets peuvent être rangés de P(n) façons différentes.
• P(n) est le nombre de permutations possibles, de n objets.
• P(n)=n×(n-1) ×…×2 ×1=n! (n factoriel).
• Par convention, P(0) = 0! =1.
– Exemple : 4 enfants se tiennent la main avant de rentrer en
classe, de combien de façons peut-on les ranger ?
→ P(4) = 4!=1x2x3x4=24.
2) Arrangements : Anp
3) Combinaisons: Cnp
Récapitulatif
Probabilités conditionnelles
Arbres de probabilités
• On a vu que : P(A∩B)=P(A/B) x P(B)
• On peut ainsi représenter les cas possibles par un arbre. La
probabilité qu’un chemin particulier se réalise est égale au produit
de chaque probabilité des branches du chemin.
Théorème de Bayes
Application de ce théorème dans les
évaluations de procédures
diagnostiques:
M
M
S
a
b
S
c
d
• Estimation de la sensibilité : a/(a + c).
• Estimation de la spécificité : d/(d + b).
• VPP : a/(a + b).
• VPN : d/(c + d).
• Estimation car on travaille sur des échantillons !
• a,b,c,d sont
des valeurs
quelconques.
• S = diarhée.
• M= gastro.
Réveille-toi c’est la pause !!!
Partie II : les lois de
probabilités
PLAN
1 – Généralités sur les variables aléatoires réelles
2 – Lois de probabilités discrètes
3 – Lois de probabilités continues
4 – Le théorème central limite
5 – Estimations
Définitions
• Soit Ω, l’univers des possibles ; une variable aléatoire
réelle X est une application de Ω dans R.
• Une variable aléatoire réelle peut être :
– Discrète : elle est définie dans un espace fini ou
dénombrable.
• Exemple : nombre de globules rouges
– Continue : elle est définie dans un sous ensemble de
R.
• Exemple : masse d’un comprimé
Lois de probabilités discrètes
• Soit X(Ω), une v.a.r. discrète (finie ou dénombrable), on
note son domaine de définition :
• On appelle distribution de probabilité de la v.a.r. :
avec
et
Lois de probabilités continues
Lois de probabilités continues: densité
de probabilité
Lois de probabilités continues: fonction
de répartition
Espérance
Variance
Récapitulatif
PLAN
1 – Généralités sur les variables aléatoires réelles
2 – Lois de probabilités discrètes
3 – Lois de probabilités continues
4 – Le théorème central limite
5 – Estimations
Exemples de lois de probabilités
discrètes
• Loi Uniforme
• Loi de Bernoulli
• Loi Binomiale
• Loi de Poisson
Loi Uniforme
•
Loi de Bernoulli
Loi Binomiale
•
Loi de Poisson
•
Approximation
PLAN
1 – Généralités sur les variables aléatoires réelles
2 – Lois de probabilités discrètes
3 – Lois de probabilités continues
4 – Le théorème central limite
5 – Estimations
Lois de probabilités continues
1
0
Quelques lois continues
• Loi Uniforme
• Loi Exponentielle
• Loi Normale
Loi Uniforme
•
Loi Exponentielle
Loi Normale
• Une v.a.r. continue
X suit une loi Normale de
paramètres µ et σ (σ > 0), si sa loi de densité est :
La formule n’est pas à
connaître! OUF…
Si µ=0 et σ=1, on a alors une
loi normale centrée réduite
(en bleu) mais il existe une
infinité de lois Normale avec
des paramètres et donc des
aspects différents.
Loi normale : « les tables »
Densités de probabilité
Quelques propriétés de calcul
PLAN
1 – Généralités sur les variables aléatoires réelles
2 – Lois de probabilités discrètes
3 – Lois de probabilités continues
4 – Le théorème central limite
5 – Estimations
Théorème Central Limite
• Il sera présenté plus en détails en cours, ici on va en
entrevoir les possibles applications :
– Convergence d’une loi Binomiale vers une loi
Normale lorsque n augmente.
– Convergence d’une loi de Poisson vers une loi
Normale.
Application à la loi Binomiale
• Loi Binomiale
L’application du TCL permet d’affirmer lorsque n est assez
grand (n>30) :
- Si X~B(n, p) alors X~N(np, √(npq))
En pratique on utilise cette approximation lorsque np et nq
sont supérieurs à 5.
Elle est meilleure si p est proche de 0,5.
Application à la loi de Poisson
• Loi de Poisson :
L’application du TCL permet d’affirmer lorsque λ est assez
grand (λ>20) :
- Si X~P(λ) alors X~N(λ, √λ)
L’approximation est d’autant meilleure que λ est grand.
Correction de continuité
• Lorsqu’on approxime une loi discrète (Binomiale,
Poisson) par une loi continue, l’application d’une
« correction de continuité » est nécessaire.
• Pourquoi?
– Par exemple si on veut calculer la probabilité P(X=k), avec une
loi discrète on calculera la probabilité et on trouvera un chiffre
entre 0 et 1. Par contre avec une loi continue la probabilité de
P(X=k) sera toujours nulle (rappelez-vous, on calcule ici des
densités de probabilités).
• Comment?
– Pour faire simple, la correction de continuité revient à corriger
une erreur que l’on commet de façon abitraire en utilisant la
valeur 1/2 , en l’ajoutant ou la retirant selon les situations.
•
• Le Théorème Central Limite est également applicable
pour des lois continues, mais dans le cadre de
l’approximation d’une loi continue quelconque vers la loi
Normale par le TCL, il ne faut surtout pas effectuer la
correction de continuité qui n’a pas de sens dans ce cas.
PLAN
1 – Généralités sur les variables aléatoires réelles
2 – Lois de probabilités discrètes
3 – Lois de probabilités continues
4 – Le théorème central limite
5 – Estimations
Estimations
• L’inférence statistique consiste à déduire les
paramètres d’une population à partir d’un échantillon tiré
de cette population.
• Pour cela on utilise des estimateurs qui peuvent être:
– Ponctuels : une seule valeur qui s’approche du
paramètre.
– Par intervalle : on estime un intervalle dans lequel le
paramètre a x% de chances de se trouver.
Estimations ponctuelles
• Beaucoup sont intuitives:
– Exemple : la moyenne m d’un échantillon est une
bonne estimation de la moyenne μ d’une population.
• D’autres seront à apprendre car beaucoup utilisées :
– La variance d’un échantillon est égale à :
– Si l’on veut estimer la variance de la population on
utilisera cette formule :
ou bien directement :
Estimation par intervalle
Loi Binomiale
• Condition : n > 30.
• Le paramètre p ici estimé est situé entre ces 2 bornes
avec un niveau de confiance de 1-α :
– n est la taille de l’échantillon.
– p0 est le paramètre p observé à partir de l’échantillon
– cα/2, correspond au risque α présent de chaque coté
de l’intervalle à raison de α/2.
• Pour trouver la valeur de cα/2, il faut regarder dans la
table de l’écart-réduit pour un risque α.
Exemple: au risque α=0,05, cα/2 = 1,96.
Loi de Poisson
• Condition : λ ≥ 20.
• Le paramètre λ ici estimé est situé entre ces 2 bornes
avec un niveau de confiance de 1-α :
– λ 0 est le paramètre λ observé à partir de l’échantillon.
– cα/2, correspond au risque α présent de chaque coté
de l’intervalle à raison de α/2.
• Pour trouver la valeur cα/2, c’est le même principe, on
regarde dans la table de l’écart-réduit. La valeur ne
dépend que du seuil choisi.
Loi Normale
Rappel :
Loi du X²
Table du X² : Attention,
la lecture de la table
se fait à l’envers
Partie III : les tests
statistiques
PLAN
1 – Définitions et principes généraux des tests
statistiques
2 – Tests paramétriques
a) Tests paramétriques pour VAR quantitatives
b) Tests paramétriques pour VAR qualitatives
3 – Tests non paramétriques
4 – Régression linéaire
A quoi servent les tests statistiques ?
Principe général
Les hypothèses
• Elles sont de 2 types :
- Hypothèse de travail ou Hypothèse nulle H0 : son choix est
dépendant de ce que l’on souhaite rejeter.
Elle est le plus souvent une hypothèse simple, soit une hypothèse d’égalité.
- Hypothèse composite complémentaire H1 : hypothèse contre
laquelle est testée l’hypothèse H0.
Le test statistique conduit à rejeter/ne pas rejeter l’hypothèse simple
H0.
IMPORTANT: une hypothèse porte toujours sur une population, jamais sur un
échantillon!
Les risques
• Risque de première espèce (α) :
Il constitue le risque de rejeter l’hypothèse émise (= hypothèse H0) alors
qu’elle est vraie.
Dans la majorité des cas, et lorsqu’aucune indication n’est donnée, le risque α
est égal à 0,05 (soit 5%).
• Risque de deuxième espèce (β) :
Il se définit comme étant la probabilité de ne pas rejeter l’hypothèse émise
alors qu’elle est fausse.
• Puissance:
Elle correspond à la probabilité de rejeter l’hypothèse émise lorsque celle-ci
est fausse.
π=1–β
/!\ Les risques α et β ne peuvent être maîtrisés simultanément. Le risque α est
considéré comme étant le plus lourd de conséquences, et sera donc pris comme critère
de décision pour le rejet ou non de l’hypothèse H0.
Méthodologie du test statistique –
Méthode classique
Première étape :
➔ Choix de l’hypothèse H0, qui est l’hypothèse que l’on chercher à réfuter.
La plupart du temps, elle se présentera sous la forme d’une égalité (ex : le
placebo et le médicament à l’essai ont la même efficacité).
➔ Choix du test le plus approprié au problème posé, dépendant notamment
de la variable en question, et de certaines conditions d’application.
➔ Détermination du risque de première espèce α (égal à 5% lorsqu’aucune
précision le concernant n’est donnée).
Deuxième étape : détermination des valeurs dont la comparaison
guidera la conclusion.
➔ Calcul de tobs(= valeur de la statistique de test, calculée selon la formule
propre au test choisi).
➔ Lecture de tα, dans la table spécifique au test choisi.
Troisième étape : conclusion
tobs> tα
Rejet de H0
tobs< tα
Non rejet de H0
Méthodologie du test statistique Méthode de la p-value
• Qu’est-ce que la p-value?
La p-value est la plus petite valeur du risque de première espèce conduisant au
rejet de H0.
• Principe général :
1ère étape : choix de l’hypothèse H0 et du test statistique le plus approprié
pour répondre à la question posée.
2ème étape : calcul de la statistique de test tobs d’après la formule propre au
test choisi, puis lecture inverse de la table du test en question: on recherche la
valeur de α pour laquelle tobs=tα.
3ème étape : conclusion :
➔ p-value < α = rejet de H0
➔ p-value > α = non rejet de H0
Test bilatéral/unilatéral
• Test bilatéral:
On souhaite savoir si deux paramètres sont statistiquement différents ou non,
sans se soucier du sens de la différence.
• Test unilatéral:
On veut savoir si deux paramètres sont statistiquement différents ou non,
mais ici le sens de la difference est important.
On utilise le test unilatéral quand on a une présomption sur le sens de la
différence.
😊
: Dans le cas d’un test unilatéral, il faut multiplier le risque de première espèce choisi par 2 (ex:
pour un risque α=0,05, il faudra lire la valeur de tα pour α=0,10; comme si l’on « condensait » le
risque du côté de la différence que l’on veut mettre en évidence).
Test bilatéral : le risque d’erreur doit être réparti de part et d’autre afin de tenir
compte du signe de la différence.
Test unilatéral : le risque d’erreur n’existe que d’un côté car la différence testée
n’est que dans un sens.
PLAN
1 – Définitions et principes généraux des tests
statistiques
2 – Tests paramétriques
a) Tests paramétriques pour VAR quantitatives
b) Tests paramétriques pour VAR qualitatives
3 – Tests non paramétriques
4 – Régression linéaire
Généralités
• Consistent en la comparaison des paramètres entre eux.
• Applicables uniquement lorsque la distribution de la variable respecte
certaines conditions précises (en terme de normalité de la distribution ou de
taille de la population notamment).
PLAN
1 – Définitions et principes généraux des tests
statistiques
2 – Tests paramétriques
a) Tests paramétriques pour VAR quantitatives
b) Tests paramétriques pour VAR qualitatives
3 – Tests non paramétriques
4 – Régression linéaire
Comparaison d’une moyenne observée
à une valeur de référence
Ex : Table de Student.
Ex : table de l’écart-réduit.
Comparaison de deux moyennes observées
sur des échantillons indépendants
•
Comparaison de deux moyennes
observées sur deux séries appariées
Principe général : soit deux échantillons E1 et E2, de même taille et chaque
observation d’un échantillon est liée à une observation homologue de l’autre
échantillon, les deux séries sont donc appariées.
- formulation de l’hypothèse H0, telle que : l’échantillon des différences,
de moyenne d, est extrait au hasard d’une population de moyenne des
différences δ=0.
- pour chaque élément constitutif de l'échantillon, calcul de la différence
entre sa valeur en E1 et sa valeur en E2.
- calcul de la moyenne des différences et de l’écart-type de la différence
moyenne.
- comparaison de la différence moyenne observée d à une différence
moyenne théorique δ -> ceci nous rapporte à la comparaison d’une moyenne
observée à une moyenne théorique, et donc à l’application d’un test de
Student ou d’un test de l’écart-réduit, en fonction de la taille des échantillons
E1 et E2.
Comparaison de deux variances
•
Comparaison de deux moyennes observées
sur des échantillons indépendants lorsque
les variances sont différentes
•
PLAN
1 – Définitions et principes généraux des tests
statistiques
2 – Tests paramétriques
a) Tests paramétriques pour VAR quantitatives
b) Tests paramétriques pour VAR qualitatives
3 – Tests non paramétriques
Comparaison de deux pourcentages
observés sur échantillons indépendants
Le test du X2 peut également être employé pour :
- la comparaison d’une distribution observée à une distribution théorique :
tα se lit alors dans la table du X2 à r-1 ddl (r étant le nombre de classes en
lequel est divisée la variable considérée).
- la comparaison de plusieurs distributions observées sur échantillons
indépendants: la lecture de tα se fait dans la table du X2 (r-1)x(k-1) ddl (avec
r=nombre de classes en lequel est divisée la variable considérée et
k=nombre d’échantillons).
- tester la relation entre deux variables qualitatives: tα se lit également
dans la table du X2 à (r-1)x(k-1) ddl.
😊 : le nom des X² ne sont pas à retenir, ils sont là pour éviter les incompréhensions, le principe
général restant le même pour les différents test du X².
Points essentiels du test du X2:
- la formule pour le calcul de la statistique de test est toujours la même, et
nécessite au préalable le calcul des effectifs théoriques attendus.
- le nombre de degrés de liberté auquel lire le tα est dépendant du test
employé (homogénéité, ajustement ou indépendance) (😊 en pratique, le
degré de liberté équivaut à (nombre de colonnes-1)x(nombre de lignes-1),
et ce, quelque soit le test employé).
- une seule condition d’application à satisfaire: tous les effectifs théoriques
doivent être supérieurs ou égaux à 5.
Cas particulier: le Χ² de MacNemar :
Il permet la comparaison de plusieurs distributions observées sur séries
appariées.
Principe général:
Soit un échantillon à deux instants t différents. A l’instant t0, x personnes
constitutives de l’échantillon présentent le caractère qui nous intéresse; les
autres ne le présentent pas. A l’instant t1, un nombre x’ de personnes
constitutives de l’échantillon présentent le caractère qui nous intéresse; les
autres ne le présentent pas.
La différence résulte de deux paramètres :
- les individus présentant le caractère à l’instant t0 et ne le
présentant plus à l’instant t1
- les individus ne présentant pas le caractère à l’instant t0,
mais le présentant à l’instant t1
Ils consituent les paires discordantes, respectivement notées f et g.
Ex : table du X².
Deux autres tests peuvent être employés pour la comparaison de deux
pourcentages observés sur des échantillons indépendants.
Test de l’écart-réduit
- son application nécessite la réunion de certaines conditions, telles que
n1p≥5 ; n1(1-p)≥5 ; n2p≥5 et n2(1-p)≥5. Avec n1 et n2 la taille des échantillons
et p, obtenu à partir de p1 et p2 qui sont les proportions de l’élément nous
intéressant dans chacun des échantillons.
- tα est lu dans la table de la loi Normale centrée-réduite.
Test exact de Fisher
- aucune condition relative à la taille de l’effectif; est de fait appliqué
lorsque les conditions d’application des tests du X2 et de l'écart-réduit
ne sont pas remplies.
PLAN
1 – Définitions et principes généraux des tests
statistiques
2 – Tests paramétriques
a) Tests paramétriques pour VAR quantitatives
b) Tests paramétriques pour VAR qualitatives
3 – Tests non paramétriques
4 – Régression linéaire
Généralités
• Indépendants de paramètres.
• Pas de conditions d’application.
• Moins puissants que les tests paramétriques.
• Employés uniquement si les conditions d’application des autres méthodes
ne sont pas remplies.
Test non paramétrique pour échantillons
indépendants
Tests non paramétriques pour séries
appariées
Test de Wilcoxon :
- calcul de la différence entre les observations appariées, telle que di=xi-yi.
- classement des différences obtenues en valeurs absolues non nulles par
ordre croissant (ex: la différence égale à 3 en valeur absolue prendra le rang
1, la différence égale à 5 prendra le rang 2, etc…).
- soustraction de la taille de l’échantillon de toutes les paires concordantes
(=les paires pour lesquelles la différence observée est nulle).
- calcul de la somme des rangs des différences positives et négatives.
La plus petite des deux sommes obtenues est retenue comme valeur de la
statistique de test, Smin, et comparée à la valeur S lue dans la table de
Wilcoxon (se comporte aussi comme la p-value).
-> Smin< S = rejet de H0.
-> Smin > S = non rejet de H0.
Test des signes.
PLAN
1 – Définitions et principes généraux des tests
statistiques
2 – Tests paramétriques
a) Tests paramétriques pour VAR quantitatives
b) Tests paramétriques pour VAR qualitatives
3 – Tests non paramétriques
4 – Régression linéaire
La régression linéaire
**Introduction :
Recueil 2 variables quantitatives
Corrélation = Les 2 variables ne sont pas indépendantes
l’une de l’autre (ex : le poids et la taille)
Régression = Comment prédire l’une en fonction de
l’autre ? (quand les variables sont corrélées)
**Courbes de régression :
X et Y non indépendants = comment varie X en fonction de Y ?
Attention : Tous les sujets ayant la même valeur de X n’auront
pas la même valeur de Y (ex : Taille (X) et poids (Y) sont des
valeurs corrélées mais tous les sujets d’1m82 n’ont pas le
même poids)
 Caractériser la distribution de Y pour un x donné.
Courbe de régression :
La droite de régression passe par le point (μx ; μy) et à
comme pente ρ(σy/σx) (avec ρ = coefficient de corrélation
entre X et Y).
 Prédire la valeur moyenne de Y pour un x donné
Equation de la droite :
Ŷx –μy = ρ(σy/σx) (x - μx)
(Avec : μx et μy = moyenne de x et y
σy et σx = écart type de x et y )
Variance de Y pour un x fixé (variance liée) :
σ’2y = (1-ρ2 ) σ2y
ρ = 0  Variance liée = variance de Y
ρ = 1  Connaissance de x entraine complètement
celle de Y
Intervalle de pari à 95% :
Ŷx±1,96 σ’y
(Ŷx = valeur moyenne attendue de Y)
 Utile si l’on veut prédire un intervalle dans lequel les
valeurs individuelles de Y (à un x donné) se trouveront
 Faisons un exemple pour mieux comprendre 
Exemple : Epreuve de biostatistiques à lieu à la fin du 1er
semestre. La note moyenne des étudiants est de 12/20, leur
variance est de 9.
Au second semestre, la note finale des étudiants est de
60/110 et leur variance est de 225.
Corrélation entre la note de biostatistiques et la note du
second semestre = 0,70
 La note moyenne y de l’étudiant au 2nd semestre sera
obtenue en fonction de la note x obtenue en biostatistiques
Comment résoudre ce type d’exercice ?
1) Relever les valeurs de l’énoncé :
x = Note en biostatistiques
μx = 12
σ2x = 9
y = Note au second semestre
μy = 60
σ2y = 225
2) Ecrire l’équation de régression : remplacer avec les valeurs
que l’on nous donne
Ŷx –μy = ρ(σy/σx) (x - μx)
 Ŷx – 60 = 0,70 (15/3) (x-12)
 Ŷx – 60 = 3,5 (x-12)
3) Calcul variance liée :
σ’2y = (1-ρ2 ) σ2y
σ’2y = (1-0,702 )×225 = 114,49 (10,72)
4) Intervalle de pari :
60 + 3,5 (x – 12) ± 1,96×10,7
Ŷx±1,96 σ’y
 Les notes y des étudiants auront 95% de chance d’être
comprise entre 60 + 3,5 (x – 12) ± 1,96×10,7
Partie IV :
Epidémiologie
Plan :
A) Concepts de base
1) Intro-définition
2) Indicateurs de santé
3) Mesures de risques, d’association & d’impact
4) Erreur en épidémiologie
B) Enquêtes
1) Enquêtes : définitions
2) Etudes observationnelles
3) Etudes expérimentales
4) Evaluation des procédures diagnostiques
A) Concepts de base
1) Introduction-définitions
Epidémiologie : Etude de la distribution dans le temps et
l’espace des états de santé dans les populations humaines et
de leurs déterminants ayant pour but la prévention des
problèmes de santé.
3 branches :
- épidémiologie descriptive
- épidémiologie analytique ( = étiologique)
- épidémiologie évaluative
1) Introduction-définitions
Epidémiologie descriptive : Etude de la fréquence et de la
répartition des états de santé dont le but est de :
- établir des taux ou proportions de personnes (ayant un
état de santé donné, dans une population définie, en
prenant en compte le temps)
- Étudier les variations de fréquence des problèmes de
santé (selon les caractéristiques des personnes, la zone
géographique, le temps)
 Outil de planification sanitaire
 Permet d’élaborer des hypothèses étiologiques
1) Introduction-définitions
Epidémiologie analytique (=étiologique) : Etude des
déterminants des problèmes de santé par l’analyse
d’association entre exposition à différents facteurs et
états de santé.
 Identification de facteurs de risque
 Identification de groupes de population à risque
 Ciblage des intervention sanitaires (dépistage,
prévention, information)
1) Introduction-définitions
Epidémiologie évaluative : Etude de l’évaluation des
interventions de santé préventives et curatives, menées
en collectivité.
 Mesure des effets d’une intervention de santé par
rapport à ses objectifs pour aider à la prise de décision
et à la planification.
2) Indicateurs de santé
Objectifs des indicateurs, déterminer :
- La fréquence du phénomène de santé à un instant t
(via un indicateur statique : la prévalence)
- La vitesse de survenue du phénomène de santé
pendant une période donnée (via des indicateurs
dynamiques: incidence, mortalité…)
On distingue des indicateurs :
- de morbidité
- de mortalité
2) Indicateurs de santé
a) Indicateurs de morbidité :
- Prévalence : indicateur statique, correspondant à la
proportion de malades présents à un moment donné
dans une population.
/!\ Inclut tous les cas de maladies
/!\ Augmentation pas toujours péjorative
2) Indicateurs de santé
a) Indicateurs de morbidité :
- Incidence : indicateur dynamique, correspondant à un
taux prenant en compte la vitesse de survenue de la
maladie dans une population.
/!\ Population stable nécessaire
/!\ Augmentation toujours péjorative
2) Indicateurs de santé
b) Indicateurs de mortalité :
- Indicateur dynamique
- On distingue :
- Mortalité globale
- Mortalité spécifique
- Par cause
- Selon certaines caractéristiques (âge, sexe,…)
- Mortalité ≠ Létalité (taux de décès parmi les malades)
3) Mesures de risque, d’association & d’impact
a) Risque : probabilité de survenue d’un évènement
(maladie-décès) durant une période définie
Rq : cette probabilité est différente entre les individus (en
fonction de certaines caractéristiques : âge, facteurs
socio-économiques…)
b) Facteur de risque : un facteur (F) est dit facteur de
risque pour une maladie (M) si l’exposition à F change la
probabilité d’apparition de M (son incidence)
3) Mesures de risque, d’association & d’impact
c) Mesures de l’effet d’un facteur de risque :
- mesures d’association :
->Risque relatif (RR) :
Mesure la force de l’association
Mesure le rôle étiologique du facteur
RR=1 : F n’influe pas sur M
RR>1 : F constitue un risque
RR<1 : F est protecteur
Indicateur multiplicatif du risque
3) Mesures de risque, d’association & d’impact
c) Mesures de l’effet d’un facteur de risque :
- mesures d’association :
->Odds ratio (OR) :
ORmaladie = ORexpo
Estimable à partir
de tous les types d’enquêtes
Si maladie rare : OR≈RR
Indicateur multiplicatif du risque
3) Mesures de risque, d’association & d’impact
c) Mesures de l’effet d’un facteur de risque :
- mesures d’impact :
->Excès de risque (ER) :
Mesure l’augmentation de l’incidence de M causée
par F (« sujets malades exposés à F qui auraient été
sains sans F »)
Indicateur additif du risque
3) Mesures de risque, d’association & d’impact
c) Mesures de l’effet d’un facteur de risque :
- mesures d’impact :
->Proportion de risque attribuable (PRA) :
Mesure le risque attribuable (impact) à F dans la
population totale (exposés + non exposés), donc très
intéressante en Santé Publique
N’a de sens que si F est un facteur causal de M
/!\ toute erreur (biais) touchant le RR affecte la PRA
4) Erreur en épidémiologie
a) Erreur dans les enquêtes :
Toute mesure est sujette à l’erreur
2 types d’erreur
Erreur aléatoire = manque de précision (liée aux
fluctuations d’échantillonnage)=> réduite grâce au
calcul du Nombre de Sujets Nécessaire (NSN)
Erreur systématique = Biais (=> réduite en prenant un
ensemble de précautions méthodologiques)
4) Erreur en épidémiologie
b) Biais :
- Définition : Déformation, erreur systématique d’une
mesure en épidémiologie
=> éloigne l’estimation du paramètre de sa vraie valeur
(celle dans la population)
- Types de Biais :
Sélection : dû à la façon de choisir l’échantillon
Classement (= d’information) : dû aux erreurs de
mesure de l’exposition ou de la maladie
Confusion : dû à d’autres facteurs (dits de
confusion)
B) Enquêtes
1) Enquête : Définition
- Procédure visant à rechercher, à rassembler, à recueillir
des informations sur l’état de santé d’une partie ou de la
totalité d’une population (dans le but d’estimer un
indicateur)
a) Typologie : Les enquêtes diffèrent selon:
 Nombre de sujets : Exhaustif / Echantillon
 Chronologie : Transversale / Longitudinale
 Objectif : Descriptif / Etiologique / Evaluatif
 Procédure : Observationnelle / Expérimentale
1) Enquête : définition
b) Remarque : Etude observationnelle VS Expérimentale
- Expérimentale: Intervention choisie, appliquée à des
sujets sélectionnés selon une procédure expérimentale
déterminée par l’expérimentateur. Toujours prospective.
Peut être randomisée ou non. Permet une imputation
causale.
Mais pas toujours possible !
- Observationnelle : procédure d’observation. Facteurs de
confusions possibles. Pas d’imputation causale possible,
nécessité d’un faisceau d’arguments.
2) Etudes observationnelles
a) Enquête de prévalence :
- Objectif : Estimer la prévalence d’une maladie dans
une population à un moment donné
- Principe : Enquête transversale (réalisée à un instant t,
sans suivi des patients), par recueil d’informations
(présence/absence de la maladie et de certains facteurs)
- Application : Epidémiologie descriptive: aide à la
planification sanitaire, répartition temporo-spatiale de la
maladie (=> hypothèses étiologiques)
2) Etudes observationnelles
a) Enquête de prévalence :
- Difficulté majeure : obtenir un échantillon représentatif,
biais de sélection
- Limites :
 Incidence non connue
 Pas d’aspect dynamique, pas de chronologie
2) Etudes observationnelles
b) Enquête de cohorte :
- Objectif : Descriptif ou étiologique
- Principe : Enquête longitudinale (suivi pendant une
période donnée avec mesures régulières en vue de
détecter l’apparition de symptômes, maladie, décès…) ,
souvent prospective (rarement rétrospective), d’une
cohorte constituée d’un groupe de sujets sélectionnés
sur certains critères.
- Indicateurs produits : Incidence, RR-ER (si étiologique)
- Limites : Longue, onéreuse, perdus de vue…
2) Etudes observationnelles
c) Enquête de cohorte exposés-non exposés :
- Objectif : vérifier l’hypothèse d’une relation causale
entre l’exposition à un facteur de risque et la survenue
d’un événement de santé
- Principe : comparaison de la fréquence d’apparition
(incidence) de l’évènement de santé dans deux groupes
de sujets : groupe exposé au FR VS groupe non-exposé
au FR
2) Etudes observationnelles
c) Enquêtes de cohorte exposés-non exposés :
- Méthodologie :
 Choix des sujets : tous sains au début de
l’observation, répartition des sujets en 2 groupes
selon leur exposition ou non au FR étudié.
 Recueil initial de données sur : exposition au FR,
absence de maladie, facteurs de confusions.
 Période d’observation : variable en fonction du
délai entre exposition au FR et apparition de la
maladie.
2) Etudes observationnelles
c) Enquêtes de cohorte exposés-non exposés :
- Indicateurs obtenus :
- Biais :
 Sélection : en raison des perdus de vue
 Confusion
2) Etudes observationnelles
d) Enquêtes cas-témoins :
- Objectif : Vérifier l’hypothèse d’une relation causale
entre exposition à un FR et la survenue d’un événement
de santé.
- Principe : Comparaison de la fréquence d’exposition au
FR dans 2 groupes de sujets: groupe cas (atteint par M)
VS groupe témoin (sain).
2) Etudes observationnelles
d) Enquêtes cas-témoins :
- Méthodologie :
 Choix des sujets : recrutement de sujets sains et de
sujets atteints.
 Recueil de données : rétrospective (interrogatoire⁺⁺),
de l’exposition au FR et à d’éventuels facteurs de
confusion.
 Durée : sujets vu 1 seule fois (pas de suivi), mais
temps important nécessaire au recrutement et au
recueil de données de tous les sujets.
2) Etudes observationnelles
d) Enquêtes cas-témoins :
- Indicateurs obtenus : Odds Ratio qui est une bonne
estimation du RR si maladie rare
Rq : le point de départ de l’étude étant basé sur la
sélection de personnes selon la présence ou non de
la maladie l’incidence ne peut être déterminée : pas
de RR ou ER calculable
- Biais: Sélection⁺⁺, Classement⁺⁺⁺⁺⁺ (mémorisation),
Confusion⁺⁺
Interrogatoire
Interrogatoire
Exposé-Non Exposé
Cas-Témoins
Adaptée pour l’étude
:
Adaptée pour l’étude :
Enquêtes
observationnelles
Avantages
Inconvénients
- des risques
- des expositions rares
- de plusieurs maladies dues à la même
exposition
- séquence chronologique expositionmaladie fiable
Peu de biais de sélection, et
d’information
- des maladies rares
- FR multiples
Coût faible, logistique moins
lourde, exécution rapide,
échantillon de taille modérée
Non adaptée pour l’étude :
- des maladies rares (nécessite de
suivre trop de sujets)
- des expositions multiples
Coût important (durée), logistique,
période de latence
Non adaptée pour l’étude :
- des expositions rares
- la séquence temporelle
exposition-maladie pas
certaine (la maladie peut avoir
précédé l’exposition)
Pas de RR calculable,
estimation du RR par l’OR
attention : biais si maladie
fréquente
Biais de sélection et
d’information⁺⁺⁺
3) Etude expérimentale :
Essai thérapeutique Comparatif
a) But : Evaluer une procédure thérapeutique appliquée
en clinique humaine pour une pathologie donnée
(efficacité et tolérance)
b) Principe : Etude prospective, dans laquelle on compare
un traitement à évaluer (groupe traité) au traitement de
référence (groupe contrôle)
c) Choix des sujets : Echantillon représentatif de la
population cible réparti aléatoirement en 2 groupes
(randomisation)
3) Etude expérimentale :
Essai thérapeutique Comparatif
d) Imputation causale = le nouveau traitement est
responsable de l’amélioration observée. Pour cela il faut:
Comparabilité initiale des groupes : TAS ou
Randomisation
Maintien de la comparabilité des groupes durant
l’essai (aveugle/insu ; analyse en ITT)
Pertinence de la mesure d’efficacité (moment et
nature même du critère de jugement)
Puissance statistique suffisante (calcul du NSN)
4) Evaluation des procédures diagnostiques
a) Problématique :
une décision médicale a des conséquences
(thérapeutiques, financières…), et s’appuie sur des
tests.
Les tests ont des conséquences ( sur la santé du
patient mais ici aussi financières…).
=> Il est donc nécessaire de connaître la valeur
diagnostique d’un test pour une maladie avant de le
prescrire (justification) et d’interpréter son résultat
(valeur diagnostique).
4) Evaluation des procédures diagnostiques
b) Qualités diagnostiques des tests :
- Caractéristiques intrinsèques du test pour la maladie:
Sensibilité :
 Taux de positifs parmi les malades
 Varie entre 0 et 1
 Aptitude du test à détecter la maladie
 Si Se=1 : si maladie, test toujours positif
4) Evaluation des procédures diagnostiques
b) Qualités diagnostiques des tests :
- Caractéristiques intrinsèques du test pour la maladie:
Spécificité :
 Taux de négatifs parmi les non-malades
 Varie entre 0 et 1
 Aptitude du test à ne détecter que la maladie
 Si Sp=1 : un test positif signifie maladie
(=pathognomonique de la maladie)
4) Evaluation des procédures diagnostiques
b) Qualités diagnostiques des tests :
- Caractéristiques intrinsèques d’un test pour la maladie:
Indices globaux
Constatation : Se et Sp varient en sens inverse, et
choisir entre un examen Se⁺⁺⁺ mais Sp⁻⁻⁻ ou un
examen Sp⁺⁺⁺ mais Se⁻⁻⁻
=> Intérêt d’avoir des indices globaux: les
rapports de vraisemblance positif et négatif
4) Evaluation des procédures diagnostiques
b) Qualités diagnostiques des tests :
- Caractéristiques intrinsèques du test pour la maladie :
Indices globaux
RV⁺ : Rapport de vraisemblance positif ::
- Varie de 0 à +∞
- La valeur diagnostique d’un résultat positif d’un
test est d’autant plus grande que son RV⁺ est
grand
4) Evaluation des procédures diagnostiques
b) Qualités diagnostiques des tests :
- Caractéristiques intrinsèques d’un test pour la maladie :
Indices globaux :
RV⁻ : Rapport de vraisemblance négatif :
- Varie de 0 à +∞
- La valeur diagnostique d’un résultat négatif est
d’autant plus grande que le RV⁻ est proche de 0
- Rq : vaut 0 si Se=1
4) Evaluation des procédures diagnostiques
b) Qualités diagnostiques des tests :
- Caractéristiques extrinsèques du test pour la maladie :
VPP : Valeur prédictive positive

VPN : Valeur prédictive négative

FIN
Merci pour votre attention !
Retrouvez-nous sur http://www.lafed-um1.fr
*
Téléchargement