Fiches de Biostatistique (UE4) - Tutorat Associatif Marseillais

publicité
Fiches de Biostatistique (UE4)
Chapitre 1
Les études en statistiques portent généralement sur des échantillons qui représentent une population cible.
│Le nombre d’éléments constituant l’échantillon est appelé l’effectif ou taille de l’échantillon.
échantillon
interférence
ou généralisation
population
Les résultats d’une étude statistique sur un échantillon ne sont pas ceux de la population, mais d’une population
virtuelle car ils sont exposés aux interférences et aux généralisations.
On considère que notre étude porte sur un bon échantillon lorsque l'échantillon est « sans biais » (biais ≈ erreur)
et qu'il constitue une image réduite de l'ensemble de la population. Moins l’échantillon est biaisé, plus la
population virtuelle (=généralisation de l’échantillon) représente la population cible.
Si l’on sélectionne l’effectif par un « tirage au sort », on estime que l’échantillon et les résultats de notre étude
sont représentatifs.
Chapitre 2
│Le contour polygonal joignant les milieux des bases supérieurs des rectangles s’appelle le polygone des
fréquences.
ex : on part d’un histogramme qui lorsque les classes et l’effectif tend vers l’infini devient une courbe de
fréquence
1
Les paramètres de position ou de tendance :
∑ xi
n
-moyenne│Valeur centrale la plus utilisée est la moyenne arithmétique des mesures : x =
-médiane│Valeur qui laisse de part et d’autre un nombre égal d’observations
-mode │Valeur de la variable dont la fréquence est maximale
-quantiles│Divisent l’échantillon ordonné en groupes d’effectifs égaux
ordinales
quantitatives
│Tous les paramètres de tendance ont l’unité de la variable xi
Dans un exercice, il faut ordonner les mesures, c’est utile pour la médiane, les quantiles et les intervalles inter
quantiles.
Paramètre de dispersion :
-variance (unité xi2) Var(X) =
∑ (x i− ̄x )²
n
-écart-type (unité de xi) σx = √ Var ( X )
-étendue (unité xi) │Différence entre la plus grande et la plus petite valeur de la série
-intervalle inter-quartile (unité xi) │50% des observations centrées sur la médiane
égale à Q3-Q1, représente la dispersion des données
quantitatives
ordinales
nb : la variance et l’écart type calculés ne sont pas ceux de la population, ni l’estimation de la variance de la pop
mais bien d’un échantillon représentant plus ou moins bien la population.
Si une variable aléatoire est dépendante d’une autre : yi = axi + b : Var(Y) = a² Var(X)
Ecart type(Y) = |a| = |a| Ecart type(X)
ex : Je lance un dé, les valeurs de la variable aléatoire X sont : {1, 2, 3, 4, 5, 6} Le gain de ce jeu est représenté
par la variable aléatoire Y = 2X – 3
Paramètres de dispersion pour quantitative à 2 dimensions :
La covariance : Covar(X,Y) = ∑ (x i− ̄x )( y i −̄y)
n
Le point G est la moyenne des 2 séries d’observations ( trouver votre point G par les maths!)
Covar (X ,Y )
Le coefficient de corrélation : r =
√ Var ( X ) .Var (Y )
r reflète la dispersion d'un couple sur la dispersion de chaque série, il n’a pas de dimension et est compris entre
[-1 ;1].
2
Chapitre 3
Un ensemble fondamentale (Ω) représente toutes les issus possibles d'une expérience
(=épreuve).
│2 événements disjoints sont incompatibles et ne sont jamais indépendant (si l’un se
produit, alors nécessairement l'autre ne peut pas se produire) : E1 ∩ E2 = ∅ alors
P(E1 ∪ E2) = P(E1) + P(E2)
Probabilité complémentaire : P(E) = 1 – P(nonE)
Probabilité d’additivité : P(A∪B) = P(A) + P(B) – P(A∩B)
│La probabilité conditionnelle de A par rapport à B ( la probabilité que l’événement A se produit sachant que B
est réalisé avec P(B)>0) est définie par : P(A/B) = P(A∩B) / P(B)
Ex : la probabilité que j'ai un enfant en faisant l'amour en sachant que j'ai mis une capote.
Probabilité composé:si P(A/B) = P(A∩B) / P(B) alors P(A∩B) = P(A/B) . P(B) = P(B/A) . P(A)
Il est important d'avoir cette relation en tête, si on nous demande la probabilité de décéder sachant qu'on est
fumeur et que les infos proposées sont : P(fumeur/décès), P(décès) et P(fumeur)
→ P(décès/fumeur) = [P(fumeur/décès).P(décès)] / P(fumeur)
│A et B sont indépendant si et seulement si : P(A∩B) = P(A) . P(B)
│Probabilité totale : P(B) = P(B∩A1) + P(B∩A2) … P(B∩Ak)
Dans cet exemple B comprend seulement une partie de A1, de A2, de A3
et A4 ; P(B) = P(B∩A1) + P(B∩A2) + P(B∩A3) + P(B∩A4)
Si A3 était complétement compris dans B, on peut remplacer P(B∩A3)
par P(A3)
P (B/ Ai ). P ( Ai )
P( B/ A1). P( A1)+ …+ P ( B / Ak ). P (A k )
Le théorème de Bayes est une formule en intégrant plusieurs autres :
-1er étape, l'énoncé nous demande une probabilité conditionnelle :P(A/B) = P(A∩B) / P(B)
-2ème étape, si l'on a pas P(A∩B), on utilise les prob composés : P(A/B) = P(B/A) . P(A) / P(B)
-3ème étape, si l'on a pas P(B), on utilise les prob totales :P(B) = P(B∩A ) + … + P(B∩Z)
→ P(A/B) = [P(B/A).P(A)] / [P(B∩A) + … + P(B∩Z)]
-4ème étape, si l'on a aucune probabilité en intersection, on utilise les prob composés P(A∩B) = P(B/A) . P(A)
P( B/ A). P ( A)
→
P( B/ A). P ( A)+ …+ P (B/ Z ). P ( Z )
│Le théorème de Bayes est : P(Ai / B) =
3
Chapitre 4
Variable aléatoire discrète :
│Espérance mathématique d’une v.a discrète E(X)=μ=Σ xi pi
nb : E(X) est une moyenne théorique puisqu’associer à des probabilités
│La variance de X, noté σ², est : σ²= (x1-μ)² p1 + (x2-μ)² p2+…+(xk -μ)² pk
│L’écart type de X est égal à la racine carrée de la variance de X, soit σ. C’est une
quantité positive.
Remarque : E(X), σ(x) et σ²(x) sont des constantes
Pour Y = a X + b (a et b des constantes) :
-E(Y) = a.E(X) + b
-Var(Y) = a².Var(X)= a².σ²
-écart-type de Y = |a|.σ
Variable aléatoire continue :
│La probabilité pour qu'une réalisation au hasard de la v.a soit comprise entre deux valeurs x1 et x2 correspond
à la surface comprise entre la courbe de densité et l’axe des X limité par les 2 verticales passant par x1 et x2
Espérance mathématique E(X) = ∫-∞+∞ x . f(x) dx
Variance : Var(X) = σ²
← moyenne théorique
Sauf que pour une variable aléatoire continue, c’est la surface délimité par l’intervalle et la courbe qui
représente la probabilité donc :
-P(X=xi)=0
-∫-∞+∞ f(x)dx = 1
nb : on parle de densité de probabilité positive ou nul
P(6) = 0
∫23 de la fonction représentant la
variable aléatoire continue et on
obtient la probabilité qu'un événement
arrive entre 2 et 3
nb :en pratique cet exemple ne sert à rien pour le concour, mais c'est pour que vous comprenez !
Variables aléatoires conjointes : = association de deux v.a.
ex : le taux de cholestérol et le poids d’une même personne
Si X1 et X2 sont conjoints on peut écrire E(X1+X2) = E(X1) + E(X2)
Si X1 et X2 sont indépendants, alors : Var(X1 + X2) = Var(X1) + Var(X2)
Var(X1-X2) = Var(X1) + (-1)²Var(X2) = Var(X1) + Var(X2)
E(X1.X2) = E(X1).E(X2)
│X et Y sont indépendantes ssi :
rij = P(X=xi et Y=yj) = P(X=xi).(P(Y=yj)
Il suffit de faire le calcul pour une seule valeur pour voir
s’ils sont indépendants.
Si deux variables ne sont pas indépendantes, alors on parle de distribution conditionnelle, la distribution de Y
P( X = xi ∩Y = yi )
lorsque X=xi est : rij =
P ( X =x i )
4
│Covariance de X et Y : Covar(X,Y) = Σ(xi-μx).(yi-μy).rij
│Coefficient de corrélation : ρxy = Covar(X,Y) / (σx.σy)
-1 ≤ ρxy ≤ 1 sans dimension, si X et Y sont indépendant alors ρxy = 0 ( si ρxy = 0, X
et Y ne sont pas forcément indépendant) et si Y=aX+b, alors ρxy = ±1 (en fonction
du signe de a)
Loi normale :
-f(x) est totalement déterminée par sa moyenne et son écart-type
-la fonction de densité est : continue, symétrique par rapport à la moyenne μ, passe par un maximum pour x=
μ, a une médiane égale à μ
│Si X est N(μ, σ) alors Y=aX+b (a et b sont des constantes) est N(aμ+b, |a|.σ). Cette propriété permet d’établir
un cas particulièrement utile par la suite en définissant une nouvelle v.a Z telle que Z=(X-μ)/σ. Dans ce cas la
loi de distribution de Z est N(0,1), appelé loi Normale centrée réduite (la distribution est centrée sur 0 avec
un écart-type égal à 1).
La loi normale est un outil pratique car elle représente l’allure de beaucoup de caractère à l’échelle de la
population (si l’on trace la courbe du QI, de la taille, du poids… de la population, elle aura l’allure de la courbe
de la loi normale).
Le but est donner un intervalle de confiance pour une moyenne ou une proportion de la population en
s’appuyant sur la moyenne de l’échantillon et un risque d’erreur.
Si α1 > α2 alors Nα1 < Nα2
Si la loi normale est centrée réduite : N(0,1)
α est le risque que la moyenne de la population soit en dehors
de l’intervalle trouvé pour la moyenne du test, il correspond à
une valeur Nα inscrite dans la table de la loi normale (p151 de
votre poly)
1-α est la probabilité que la moyenne de la population
appartienne à [-Nα ;+Nα]
Si la loi normale est non centrée réduite : ex : N(μ,σ)
donc avec μ≠0 et σ≠1
Dans ce cas, il faut prendre en compte μ et σ en plus de α et
Nα dans le calcul des bornes
Loi de Student :
│La loi de Student dépend d’un seul paramètre : son nombre de degré de liberté (ddl) (=nombre de données
indépendantes)
│Elle est symétrique par rapport à 0, passe par un maximum pour 0, d’autant plus aplatie que ν (nombre de
ddl) est petit et tend vers la loi normal N(0,1) lorsque ν tend vers l’infini.
5
Il n’y a pas une distribution de Student mais une famille de distribution (car il y a
≠ ν), si ν≥30 alors on considère que ν tend vers l’infini et on utilisera la loi
normale.
Student s’applique et s’interprète comme la loi normale sauf qu’il faut juste prend
en compte ν dans la table de Student.
Loi du Chi-deux
Elle dépend des ddl, est asymétrique quand ν est petit, les résultats sont toujours positif (la première donnée
est toujours après le 0) et on parle d’une famille de distribution.
On utilise le même principe que la loi de Student sauf que la loi du Chi-deux est asymétrique, donc on ne donne
qu’une borne (χ²α,ν en positif) et tout le risque α est après cette borne.
Chapitre 5
│La sensibilité d’un test correspond à la proportion des T+ (déclaré malade par le test) chez tous les malades
Se = P(T+/M)
│La spécificité d’un test correspond à la proportion des T- (déclaré non malade) chez tous les non malades
Sp = P(T-/nonM)
P(VP) = Se.p
P(FN) = (1-Se).p
P(FP) = (1-Sp).(1-p)
P(VN) = Sp.(1-p)
Le taux d’erreur d’un test correspond à l’union des FP et FN :
P(erreur) = (1-Se).p + (1-Sp).(1-p) = P(FP) + P(FN)
Donc le taux d’erreur dépend de la prévalence du caractère testé, de la sensibilité et de la spécificité du test.
Parfois, on vous demandera de déterminer si un test 1 est préférable à un test 2, on cherche le plus bas taux
d’erreur entre 1 et 2 :
P(erreur A) = (1-SeA).p + (1-SpA).(1-p) et comparer à P(erreur B) = (1-SeB).p + (1-SpB).(1-p)
│La valeur prédictive positive correspond à la proportion des M étant T+,
VPP = P(M/T+) = VP / (VP+FP)
│La valeur prédictive négative correspond à la proportion des nonM étant T-,
VPN = P(nonM/T-) = VN / ( VN + FN)
P(M) est la probabilité (=prévalence) « à priori » des malades dans une population, P(M/T+) est la probabilité
« à postériori » des malades parmi les positifs. C'est à dire la probabilité avant et après qu'on ait un réalisé le
test.
Rmq : si Se = 1 alors FN=0 et VPN =1, si Se ↗ alors FN ↘ et VP, VPN ↗
si Sp = 1 alors FP=0 et VPP = 1, si Sp ↗ alors FP↘ et VN, VPP ↗
Les arbres de décisions :
-un nœud de décision est carré (dépend d’un décideur)
-un nœud d’éventualité est rond (indépendant du décideur)
Pour déterminer le score d’utilité, on multiplie la probabilité d’une branche avec l’utilité de l’issu (=déterminer
arbitrairement), on l’additionne à l’utilité de l’autre issu et on obtient l’utilité totale au niveau du nœud dont les
issues dépendent.
6
Chapitre 6
│U est un estimateur sans biais de θ (paramètre quelconque de la population) si
E(U) = θ
│U est un estimateur biaisé de θ si E(U) ≠ θ ; le biais vaut : E(U) – θ
│Un bon estimateur doit avoir une faible variance.
(plus la variance est faible meilleur est l’estimateur)
│On dira d’un estimateur qu’il est convergent (=efficace) lorsqu’il est sans biais et
que sa variance tend vers 0 quand l’effectif de l’échantillon observé tend vers l’infini.
Nb : Dans les chapitres précédents, le prof fait un raccourci en disant que Var(X) = σ². Or Var(X) est la variance
de l’échantillon et σ² est la variance de la population.
L’explication qui suit sert seulement à la compréhension, car son application est simple, il suffit d’appliquer les
formules à ce que l’énoncé nous demande :
-La loi de distribution d’échantillonnage de la moyenne a pour but d’étudier différents échantillons pour mieux
refléter la population.
-On peut calculer la moyenne des moyennes des échantillons (=estimateur sans biais) qui nous donne la
moyenne de la population. E(X)=μ
-On peut aussi calculer la variance des moyennes des échantillons qui nous donne la variance de la population
sur l’effectif d’un échantillon (tous les échantillons ont le même effectif)
Var(X) = σ²/n, l’écart-type des moyennes des échantillons σm= σ /√n
Mais dans la plupart des cas, on ne dispose que d’un échantillon, on peut néanmoins utiliser les propriétés de la
loi de distribution d’échantillonnage de la moyenne par généralisation.
Estimation de la moyenne d’une population :
La moyenne de la variable aléatoire X( x) est une estimation de la moyenne de la population (μ)
Estimation de la variance d’une population :
∑ (x i− ̄x )² = n.Var ( X )
Sx²=
n−1
n−1
Estimation de la variance de mon (Sm²) échantillon :
Sm² = Sx² / n = Var(X) / (n-1)
(ou l’estimation de la variance de la v.a X → loi de distribution d’échantillonnage, mais en qcm on travaille sur
un échantillon) (σm= σ / √n selon la loi de distribution sauf que là, on manipule des estimations)
Nb : Il faut faire attention si la question porte sur l’échantillon ou sur la population et penser à faire la racine si
on nous demande l’écart type.
Estimation d’une proportion (f = k/n):
│E(F)=p
(F est sans biais donc c’est un bon estimateur de la fréquence de la population)
Estimation de la variance d’une proportion:
p.(1− p)
. F est un estimateur convergent de p
│Var(F) =
n
p.(1− p)
f.(1− f )
│On estime la variance
par
n
n
7
Estimation par intervalle :
│L’intervalle de confiance de θ est de la forme :
- erreur d’échantillonnage ; + erreur d’échantillonnage
nb : θ est le paramètre à l’échelle de la population et
obtenu sur l’échantillon.
est l’estimation de θ
│On accepte qu’il y ait α.100 chances sur cent de se tromper en disant que θ appartient à l’intervalle
│On accepte qu’il y ait (1-α). 100 chances sur cent de ne pas se tromper en disant que θ appartient à
l’intervalle.
│L’intervalle de confiance est toutes choses égales par ailleurs il est d’autant plus large que α est petit et
d’autant plus étroit que n est grand.
Intervalle de confiance d’une moyenne :
On utilise l’estimation de l’écart type de mon échantillon et non l’écart type de la population (comme c’était
le cas dans le chapitre 4).
Sm= Sx / √n
Généralement dans l’énoncé on nous donne l’estimation de l’écart type de la population, il faut penser à faire le
calcul !
Si la v.a suit une loi normale (précisé dans l’énoncé)
-n ≥ 30, on utilise la loi normale : │ x ± (Nα . Sm)
-n < 30, on utilise la loi de Student : x ± (Tα,ν . Sm) où ν = (n-1)
Si la v.a ne suit pas une loi normale (énoncé)
-n ≥ 30, on utilise la loi normale : x ± (Nα . Sm)
-n < 30, on ne peut rien faire
Intervalle de confiance d’une proportion :
Conditions d’application « n » est grand et f n’est pas voisin de 1 ou 0, alors on peut appliquer la loi normale :
f (1− f )
[f - Nα . Sf ; f + Nα . Sf] avec Sf (écart type de la proportion) =
n
√
Chapitre 7
│L’estimation de la prévalence repose sur une enquête transversale : observation de la population ou d’un
échantillon à une date fixée.
Prévalence ≅ incidence x durée (en suggérant que l’incidence et la durée de la maladie sont stables)
La Se et Sp correspondent à une proportion, pour l’IC il faut « n » grand et qu’ils soient différents de 1 ou 0.
Estimation de l’intervalle de confiance de la sensibilité :
Se(1−Se )
Se ± N α .
nM
√
Estimation de l’intervalle de confiance de la spécificité :
Sp(1−Sp)
Sp ± N α .
n nonM
Rmq : pour estimer l’IC de la Se et de la Sp, il faut 2 échantillons séparés qu’avec des M et des nonM, car il
faut que le nombre total de M et de nonM ne soit pas dû au hasard.
√
8
Le risque est la probabilité de développer une maladie ou un état, ce qui
correspond à l’incidence.
│Le risque relatif mesure le rapport des risques et non pas la variation absolue des
risques
P (M / F )
(absolue des risques : risque de tomber malade) → RR =
P(M /nonF )
-Enquête simple : un seul échantillon de personnes, on détermine par interrogatoire ou par consultation si la
personne est malade et si elle a été exposée.
-Enquête « exposés/non exposés » : deux échantillons indemnes, seul un échantillon sera exposé au facteur, on
suit ces échantillons pendant une période déterminée.
-Enquête « cas/témoins » : deux échantillons, l’un malade, l’autre indemne, on détermine par interrogatoire ou
par consultation si la personne a été exposé.
│On ne peut pas estimer le RR pour les enquêtes « cas/témoin » sauf si la maladie est rare.
On ne parle pas de RR mais de risque relatif approché (ou odd ratio, OR), plus l’incidence de la maladie est
faible, plus l’OR est une bonne approximation du RR.
P(M ∩F ). P (nonM ∩nonF )
OR =
P(M ∩nonF ). P ( nonM ∩F )
Si M et/ou F sont rares, l’enquête simple nécessite n grand
Si P(M) est faible, l’enquête « exposés/non exposés » nécessite n grand.
nb : un facteur de risque/protection ne permet pas de dire que le facteur entraîne/inhibe le caractère.
Courbe de survie, fonction de survie S(t) = P(T≥t) :
-S(0) = 1
-S(t) est décroissante, quand t →∞, S(t) →0
-Une observation complète est quand l’individu décède avant la date point
-Censuré
(obs inc)
-L’exclus vivant est l’individu vivant à la date point
-Le perdu de vue est un individu dont on n’a plus de nouvelle avant la date point
-Le recul est le délai entre la date d’entrée et la date point
-Le temps de participation est le délai entre la date d’entrée et la date des dernière nouvelles (au plus tard
jusqu’à la date point)
Estimation des courbes de survie :
On découpe dès qu’il y a un décès le délai de participation maximal en intervalle. Pour chaque nouvel intervalle
on calcule combien il nous reste de patient vivant :
ei = ei-1 – ci-1 (censuré) – di-1 (décès)
ei −d i
ei
rmq : le nombre de censures n’intervient que dans le nombre d’exposés au risque de décès (ei)
│Probabilité conditionnelle de survie, S(ti+1/ti) =
│L’estimation de la fonction de survie selon l’hypothèse que la survie et les censurés sont indépendants :
S(t) = 1x S(t2 /t1) x … x S(tn/tn-1)
9
rmq : S(t) reste inchangé lorsqu’il y a un censuré, mais joue sur ei, le rôle des c
ensurés n’est pas apparent pour S(t) mais existe. Il va surtout influencer sur la
variance de S(t), plus il y a de censuré à droite moins S(t) est fiable.
Rmq : il faut considérer ci dans l’intervalle suivant
│La médiane de survie est le temps tel que S(θ)=0,5. On estime la médiane pour S(ti) ≤ 0,5
ti
ei
di
ci
S(ti+1/ti)
S(t)
t1
A
B
C
1
1=S(t1)
t2
D= A-B-C
E
F
(D-E)/D = I
IxS(t1)= S(t2)
Chapitre 8
Un réglage est dit bon lorsque la quantité moyenne de produit observé sur l’échantillon est à peu près égale à la
quantité moyenne de produit théorique.
Méthode classique :
- l’hypothèse nulle (H0) est que la quantité moyenne théorique est égale à la quantité moyenne observée
-on choisit un risque α pour ce test car même si H0 est vraie, la quantité moyenne observée peut ne pas être
égale à la théorique à cause du hasard
-on établit une valeur seuil |VS| (comme la loi normale)
-rejet de H0
si |quantité observé| ≥ |VS|
-conservation de H0 si |quantité observé| < |VS|
Notion de risque :
Le seuil de signification est VS :
-le risque de rejeter H0 à tort est le risque α, c’est le risque de 1er espèce où H0 est vraie dans la réalité mais
dans le test on la retient comme fausse
Lorsqu’on rejette H0, on accepte l’hypothèse alternative (HA) (théorique n’est pas égale à observé).
-le risque d’accepter H0 à tort est le risque β, c’est le risque de 2ème espèce où H0 est fausse dans la réalité
mais dans le test on la retient comme vraie
Puissance du test : (1- β)
supérieures à +VS sont en faveures de HA et la région de
-est la probabilité que la valeur calculée de la statistique rejet (α) n’a qu’un seul côté.
appartiennent à HA
-est la capacité de ce test de montrer une différence si
elle existe
H0 : μ0=μA on considère 2 types de HA :
-test bilatérale : HA : μ0 ≠ μA, seules les valeurs > +VS et
<-VS sont en faveur de HA et la région de rejet (α) a
deux côtés
-unilatérale : si par ex HA : ̄x
> μ, seules les valeurs
10
Degré de signification : (p)
-p=P(valeur stat ≥ valeur calculé de la stat si H0 est vraie)
-est la probabilité d’observer une différence au moins aussi importante que celle
observée sous H0
Nb : p est un moyen de vérifier H0 sans passer par β, normalement la valeur centré sous H0 est
μ-a=0 et sous HA est ̄x -a=δ. C’était un choix pour la compréhension, pensez juste à p ..différence…
│Rejet H0 si : p≤α
│Conservation H0 si : p˃α
Rmq : p≤α ↔ δ >VS
δ↘ →p↗
Variation de β :
Chapitre 9
Le but de ce chapitre est de calculer la « statistique du test », de le comparer à la valeur seuil dépendante du
risque choisit et de valider ou rejeter H0. Tous les échantillons sont pris au hasard
11
I/ Liaison entre une variable quantitative et qualitative :
I/1 Comparaison des moyennes de 2 sous-populations :
*Si les deux échantillons sont indépendants (H0 : μ1=μ2) :
-Grands échantillons (n1 et n2 ≥30)
( x̄1− x̄2)
e=
√
S 2x1 S 2x2
+
n 1 n2
On peut nous donner l’estimation de la variance (ou écart type) de la différence,
e= (x1 – x2) / SD
Conclusion : Loi normale, si |e| < Nα, on conserve H0
si |e| ≥ Nα, on rejette H0 pour accepter HA au risque α
(avec 100.α% de chance de se tromper)
Détermination du degré de signification : on regarde dans la table de la loi normale pour |e|=Np (ou la valeur la
plus proche de p, entre deux Nα, on fait un intervalle de risque)
-Petits échantillons (n1 et n2 <30), l’énoncé doit préciser que la variable suit la loi normale
( x̄1− x̄2 )
( x̄1− x̄2)
2
2
t=
1 1 (n1−1) S x1 + (n2−1) S x2 =
SD
(( + )
)
n1 n 2
n 1+ n 2−2
√
Conclusion : Loi de Student avec ν= n1+n2-2, si |t| < Tα,n1+n2-2, on conserve H0
si |t| ≥ Tα,n1+n2-2, on rejette H0
Détermination: On reste sur la ligne du ν, |t|= Tp,n1+n2-2 (ou la plus proche)
I/2 Comparaison d’une moyenne à une constante :
*Si la variance de la population théorique est connue (H0 : μ=a) :
-Grand échantillon (n≥30) → e =
, on conclue avec la loi normale.
2
( ̄x −a)/ σ
n
√
√
2
-Petit échantillon (n<30), l’énoncé doit préciser que la variable suit la loi normale → t = ( ̄x −a)/ σ , on
n
conclue avec la loi normale
12
*Si la variance de la population théorique est inconnue (H0 : μ=a) :
-Grand échantillon (n≥30) → e=
( ̄x −a)/
√
S2
n
avec S² =
n
Var ( X̄ )
n−1
, on conclue avec la loi normale
√
2
-Petit échantillon (n<30), l’énoncé doit préciser que la variable suit la loi normale→ t= ( ̄x −a)/ S on
n
conclue avec la loi de Student avec ν=n-1
I/3 Séries appariées
*Les comparaisons portent sur des observations qui ne sont pas indépendantes, du type « mesure avantmesure après », tombe souvent à l’exam ! (H0 : moyenne des différences, D = 0)
√
n
S d2
Var (D) , on conclue avec la loi normale
-Grand échantillon (n≥30) → e = d̄ /
avec SD²=
n−1
n
n
S 2
Var (D) , on conclue avec la loi de Student avec
-Petit échantillon (n<30) → t = d̄ / d avec SD²=
n−1
n
ν=n-1
√
II/ Etude de la liaison entre deux variables qualitatives (H0 : les deux répartitions
sont identiques)
χ²=
∑ oi−ti
ti
avec l’effectif théorique ti ≥ 5
1-Comparaison d’une répartition observée à une répartition théorique
On calcule le χ² avec ti = npi , on conclue sur la table χ² avec ν=k-1
k est le nombre de modalité (=classe)
Conclusion : Si χ²< χα, k-1², alors on conserve H0 et si χ²≥ χα, k-1², alors on rejette H0 pour accepter HA au risque
α (avec 100.α% de chance de se tromper)
Détermination de p : χ²= χp, k-1² (ou la valeurs la plus proche de p)
2- Comparaison de plusieurs répartitions observées (échantillons indépendants)
marginale de la ligne×marginale de la colonne
On calcule χ² avec ti=
, on conclue dans la table du χ²
effectif total ( n)
avec ν=(m-1)(k-1)
m= le nombre d’échantillon ou les lignes
k=les modalités de la variable ou les colonnes
III/ Indépendance entre deux variables qualitatives (H0 : les deux caractères sont indépendants)
∑ oi−ti avec l’effectif théorique t ≥ 5
χ²=
i
ti
marginale de la ligne×marginale de la colonne
On calcule χ² avec ti=
, on conclue dans la table du χ²
effectif total (n)
avec ν=(m-1)(k-1)
m= nombre de modalité d’une des variables ou les lignes
k= nombre de modalité d’une des variables ou les colonnes
Rmq : Ce test est différent du test de comparaison car il ne porte que sur un échantillon, l’effectif total est
13
contrôlé, mais les effectifs des lignes ou des colonnes sont aléatoires.
Rmq : On peut appliquer ce test du χ² au risque relatif (H0 : RR=1)
On utilisera le Odd pour une enquête cas-témoin.
Rmq : La valeur du χ² reflète la probabilité que RR=1 si H0 vraie ; elle ne donne pas d’indication sur la
valeur du RR
IV/ Etude de la liaison entre deux variables quantitatives
Rmq : le coefficient de corrélation de Pearson (r) est un bon indicateur quand la relation est linéaire sinon il est
biaisé.
*Test du coefficient de corrélation (H0 : les deux variables quantitatives sont indépendantes)
Condition : Le couple (X, Y) suit une loi Normale bidimensionnelle
S yx
ecart type du couple
On calcule r=
=
ecart type de X⋅ecart type de Y
S x⋅S y
On choisit la valeur seuil pour α voulu et ν=n-2 dans la table du coefficient de corrélation
Si l’énoncé précise qu’ils sont indépendants alors r=0
P J-M
14
Téléchargement