17/02/16 LEVERRIER Floriane D1 Biomédecine quantitative

publicité
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
17/02/16
LEVERRIER Floriane D1
Biomédecine quantitative
Bertrand Giusiano
CR : NIARE Sanaba
16 pages
Introduction à l'analyse quantitative (2)
Plan
A. Estimations et tests
I. Estimateur
II. Paramètres de position
III. Paramètres de dispersion
IV. Estimation d'un paramètre
B. Principes des tests statistiques
I. Définitions
II. Les étapes d'un test statistique
C. Les différents tests
I. Etude de la liaison entre une variable quantitative et une variable qualitative
II. Séries appariées
III. Etude de la liaison entre deux variables qualitatives
A. Estimation et tests
I. Estimateur
On appelle estimateur d'un paramètre de la population un paramètre calculé à partir de l'échantillon, approchant
au mieux le paramètre de la population (en général, on ne peut pas l'étudier en totalité, on tire donc un
échantillon au hasard, donc représentatif. Il reste cependant toujours une part d'incertitude).
Un estimateur t d'un paramètre θ est dit « sans biais » ou « non biaisé » si son espérance est égale à la valeur du
paramètre, c'est-à-dire E(t) = θ.
La valeur d'un estimateur sans biais est « en moyenne » égale à la valeur du paramètre de la population à
estimer.
II. Paramètres de position
→ Moyenne : On appelle m ou x, la moyenne d'une variable quantitative calculée sur un échantillon, μ étant la
moyenne inconnue dans la population.
Avec x : les valeurs de la variable, Σx la somme de ces valeurs et n la taille de l'échantillon
La moyenne m est l'estimateur de la moyenne μ inconnue (La moyenne des moyennes va tendre vers μ).
1/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
→ Pourcentage (pour les valeurs qualitatives) : On appelle p un pourcentage observé sur un échantillon, P
étant le pourcentage inconnu dans la population.
Avec n la taille de l'échantillon et k le nombre d'individus présentant la caractéristique.
Le pourcentage p est l'estimateur du pourcentage P inconnu.
III. Paramètres de dispersion
On appelle υ la variance empirique, observée, d'un échantillon.
Avec x : les valeurs de la variable
m : la moyenne de l'échantillon
n : la taille de l'échantillon
Peut-on estimer σ2, la variance au niveau de la population par υ ?
Non car l'estimateur est biaisé. CR : L'espérance de l'estimateur n'est pas égale à la valeur de la variance dans
la population.
On estimera donc la variance de la population par :
→ Variance : on appelle s2 la variance d'une variable quantitative calculée sur un échantillon, estimateur de la
variance σ2 inconnue dans la population.
Avec x : les valeurs de la variable, m : la moyenne de l’échantillon et n la taille de l'échantillon
(La deuxième formule n'est pas indispensable à savoir, mais permet de calculer la variance plus rapidement).
La variance s2 est l'estimateur de la variance σ2 inconnue.
→ Ecart-type : On appelle s l'écart type calculé sur les valeurs de l'échantillon, σ étant l'écart-type inconnu
dans la population.
L'écart-type s est l'estimateur de l'écart-type σ inconnu.
IV. Estimation d'un paramètre
Une estimation consiste à définir les paramètres d'une population à partir des paramètres observés sur un
échantillon.
2/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
La valeur observée a fort peu de chances d'être exactement la valeur inconnue de la population. Elle est
néanmoins assez proche si l'échantillon est représentatif. En répétant l’échantillonnage, on trouverait
d'autres valeurs, toutes assez proches les unes des autres, autour du vrai paramètre.
1) Estimation d'une moyenne
Théorème central limite : La moyenne d'une variable quantitative calculée sur un échantillon est une variable
aléatoire qui suit une loi normale (convergence vers une loi Normale)
Cette loi Normale est centrée sur la moyenne μ de la population.
On etudie une population P selon une variable x et une moyenne μ inconnue. On tire un premier echantillon
d'effectif reduit pour calculer la moyenne des x et qu'on appelle x1. On tire un deuxieme echantillon de meme
effectif n que l'echantillon 1, puis un troisieme echantillon, et ainsi de suite.
On peut considérer ces moyennes que l'on vient de calculer à partir des échantillons comme les valeurs d'une
variable aleatoire d'une population, la population des moyennes des echantillons. La moyenne de cette
population est egale à μ.
Puisque la moyenne des x est egale à la moyenne d'origine, les moyennes de ces echantillons sont distribuees
d'apres la loi Normale. Grâce à cette loi, on va pouvoir predire la probabilite qu'une moyenne x dans un
echantillon pris au hasard soit comprise entre 2 valeurs autour de μ.
2) Passer de la variable d'origine à la variable centrée réduite (et inversement)
z est la variable centrée réduite.
On peut toujours passer d'une variable normale à une variable centrée réduite et inversement.
3/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
3) Comment déterminer les valeurs de l'intervalle de confiance ?
On lit dans la table de la variable normale centrée réduite les valeurs
correspondant au risque choisi. Puis on déréduit et on décentre ces
valeurs pour les ramener à l'échelle de la variable étudiée.
La variable recherchée μ a une probabilité 1-α de se trouver dans cet
intervalle.
L'intervalle de confiance est de
x ± |zα|.sm
B. Principes des tests statistiques
I. Définitions
On compare la moyenne des poids de deux groupes d'enfants :
Est-ce que μA = μB ? 18,2 = 18,2 => OUI
En êtes-vous sûrs ?
OUI, c'est la moyenne de la population
Est-ce que μA = μC ? 18,2 ≠ 18,7
En êtes-vous sûrs ?
=> NON
=> OUI, c'est encore une fois les deux moyennes des deux populations
Est-ce que μD = μE
En êtes-vous sûrs ?
=> ???
=> Oui, la population est trop grande pour que l'on puisse travailler dessus.
Il faut donc travailler sur des échantillons
??? = ???
4/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
Cependant ces estimations restent imprécises. En effet, la moyenne de l’échantillon n'est pas la moyenne de la
population, ça n'en est qu'une estimation.
Les moyennes des échantillons peuvent être différentes alors que les moyennes des populations sont égales, à
cause des fluctuations d’échantillonnage.
Distribution de la différence des moyennes
Si μD = μE alors μD – μE = 0
Nous allons partir de cette hypothèse (hypothèse nulle) et regarder comment est distribuée la variable
« différence des moyennes des échantillons » (d).
d = xD – xE
Hypothèse nulle
Sous l'hypothèse nulle (H0) : μD = μE donc μD – μE = 0
La moyenne des différences entre les moyennes des échantillons (d) doit être = à 0
On montre que d suit une distribution normale.
Quelle est la probabilité pour qu'un di (différence moyenne de deux échantillons) soit différent de 0 sous
l'hypothèse nulle ?
Cela dépend de l'étendue de la distribution d'origine. Sur des moyennes de plusieurs millions, une différence de
340 par exemple sera relative. Il faut prendre en compte les caractéristiques des distributions. CR : Si on trouve
340, est-ce qu'on peut considérer ce nombre assez proche de 0 pour que ce nombre soit seulement dû aux
fluctuations d'échantillonage ?
5/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
Hypothèse nulle vs hypothèse alternative
Intuitivement, si di est très près de 0, on peut penser que l'hypothèse nulle est la réalité. Tandis que si di est très
éloignée de 0, on préférera rejeter l'hypothèse nulle au profit de l'hypothèse alternative qui dit que μD ≠ μE.
Plus objectivement, on utilisera les propriétés de la distribution normale de la variable d.
Degré de significativité
La table de la loi normale centrée réduite nous dira avec quelle probabilité on peut trouver le di que l'on a
effectivement trouvé si l'hypothèse nulle est la réalité.
Risque α
Plus classiquement, on se fixera une probabilité (α) et on regardera dans la table si notre di trouvé dépasse la
valeur seuil correspondant à cette probabilité. Bien sur, il faudra dereduire et decentrer la valeur seuil pour
revenir à l'echelle de la variable d.
Attention, il existe deux façons de se tromper : risque α et β.
CR : Faute sur l'image de gauche : la courbe H0 est centrée sur 0 et non 170.
Le risque α correspond à la situation où l'on choisit la courbe HA, alors que H0 est la bonne.
Le risque β est la situation inverse : on choisit la courbe H0, alors que c'est HA qui était vraie.
II. Les étapes d'un test statistique
Hypothèse à tester :
– Choix de l'hypothèse nulle H0
– Choix de l'hypothèse alternative HA
Choix du risque α : fixer une règle pour décider de l'acceptation ou du rejet de H0.
Conditions d'application :
– Tirage au hasard des échantillons
– Taille des échantillons
– etc.
Statistique du test : Calcul de la statistique appropriée (apprécier une différence)
Conclusion du test : Décision en comparant la valeur de la statistique calculée au seuil de signification au risque
α choisi.
6/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
C. Les différents tests
I. Etude de la liaison entre une variable quantitative et une variable qualitative
1) Comparaison des moyennes de deux sous-populations
→ Cas des grands échantillons : n1 et n2 ≥ 30 (en dessous de 30 => Loi de Student)
1. Hypothèse à tester : H0 : μ1 = μ2
HA : μ1 ≠ μ2
ou
μ1-μ2 = 0
2. Choix du risque α : 5%
3. Conditions d'application : Echantillons pris au hasard, échantillons indépendants, n1 et n2 ≥ 30
4. Statistique du test :
suit une loi Normale N(0,1) sous H0
Cette statistique est centrée réduite : De moyenne 0 et d'écart-type 1
5. Conclusion du test
Si |e| < Nα => On conserve H0
Si |e| ≥ Nα => On rejette H0 pour accepter HA au risque α
6. Degré de signification : On lit la valeur de p dans la table bilatérale de la loi Normale telle que |e| = NP
Détails du calcul de la statistique du test :
Soit X la variable aléatoire de la moyenne d'un échantillon. L'écart (( X1-- X2) suit une loi Normale de moyenne
0. Les deux échantillons étant pris au hasard et de manière indépendante, X1 et X2 sont indépendantes et donc
En exprimant l'écart (X1 - X2) en unité d'écart-type,
la variable aléatoire E suit une loi Normale N(0,1) sous H0 avec :
Les vraies variances σ12 et σ22 sont peu souvent connues. Elles seront estimées respectivement par
et
La variance de la différence, σD2 peut être estimée par :
La statistique du test est e =
EXEMPLE : La durée moyenne vraie de séjour en réanimation après une chirurgie abdominale est-elle
différente de la durée moyenne vraie de séjour en réanimation après une chirurgie vasculaire ?
7/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
On a prélevé au hasard parmi les dossiers d'un service de réanimation,
n1 = 100 dossiers de malades réanimés après une chirurgie abdominale
n2 = 90 dossiers de malades réanimés après une chirurgie vasculaire.
La durée moyenne du séjour a été respectivement :
– x1 = 9 jours, variance de l'échantillon Var(X1) = 8,8
– et de x2 = 7,9 jours, variance de l'échantillon Var(X2) = 8,5
1. Hypothèse à tester : la différence de durée moyenne de réanimation est due aux fluctuations d'échantillonages
(H0 : μ1 = μ2).
Cette différence D = 9 - 7,9 = 1,1 jours va être comparée à 0.
HA : les moyennes vraies dans les deux populations sont « differentes » μ1 ≠ μ2
2. Choix du risque d’erreur : = 5 %.
3. Conditions d'application : Echantillons indépendants, pris au hasard de taille ≥ 30
4. Statistique du test : connaissant la variance de l’echantillon, l’estimation de la variance de la population est :
s2x =Var (X).(n/(n-1))
s2x1 = Var (X1).(n1/(n1-1))=8,8.(100/99)=8,89
s2x2 = Var(X2).(n2/n2-1))=8,5.(90/89)=8,59
5. Conclusion du test : Pour un risque de 5‰, la valeur seuil N0,05 dans la table numérique bilatérale de la loi
Normale est 1,96. Comme 2,56 > 1,96, on rejette H0 au risque de 5%
Autrement dit, au risque de 5% on affirme que la différence des durées moyennes d'hospitalisation
2,56 est compris entre 2,576 et 2,326 est entre 1 et 2% => Risque inférieur à 2%
6. Determination du degre de signification : dans la table numerique bilaterale de la loi Normale, on trouve
N0,01 = 2,58 et N0,02 = 2,33. La valeur exacte ne se trouve pas dans la table (0,01 ≤ p ≤ 0,02). On dira que le
degre de signification du test est p < 0,02.
→ Cas des petits échantillons : n1 et n2 < 30
1. Hypothèses à tester : H0 : μ1 = μ2
HA : μ1 ≠ μ2
ou
μ1-μ2 = 0
2. Choix du risque α : 5%
3. Conditions d'application : Echantillons pris au hasard, échantillons indépendants, X1 et X2 suivent des lois
normales de même variance
4. Statistique du test :
suit une loi de Student à υ = n1 + n2 – 2 degrés de liberté sous H0
8/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
5. Conclusion du test
Si |t| < Tα;n1+n2-2
Si |t| ≥ Tα;n1+n2-2
on conserve H0
on rejette H0 pour accepter HA au risque α
6. Degre de signification : on lit la valeur de p dans la table bilaterale de la loi de Student telle que
|t| = Tp;n1+n2-2
Détails du calcul de la statistique du test : dans le cas des petits échantillons, la différence des variances de la
population σ12 et σ22 ne peut plus être estimée par le calcul donné précédemment pour sx12 et sx22.
Afin de simplifier le probleme, on suppose que les echantillons sont issus de populations dont les moyennes
peuvent etre differentes mais de variances egales : σ12 = σ22 = σ2
Sous l'hypothèse de normalité des variables, σ2 peut être estimé à partir des deux échantillons à la fois
(moyenne pondérée) par :
Et la variance de la différence, σD² peut donc être estimée par :
²
²
La statistique du test, notee t, correspond alors à la difference des moyennes exprimees en unite d’ecart-type
estime.
Cette statistique t suit une loi de Student à = n1 + n2 - 2 ddl.
EXEMPLE : Le rythme cardiaque moyen des individus hyperthyroïdiens est-il différent du rythme cardiaque
moyen des individus non hyperthyroïdiens (normaux) ?
Deux échantillons pris au hasard :
- pour les n1 = 12 hyperthyroïdiens : une moyenne x1 = 102,9 et une variance estimee de la population
d’origine s2 x1 = 251,1
- pour les n2 = 11 normaux : une moyenne x2 = 77,8 et une variance estimee de la population d’origine
2
s x2 = 99,5.
Nous supposerons par la suite que le rythme cardiaque suit une loi normale et que les variances sont les memes
dans les deux populations.
1. Hypothèses à tester : Les deux échantillons « hyperthyroïdiens » et « normaux » sont issus de deux
populations caractérisées par un même rythme cardiaque (H0 : μ1=μ2)
La différence observée D = 102,9 – 77,8 = 25,1 va être comparée à 0.
HA : les moyennes vraies dans les deux populations sont « differentes » μ1 ≠ μ2
9/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
2. Choix du risque d'erreur α : α = 5%
3. Conditions d’applications : Echantillons independants, pris au hasard, de taille < 30, et le rythme cardiaque
est distribue normalement avec des variances identiques dans les deux populations.
4. Statistique du test : les conditions d’application etant verifiees, nous pouvons utiliser la statistique du test t : `
5. Conclusion du test : il y a 12 + 11 – 2 = 21 ddl
Pour un risque de 5%, la valeur seuil T0,05;21 lue dans la table numerique bilaterale de la loi de Student est 2,08.
Comme 4,49 > 2,08, nous acceptons l’hypothese alternative selon laquelle la moyenne de la frequence
cardiaque chez les hyperthyroidiens est statistiquement differente de la moyenne de la frequence cardiaque chez
les normaux, et cela avec un risque d’erreur de 5 %.
6. Determination du degre de signification :
Dans la table numerique bilaterale de la loi de Student, la valeur la plus proche de 4,49, pour 21 ddl, est 0,01.
On dira que le degre de signification du test est p < 0,01.
2) Comparaison d'une moyenne à une constante
→ Cas d'un grand échantillon (n ≥ 30)
1. Hypothèses à tester : H0 : μ = a
HA : μ ≠ a
ou
μ1- a = 0
2. Choix du risque α : 5%
3. Conditions d'application : échantillons pris au hasard, n > 30
4. Statistique du test
suit une loi Normale N(0,1) sous H0
5. Conclusion du test
Si |e| < Nα
on conserve H0
Si |e| > Nα
on rejette H0 pour accepter HA au risque α
6. Degre de signification : on lit la valeur de p dans la table bilaterale de la loi Normale telle que |e| = Np.
L’ecart (X-a) suit une loi Normale de moyenne 0 et Var(X-a) = Var(X) = σ2/n. CR : Car la variance d'une
constante est nulle.
La statistique du test, notee e, correspond à la difference, exprimee en unite d’ecart- type, entre la moyenne
observee et la constante.
10/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
Lorsque la variance de la population theorique est connue :
Lorsque la variance de la population theorique n’est pas connue il est possible d’estimer σ2 à partir de s2 où :
La statistique du test devient alors :
Que la variance de la population soit connue ou estimee, la statistique e suit une loi Normale N(0, 1).
EXEMPLE : La machine à fabriquer des gélules est-elle bien réglée ?
On a prélevé au hasard un échantillon de gélules, n = 100 gélules
Quantité moyenne de produit actif observée = 103
La machine est réglée pour que le vrai réglage soit 100 avec σ = 10
1. Hypotheses à tester : La difference entre la quantite moyenne de produit actif observee et celle theorique
(constante) est due aux fluctuations d’echantillonnages (H0 : μ = 100).
Cette difference D = 103 - 100 va etre comparee à 0.
HA : le reglage est mauvais.
2. Choix du risque d'erreur alpha : alpha = 5%
3. Conditions d’applications : Echantillon pris au hasard, de taille 30.
4. Statistique du test : l'écart-type de la population est connu (10) :
5. Conclusion du test : pour un risque de 5%, la valeur seuil N0,05 dans la table numerique bilaterale de la loi
Normale est 1,96. Comme 3 > 1,96, on rejette H0 (on conclue que le reglage est mauvais) au risque de 5 %.
6. Determination du degre de signification : dans la table numerique bilaterale de la loi Normale, on trouve
N0,01 = 2,58.
Le reglage de la machine est statistiquement mauvais avec un degre de signification de p < 0,01.
→ Cas d'un petit échantillon (n < 30)
• Dans le cas où la variance de la population théorique est connue.
1. Hypothèses à tester :
H0 : μ = a ou μ – a = 0
HA : μ ≠ a
2. Choix du risque alpha : 5%
11/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
3. Conditions d'application : échantillon pris au hasard, X suit une loi normale.
4. Statistique du test : (comme pour un grand échantillon)
suit une loi Normale N(0,1) sous H0
5. Conclusion du test
Si |e| < N on conserve H0
Si |e| ≥ N on rejette H0 pour accepter HA au risque α
6. Degre de signification : on lit la valeur de p dans la table bilaterale de la loi Normale telle que |e| = Np.
•
Dans le cas où la variance de la population théorique est inconnue.
1. Hypothèses à tester :
H0 : μ = a ou μ – a = 0
HA : μ ≠ a
2. Choix du risque alpha : 5%
3. Conditions d'application : échantillon pris au hasard, X suit une loi normale
4. Statistique du test : (comme pour un grand échantillon)
suit une loi de Student à ν = n – 1 degrés de liberté sous H0
5. Conclusion du test :
Si |t| < Tα;n-1 on conserve H0
Si |t| ≥ Tα;n-1 on rejette H0 pour accepter HA au risque α
6. Degre de signification : on lit la valeur de p dans la table bilaterale de la loi Normale telle que |t| < Tp;n-1.
EXEMPLE : La machine fabriquer des gélules est-elle bien réglée ? (bis)
On a prélevé au hasard un echantillon de gelules, n = 15 gelules
Quantite moyenne de produit actif observee = 116
La machine est reglee pour que le vrai reglage soit 100 avec une estimation de l'ecart-type de la population s =
40. On admet que la quantite de produit actif des gelules suit une loi normale.
1. Hypothèses à tester : La différence entre la quantité moyenne de produit actif observée et celle théorique
(constante) est due aux fluctuations d’echantillonnages (H0 : = 100).
Cette difference D = 116 - 100 va etre comparee à 0.
HA : le reglage est mauvais ( 100).
12/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
2. Choix du risque d’erreur : = 5 %.
3. Conditions d’application : Echantillon pris au hasard, de taille < 30, et la distribution de la quantite de
produit actif des gelules suit une loi normale.
4. Statistique du test : l'écart type de la population n'est pas connu, on n'en a qu'une estimation (s = 40)
5. Conclusion du test :
Pour un risque de 5%, la valeur de T0,05,14 dans la table numérique bilatérale de la loi de Student est 2,14.
Comme 1,55<2,14, on conserve H0 (le réglage est bon). La différence observée est due aux fluctuations
d’échantillonnage.
6. Détermination du degré de signification : Dans la table numérique bilatérale de la loi de Student à 14 ddl, on
trouve T0,20;14 = 1,34 et T0,10;14 = 1,76. Le degré de signification du test est donc p < 0,10.
II. Séries appariées
(Chez une même personne : mesure poids avant et après régime = mesures appariées)
→ Cas des grands échantillons (n ≥ 30)
1. Hypothèses à tester : H0 : μD = 0, la moyenne de D est nulle
HA : μ D ≠ 0
2. Choix du risque alpha : 5%
3. Conditions d'application : 1 échantillon pris au hasard, n ≥ 30
4. Statistique du test :
suit une loi Normale N(0,1) sous H0
avec
5. Conclusion du test :
Si |e| < Nα
on conserve H0
Si |e| ≥ Nα
on rejette H0 pour accepter HA au risque α
6. Degre de signification : on lit la valeur de p dans la table bilaterale de la loi Normale telle que |e| = Np.
→ Cas des petits échantillons (n < 30)
1. Hypothèses à tester : H0 : μD = 0, la moyenne de D est nulle
HA : μ D ≠ 0
13/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
2. Choix du risque alpha : 5%
3. Conditions d'application : 1 échantillon pris au hasard
D suit une loi Normale
4. Statistique du test :
suit une loi de Student à ν = n – 1 degrés de liberté sous H0
5. Conclusion du test :
Si |t| < Tα;n-1 on conserve H0
Si |t| ≥ T;n-1
on rejette H0 pour accepter HA au risque α
6. Degre de signification on lit la valeur de p dans la table bilaterale de la loi Normale telle que |t| = Tp;n-1
EXEMPLE : Chez 16 malades atteints d'une tumeur du même type, on a mesuré la surface de la tumeur avant et
après un traitement par radiothérapie.
La moyenne des différences après-avant traitement pour chaque individu est -2,37 et la variance estimée de la
population théorique des différences est de 28,25.
On suppose que la loi de distribution de la différence est une loi normale.
1. Hypotheses à tester : la radiotherapie ne
change pas en moyenne la taille de la tumeur ;
l’ecart observe est du aux fluctuations
d’echantillonnages (H0 : μD = 0).
HA : la radiotherapie change en moyenne la
taille de la tumeur μD ≠ 0.
2. Choix du risque d’erreur : = 5 %.
3. Conditions d’applications : un echantillon
pris au hasard, de taille < 30, et la distribution
de la difference de la surface de la tumeur suit
une loi normale.
4. Statistique du test : l'hypothèse de la
normalité des différences étant admise, on peut
calculer la statistique t :
5. Conclusion du test : Seule la valeur absolue
de t nous intéresse : 1,78
Pour un risque de 5%, la valeur seuil T0,05, 15 lue dans la table numérique bilatérale de la loi de Student est 2,13.
Comme 1,78 < 2,13, on rejette l'hypothèse selon laquelle la radiothérapie est active. On conserve l'hypothèse
nulle au risque de 5%.
14/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
6. Determination du degre de signification :
Dans la table numerique bilaterale de la loi de Student à 15 ddl, on a une valeur de 1,75 pour = 0,10. Le degre
de signification du test est donc p > 0,05.
III. Etude de la liaison entre deux variables qualitatives
Comparaison d'une répartition observée / à une répartition théorique
1. Hypothèses à tester :
H0 : la répartition de la variable dans la population étudiée est identique à la répartition théorique
HA : la repartition de la variable dans la population etudiee est differente de la repartition theorique
2. Choix du risque alpha : classiquement 5%
3. Conditions d'application : Echantillon pris au hasard, effectifs théoriques ≥ 5
4. Statistiques du test :
suit une loi du chi-2
à ν = k – 1 degrés de liberté sous H0
5. Conclusion du test :
Si χ2 < χ2a,υ , alors on conserve H0
Si χ2 ≥ χ2a,υ , alors on rejette H0 pour accepter HA, au risque α (avec 100.α % de chance de se tromper)
6. Degre de signification :
Lire dans la table numerique unilaterale de la loi du χ2 la valeur α telle que χ2 = χ2a,υ, (ou la valeur la plus proche
de α).
Détails du calcul de la statistique du test :
Soient oi les effectifs observés pour chaque modalité i du caractère qualitatif étudié comportant k modalités (i
varie de l à k) sur un échantillon de taille n.
Soient pi les proportions théoriques du caractère étudié.
Il est alors possible de calculer les effectifs théoriques pour un échantillon « idéal » d'effectif n : ti = npi
A condition que tous les ti ≥ 5 ;
Alors l'écart entre la distribution observée et la distribution théorique est caractérisé par la quantité :
Qui suit une loi du χ2 à v=k-1 degrés de liberté
EXEMPLE : Dans un centre hospitalier A :
440 décès : 110 par cancers, 130 par pathologies cardio-vasculaires, 200 par autres causes.
15/16
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (2)
On souhaite savoir si cette repartition des deces coincide avec la repartition des deces dans la region
d’appartenance de ce centre hospitalier (respectivement 15 %, 20 % et 65 % pour les cancers, les pathologies
cardio-vasculaires et les autres causes).
1. Hypothèses à tester :
H0 : la répartition des décès dans le centre hospitalier est identique à celle de la région
HA : la répartition des décès dans le centre hospitalier est différente de celle de la région
2. Choix du risque d’erreur alpha : α = 5%
3. Conditions d'applications :
a) Un echantillon pris au hasard.
b) Calculons, à partir de la repartition theorique des deces, les effectifs theoriques :
Deces par cancer : t1 = 440 * 0,15 = 66 > 5
Deces par pathologies cardio-vasculaires : t2 = 440 * 0,20 = 88 > 5
Deces pour autres causes : t3 = 440 * 0,65 = 286 > 5
4. Statistique du test :
avec υ = 3 - 1 = 2 degres de liberte.
5. Conclusion du test : Pour un risque de 5 % et pour υ = 2 degres de liberte, la valeur seuil χ20,05,2 lue dans la
table numerique unilaterale de la loi du χ2 est 5,99.
Comme 75,24 > 5,99, on conclue, au risque de 5 %, que la repartition observee des deces dans
le centre hospitalier est statistiquement differente de la repartition theorique de la region.
6. Determination du degre de signification :
dans la table numerique unilaterale de la loi du χ2 à 2 ddl, on a une valeur de 13,81 pour = 0,001. Le degre de
signification du test est donc p < 0,001 (75,24 > 13,81).
A mon dernier ronéo à jamaaaaaaaaaaaaaaaaaaaaais
Big up à mon dictaphone, enregistrer tout en amphi et me lâcher quand je rentre chez moi, c'est moche.
Aux résistants de l'amphi (A mister Champsaur qui a encore réussi à nous planter) et babyfooteurs
A Fanny, team p1 toujours là
A Marine et Océ (et aux soirées pizzas/sushis)
A LBS et LDB, les conversations facebook c'est plus possible
Au CARGO pour toujours
A la team Inde et nos gâteaux fantastiques (et au rotary en vrai)
16/16
Téléchargement