Telechargé par Jaouad Soufi

Chim-Analytique Chapitre 3

publicité
Chapitre
3
Traitement et évaluation des données
statistiques
Sommaire
3.1
Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . .
26
3.2
Aides statistiques au test d’hypothèse . . . . . . . . . . . . .
30
3.3
Analyse de variance . . . . . . . . . . . . . . . . . . . . . . . .
36
es scientifiques utilisent l’analyse de données statistiques pour évaluer la qualité
des mesures expérimentales, tester différentes hypothèses et développer des modèles
pour décrire les résultats expérimentaux. Dans ce chapitre, nous examinons plusieurs des
applications les plus courantes du traitement des données statistiques. Ces applications
comprennent :
L
1. Définir un intervalle numérique autour de la moyenne d’un ensemble de résultats
répétés à l’intérieur desquels on peut s’attendre à ce que la moyenne de la population se situe avec une certaine probabilité. Cet intervalle est appelé l’intervalle de
confiance. L’intervalle de confiance est lié à l’écart-type de la moyenne.
2. Déterminer le nombre de mesures répétées nécessaires pour s’assurer qu’une moyenne
expérimentale se situe dans une certaine plage avec un niveau de probabilité donné.
3. Déterminer à un niveau de probabilité donné si la précision de deux ensembles de
mesures est différente.
4. Comparer les moyennes de plus de deux échantillons pour déterminer si les différences dans les moyennes sont réelles ou le résultat d’une erreur aléatoire. Ce
processus est connu comme l’analyse de la variance.
25
Traitement et évaluation des données statistiques
3.1
Intervalles de confiance
Dans la plupart des analyses chimiques quantitatives, la valeur vraie de la moyenne µ
ne peut pas être déterminée car un grand nombre de mesures (se rapprochant de l’infini)
seraient nécessaires. Avec les statistiques, cependant, nous pouvons établir un intervalle
autour de la moyenne x̄ expérimentalement déterminée à l’intérieur de laquelle la moyenne
de la population µ devrait se situer avec un certain degré de probabilité. Cet intervalle
est reconnu comme l’intervalle de confiance. Parfois, les limites de l’intervalle sont
appelées limites de confiance. Par exemple, on pourrait dire qu’il est 99% probable
que la vraie moyenne de la population pour un ensemble de mesures de potassium se
trouve dans l’intervalle 7, 25 ± 0, 15% K. Ainsi, la probabilité que la moyenne se situe
dans l’intervalle de 7, 10 à 7, 40% K est de 99%.
La taille de l’intervalle de confiance, qui est calculée à partir de l’écart-type de l’échantillon, dépend de la mesure avec laquelle l’écart type de l’échantillon s estime l’écart type
de la population σ. Si s est une bonne estimation de σ, l’intervalle de confiance peut être
significativement plus étroit que si l’estimation de σ est basée sur seulement quelques
valeurs de mesure.
3.1.1
Détermination de l’intervalle de confiance lorsque σ est
connu ou s est une bonne estimation de σ
La Figure 3.1 montre une série de cinq courbes d’erreur normales. Dans chacun,
la fréquence relative est représentée en fonction de la quantité z (voir équation 2.7),
qui est l’écart par rapport à la moyenne, divisé par l’écart-type de la population. Les
zones ombrées dans chaque diagramme se situent entre les valeurs de −z et +z qui sont
indiquées à gauche et à droite des courbes. Les nombres sur les zones ombrées sont les
pourcentages des surfaces totales sous la courbe qui est incluse dans ces valeurs de z. Par
exemple, comme le montre la courbe (a), 50% de la surface sous n’importe quelle courbe
gaussienne est située entre −0, 67σ et +0, 67σ. En passant aux courbes (b) et (c), nous
voyons que 80% de la superficie totale se situe entre −1, 28σ et +1, 28σ et 90% entre
−1, 64σ et +1, 64σ.
Des relations comme celles-ci nous permettent de définir une gamme de valeurs autour
d’un résultat de mesure à l’intérieur duquel la vraie moyenne est susceptible de se situer
avec une certaine probabilité à condition d’avoir une estimation raisonnable de σ. Par
exemple, si nous avons un résultat x d’un ensemble de données avec un écart-type de σ,
nous pouvons supposer que 90 fois sur 100, la vraie moyenne µ tombera dans l’intervalle
x ± 1, 64σ (voir Figure 3.1c). La probabilité est appelée le niveau de confiance (N C).
Dans l’exemple de la Figure 3.1c, le niveau de confiance est de 90% et l’intervalle de
confiance est de −1, 64σ à +1, 64σ. La probabilité qu’un résultat se situe en dehors de
l’intervalle de confiance est souvent appelée le niveau de signification.
Prof. A. Makan
26
Traitement et évaluation des données statistiques
Figure 3.1 – Surfaces au-dessous de la courbe Gaussienne pour différentes valeurs ±z
Si l’on fait une seule mesure x à partir d’une distribution de σ connue, on peut dire
que la vraie moyenne doit se situer dans l’intervalle x±zσ avec une probabilité dépendant
de z. Cette probabilité est de 90% pour z = 1, 64, de 95% pour z = 1, 96 et de 99% pour
z = 2, 58, comme le montrent les Figures 3.1c, d et e. Nous trouvons une expression
générale pour l’intervalle de confiance (IC) de la vraie moyenne en mesurant une seule
valeur x et en réarrangeant l’équation 2.7 (souvenez-vous que z peut prendre des valeurs
positives ou négatives). Ainsi,
IC pour µ = x ± z σ
(3.1)
Rarement, cependant, nous estimons la vraie moyenne à partir d’une seule mesure.
Au lieu de cela, nous utilisons la moyenne expérimentale x̄ de N mesures comme une
meilleure estimation de µ. Dans ce cas, nous remplaçons x dans l’équation 3.1 par x̄ et
√
σ par l’écart-type de la moyenne, σ/ N , c’est-à-dire,
zσ
IC pour µ = x̄ ± √
N
(3.2)
Les valeurs de z à divers niveaux de confiance se trouvent dans le Tableau 3.1, et la
taille relative de l’intervalle de confiance en fonction de N est indiquée au Tableau 3.2.
L’équation 3.2 nous indique que l’intervalle de confiance pour une analyse peut être
réduit à la moitié en faisant la moyenne de quatre mesures. Seize mesures réduiront l’inProf. A. Makan
27
Traitement et évaluation des données statistiques
3.1 – Niveaux de confiance de dif- Tableau 3.2 – Taille de l’intervalle de
férentes valeurs de z
confiance en fonction de la moyenne des
Niveau de
z
nombres de mesure
Moyenne des
Taille relative
confiance, %
nombres de
de l’intervalle
50
0.67
mesure
de confiance
68
1.00
Tableau
80
90
95
95.4
99
99.7
99.9
1.28
1.64
1.96
2.00
2.58
3.00
3.29
1
2
3
4
5
6
10
1.00
0.71
0.58
0.50
0.45
0.41
0.32
tervalle d’un facteur de 4, et ainsi de suite. Nous atteignons rapidement un point de
rendements décroissants, cependant, en faisant la moyenne de plus de résultats. Normalement, nous profitons du gain relativement important obtenu en faisant la moyenne de
deux à quatre mesures, mais nous pouvons rarement nous permettre le temps ou la quantité d’échantillon requis pour obtenir des intervalles de confiance plus étroits grâce à des
mesures répétées supplémentaires.
Il est essentiel de garder à l’esprit à tout moment que les intervalles de confiance
basés sur l’équation 3.2 ne s’appliquent qu’en l’absence de biais et seulement si on peut
supposer que s est une bonne approximation de σ. Nous indiquerons que s est une bonne
estimation de σ en utilisant le symbole s → σ (s proche de σ).
3.1.2
Détermination de l’intervalle de confiance lorsque σ est
inconnu
Souvent, les limitations dans le temps ou dans la quantité d’échantillon disponible
nous empêchent de faire suffisamment de mesures pour supposer que s est une bonne
estimation de σ. Dans un tel cas, un seul ensemble de mesures répétées doit fournir
non seulement une moyenne, mais aussi une estimation de la précision. Comme indiqué
précédemment, s calculé à partir d’un petit ensemble de données peut être assez incertain.
Ainsi, les intervalles de confiance sont nécessairement plus larges lorsque nous devons
utiliser une valeur de s de petit échantillon comme notre estimation de σ.
Pour tenir compte de la variabilité de s, nous utilisons le paramètre statistique important t, qui est défini exactement de la même manière que z (équation 2.7), sauf que s
est substitué à σ. Pour une seule mesure du résultat x, on peut définir t comme :
Prof. A. Makan
28
Traitement et évaluation des données statistiques
3.3 – Valeurs de t pour différents nivaux de probabilité
80%
90%
95%
99%
99,9%
Tableau
Degré de
liberté
1
2
3
4
5
6
7
8
9
10
15
20
40
60
∞
3.08
1.89
1.64
1.53
1.48
1.44
1.42
1.40
1.38
1.37
1.34
1.32
1.30
1.30
1.28
6.31
2.92
2.35
2.13
2.02
1.94
1.90
1.86
1.83
1.81
1.75
1.73
1.68
1.67
1.64
12.7
4.30
3.18
2.78
2.57
2.45
2.36
2.31
2.26
2.23
2.13
2.09
2.02
2.00
1.96
63.7
9.92
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
2.95
2.84
2.70
2.62
2.58
637
31.6
12.9
8.61
6.87
5.96
5.41
5.04
4.78
4.59
4.07
3.85
3.55
3.46
3.29
t=
x−µ
s
(3.3)
t=
x̄ − µ
√
s/ N
(3.4)
Pour la moyenne de N mesures,
Comme z dans l’équation 3.1, t dépend du niveau de confiance désiré. Cependant, t
dépend aussi du nombre de degrés de liberté dans le calcul de s. Le Tableau 3.3 donne
des valeurs de t pour quelques degrés de liberté. Des tableaux plus détaillés se trouvent
dans divers manuels mathématiques et statistiques. Notez que t s’approche de z lorsque
le nombre de degrés de liberté devient grand.
L’intervalle de confiance pour la moyenne x̄ de N mesures de réplicats peut être
calculée à partir de t par l’équation 3.5, qui est similaire à l’équation 3.2 en utilisant z :
ts
IC pour µ = x̄ ± √
N
Prof. A. Makan
(3.5)
29
Traitement et évaluation des données statistiques
3.2
Aides statistiques au test d’hypothèse
Le test d’hypothèse est à la base de nombreuses décisions prises en science et en
ingénierie. Pour expliquer une observation, un modèle hypothétique est avancé et testé
expérimentalement pour déterminer sa validité. Les tests d’hypothèses que nous décrivons sont utilisés pour déterminer si les résultats de ces expériences supportent le modèle.
Si elles ne supportent pas notre modèle, nous rejetons l’hypothèse et en cherchons une
nouvelle. Si un accord est trouvé, le modèle hypothétique sert de base pour d’autres expériences. Lorsque l’hypothèse est soutenue par des données expérimentales suffisantes,
elle devient reconnue comme une théorie utile jusqu’à l’obtention des données qui la
réfutent. Les résultats expérimentaux concordent rarement avec ceux prédits par un modèle théorique. En conséquence, les scientifiques et les ingénieurs doivent souvent juger si
une différence numérique est le résultat d’une différence réelle (une erreur systématique)
ou une conséquence des erreurs aléatoires inévitables dans toutes les mesures. Les tests
statistiques sont utiles pour clarifier ces jugements.
Les tests de ce genre utilisent une hypothèse nulle, qui suppose que les quantités
numériques comparées sont, en fait, les mêmes. Nous utilisons ensuite une distribution
de probabilité pour calculer la probabilité que les différences observées résultent d’une
erreur aléatoire. Habituellement, si la différence observée est supérieure ou égale à la
différence qui se produirait 5 fois sur 100 d’une manière aléatoire (niveau de signification
de 0,05), l’hypothèse nulle est considérée discutable, et la différence est jugée significative.
D’autres niveaux de signification, tels que 0,01 (1%) ou 0,001 (0,1%), peuvent également
être adoptés, en fonction de la certitude souhaitée dans le jugement. Lorsqu’il est exprimé
en fraction, le niveau de signification est souvent noté α. Le niveau de confiance, N C, en
pourcentage est lié à α par N C = (1 − α) × 100%.
Des exemples spécifiques de tests d’hypothèses souvent utilisés par les scientifiques
comprennent la comparaison (1) de la moyenne d’un ensemble de données expérimentales
avec ce que l’on croit être la vraie valeur, (2) de la moyenne avec une valeur prédite ou
seuil (3) des moyennes ou des écarts-types de deux ensembles de données ou plus.
3.2.1
Comparaison d’une moyenne expérimentale avec une valeur connue
Il existe de nombreux cas dans lesquels un scientifique ou un ingénieur doit comparer
la moyenne d’un ensemble de données avec une valeur connue. Dans certains cas, la
valeur connue est la valeur vraie ou acceptée basée sur une connaissance ou une expérience
antérieure. Un exemple consiste à comparer les valeurs mesurées du cholestérol à la valeur
certifiée par le NIST dans un échantillon de sérum de référence standard. Dans d’autres
situations, la valeur connue peut être une valeur prédite à partir de la théorie ou peutêtre un seuil que nous utilisons pour prendre des décisions sur la présence ou l’absence
Prof. A. Makan
30
Traitement et évaluation des données statistiques
d’un constituant. Un exemple de valeur décisionnelle consisterait à comparer le niveau de
mercure mesuré dans un échantillon de thon rouge au niveau de seuil de toxicité. Dans
tous ces cas, nous utilisons un test d’hypothèse statistique pour tirer des conclusions
sur la moyenne de la population µ et sa proximité à la valeur connue, que nous appelons
µ0 .
Il y a deux résultats contradictoires que nous considérons dans tout test d’hypothèse.
La première, l’hypothèse nulle H0 indique que µ = µ0 . La seconde, l’hypothèse alternative
Ha peut être énoncée de plusieurs façons. Nous pourrions rejeter l’hypothèse nulle en
faveur de Ha si µ est différent de µ0 (µ 6= µ0 ). D’autres hypothèses alternatives sont
µ > µ0 ou µ < µ0 . Dans un premier exemple, supposons que nous sommes intéressés à
déterminer si la concentration de plomb dans un rejet des eaux usées industrielles dépasse
la quantité permise de 0, 05 ppm. Notre test d’hypothèse serait résumé comme suit :
H0 : µ = 0, 05 ppm
Ha : µ > 0, 05 ppm
À titre d’exemple différent, supposons plutôt que les expériences sur une période de
plusieurs années ont déterminé que le niveau de plomb moyen est de 0, 02 ppm. Récemment, des changements dans le processus industriel ont été effectués, et nous soupçonnons
que le niveau de plomb moyen est maintenant différent de 0, 02 ppm. Dans ce cas, ça nous
intéresse pas de savoir si elle est supérieure ou inférieure à 0, 02 ppm. Notre test d’hypothèse serait résumé comme suit :
H0 : µ = 0, 02 ppm
Ha : µ 6= 0, 02 ppm
Pour appliquer le test statistique, une procédure de test doit être mise en place.
Les éléments cruciaux d’une procédure de test sont la formation d’un test statistique
approprié et l’identification d’une région de rejet. Le test statistique est formulé à partir
des données sur lesquelles nous baserons la décision d’accepter ou de rejeter H0 . La région
de rejet est constituée de toutes les valeurs du test statistique pour lesquelles H0 sera
rejetée. L’hypothèse nulle est rejetée si le test statistique se trouve dans la région de
rejet. Pour les tests concernant un ou deux moyennes, le test statistique peut être le z
statistique si nous avons un grand nombre de mesures ou si nous connaissons σ. Très
souvent, cependant, nous utilisons le t statistique pour de petits nombres de mesures
avec un σ inconnu. En cas de doute, le t statistique doit être utilisé.
3.2.1.1
Le z-test de grand échantillon
Si un grand nombre de résultats sont disponibles pour que s soit une bonne estimation
de σ, le z-test est approprié. La procédure utilisée est résumée ci-dessous :
Prof. A. Makan
31
Traitement et évaluation des données statistiques
1. Énoncer l’hypothèse nulle :
H0 : µ = µ0
2. Former le test statistique :
z=
x̄ − µ0
√
σ/ N
3. Énoncer l’hypothèse alternative Ha et déterminer la région de rejet
Pour Ha : µ 6= µ0 , rejeter H0 si z ≥ zcrit ou si z ≤ −zcrit (test bilatéral)
Pour Ha : µ > µ0 , rejeter H0 si z ≥ zcrit (test unilatéral)
Pour Ha : µ < µ0 , rejeter H0 si z ≤ −zcrit (test unilatéral)
Les régions de rejet sont illustrées sur la Figure 3.2 pour un niveau de confiance de
95%. Notez que pour Ha : µ 6= µ0 , on peut rejeter soit une valeur positive de z, soit
une valeur négative de z qui dépasse la valeur critique. C’est ce que l’on appelle un test
bilatéral puisque le rejet peut se produire pour les résultats dans les deux extrémités de
la distribution. Pour le niveau confiance de 95%, la probabilité que z dépasse zcrit est de
0, 025 dans chaque extrémité ou de 0, 05 au total. Par conséquent, il y a seulement une
probabilité de 5% qu’une erreur aléatoire mène à une valeur de z ≥ zcrit ou de z ≤ −zcrit .
Le niveau de signification global est de α = 0, 05. D’après le Tableau 3.1, la valeur critique
de z est de 1, 96 pour ce cas.
Si au contraire notre hypothèse alternative est Ha : µ > µ0 , le test est dit être un
test unilatéral. Dans ce cas, nous ne pouvons rejeter que lorsque z ≥ zcrit . Maintenant,
pour le niveau de confiance de 95%, nous voulons que la probabilité que z dépasse zcrit
soit de 5% ou que la probabilité totale dans les deux extrémités soit de 10%. Le niveau
de signification global serait de α = 0, 10, et la valeur critique du Tableau 3.1 est de 1, 64.
De même, si l’hypothèse alternative est µ < µ0 , on ne peut rejeter que lorsque z ≤ −zcrit .
La valeur critique de z est encore de 1, 64 pour ce test unilatéral.
3.2.1.2
Le t-test de petit échantillon
Pour un petit nombre de résultats, nous utilisons une procédure similaire au z-test,
sauf que le test statistique est le t statistique. Encore une fois, nous testons l’hypothèse
nulle H0 : µ = µ0 , où µ0 est une valeur spécifique de µ telle qu’une valeur acceptée, une
valeur théorique ou une valeur de seuil. La procédure est :
1. Énoncer l’hypothèse nulle :
H0 : µ = µ0
Prof. A. Makan
32
Traitement et évaluation des données statistiques
Figure 3.2 – Régions de rejet pour le niveau de confiance de 95%. (a) Test à deux
extrémités pour Ha : µ 6= µ0 . Notez que la valeur critique de z est 1,96 comme dans la
Figure 3.1. (b) Test à une seule extrémité pour Ha : µ > µ0 . La valeur critique de z
est de 1,64, de sorte que 95% de la surface est à gauche du zcrit et 5% de la surface est à
droite. (c) Test une seule extrémité pour Ha : µ < µ0 . La valeur critique est à nouveau
de 1,64, de sorte que 5% de la zone se trouve à gauche de −zcrit .
2. Former le test statistique :
t=
x̄ − µ0
√
s/ N
3. Énoncer l’hypothèse alternative Ha et déterminer la région de rejet
Pour Ha : µ 6= µ0 , rejeter H0 si t ≥ tcrit ou si t ≤ −tcrit (test bilatéral)
Pour Ha : µ > µ0 , rejeter H0 si t ≥ tcrit (test unilatéral)
Pour Ha : µ < µ0 , rejeter H0 si t ≤ −tcrit (test unilatéral)
À titre d’exemple, considérons le test d’erreur systématique dans une méthode analytique. Dans ce cas, un échantillon de composition connue avec exactitude, tel qu’un
matériau de référence standard, est analysé. La détermination de l’analyte dans le matériau donne une moyenne expérimentale qui est une estimation de la moyenne de la
population. Si la méthode analytique n’avait pas d’erreur systématique ou de biais, les
Prof. A. Makan
33
Traitement et évaluation des données statistiques
erreurs aléatoires donneraient la fréquence de distribution représentée par la courbe A de
la Figure 3.3. La méthode B a une erreur systématique de sorte que x̄B , qui estime µB ,
diffère de la valeur acceptée µ0 . Le biais est donné par :
Figure 3.3 – Illustration d’une erreur systématique dans une méthode analytique. La
courbe A est la distribution de fréquence pour la valeur acceptée par une méthode sans
biais. La courbe B illustre la distribution de fréquence des résultats par une méthode qui
pourrait avoir un biais significatif dû à une erreur systématique
Biais = µB − µ0
(3.6)
En testant le biais, nous ne savons pas initialement si la différence entre la moyenne
expérimentale et la valeur acceptée est due à une erreur aléatoire ou à une erreur systématique réelle. Le t-test est utilisé pour déterminer la signification de la différence.
3.2.2
Erreurs dans les tests d’hypothèse
Le choix d’une région de rejet pour l’hypothèse nulle est fait pour que nous puissions
facilement comprendre les erreurs impliquées. À un niveau de confiance de 95%, par
exemple, il y a une probabilité de 5% de rejeter l’hypothèse nulle, même si elle est vraie.
Cela peut se produire si un résultat inhabituel survient et met notre test statistique z ou
t dans la région de rejet. L’erreur qui résulte du rejet de H0 quand elle est vraie s’appelle
une erreur de type I. Le niveau de signification α donne la fréquence de rejet de H0 quand
elle est vraie.
L’autre type d’erreur est que nous acceptons H0 quand elle est fausse. Ceci est appelé
une erreur de type II. La probabilité d’une erreur de type II est indiquée par le symbole
β. Aucune procédure de test ne peut garantir que nous ne commettrons pas une erreur
ou l’autre. Les probabilités d’erreur sont le résultat de l’utilisation d’un échantillon de
données pour faire des inférences sur la population. À première vue, diminuer α (0,01 au
lieu de 0,05) semblerait logique pour minimiser le taux d’erreur de type I. Cependant, la
Prof. A. Makan
34
Traitement et évaluation des données statistiques
diminution du taux d’erreur de type I augmente le taux d’erreur de type II car ils sont
inversement liés.
Il est important de penser aux erreurs dans les tests d’hypothèses pour déterminer les
conséquences d’une erreur de type I ou de type II. Si une erreur de type I est beaucoup plus
susceptible d’avoir des conséquences graves qu’une erreur de type II, il est raisonnable
de choisir une petite valeur de αa. D’autre part, dans certaines situations, une erreur
de type II serait très sérieuse, et donc une valeur plus grande de α est utilisée pour
maintenir le taux d’erreurs de type II sous contrôle. En règle générale, le plus grand α
tolérable pour la situation doit être utilisé. Ceci garantit la plus petite erreur de type II
tout en maintenant l’erreur de type I dans des limites acceptables. Pour de nombreux
cas en chimie analytique, une valeur de 0,05 (niveau de confiance de 95%) constitue un
compromis acceptable.
3.2.3
Comparaison des variances
Parfois, il est nécessaire de comparer les variances (ou les écarts-types) de deux ensembles de données. Par exemple, le t-test normal nécessite que les écarts-types des ensembles de données comparés soient égaux. Un test statistique simple, appelé le F -test,
peut être utilisé pour tester cette hypothèse sous la condition que les populations suivent
la distribution normale (gaussienne).
Le F -test est également utilisé pour comparer plus de deux moyennes et dans l’analyse
de régression linéaire. Le F -test est basé sur l’hypothèse nulle que les deux variances de
population considérées sont égales, H0 : σ12 = σ22 . Le test statistique F , qui est défini
comme le rapport des deux variances de l’échantillon (F = s21 /s22 ), est calculé et comparé
à la valeur critique de F au niveau de signification souhaité. L’hypothèse nulle est rejetée
si le test statistique diffère trop de l’unité.
Les valeurs critiques de F au niveau de signification de 0,05 sont indiquées dans le
Tableau 3.4. Notez que deux degrés de liberté sont donnés, l’un associé au numérateur
et l’autre au dénominateur.
Le F -test peut être utilisé soit en mode unilatéral, soit en mode bilatéral. Pour un test
détaillé, nous testons l’hypothèse alternative selon laquelle une variance est plus grande
que l’autre. Ainsi, la variance de la procédure supposée plus précise est placée dans
le dénominateur et celle de la procédure moins précise est placée dans le numérateur.
L’hypothèse alternative est Ha : σ12 > σ22 . Les valeurs critiques de F pour le niveau
de confiance de 95% sont données dans le Tableau 3.4. Pour un test bilatéral, nous
testons si les variances sont différentes, Ha : σ12 6= σ22 . Pour cette application, la plus
grande variance apparaît toujours dans le numérateur. Ce placement arbitraire de la plus
grande variance dans le numérateur rend le résultat du test moins certain ; ainsi, le niveau
d’incertitude des valeurs F dans le Tableau 3.4 est doublé de 5% à 10%.
Prof. A. Makan
35
Traitement et évaluation des données statistiques
Tableau 3.4 – Valeurs critiques de F
de 95%)
Degré de liberté
(Dénominateur)
2
3
4
5
6
10
12
20
∞
3.3
2
3
19.00
9.55
6.94
5.79
5.14
4.10
3.89
3.49
3.00
19.16
9.28
6.59
5.41
4.76
3.71
3.49
3.10
2.60
à un niveau de probabilité de 5% (niveau de confiance
Degré de liberté (Numérateur)
4
5
6
10
12
19.25
9.12
6.39
5.19
4.53
3.48
3.26
2.87
2.37
19.30
9.01
6.26
5.05
4.39
3.33
3.11
2.71
2.21
19.33
8.94
6.16
4.95
4.28
3.22
3.00
2.60
2.10
19.40
8.79
5.96
4.74
4.06
2.98
2.75
2.35
1.83
19.41
8.74
5.91
4.68
4.00
2.91
2.69
2.28
1.75
20
∞
19.45
8.66
5.80
4.56
3.87
2.77
2.54
2.12
1.57
19.50
8.53
5.63
4.36
3.67
2.54
2.30
1.84
1.00
Analyse de variance
Dans la section 3.2, nous avons introduit une méthode pour comparer une moyenne
d’échantillon à une valeur connue. Dans cette section, nous étendons ces principes pour
permettre des comparaisons entre plus de deux moyennes de population. Les méthodes
utilisées pour les comparaisons multiples relèvent de la catégorie générale de l’analyse
de la variance, souvent connue sous l’acronyme ANOVA (ANalysis Of VAriance). Ces
méthodes utilisent un seul test pour déterminer s’il existe ou non une différence entre les
moyennes de la population plutôt que des comparaisons par paires comme c’est le cas
avec le t-test. Après que l’ANOVA indique une différence potentielle, de multiples procédures de comparaison peuvent être utilisées pour identifier quels moyennes de population
spécifiques diffèrent des autres. Les méthodes de conception expérimentale tirent parti
de l’ANOVA dans la planification et l’exécution des expériences.
3.3.1
Concepts ANOVA
Dans les procédures ANOVA, nous détectons la différence dans plusieurs moyennes
de population en comparant les variances. Pour comparer les I moyennes de population,
µ1 , µ2 , µ3 , . . . µI , l’hypothèse nulle H0 est de la forme :
H0 : µ1 = µ2 = µ3 = . . . = µI
et l’hypothèse alternative Ha est :
Ha : au moins deux des µi sont dif f érents
Voici quelques applications typiques d’ANOVA :
1. Y a-t-il une différence dans les résultats de cinq analystes qui déterminent le
calcium par une méthode volumétrique ?
Prof. A. Makan
36
Traitement et évaluation des données statistiques
2. Quatre compositions de solvants différentes auront-elles des influences différentes
sur le rendement d’une synthèse chimique ?
3. Les résultats des déterminations du manganèse par trois méthodes analytiques
différentes sont-ils différents ?
4. Y a-t-il une différence dans la fluorescence d’un ion complexe à six valeurs différentes du pH ?
Dans chacune de ces situations, les populations ont des valeurs différentes d’une caractéristique commune appelée facteur ou parfois traitement. Dans le cas de la détermination
du calcium par une méthode volumétrique, le facteur d’intérêt est l’analyste. Les différentes valeurs du facteur d’intérêt sont appelées niveaux. Pour l’exemple du calcium, il
y a cinq niveaux correspondant à l’analyste 1, l’analyste 2, l’analyste 3, l’analyste 4 et
l’analyste 5. Les comparaisons entre les différentes populations sont faites en mesurant
une réponse pour chaque élément échantillonné. Dans le cas de la détermination du calcium, la réponse est la quantité de Ca (en mmol) déterminée par chaque analyste. Pour
les quatre exemples donnés ci-dessus, les facteurs, les niveaux et les réponses sont :
Facteurs
Niveaux
Réponses
Analyste
Solvant
Méthodes analytiques
pH
Analyst 1, analyst 2, analyst 3
Composition 1, composition 2, composition 3
Méthode 1, Méthode 2, Méthode 3
pH 1, pH 2, pH 3, pH 4
Quantité Ca, mmol
Rendement de synthèse, %
Concentration M n, ppm
Intensité de fluorescence
Le facteur peut être considéré comme la variable indépendante, tandis que la réponse est la variable dépendante. La Figure 3.4 illustre comment visualiser les données
d’ANOVA pour les cinq analystes déterminant Ca en triplicats.
Le type d’ANOVA représenté sur la Figure 3.4 est connu sous le nom d’ANOVA
à un seul facteur. Souvent, plusieurs facteurs peuvent être impliqués, comme dans une
expérience pour déterminer si le pH et la température influencent la vitesse d’une réaction
chimique. Dans un tel cas, le type d’ANOVA est connu sous le nom ANOVA à deux
facteurs.
Prenez les résultats en triplicats pour chaque analyste de la Figure 3.4 pour qu’ils
soient des échantillons aléatoires. Dans ANOVA, les niveaux de facteur sont souvent
appelés groupes. Le principe de base d’ANOVA est de comparer la variation entre les
groupes à la variation intra-groupe. Dans notre cas particulier, les groupes (niveaux de
facteur) sont les différents analystes, et ce cas est une comparaison de la variation entre
les analystes à la variation intra-analyste. Figure 3.5 illustre cette comparaison. Lorsque
H0 est vraie, la variation entre les moyennes du groupe est proche de la variation au
sein des groupes. Lorsque H0 est fausse, la variation entre les moyennes des groupes est
grande par rapport à la variation intra-groupe.
Prof. A. Makan
37
Traitement et évaluation des données statistiques
Figure 3.4 – Représentation graphique des résultats de l’étude ANOVA de la détermination du calcium par cinq analystes. Chaque analyste fait la détermination en trois
exemplaires. L’analyste est considéré comme un facteur, tandis que l’analyste 1, l’analyste
2, l’analyste 3, l’analyste 4 et l’analyste 5 sont des niveaux du facteur
Le test statistique de base utilisé pour l’ANOVA est le F -test décrit à la section 3.2.3.
Une grande valeur de F par rapport à la valeur critique des tables peut nous donner des
raisons de rejeter H0 en faveur de l’hypothèse alternative.
3.3.2
ANOVA à facteur unique
Plusieurs grandeurs sont importantes pour tester l’hypothèse nulle H0 : µ1 = µ2 =
µ3 = . . . = µI . Les moyennes d’échantillon des populations I sont x¯1 , x¯2 , x¯3 , . . . x¯I et
les variances d’échantillon sont s21 , s22 , s23 , . . . s2I . Ce sont les valeurs des estimations de
la population correspondante. En outre, nous pouvons calculer la moyenne générale x̄¯,
qui est la moyenne de toutes les données. La moyenne générale peut être calculée comme
indiqué dans l’équation 3.7 :
N2
N3
NI
N1
x¯1 +
x¯2 +
x¯3 + · · · +
x¯I
x̄¯ =
N
N
N
N
(3.7)
où N1 est le nombre de mesures dans le groupe 1, N2 est le nombre dans le groupe 2, et
ainsi de suite. La moyenne générale peut également être trouvée en additionnant toutes
les valeurs de données et en divisant par le nombre total de mesures N .
Prof. A. Makan
38
Traitement et évaluation des données statistiques
Figure 3.5 – Représentation graphique du principe ANOVA. Les résultats de chaque
analyste sont considérés comme un groupe. Les triangles (N) représentent des résultats
individuels, et les cercles (•) représentent les moyennes. La variation entre les moyennes
des groupes est comparée à celle des moyennes dans les groupes
Pour calculer le taux de variance nécessaire au F-test, il est nécessaire d’obtenir plusieurs autres quantités appelées sommes des carrés :
1. La somme des carrés due au facteur SCF est :
SCF = N1 (x¯1 − x̄¯)2 + N2 (x¯2 − x̄¯)2 + N3 (x¯3 − x̄¯)2 + · · · + NI (x¯I − x̄¯)2
2. La somme des carrés due à l’erreur SCE est :
SCE =
N1
X
(x1j − x¯1 )2 +
j=1
N2
X
(x2j − x¯2 )2 +
j=1
N3
X
(x3j − x¯3 )2 + · · · +
j=1
NI
X
(xIj − x¯I )2
j=1
Ces deux sommes de carrés sont utilisées pour obtenir la variation entre les groupes
et la variation intra-groupe. La somme des carrés des erreurs est liée aux variances
de groupe individuel par :
SCE = (N1 − 1)s21 + (N2 − 1)s22 + (N3 − 1)s23 + · · · + (NI − 1)s2I
3. La somme des carrés totale SCT est obtenue comme la somme de SCF et SCE :
Prof. A. Makan
39
Traitement et évaluation des données statistiques
SCT = SCF + SCE
La somme totale des carrés peut également être obtenue à partir de (N − 1)s2 , où
s2 est la variance de l’échantillon de tous les points de données.
Pour appliquer les méthodes ANOVA, nous devons faire quelques hypothèses
concernant les populations étudiées. Premièrement, les méthodes ANOVA habituelles sont basées sur une hypothèse d’égalité des variances. Autrement dit,
les variances des populations I sont supposées être identiques. Cette hypothèse est
parfois testée (test de Hartley) en comparant les variances maximales et minimales
de l’ensemble avec un F-test. Cependant, le test de Hartley est assez sensible aux
écarts par rapport à la distribution normale.
En règle empirique grossière, s le plus élevé ne devrait pas être beaucoup plus que
deux fois le plus petit s pour vérifier l’hypothèse d’égalité des variances. Transfor√
mer les données en travaillant avec une nouvelle variable telle que x, ou log x,
peut également être utilisé pour donner des populations avec des variances plus
égales. Deuxièmement, chacune des populations I est supposée suivre une distribution gaussienne. Dans les cas où cette dernière hypothèse n’est pas vraie, des
procédures ANOVA sans distribution peuvent être appliquées.
4. Le nombre de degrés de liberté pour chaque somme de carrés doit être obtenu.
La somme totale des carrés SCT a N − 1 degrés de liberté. Comme SCT est la
somme de SCF et SCE, le nombre total de degrés de liberté N − 1 peut être
décomposé en degrés de liberté associés à SCF et SCE. Puisqu’il y a I groupes
comparés, SCF a I − 1 degrés de liberté. Cela laisse N − I degrés de liberté pour
SSE. Alors :
SCT = SCF + SCE
(N − 1) = (I − 1) + (N − I)
5. En divisant les sommes des carrés par leurs degrés de liberté correspondants, on
peut obtenir des quantités qui sont des estimations des variations entre les groupes
et à l’intérieur des groupes. Ces quantités sont appelées valeurs les moyennes carrées et sont définies comme :
Moyenne carrée due aux niveaux de facteur = M CF =
SCF
I −1
SCE
N −I
La quantité M CE est une estimation de la variance due à l’erreur (σE2 ), alors que
M CF est une estimation de la variance d’erreur plus la variance inter-groupes
Moyenne carrée due à l’erreur = M CE =
Prof. A. Makan
40
Traitement et évaluation des données statistiques
(σE2 + σF2 ). Si le facteur a peu d’effet, la variance entre les groupes devrait être
faible par rapport à la variance d’erreur. Ainsi, les deux moyennes carrées devraient
être presque identiques dans ces circonstances. Si l’effet de facteur est significatif,
MCF est supérieur à M CE. Le test statistique est la valeur F , calculée comme :
F =
M CF
M CE
(3.8)
Pour compléter le test d’hypothèse, nous comparons la valeur de F calculée à partir
de l’équation 3.8 avec la valeur critique de la table à un niveau de signification de
α. Nous rejetons H0 si F dépasse la valeur critique. Il est de pratique courante de
résumer les résultats d’ANOVA dans un tableau ANOVA, comme suit :
Source de variation
Entre les groupes
(effet de facteur)
Dans les groupes
(erreur)
Total
Prof. A. Makan
Somme des
carrés (SC)
Degré de
liberté
Moyenne
carrée (MC)
Estimation
de la MC
F
SCF
I −1
M CF =
SCF
I−1
2
+ σF2
σE
M CF
M CE
SCE
N −I
M CE =
SCE
N −I
2
σE
SCT
N −1
41
Téléchargement
Explore flashcards