pour - AgroParisTech

publicité
APPROCHE CHIMIOMETRIQUE
DES RESULTATS D’UNE ANALYSE CHIMIQUE
Christian J. Ducauze et Arlette Baillet-Guffroy
APPROCHE CHIMIOMETRIQUE
DES RESULTATS D’UNE ANALYSE CHIMIQUE
-Résumé1- Introduction : définition d’une analyse chimique
- L’analyse chimique peut se définir comme une suite d’opérations élémentaires
statistiquement indépendantes les unes des autres
2- Obtenir une donnée analytique : démarche habituelle des analystes
- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue
- Description statistique d’une distribution de valeurs expérimentales (résultats des n
répétitions d’une analyse) : moyenne et estimation de l’écart-type
- Une loi de probabilité théorique : la loi Normale. Notions de mode (= valeur probable
= espérance mathématique de la variable X), de variance, de risque de première espèce
- Expression classique du résultat (donnée analytique) : moyenne et intervalle de
confiance estimé de la moyenne
- Elimination des « aberrants »
3- Réflexion sur la démarche des analystes
- La démarche probabiliste habituelle : ajustement des résultats d’analyse obtenus
expérimentalement à une loi Normale (par suppression des valeurs extrêmes ou par
transformation de la variable)
- Une démarche non probabiliste : la donnée analytique est fournie par la médiane de la
distribution des résultats expérimentaux
4- Etude d’un exemple
- Présentation de l’étude : estimation de la concentration en plomb dans du foie de bœuf
à partir de 20 analyses statistiquement indépendantes les unes des autres
- Ajustement à la loi Normale (tests d’ajustement) par suppression des valeurs
extrêmes (les « aberrants ») ou par transformation de la variable
- Comparaison des données analytiques produites à la suite d’une démarche probabiliste
à celles que fournit une démarche non probabiliste
5- Conclusions et discussion
- Pertinence de la démarche probabiliste : application du Théorème Central Limite
- La médiane est préférable à la moyenne pour exprimer le résultat de l’analyse, c’est-àdire la donnée analytique attendue
- La moyenne est utile pour repérer les valeurs « aberrantes » qui ont été obtenues
1
APPROCHE CHIMIOMETRIQUE
DES RESULTATS D’UNE ANALYSE CHIMIQUE
1 – Introduction : définition d’une analyse chimique
Cette approche chimiométrique est une réflexion sur la façon dont peuvent s’appliquer
quelques notions statistiques simples et bien connues à un ensemble de résultats d’analyses
chimiques. Il est donc nécessaire d’avoir compris ce qu’est une analyse chimique : on peut la
définir comme une suite d’opérations élémentaires, indépendantes les unes des autres – au
sens statistique de ce terme –, qui commencent au moment du prélèvement l’échantillon
analytique (prise d’essai) et aboutissent à un résultat, exprimé le plus souvent sous forme
d’une concentration.
Quelques précisions sont utiles pour éclairer cette définition :
1. Chaque « opération élémentaire » correspond à une action particulière de
l’expérimentateur, par exemple « effectuer une pesée », « prélever un volume connu de
réactif », « porter à une température déterminée » ou encore « lire le résultat d’une
mesure », etc.
2. « Indépendance statistique » veut dire que l’erreur expérimentale associée à chaque
opération élémentaire est sans influence sur les autres ; par exemple, l’erreur de lecture sur
un appareil de mesure ne dépend pas de l’erreur de pesée et inversement.
3. On a pris l’habitude de regrouper les différentes opérations élémentaires en quelques
étapes principales, qui sont présentées sur la figure 1.
Le but est de mieux faire comprendre ici la démarche suivie pour élaborer une donnée
chimique – c’est « le » résultat attendu – à partir des résultats d’analyse qui ont été obtenus.
On va tout d’abord décrire la démarche habituelle de l’analyste pour essayer ensuite, à l’aide
d’un exemple, de mieux comprendre son fondement et juger de sa pertinence.
On supposera que la méthode d’analyse choisie a été préalablement validée, qu’il s’agit par
exemple d’une méthode de référence. Autrement dit, on fait l’hypothèse que cette méthode est
sensée fournir une valeur juste, c’est-à-dire acceptée comme telle par les différents
interlocuteurs que concerne cette analyse.
2
Prélèvement de
l’échantillon analytique
Conservation
Traitement de
l’échantillon
Mesure
Etalonnage
Conversion du signal
analytique
Résultat d’analyse
?
A interpréter et à valider pour pouvoir
disposer d’une donnée analytique
Figure 1 : Principales étapes d’une analyse chimique
2 - Obtenir une donnée analytique : démarche habituelle
des analystes
En appliquant la méthode d’analyse choisie à l’échantillon analytique, on obtient un premier
résultat x – en général la concentration de l’analyte (élément, ion ou molécule) dans
l’échantillon – qu’on pourrait considérer a priori comme la valeur recherchée. Mais
l’expérimentateur averti a aussitôt un doute car il sait qu’en répétant la même analyse sur le
même échantillon, il a peu de chances de retrouver exactement le même résultat ; il a
conscience du fait que le résultat obtenu contient une part d’erreur et que cette erreur ne sera
pas identique d’une analyse à l’autre ; il lui est en effet difficile de reproduire chaque fois, de
façon identique, toutes les opérations élémentaires de l’analyse. De fait, il faut considérer que
le résultat obtenu contient certes la valeur recherchée Τ mais aussi une erreur – appelée « aléa
expérimental » et désignée par e – qui résulte de l’erreur expérimentale attachée à chaque
opération élémentaire de l’analyse. On pose ainsi implicitement que le résultat xi obtenu à la
suite d’une analyse (i) est :
xi = T + ei
(1)
3
ei étant une variable aléatoire et T, la Teneur ou valeur vraie (« True value »), qui est une
constante pour l’échantillon considéré.
Il y a donc lieu de considérer que xi est une variable aléatoire, puisque c’est la somme de la
variable aléatoire ei et de la constante T. Comme ei, xi peut théoriquement prendre une infinité
de valeurs ; en d’autres termes, entre deux valeurs parfaitement déterminées de xi, une infinité
de valeurs sont possibles et, si ce n’est pas le cas en pratique, c’est parce que les appareils de
mesure utilisés pour l’analyse fournissent des valeurs arrondies, que le statisticien nommerait
« valeurs discrètes ». Cependant, d’un point de vue théorique, nous sommes bien amenés à
admettre que, xi pouvant prendre une infinité de valeurs, le modèle (1) conduit à définir le
résultat d’une analyse comme une variable aléatoire continue.
Le statisticien dira qu’il associe au résultat d’une analyse la variable aléatoire continue X qui
peut prendre une infinité de valeurs xi. Son réflexe sera alors de rechercher la loi de
distribution de X, autrement dit d’essayer de comprendre comment sont statistiquement
distribuées les valeurs xi de X.
L’analyste a le même réflexe : en répétant plusieurs fois son analyse, il va chercher à se faire
une opinion sur la dispersion des résultats xi et à tirer une conclusion qu’il exprimera en
fournissant la donnée analytique.
L’analyse va donc être répétée n fois, n étant d’autant plus grand que la dispersion attendue
des xi est plus forte. La suite est connue : partant des n valeurs xi obtenues, on va calculer une
moyennex et une estimation de l’écart-type s, soit :
n
x=
∑x
i =1
i
(2)
n
n
s=
∑ (x
i =1
i
− x)2
(3)
n −1
Il faut s’arrêter un instant sur cette expression de s. Il s’agit, en effet, d’une estimation de
l’écart-type et non de l’écart-type σ, tel que le définit le statisticien. En effet, lorsque le
statisticien étudie la loi de distribution d’une variable aléatoire X, il définit tout d’abordx, qui
est la moyenne arithmétique d’un échantillon de n valeurs xi de la variable X, pour considérer
que lorsque n augmente indéfiniment, x tend vers une valeur limite µ, appelée moyenne de la
population, soit :
n
µ = lim x = lim
n→ ∞
n→ ∞
∑ xi
i=1
n
(4)
On dit aussi que µ est la valeur probable de X ou encore l’espérance mathématique de X,
désignée par E(X), ou enfin le mode de la distribution.
4
Pour caractériser la dispersion des xi, le statisticien introduit un autre paramètre statistique, la
variance σ2 qui représente la moyenne de la population des valeurs (xi − µ)2, soit :
n
σ
2
∑
= lim
( xi − µ )2
i =1
n→ ∞
(5)
n
La racine carrée σ de la variance est appelée écart-type :
n
σ = lim
n →∞
∑ (x
i−
i =1
µ )2
(6)
n
Cette grandeur s’exprime donc dans la même unité que x. On voit immédiatement la
différence, d’une part, entre les expressions (2) et (4), d’autre part entre les expressions (3) et
(6) : les expressions (4) et (6) sont définies pour la variable X qui prend une infinité de
valeurs, dans le cadre d’une loi de probabilité théorique ; par contre, dans les expressions (2)
et (3), on ne considère qu’un échantillon de la population renfermant un nombre fini de n
valeurs de la variable X ; on n’a alors réalisé qu’un petit nombre d’analyses (la plupart du
temps, n = 3 ou 5, parfois 10), à partir desquelles on estime, à travers la moyenne calculéex
(2), le mode µ de la distribution, ce qui fait perdre un degré de liberté – car les valeurs xi sont
liées par (2) – et l’on en tient compte dans (3) où la somme des carrés des écarts à la moyenne
est divisée par (n – 1) au lieu de n. Il s’agit bien là, comme il a été précisé au départ, d’une
estimation de l’écart-type. Comme σ, s s’exprime dans la même unité que x : si x s’exprime
dans une unité de concentration, il en est de même de s qu’on va utiliser pour donner
l’intervalle de confiance de la teneur recherchée :
x − t1− α / 2,ν
s
n
≤ T ≤ x + t1− α / 2,ν
s
n
(7)
Dans cette expression, qui résulte de la loi de distribution de la moyenne de n valeurs xi, t1-α/2,ν
représente le critérium de Student (t – Student) que l’on peut lire dans les tables pour la
probabilité choisie P = 1 - α et le nombre de degrés de liberté ν qui est ici, comme vu
précédemment, ν = n – 1.
En admettant par exemple qu’une même analyse a été répétée 5 fois sur le même échantillon
et que l’on choisisse de donner un intervalle de confiance à un niveau de probabilité de 95 %
(P = 0.95), on va rechercher dans la table de Student la valeur de t pour cette probabilité et un
nombre de degrés de liberté égal à 4. On trouvera dans ce cas : t1−α/2,ν = t0.975,4 = 2,776
Les limites de l’intervalle de confiance s’expriment en effet en fonction de t1− α/2,ν et, si le
niveau de probabilité choisi est P = 0,95, le risque d’erreur α = 1 – P = 0,05 est partagé en
deux risques égaux α/2 = 0,025, la loi de probabilité étant ici symétrique.
Cet intervalle de confiance estimé de la moyenne (7) représente l’intervalle dans lequel on
affirme que doit se trouver la teneur T recherchée, en prenant le risque α (ici, α = 5%) de
rejeter à tort pour T toute valeur se trouvant en dehors de l’intervalle. C’est la façon correcte
d’exprimer le résultat attendu et, dès lors, on comprend qu’il faut absolument éviter
d’exprimer ce résultat – comme c’est hélas ! bien trop souvent le cas – sous la formex ± σ
qui introduit la confusion, et ce pour plusieurs raisons : x ± σ n’a pas de sens pour un
5
échantillon fini ; par contre, lorsqu’on étudie la distribution d’une population, c’est-à-dire un
nombre infini de valeurs, dans le cadre d’une loi de probabilité théorique, 68 % environ des
valeurs de la variable aléatoire X sont comprises dans cet intervalle si X suit la loi Normale.
Dans ce cadre, on pourrait également affirmer qu’environ 95 %, des valeurs vont se trouver
comprises dans l’intervallex ±1,96σ. Mais en pratique, à la suite d’une série d’analyses, on
ne dispose que d’un échantillon fini, c’est-à-dire d’un nombre fini de valeurs, et l’on ne peut
alors accéder qu’à une estimation de l’écart-type tirée de ces valeurs. On en tient compte en
utilisant le critérium t de Student qui, si notre échantillon comporte 5 valeurs (5 résultats
d’analyse), vaut 2,78 au lieu de 1,96. Student a en effet introduit des coefficients qui
permettent d'estimer l'écart-type de sécurité à partir d'un échantillon limité, sachant que la
moyenne calculée sur cet échantillon se distribue selon la loi Student.
On trouve aussi parfois, dans la littérature, un intervalle de confiance exprimé sous la forme :
x − t1− α / 2, ν s ≤ ≤ x + t1− α / 2, ν s
(8)
Que représente cet intervalle ? On peut affirmer que, partant de l’échantillon étudié, on a une
probabilité P = 1 - α de trouver toute nouvelle valeur de la variable X dans cet intervalle.
Autrement dit, si l’analyse a été répétée 5 fois, partant des 5 résultats d’analyse obtenus, on
peut calculerx et s ; si l’on choisit alors une probabilité de 95 %, soit t1 − α/2,ν = t0.975,4 = 2,78 ,
tout nouveau résultat d’analyse doit se trouver pour cette probabilité dans l’intervalle :
x − 2,78 s ≤ ≤ x + 2,78 s
Cet intervalle intéresse parfois l’expérimentateur, s’il décide par exemple de s’assurer de la
qualité de sa méthode d’analyse en effectuant périodiquement une seule analyse sur un
échantillon dont il connaît la teneur moyennex. On utilisera dons cet intervalle pour
construire une carte de contrôle (voir le chapitre : « Validation une méthode d’analyse »).
Mais lorsqu’il s’agit d’exprimer la donnée recherchée, c’est l’intervalle de confiance estimé
de la moyenne qui doit être retenu.
La dernière partie de la démarche aura pour but d’essayer de réduire cet intervalle. Or,
lorsqu’on a choisi le nombre de répétitions n et le risque de première espèce α, c’est
uniquement en diminuant s, c’est-à-dire en fait la somme des carrés des écarts des xi à la
moyenne x, qu’il sera possible d’avoir un intervalle plus petit.
n
On va donc rechercher si dans
∑ (x − x)
i =1
i
certains termes ne seraient pas trop élevés, et si
donc certaines valeurs xi ne seraient pas trop éloignées dex. Pour les repérer, différents tests
statistiques sont utiles qui, en fait, indiquent que la probabilité était faible d’obtenir telle ou
telle valeur très éloignée de la moyenne ; on s’empresse alors trop souvent de la rejeter en la
qualifiant de « donnée aberrante », le test statistique – quel qu’il soit et même s’il est un
excellent outil – ayant ce défaut majeur de donner bonne conscience à celui qui l’emploie :
l’analyste laisse en effet le test décider à sa place comme gage de son impartialité, sans
s’interroger davantage sur la signification de ce test ou sur les raisons qui l’ont conduit à
trouver ces fameuses données aberrantes. De plus, en éliminant des valeurs qu’on a pourtant
trouvées, on perd une partie de l’information collectée, en n’en tenant par compte dans
l’expression finale de la donnée, dans la donnée analytique qu'on produit. Ces quelques
6
réflexions poussent à essayer de mieux comprendre la démarche qu’on vient de décrire, telle
qu’elle est résumée sur la figure 2, pour juger de sa pertinence.
n résultats
Moyenne
Écart-type
estimé
Intervalle de confiance
estimé de la moyenne
Élimination des
« aberrants »
Donnée analytique
Nouvelle moyenne et
nouvel intervalle de
confiance estimé
Figure 2 : Démarche classique de validation des résultats d’une analyse
3 - Réflexion sur la démarche des analystes
La démarche précédemment décrite est une démarche probabiliste résumée sur la figure 3.
Figure 3
Partant du modèle posé (1), la démarche probabiliste consiste à rechercher la valeur probable
µ de la variable aléatoire continue X, à partir de l’échantillon des n valeurs xi de X dont on
dispose. Pour exprimer simplement la même chose, on va dire qu’ayant répété n fois
l’analyse, on essaie de trouver, à partir des n résultats d’analyse xi, la valeur T (la plus)
probable, substituant ainsi à T le mode de la distribution. Dans le cadre de cette démarche, on
substitue ainsi au modèle (1) un nouveau modèle :
xi = µ + ei
(1a)
Puis on a exprimé ce mode comme la moyenne arithmétique (2) des n valeurs xi, en acceptant
a priori que mode et moyenne peuvent être confondus, ce qui est vrai dans le cas de la loi
Normale, mais pas dans tous les cas. De fait, cette acceptation, comme toute la suite du
raisonnement, s’est appuyée sur une hypothèse implicite : la distribution des valeurs xi que
peut prendre la variable X peut être décrite au moyen d’une loi de probabilité théorique qui est
la loi Normale (A-1, A-2 et A-3). Est-ce vrai ?
Or nous n’avons pas cherché à vérifier cette hypothèse sur laquelle on peut pourtant émettre
de sérieux doutes. En effet, l’analyste confirmé sait fort bien que s’il répète la même analyse
un nombre suffisant de fois, il a peu de chances d’échapper à ces valeurs extrêmes, éloignées
de la moyenne et habituellement qualifiées de « valeurs aberrantes ». Or les tests statistiques
7
(A-4) sur lesquels il s’appuie pour éliminer ces dernières sont en réalité fondés sur le fait
qu’une valeur sera éliminée comme ayant une faible probabilité d’appartenir à la distribution
si, après l’avoir éliminée, la distribution des valeurs conservées s’approche davantage de la loi
Normale. Cela veut bien dire qu’ayant fait, au départ, l’hypothèse que la distribution des
valeurs xi peut être décrite au moyen de la loi Normale, on cherche à s’y ramener coûte que
coûte pour pouvoir substituer au mode la moyenne, comme expression de la donnée
analytique.
xi = T + ei
Démarche probabiliste
Démarche non probabiliste
xi = µ + ei
T =~
x = Médiane { x i }
n
Est-ce une loi
Normale ?
oui
xi = x + ei
T =x =
∑x
i =1
i
n
non
Ajustement à la loi
Normale
oui
Par suppression des valeurs extrêmes
Par transformation de la variable
Figure 3 : Démarches possibles pour exprimer une donnée analytique
4 - Étude d’un exemple
Dans une de nos anciennes publications [1], nous avons eu l’occasion de tester la validité de
cette hypothèse, en effectuant 20 répétitions d’une analyse de plomb sur 20 prélèvements
indépendants provenant d’un même échantillon de foie de bœuf lyophilisé ; une vingtaine de
répétitions représentent en effet un minimum si l’on veut pouvoir tester l’ajustement d’une
distribution à la loi Normale.
1
Ducauze C., Feinberg M., Exprimer le résultat d’une analyse : une approche statistique et informatique, 1984,
Analusis, 1, 26-31
8
Tableau 1 : Analyse du plomb : résultats obtenus
Numéro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X
1,165
1,135
2,185
1,167
1,135
1,945
1,180
1,105
0,975
1,200
1,040
1,095
1,210
0,965
1,210
1,232
1,362
1,232
1,300
1,242
Partant de ces 20 résultats obtenus après 20 analyses indépendantes (Tableau 1), on peut se
faire une première idée de leur distribution en calculant quelques paramètres statistiques
simples, présentés dans le tableau 2 : on va calculer la moyenne, l’estimation de la variance
et de l’écart-type, puis l’estimation des moments centrés d’ordre p de la distribution (avec p =
2, 3, 4), un moment centré d’ordre p étant défini par la relation :
n
m p = lim
n →∞
∑ ( x − µ)
i =1
p
i
n
(9)
La même relation peut être utilisée pour calculer l’estimation du moment centré d’ordre p,
lorsque n est assez grand.
L’estimation des moments d’ordre 2, 3 et 4 permet de calculer ensuite les coefficients
d’excentricité et d’aplatissement de Fisher, soit respectivement g1 et g2, qui renseignent sur
l’ajustement de la distribution à la loi Normale.
On considère qu’il y a ajustement si g1 = 0 et g2 = 0
9
Tableau 2 : Étude de la distribution des valeurs expérimentales
(20 répétitions d’une analyse de plomb sur un même échantillon de foie de bœuf lyophilisé)
Paramètre statistique
Définition
Résultat obtenu
n
∑x
Moyenne
x=
i =1
i
1.254
n
∑ ( xi − x ) 2
2
s =
(n - 1)
Estimation de la variance
Estimation de l’écart-type
0.088
s = s2
0.296
n
∑ (x − x)
Estimation du moment d’ordre 2
m2 =
2
i
i =1
0.083
n
n
Estimation du moment d’ordre 3
m3 =
∑ (x − x)
i =1
∑ (x
m4 =
0.053
n
n
Estimation du moment d’ordre 4
3
i
i
− x)4
0.050
i =1
n
2
Coefficient d’excentricité de Fisher
 n

n  ∑ ( xi − x )3 
 i =1
 = m3
g1 =
3
2
m23
 n
2
2 
(
x
−
x
)

∑ i
 i =1

2.053
n
Coefficient d’aplatissement de Fisher
g2 =
n ∑ ( xi − x ) 4
i =1
 ∑ ( x − x) 2 


i
 i =1

n
2
−3=
m4
−3
m22
3.449
Il apparaît immédiatement, en considérant les valeurs de g1 et de g2, que la distribution des 20
répétitions ne s’ajuste pas à la loi Normale : il doit y avoir un certain nombre de valeurs
extrêmes (g2 > 0), vraisemblablement supérieures à la moyenne (g1 > 0) ; on sait en effet
qu’une distribution peut être représentée par une courbe dont la Figure 4 donne l’allure,
suivant que g1 et g2 sont positifs ou négatifs.
10
g1 < 0
g1 = 0
g2 < 0
g2 = 0
g1 > 0
g2 > 0
Figure 4 : Allure des courbes de distribution suivant les valeurs des coefficients
d’excentricité (g1) et d’aplatissement (g2) de Fischer.
Si g1 = 0 et g2 = 0, on a la courbe de Gauss (loi Normale)
L’hypothèse de départ : « la distribution des valeurs obtenues s’ajuste à la loi Normale » doit
donc être rejetée à ce stade. On va procéder à un ajustement, c’est-à-dire rechercher à partir de
la distribution initiale une nouvelle distribution qui suit la loi Normale. La façon de procéder
la plus courante est de mettre en évidence les données gênantes puis de les supprimer. Pour ce
faire, on va chercher à repérer les données qui font que la distribution des 20 valeurs obtenues
ne suit pas la loi Normale : on applique alors un test d’ajustement. Le test d’ajustement le plus
connu est celui du χ2. Mais pour être efficace il requiert un grand nombre de mesures
(plusieurs dizaines). Lorsque le nombre de données est plus petit, on peut employer une
méthode graphique, celle de la droite de Henry. Pour construire ce graphique on procède
comme suit (voir tableau 3) :
•
•
Trier les données par ordre croissant ; calculer la moyennex et l’estimation de l’écarttype s
x −x
Pour chaque valeur expérimentale xi, calculer la valeur centrée réduite : z i = i
s
qui lui est associée
•
Pour chaque donnée, définir un intervalle de probabilité théorique, calculé à l’aide de
la formule suivante où i désigne le rang de la donnée après le tri :
i − 0,375
Pi =
n + 0,25
•
Pour chaque intervalle de probabilité théorique Pi, lire dans la table de la fonction de
répartition de la loi Normale la valeur centrée réduite théorique ui qui lui est associée.
•
Porter sur le même graphique ui et zi en fonction de xi.
11
Tableau 3 : Analyse du plomb dans un foie de bœuf (µg/kg). Calcul de la droite de Henry
Rang
x
z calculée
P théorique
u théorique
1
0,965
-0,974
3,1%
-1,868
2
0,975
-0,941
8,0%
-1,403
3
1,040
-0,722
13,0%
-1,128
4
1,095
-0,536
17,9%
-0,919
5
1,105
-0,502
22,8%
-0,744
6
1,135
-0,401
27,8%
-0,589
7
1,135
-0,401
32,7%
-0,448
8
1,165
-0,300
37,7%
-0,315
9
1,167
-0,293
42,6%
-0,187
10
1,180
-0,250
47,5%
-0,062
11
1,200
-0,182
52,5%
0,062
12
1,210
-0,149
57,4%
0,187
13
1,210
-0,149
62,3%
0,315
14
1,232
-0,074
67,3%
0,448
15
1,232
-0,074
72,2%
0,589
16
1,242
-0,041
77,2%
0,744
17
1,300
0,155
82,1%
0,919
18
1,362
0,364
87,0%
1,128
19
1,945
2,329
92,0%
1,403
20
2,186
3,142
96,9%
1,868
Moyenne
1,254
Ecart-type
0,297
Effectif
20
12
Les couples de points (xi,, zi ) forment une droite (Figure 5). Par contre, les couples (xi,, zi ) sont
plus ou moins bien alignés en fonction de l’écart de la distribution réelle par rapport à la
distribution théorique de la loi Normale. Par ce moyen il est possible de repérer le ou les
points qui déforment le graphique et qu’on peut suspecter d’être aberrants.
z
4.0
3.0
z calculée
u théorique
2.0
2.186
1.0
1.945
0.0
-1.0
-2.0
x
-3.0
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
Figure 5 : Droite de Henry avec toutes les mesures
On voit, comme prévu lors de l’examen des coefficients de Fisher, que ce sont bien les 2
valeurs les plus élevées qu’il faut supprimer ; après quoi, il y a ajustement des 18 valeurs
restantes (Figure 6), à partir desquelles on est en mesure de calculer une moyenne qui, pour
cette nouvelle distribution représente le mode, c’est-à-dire la valeur la plus probable.
Mais cette façon classique de procéder présente, comme on l’a déjà signalé, un inconvénient
majeur : 10 % de l’information a été perdue qui, bien que gênante au moment de
l’interprétation, fait pourtant partie de l’expérimentation. Il existe un moyen de contourner
cette difficulté en empruntant une autre voie que celle de l’élimination des valeurs aberrantes :
on va procéder à une transformation de la variable X en une nouvelle variable U de loi
Normale.
Cette transformation est la suivante :

X L −1
U ( L) =
L

U ( L) = Ln( X )

si
L≠0
si
L=0
(10)
13
z
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
x
-2.5
0.9
1.0
1.1
1.2
1.3
1.4
Figure 6 : Droite de Henry après suppression des 2 valeurs les plus élevées
Il est en effet toujours possible, quelle que soit la loi de distribution des résultats xi, de trouver
une valeur de L telle que l’ensemble des valeurs transformées ui s’ajustent à une loi de
distribution normale. On va donc essayer, de façon itérative, différentes valeurs de L et tester
pour chacune d’elles la normalité de la distribution des valeurs transformées : pour l’exemple
traité ici, on trouve que pour des valeurs de L comprises entre - 4.0 et - 3.0, les nouvelles
distributions obtenues suivent pratiquement la loi Normale ; il suffira de transformer tous les
xi en ui en prenant L = - 4.0 ou - 3.0, de calculer la moyenneu des ui (qui peut alors être
confondue avec le mode de la distribution) et d’appliquer enfin la transformation inverse pour
obtenirx.
Si cette dernière façon de procéder – tout à fait correcte du point de vue du statisticien –
permet de conserver la totalité de l’information recueillie dans la donnée qu’on exprime,
l’analyste quant à lui reste perplexe, étant dans l’incapacité de trouver dans son
expérimentation une justification à cette transformation. Certes la donnée obtenue par cette
méthode est très proche, dans l’exemple traité ici, de celle obtenue après suppression des
valeurs extrêmes. Mais l’analyste préférera continuer à supprimer des valeurs aberrantes car il
pressent intuitivement que ces valeurs extrêmes ont un sens, qu’elles doivent provenir d’un
défaut dans sa façon d’appliquer la méthode d’analyse choisie. Lorsqu’on choisit cette
démarche probabiliste, il n’y a donc pas de solution idéale.
14
5 - Conclusions et Discussion : pertinence de la démarche
probabiliste. Une autre démarche est-elle possible ?
Cette réflexion approfondie sur la démarche probabiliste a mis en évidence que le principal
écueil était celui des valeurs aberrantes. En toute logique, on peut donc se demander, s’il ne
serait pas possible d’emprunter une autre voie, en choisissant plutôt une démarche non
probabiliste, en préférant par exemple la médiane ~
x à la moyennex pour exprimer une
donnée. En effet, utiliser la médiane ne présuppose rien sur la loi de distribution : on se
contente de classer les valeurs obtenues – dans un ordre (rang) croissant ou décroissant – et
d’exprimer la donnée au moyen d’une valeur qui laisse autant de résultats à gauche qu’à
droite. De plus, la médiane est un paramètre statistique robuste, ce qui veut dire peu sensible
aux valeurs extrêmes.
Admettons, par exemple, que la répétition d’une même analyse ait donné :
1 µg.L1, 2 µg.L-1, 3 µg.L-1, 4 µg.L-1 et 5 µg.L-1
La moyenne est 3 µg.L-1 et la médiane 3 µg.L-1. Dans ce cas, on est bien embarrassé pour
éliminer une « valeur aberrante ». On décide alors de recommencer l’analyse une nouvelle
fois et l’on trouve 21 µg.L-1.
La nouvelle série de résultats est :
1 µg.L-1, 2 µgL-1, 3 µg.L-1, 4 µg.L-1, 5 µgL-1 et 21 µg.L-1
La moyenne devient alors 6 µg.L-1 et la médiane 3,5 µg.L-1. On constate que le nouveau
résultat (21 µg.L-1) a multiplié par 2 la moyenne, alors que la médiane est passée de 3 à 3,5
µg.L-1
Cette illustration est claire et, en reprenant l’exemple précédemment développé, le Tableau 4
permet de se faire une opinion.
Ceci devrait donc inciter fortement à utiliser la médiane plutôt que la moyenne pour exprimer
une donnée, surtout lorsqu’on ne dispose que d’un très petit nombre de résultats d’analyse et
qu’on n’a donc aucun moyen de tester la normalité de la distribution. Mais beaucoup vont
s’interroger sur la pertinence d’un tel conseil qui va à contre-courant de l’habitude. C’est sur
ce point qu’il faut conclure.
Tableau 4 : Résultats de l’analyse de plomb dans un échantillon de foie de bœuf lyophilisé
Paramètres statistiques
Moyenne
Intervalle de confiance
Niveau de confiance
Médiane
Intervalle de confiance
Niveau de confiance
Données brutes
(mg.Kg-1)
1,254
1,111 à 1,396
95 %
1,19
1,135 à 1,232
96 %
2 valeurs supprimées
(mg.Kg-1)
1,164
1,111 à 1,216
95 %
1,174
1,105 à 1,232
97 %
15
Pour quelle raison l’analyste s’obstine-t-il à admettre a priori que les résultats d’une même
série d’analyses doivent, quoiqu’il arrive, se distribuer selon la loi Normale ? Les faits
semblent lui donner tort puisqu’on n’échappe pas aux valeurs aberrantes. Obéirait-il à un effet
de mode du vingtième siècle ? A la prédominance reconnue de la loi Normale ? Ou a-t-il au
contraire l’intuition que les résultats qu’il collecte, lorsqu’il répète la même analyse sur un
même échantillon, ne peuvent échapper à la loi Normale ?
La réponse est simple. Il suffit d’avoir compris la nature des valeurs qu’on cherche à
interpréter pour donner le résultat final de l’analyse, la donnée analytique recherchée. Un
résultat d’analyse xi a été modélisé sous la forme :
xi = T + ei
(1)
xi est une valeur de la variable aléatoire continue X, ei représentant l’aléa expérimental de
l’analyse (i). Or cet aléa expérimental représente la somme des aléas expérimentaux qui
peuvent être associés à chacune des opérations élémentaires indépendantes de l’analyse. Il y a
donc lieu de considérer que ei, et par conséquent xi, est en fait une somme de variables
aléatoires indépendantes, soit :
l
ei = ∑ eij
(11)
j =1
où eij est l’aléa expérimental (= erreur expérimentale) associé à chaque opération élémentaire
(j) de l’analyse.
La variable aléatoire X peut donc s’exprimer sous la forme d’une somme de variables
aléatoires indépendantes Ej et d’une constante T qui est la teneur de l’échantillon, soit :
X = T +E1 +E2 +…+Ej +…+El
(12)
où Ej est la variable aléatoire (= erreur expérimentale) qui peut être associée à l’opération
élémentaire (j).
Dans ces conditions, il faut se rappeler que le Théorème Central Limite place la loi Normale
à la convergence de toutes les autres lois ; on peut l’énoncer comme suit :
« Si E1, E2…., El sont des variables aléatoires indépendantes distribuées suivant des lois de
probabilité quelconque admettant une moyenne et une variance, chacune des variances étant
petite comparée à leur somme, la somme de ces variables Ej suit une loi de probabilité qui
tend vers la loi Normale quand l tend vers l’infini ».
On est obligé d’admettre que ce Théorème Central Limite s’applique au résultat d’une analyse
car l – le nombre d’opérations élémentaires – est suffisamment grand. Toutefois, il est
supposé que la variance des Ej est petite comparée à la somme des variances Ej ; en termes
simples, on suppose que l’erreur expérimentale liée à chaque opération élémentaire ne
représente qu’une faible part de l’erreur totale.
Considérant la nature même du résultat obtenu à la suite d’une analyse chimique – somme
d’un grand nombre d’opérations élémentaires indépendantes les unes des autres – il est
manifeste que le Théorème Central Limite doit s’appliquer à ce type de variable, à la donnée
analytique dont chaque résultat représente une valeur possible.
16
Mais le fait expérimental apporte une contradiction flagrante car l’erreur d’analyse résulte
presque toujours, dans sa majeure partie, d’une ou deux opérations élémentaires ; dans ce cas,
l’hypothèse d’une variance faible de chaque variable vis-à-vis de la variance totale n’est plus
vérifiée et on peut ainsi expliquer l’apparition de « valeurs aberrantes ».
Ce commentaire justifie nos conclusions : il vaudrait mieux avoir recours à un paramètre
statistique robuste, tel que la médiane, pour exprimer le résultat d’une analyse. Toutefois,
utiliser la moyenne pour rechercher les valeurs aberrantes a un intérêt certain puisque ces
valeurs donnent l’alerte, indiquant un dysfonctionnement ponctuel de la méthode et poussant
à en rechercher les causes, c’est-à-dire les opérations élémentaires responsables de ce
dysfonctionnement. La recherche des valeurs aberrantes garde donc tout son intérêt lorsqu’on
se propose d’améliorer une méthode d’analyse.
QUELQUES REFERENCES BIBLIOGRAPHIQUES UTILES
STATISTIQUE APPLIQUEE A L’EXPLOITATION DES MESURES
Cetama, Ed. Masson (Paris), 1986
CHEMOMETRICS: A TEXTBOOK. DATA HANDLING IN SCIENCE
TECHNOLOGY, Vol. 2
D.L. Massart, B.G.M. Vandeginste, S.N. Deming, Y. Michotte & L. Kaufman,
Elsevier (Amsterdam), 1988
AND
THEORIE ET METHODES STATISTIQUES. APLICATIONS AGRONOMIQUES. VOL. 1
P. Dagnélie, Les Presses Agronomiques de Gembloux, 1973
PRATIQUE DES TESTS STATISTIQUES : INTERPRETATION DES MESURES
C. Lang-Michaut, Dunod, Bordas (Paris), 1990
METHODES STATISTIQUES. RECUEIL DE NORMES ISO 3,
Organisation Internationale de Normalisation, 1979
17
A-1
LOI DE DISTRIBUTION NORMALE
Représentation de f(x)
18
A-2
Les risques de première espèce (α)
et de deuxième espèce (β)
peuvent être représentés graphiquement à l’aide
des fonctions de distribution de x
19
A-3
DISTRIBUTION NORMALE REDUITE
Fonction de densité de probabilité
Fonction de répartition
2021
A-4
Test de Dean et Dixon
La valeur rejetée a 90% de chance d’être fausse si Qexp > Q0
si
Q0
0,94
3
0,76
4
0,64
5
0,56
6
0,51
7
0,47
8
0,44
9
0,41
10
X2 – X1
Qexp =
n
Wn
Xn - Xn - 1
ou
Wn
Avec Wn = Wn – X1
21
1
Téléchargement