Telechargé par Gaelle Quinquet Toledano

Support cours Métrologie 2A web

publicité
METROLOGIE, QUALITE, STATISTIQUES
DROITES D’ETALONNAGE :
LA REGRESSION LINEAIRE
Année 2019/2020
Introduction
Les droites de régression linéaire sont très utilisées lors d’étalonnages : quoi de plus simple que
de tracer cette fameuse « droite d’étalonnage » avec les réponses de la gamme étalon et ensuite
de reporter le signal de l’inconnue sur la droite pour trouver sa valeur relative ?
Il n’est pourtant pas forcément judicieux d’utiliser la régression linéaire si le modèle ne s’y prête
pas : nous allons voir dans ce cours la façon dont les droites d’étalonnages de type
régression linéaire sont construites ainsi que la qualité de cette dernière.
I.
Cas général : la méthode des moindres carrés
Une expérimentation conduit à N mesures, chacune de coordonnées (xi, yi). L’organisation de
ces N mesures peut être modélisée par une droite d’équation :
y’ = a.x + b
Cette droite se doit d’être le plus proche possible de toutes les mesures expérimentales (donc
des valeurs de y), mais ne nécessite pas obligatoirement de passer par les valeurs de y !
Pour des raisons de simplicité, il est supposé que l’erreur ne se répercute uniquement qu’en y
et qu’elle est indépendante de x (qui sont connues précisément). Pour chaque valeur de x est
mesurée une valeur y : la moyenne de toutes les mesures de y est notée ym par la suite.
Rappel de statistiques : la moyenne définit la valeur qu’auraient toutes les mesures si elles
donnaient à chaque fois le même résultat. Elle se calcule par la relation :
𝑦" =
∑&
%'( 𝑦%
𝑁
La valeur yi’ fait référence à la valeur ajustée sur la droite (qui peut aussi être appelée valeur
prédite ou estimée grâce au modèle), c’est-à-dire la projection de la valeur expérimentale de yi
sur la droite de régression.
Il est possible de définir plusieurs types d’écarts entre les valeurs expérimentales et les valeurs
ajustées (Figure 1) :
´
l’écart résiduel (ou résidu ei) :
yi – yi’
´
l’écart expliqué (par le modèle) :
yi’ - ym
´
l’écart total :
yi - ym
Année 2019/2020
Page 2 sur 16
La somme quadratique Q (ou somme des carrés notée SC) peut ainsi être calculée pour
chacun des écarts définis ci-dessus.
Rappels de statistiques :
´
la variance définit la dispersion des valeurs de l’échantillon. Elle se calcule avec la
formule :
∑&
%'((𝑦% − 𝑦" )²
𝜎 + (𝑦 ) =
𝑁
´
l’écart-type définit lui aussi la dispersion des valeurs de l’échantillon. Il se calcule
avec la formule :
𝜎(𝑦) = 1𝜎²(𝑦) = 2
∑&
%'((𝑦% − 𝑦" )²
𝑁
Il existe plusieurs notations pour la variance : s²(x) , Var(x), s²(x)…
Année 2019/2020
Page 3 sur 16
Il est possible de démontrer que :
(mais cela n’est pas l’objet de ce cours).
SCT = SCR + SCE
La droite de régression ainsi tracée est appelée « droite des moindres carrés » car elle est
définie de façon à ce que la variabilité résiduelle SCR (ou QR) soit minimale.
Le coefficient directeur a de la droite de régression linéaire peut être calculé avec la formule :
∑&
𝜎²(𝑥, 𝑦)
%'((𝑥% − 𝑥" )(𝑦% − 𝑦" )
𝑎=
=
+
∑&
𝜎²(𝑥 )
%'((𝑥% − 𝑥" )
avec
xm : valeur moyenne des x
s²(x,y) : covariance des x et des y
s²(x) : variance des x
Rappel de statistiques : la covariance définit la tendance dans l’écart de 2 variables par rapport
à leur moyenne respective. Elle est calculée par la formule :
𝜎 + (𝑥, 𝑦) =
∑&
%'((𝑥% − 𝑥" )(𝑦% − 𝑦" )
𝑁
L’ordonnée à l’origine b de la droite de régression linéaire peut aussi être calculée par la
formule :
avec
𝑏 = 𝑦" − 𝑎. 𝑥"
xm : valeur moyenne des x
ym : valeur moyenne des y
La qualité de la droite de régression linéaire définit l’ajustement des points expérimentaux à
la droite elle-même. Le coefficient de détermination r2 peut être calculé par la formule :
𝑟² =
𝑆𝐶𝐸
𝑆𝐶𝑇 − 𝑆𝐶𝑅
𝑆𝐶𝑅
=
=1−
𝑆𝐶𝑇
𝑆𝐶𝑇
𝑆𝐶𝑇
avec
SCE : somme des carrés des écarts expliqués par le modèle
SCR : somme des carrés des écarts résiduels
SCT : somme des carrés des écarts totaux
0 ≤ r² ≤ 1 car SCE ≤ SCT
Plus les écarts résiduels sont faibles, plus la SCR est petite, et donc plus le modèle est adapté
aux valeurs expérimentales (donc plus la droite modèle est proche des valeurs yi) :
r2 tend donc vers 1.
Il ne faut pas confondre le coefficient de détermination r2 et le coefficient de
corrélation
𝑟 = ?𝑟 +
Année 2019/2020
Page 4 sur 16
La fonction DROITEREG sur Excel® renvoie les informations statistiques sur la droite de
régression linéaire sous la forme d’une matrice de 5 lignes et 2 colonnes (tableau) :
DROITEREG est une formule matricielle avec plusieurs arguments à fournir !
Voir le TD/TP ou s’aider d’Internet pour l’utiliser correctement…
II.
Test statistique de Fisher-Snedecor (ou test du F)
Pour vérifier la validité de la droite de régression linéaire par rapport aux points
expérimentaux, il est nécessaire de comparer l’écart résiduel à celui expliqué par le modèle : si
les points expérimentaux sont trop éloignés de la droite de régression, le modèle utilisé n’est
pas le bon ! (Cf. Activité 2)
Le test de Fisher-Snedecor (appelé aussi test du F) est un test statistique qui compare deux
variances, ici la variance résiduelle s²R et s²E : s’il existe une relation linéaire entre les points
expérimentaux, la variance expliquée par le modèle doit être supérieure à celle résiduelle.
2 Hypothèses H0 et H1 vont être posées :
H0 :
s2R ≈ s2E
H1 :
s2R < s2E
Si l’Hypothèse H0 est validée, c’est-à-dire que les variances résiduelle s²R et expliquée par le
modèle s²E sont du même ordre de grandeur, alors la régression n’est pas significative : le
modèle n’est pas linéaire.
Si l’Hypothèse H1 est validée, c’est-à-dire que la variance résiduelle s²R est plus faible que celle
expliquée par le modèle s²E, alors la régression est significative : le modèle est linéaire.
Année 2019/2020
Page 5 sur 16
Il faut pour cela calculer la statistique F :
𝜎A+
𝐹= +=
𝜎B
𝑆𝐶𝐸
𝑆𝐶𝐸
𝑟²
1
= (𝑁 − 2)
= (𝑁 − 2)
𝑆𝐶𝑅
𝑆𝐶𝑅
1 − 𝑟²
(𝑁 − 2)
La valeur de F calculée (Fcalc) est comparée à une valeur de F critique (Fcritique) donnée par la
table de Fisher-Snedecor à un niveau de confiance 1-a. Ici, nous prendrons un risque a = 5 %,
donc un niveau de confiance à 95 % (Cf. Tables de Fisher-Snedecor à la fin de ce support de
cours). Fcritique dépend des degrés de libertés des deux variances comparées, ici s²R et s²E soit
N-2 et 1 : Fcritique = F(a ; 1 ; N-2)
Si Fcalc < Fcritique : l’Hypothèse H0 est valable donc la régression n’est pas significative sur le
domaine testé. Il n’y a pas de relation de linéarité avec un niveau de confiance à 95 % (SCR n’est
pas négligeable).
Si Fcalc > Fcritique : l’Hypothèse H1 est valable donc la régression est significative sur le domaine
testé. Le modèle linéaire est donc adapté aux points expérimentaux avec un niveau de confiance
à 95 %.
Il existe des tables de Fisher-Snedecor avec des niveaux de confiances à 97,5 %, 99 %
et 99,9 %...
III. Intervalles de confiance
III.1 Par rapport à la droite d’étalonnage
La droite d’étalonnage précédemment vérifiée et adaptée peut être tracée avec un intervalle de
confiance. Pour cela, on calcule la variance du coefficient directeur et de l’ordonnée à
l’origine.
𝜎D+ = ∑L
EFG
(
IMN(HI JHK )²
G
HK
)
G
IMN(HI JHK )
𝜎O+ = 𝜎B+ ( + ∑L
&
L’intervalle de confiance de a et b au risque a se note donc :
𝒂 − 𝒕𝟏J𝜶V𝟐 . 𝝈𝒂 < 𝒂 < 𝒂 + 𝒕𝟏J𝜶V𝟐 . 𝝈𝒂
𝒃 − 𝒕𝟏J𝜶V𝟐 . 𝝈𝒃 < 𝒃 < 𝒃 + 𝒕𝟏J𝜶V𝟐 . 𝝈𝒃
Où t1±a/2 est défini par la constante de Student pour N-2 degrés de liberté (Cf. les tables de
Student à la fin de ce support de cours).
Année 2019/2020
Page 6 sur 16
III.2 Par rapport à un échantillon
Dans le cas où la mesure de l’inconnue a été effectuée plusieurs fois (M fois), un intervalle de
confiance sur la valeur de l’inconnue peut aussi être établi.
La valeur x0 est déduite de l’équation de la droite d’étalonnage à partir de la valeur moyenne
y0m des M répétitions de l’inconnu yx :
𝑥Z =
𝑦Z" − 𝑏
𝑎
La mesure de y0m fait donc intervenir deux types d’incertitudes :
- la droite d’étalonnage (dispersion des points xi, yi par rapport à la droite
d’étalonnage)
- les mesures de y0
Le calcul de la variance sur y0m donne :
𝜎[+\K
=
𝜎B+ (
(𝑥 Z − 𝑥 " )+
1 1
+ +
)
+
𝑁 𝑀 ∑&
%'((𝑥% − 𝑥" )
La variance sur x0 s’écrit donc
EG
(
(
(H\JHK )²
𝜎H+\ = DFG (& + ^ + ∑L
)
IMN(HI JHK )²
De plus, si x0 est voisin de la moyenne xm, la variance se simplifie et donne :
𝜎H+\ =
𝜎B+ 1 1
( + )
𝑎+ 𝑁 𝑀
L’intervalle de confiance sur x0 se note donc :
𝒙𝟎 − 𝒕𝟏J𝜶V𝟐 . 𝝈𝒙𝟎 < 𝒙𝟎 < 𝒙𝟎 + 𝒕𝟏J𝜶V𝟐 . 𝝈𝒙𝟎
Année 2019/2020
Page 7 sur 16
Activité 1 : Dosage de la caféine dans ma tasse de café
La caféine est présente dans nombre de
boissons énergisantes. Incolore en solution,
elle présente cependant de fortes absorbances
dans l’UV. Elle est classiquement dosée par
spectrophotométrie à la longueur d’onde λ =
272 nm.
Pour doser la caféine présente dans
une boisson, un volume V = 5,00 mL de
boisson est prélevé et placé dans une fiole jaugée de volume Vfiole = 250 mL. Le niveau de liquide
est complété avec de l’eau distillée jusqu’au trait de jauge. Cette solution est analysée en
spectroscopie UV-visible. À la longueur d’onde de 272 nm, seule la caféine absorbe et
l’absorbance mesurée est AX = 0,225.
On réalise la gamme d’étalonnage suivante pour des solutions étalons de concentrations
connues en caféine :
Solution
étalon
Concentration
C (mg.L-1)
Absorbance A
1
2
3
4
5
6
0,0
2,0
3,0
4,0
6,0
8,0
0,000
0,092
0,140
0,179
0,279
0,371
1. Tracer le graphique représentant l’absorbance en fonction de la concentration, et
modéliser le nuage de points par une droite dont on déterminera l’équation (ANNEXE).
2. Déduire de la droite d’étalonnage la concentration CX de la caféine dans la fiole, puis la
concentration C0 dans la boisson.
3. Proposer une estimation de la qualité de la droite de régression obtenue.
Il est donc nécessaire de définir des grandeurs caractérisant la qualité de la droite de
régression.
4. Calculer la moyenne Am des valeurs d’absorbance obtenues expérimentalement. Calculer
la moyenne Cm des concentrations des solutions étalons.
Am =
Cm =
mg.L-1
5. Compléter le tableau ci-dessous en calculant les écarts aux moyennes C-Cm et A-Am pour
chaque solution étalon.
Année 2019/2020
Page 8 sur 16
Étalon
C (mg.L-1)
A
C-Cm
1
0,0
0,000
2
2,0
0,092
3
3,0
0,140
4
4,0
0,179
5
6,0
0,279
6
8,0
0,371
A-Am
6. Lors d’une régression linéaire, la droite obtenue est définie de manière à diminuer les
écarts entre la droite et les points expérimentaux. Cette condition conduit à résoudre des
équations permettant d’obtenir les valeurs de la pente a et d’ordonnée à l’origine b de la
droite de régression.
∑𝟔𝒊'𝟏(𝑪𝒊 − 𝑪𝒎 )(𝑨𝒊 − 𝑨𝒎 )
𝒂=
∑𝟔𝒊'𝟏(𝑪𝒊 − 𝑪𝒎 )𝟐
En déduire l’ordonnée à l’origine :
𝒃 = 𝑨𝒎 − 𝒂. 𝑪𝒎
On note A’ la valeur ajustée sur la droite (ou valeur prédite, valeur calculée, valeur estimée
grâce au modèle) à partir de l’équation :
𝑨f = 𝒂 × 𝑪 + 𝒃.
Année 2019/2020
Page 9 sur 16
7. Compléter le tableau ci-dessous :
8.
Étalon
C (mg.L-1)
A
A’
1
0,0
0,000
2
2,0
0,092
3
3,0
0,140
4
4,0
0,179
5
6,0
0,279
6
8,0
0,371
A - A’
A’ - Am
Calculer les sommes quadratiques suivantes :
𝟔
𝑺𝑪𝑻 = 𝑸𝑻 = k
𝒊'𝟏
(𝑨𝒊 − 𝑨𝒎 )𝟐
𝟔
𝑺𝑪𝑹 = 𝑸𝑹 = k
𝒊'𝟏
𝟔
𝑺𝑪𝑬 = 𝑸𝑬 = k
𝒊'𝟏
(𝑨𝒊 − 𝑨′𝒊 )𝟐
(𝑨′𝒊 − 𝑨𝒎 )𝟐
9. Vérifier que SCT = SCR + SCE.
10. Calculer le coefficient de détermination et conclure.
𝒓𝟐 =
𝑺𝑪𝑬 𝑺𝑪𝑻 − 𝑺𝑪𝑹
𝑺𝑪𝑹
=
=𝟏−
𝑺𝑪𝑻
𝑺𝑪𝑻
𝑺𝑪𝑻
La fonction Excel DROITEREG donne une matrice de 2 colonnes par 5 lignes, comportant un
certain nombre d’informations statistiques sur la droite de régression d’une série de points
expérimentaux (elle sera utilisée lors en TD et TP). Ci-dessous est reproduite la matrice obtenue
avec la fonction DROITEREG appliquée aux données de l’activité n°1.
0,04640408
-0,00104898
0,0004876
0,002260895
0,99955855
0,003115793
9057,1201
4
0,087928
3,88327E-05
11. Retrouver et vérifier les valeurs de la pente a, de l’ordonnée à l’origine b, du coefficient
de détermination r2 et des sommes quadratiques SCE et SCR.
Année 2019/2020
Page 10 sur 16
Activité 2 : limites du calcul de r2
On dispose de plusieurs séries de données et la droite de régression associée à chacune.
Graphe 1
y = 0,49x + 3,1809
R² = 0,6363
12
10
8
6
4
2
0
0
5
10
15
Graphe 2
y = 0,48x + 3,2982
R² = 0,6277
12
10
8
6
4
2
0
0
2
4
6
8
10
Graphe 3
12
14
16
y = 0,5073x + 2,9345
R² = 0,6159
14
12
10
8
6
4
2
0
0
Année 2019/2020
2
4
6
8
10
12
14
16
Page 11 sur 16
Graphe 4
y = 0,49x + 2,8511
R² = 0,6297
14
12
10
8
6
4
2
0
0
5
10
15
20
y = 0,4927x + 2,3745
R² = 0,9984
Graphe 5
10
8
6
4
2
0
0
5
10
15
1. Comparer les graphiques et les informations disponibles.
2. Conclure.
Année 2019/2020
Page 12 sur 16
Activité 3 : test de Fisher-Snedecor sur les résultats de l’Activité 1
On reprend les données du dosage de la caféine de l’Activité 1.
1. Calculer la statistique F définie par :
𝝈𝟐𝑬
𝑭= 𝟐
𝝈𝑹
2. Grâce à la matrice obtenue avec DROITEREG dans l’activité n°1, retrouver et vérifier les
valeurs de la statistique F et le nombre de degrés de liberté N-2.
3. Déterminer à l’aide de la table de Fisher-Snedecor la valeur de Fcritique = f(1-a ; 1 ; N-2) pour
un risque de 5%.
4. Conclure sur la qualité de la droite de régression obtenue pour un risque de 5%.
Activité 4 : intervalles de confiance sur les résultats de l’Activité 1
On reprend les données du dosage de la caféine de l’Activité 1.
Ci-dessous est redonnée la matrice obtenue avec la fonction DROITEREG appliquée aux
données de l’Activité 1.
0,04640408 -0,00104898
0,0004876
0,002260895
0,99955855
0,003115793
9057,1201
4
0,087928
3,88327E-05
1.
Nous avons vu que la solution de caféine a été analysée en spectroscopie UV-visible. À la
longueur d’onde de 272 nm, seule la caféine absorbe et l’absorbance mesurée est
AX = 0,225. A l’aide des données statistiques fournies par DROITEREG, déterminer la
concentration CX de la caféine dans la fiole.
2.
De la matrice DROITEREG, extraire les valeurs des écarts-types sa (sur la pente a), sb (sur
l’ordonnée à l’origine b) et sR (écart-type résiduel).
3.
Déterminer à l’aide de la table de Student la valeur de 𝒕𝟏J𝜶V𝟐 pour N-2 degrés de liberté
au risque a de 5%.
4.
En déduire les intervalles de confiance sur a et b.
5.
Déterminer l’intervalle de confiance sur la concentration CX de la caféine dans la fiole
Année 2019/2020
Page 13 sur 16
ANNEXES
Table de Fisher-Snedecor au risque de 5%
Année 2019/2020
Page 14 sur 16
Table de Student
Année 2019/2020
Page 15 sur 16
Année 2019/2020
Page 16 sur 16
Téléchargement