METROLOGIE, QUALITE, STATISTIQUES DROITES D’ETALONNAGE : LA REGRESSION LINEAIRE Année 2019/2020 Introduction Les droites de régression linéaire sont très utilisées lors d’étalonnages : quoi de plus simple que de tracer cette fameuse « droite d’étalonnage » avec les réponses de la gamme étalon et ensuite de reporter le signal de l’inconnue sur la droite pour trouver sa valeur relative ? Il n’est pourtant pas forcément judicieux d’utiliser la régression linéaire si le modèle ne s’y prête pas : nous allons voir dans ce cours la façon dont les droites d’étalonnages de type régression linéaire sont construites ainsi que la qualité de cette dernière. I. Cas général : la méthode des moindres carrés Une expérimentation conduit à N mesures, chacune de coordonnées (xi, yi). L’organisation de ces N mesures peut être modélisée par une droite d’équation : y’ = a.x + b Cette droite se doit d’être le plus proche possible de toutes les mesures expérimentales (donc des valeurs de y), mais ne nécessite pas obligatoirement de passer par les valeurs de y ! Pour des raisons de simplicité, il est supposé que l’erreur ne se répercute uniquement qu’en y et qu’elle est indépendante de x (qui sont connues précisément). Pour chaque valeur de x est mesurée une valeur y : la moyenne de toutes les mesures de y est notée ym par la suite. Rappel de statistiques : la moyenne définit la valeur qu’auraient toutes les mesures si elles donnaient à chaque fois le même résultat. Elle se calcule par la relation : 𝑦" = ∑& %'( 𝑦% 𝑁 La valeur yi’ fait référence à la valeur ajustée sur la droite (qui peut aussi être appelée valeur prédite ou estimée grâce au modèle), c’est-à-dire la projection de la valeur expérimentale de yi sur la droite de régression. Il est possible de définir plusieurs types d’écarts entre les valeurs expérimentales et les valeurs ajustées (Figure 1) : ´ l’écart résiduel (ou résidu ei) : yi – yi’ ´ l’écart expliqué (par le modèle) : yi’ - ym ´ l’écart total : yi - ym Année 2019/2020 Page 2 sur 16 La somme quadratique Q (ou somme des carrés notée SC) peut ainsi être calculée pour chacun des écarts définis ci-dessus. Rappels de statistiques : ´ la variance définit la dispersion des valeurs de l’échantillon. Elle se calcule avec la formule : ∑& %'((𝑦% − 𝑦" )² 𝜎 + (𝑦 ) = 𝑁 ´ l’écart-type définit lui aussi la dispersion des valeurs de l’échantillon. Il se calcule avec la formule : 𝜎(𝑦) = 1𝜎²(𝑦) = 2 ∑& %'((𝑦% − 𝑦" )² 𝑁 Il existe plusieurs notations pour la variance : s²(x) , Var(x), s²(x)… Année 2019/2020 Page 3 sur 16 Il est possible de démontrer que : (mais cela n’est pas l’objet de ce cours). SCT = SCR + SCE La droite de régression ainsi tracée est appelée « droite des moindres carrés » car elle est définie de façon à ce que la variabilité résiduelle SCR (ou QR) soit minimale. Le coefficient directeur a de la droite de régression linéaire peut être calculé avec la formule : ∑& 𝜎²(𝑥, 𝑦) %'((𝑥% − 𝑥" )(𝑦% − 𝑦" ) 𝑎= = + ∑& 𝜎²(𝑥 ) %'((𝑥% − 𝑥" ) avec xm : valeur moyenne des x s²(x,y) : covariance des x et des y s²(x) : variance des x Rappel de statistiques : la covariance définit la tendance dans l’écart de 2 variables par rapport à leur moyenne respective. Elle est calculée par la formule : 𝜎 + (𝑥, 𝑦) = ∑& %'((𝑥% − 𝑥" )(𝑦% − 𝑦" ) 𝑁 L’ordonnée à l’origine b de la droite de régression linéaire peut aussi être calculée par la formule : avec 𝑏 = 𝑦" − 𝑎. 𝑥" xm : valeur moyenne des x ym : valeur moyenne des y La qualité de la droite de régression linéaire définit l’ajustement des points expérimentaux à la droite elle-même. Le coefficient de détermination r2 peut être calculé par la formule : 𝑟² = 𝑆𝐶𝐸 𝑆𝐶𝑇 − 𝑆𝐶𝑅 𝑆𝐶𝑅 = =1− 𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇 avec SCE : somme des carrés des écarts expliqués par le modèle SCR : somme des carrés des écarts résiduels SCT : somme des carrés des écarts totaux 0 ≤ r² ≤ 1 car SCE ≤ SCT Plus les écarts résiduels sont faibles, plus la SCR est petite, et donc plus le modèle est adapté aux valeurs expérimentales (donc plus la droite modèle est proche des valeurs yi) : r2 tend donc vers 1. Il ne faut pas confondre le coefficient de détermination r2 et le coefficient de corrélation 𝑟 = ?𝑟 + Année 2019/2020 Page 4 sur 16 La fonction DROITEREG sur Excel® renvoie les informations statistiques sur la droite de régression linéaire sous la forme d’une matrice de 5 lignes et 2 colonnes (tableau) : DROITEREG est une formule matricielle avec plusieurs arguments à fournir ! Voir le TD/TP ou s’aider d’Internet pour l’utiliser correctement… II. Test statistique de Fisher-Snedecor (ou test du F) Pour vérifier la validité de la droite de régression linéaire par rapport aux points expérimentaux, il est nécessaire de comparer l’écart résiduel à celui expliqué par le modèle : si les points expérimentaux sont trop éloignés de la droite de régression, le modèle utilisé n’est pas le bon ! (Cf. Activité 2) Le test de Fisher-Snedecor (appelé aussi test du F) est un test statistique qui compare deux variances, ici la variance résiduelle s²R et s²E : s’il existe une relation linéaire entre les points expérimentaux, la variance expliquée par le modèle doit être supérieure à celle résiduelle. 2 Hypothèses H0 et H1 vont être posées : H0 : s2R ≈ s2E H1 : s2R < s2E Si l’Hypothèse H0 est validée, c’est-à-dire que les variances résiduelle s²R et expliquée par le modèle s²E sont du même ordre de grandeur, alors la régression n’est pas significative : le modèle n’est pas linéaire. Si l’Hypothèse H1 est validée, c’est-à-dire que la variance résiduelle s²R est plus faible que celle expliquée par le modèle s²E, alors la régression est significative : le modèle est linéaire. Année 2019/2020 Page 5 sur 16 Il faut pour cela calculer la statistique F : 𝜎A+ 𝐹= += 𝜎B 𝑆𝐶𝐸 𝑆𝐶𝐸 𝑟² 1 = (𝑁 − 2) = (𝑁 − 2) 𝑆𝐶𝑅 𝑆𝐶𝑅 1 − 𝑟² (𝑁 − 2) La valeur de F calculée (Fcalc) est comparée à une valeur de F critique (Fcritique) donnée par la table de Fisher-Snedecor à un niveau de confiance 1-a. Ici, nous prendrons un risque a = 5 %, donc un niveau de confiance à 95 % (Cf. Tables de Fisher-Snedecor à la fin de ce support de cours). Fcritique dépend des degrés de libertés des deux variances comparées, ici s²R et s²E soit N-2 et 1 : Fcritique = F(a ; 1 ; N-2) Si Fcalc < Fcritique : l’Hypothèse H0 est valable donc la régression n’est pas significative sur le domaine testé. Il n’y a pas de relation de linéarité avec un niveau de confiance à 95 % (SCR n’est pas négligeable). Si Fcalc > Fcritique : l’Hypothèse H1 est valable donc la régression est significative sur le domaine testé. Le modèle linéaire est donc adapté aux points expérimentaux avec un niveau de confiance à 95 %. Il existe des tables de Fisher-Snedecor avec des niveaux de confiances à 97,5 %, 99 % et 99,9 %... III. Intervalles de confiance III.1 Par rapport à la droite d’étalonnage La droite d’étalonnage précédemment vérifiée et adaptée peut être tracée avec un intervalle de confiance. Pour cela, on calcule la variance du coefficient directeur et de l’ordonnée à l’origine. 𝜎D+ = ∑L EFG ( IMN(HI JHK )² G HK ) G IMN(HI JHK ) 𝜎O+ = 𝜎B+ ( + ∑L & L’intervalle de confiance de a et b au risque a se note donc : 𝒂 − 𝒕𝟏J𝜶V𝟐 . 𝝈𝒂 < 𝒂 < 𝒂 + 𝒕𝟏J𝜶V𝟐 . 𝝈𝒂 𝒃 − 𝒕𝟏J𝜶V𝟐 . 𝝈𝒃 < 𝒃 < 𝒃 + 𝒕𝟏J𝜶V𝟐 . 𝝈𝒃 Où t1±a/2 est défini par la constante de Student pour N-2 degrés de liberté (Cf. les tables de Student à la fin de ce support de cours). Année 2019/2020 Page 6 sur 16 III.2 Par rapport à un échantillon Dans le cas où la mesure de l’inconnue a été effectuée plusieurs fois (M fois), un intervalle de confiance sur la valeur de l’inconnue peut aussi être établi. La valeur x0 est déduite de l’équation de la droite d’étalonnage à partir de la valeur moyenne y0m des M répétitions de l’inconnu yx : 𝑥Z = 𝑦Z" − 𝑏 𝑎 La mesure de y0m fait donc intervenir deux types d’incertitudes : - la droite d’étalonnage (dispersion des points xi, yi par rapport à la droite d’étalonnage) - les mesures de y0 Le calcul de la variance sur y0m donne : 𝜎[+\K = 𝜎B+ ( (𝑥 Z − 𝑥 " )+ 1 1 + + ) + 𝑁 𝑀 ∑& %'((𝑥% − 𝑥" ) La variance sur x0 s’écrit donc EG ( ( (H\JHK )² 𝜎H+\ = DFG (& + ^ + ∑L ) IMN(HI JHK )² De plus, si x0 est voisin de la moyenne xm, la variance se simplifie et donne : 𝜎H+\ = 𝜎B+ 1 1 ( + ) 𝑎+ 𝑁 𝑀 L’intervalle de confiance sur x0 se note donc : 𝒙𝟎 − 𝒕𝟏J𝜶V𝟐 . 𝝈𝒙𝟎 < 𝒙𝟎 < 𝒙𝟎 + 𝒕𝟏J𝜶V𝟐 . 𝝈𝒙𝟎 Année 2019/2020 Page 7 sur 16 Activité 1 : Dosage de la caféine dans ma tasse de café La caféine est présente dans nombre de boissons énergisantes. Incolore en solution, elle présente cependant de fortes absorbances dans l’UV. Elle est classiquement dosée par spectrophotométrie à la longueur d’onde λ = 272 nm. Pour doser la caféine présente dans une boisson, un volume V = 5,00 mL de boisson est prélevé et placé dans une fiole jaugée de volume Vfiole = 250 mL. Le niveau de liquide est complété avec de l’eau distillée jusqu’au trait de jauge. Cette solution est analysée en spectroscopie UV-visible. À la longueur d’onde de 272 nm, seule la caféine absorbe et l’absorbance mesurée est AX = 0,225. On réalise la gamme d’étalonnage suivante pour des solutions étalons de concentrations connues en caféine : Solution étalon Concentration C (mg.L-1) Absorbance A 1 2 3 4 5 6 0,0 2,0 3,0 4,0 6,0 8,0 0,000 0,092 0,140 0,179 0,279 0,371 1. Tracer le graphique représentant l’absorbance en fonction de la concentration, et modéliser le nuage de points par une droite dont on déterminera l’équation (ANNEXE). 2. Déduire de la droite d’étalonnage la concentration CX de la caféine dans la fiole, puis la concentration C0 dans la boisson. 3. Proposer une estimation de la qualité de la droite de régression obtenue. Il est donc nécessaire de définir des grandeurs caractérisant la qualité de la droite de régression. 4. Calculer la moyenne Am des valeurs d’absorbance obtenues expérimentalement. Calculer la moyenne Cm des concentrations des solutions étalons. Am = Cm = mg.L-1 5. Compléter le tableau ci-dessous en calculant les écarts aux moyennes C-Cm et A-Am pour chaque solution étalon. Année 2019/2020 Page 8 sur 16 Étalon C (mg.L-1) A C-Cm 1 0,0 0,000 2 2,0 0,092 3 3,0 0,140 4 4,0 0,179 5 6,0 0,279 6 8,0 0,371 A-Am 6. Lors d’une régression linéaire, la droite obtenue est définie de manière à diminuer les écarts entre la droite et les points expérimentaux. Cette condition conduit à résoudre des équations permettant d’obtenir les valeurs de la pente a et d’ordonnée à l’origine b de la droite de régression. ∑𝟔𝒊'𝟏(𝑪𝒊 − 𝑪𝒎 )(𝑨𝒊 − 𝑨𝒎 ) 𝒂= ∑𝟔𝒊'𝟏(𝑪𝒊 − 𝑪𝒎 )𝟐 En déduire l’ordonnée à l’origine : 𝒃 = 𝑨𝒎 − 𝒂. 𝑪𝒎 On note A’ la valeur ajustée sur la droite (ou valeur prédite, valeur calculée, valeur estimée grâce au modèle) à partir de l’équation : 𝑨f = 𝒂 × 𝑪 + 𝒃. Année 2019/2020 Page 9 sur 16 7. Compléter le tableau ci-dessous : 8. Étalon C (mg.L-1) A A’ 1 0,0 0,000 2 2,0 0,092 3 3,0 0,140 4 4,0 0,179 5 6,0 0,279 6 8,0 0,371 A - A’ A’ - Am Calculer les sommes quadratiques suivantes : 𝟔 𝑺𝑪𝑻 = 𝑸𝑻 = k 𝒊'𝟏 (𝑨𝒊 − 𝑨𝒎 )𝟐 𝟔 𝑺𝑪𝑹 = 𝑸𝑹 = k 𝒊'𝟏 𝟔 𝑺𝑪𝑬 = 𝑸𝑬 = k 𝒊'𝟏 (𝑨𝒊 − 𝑨′𝒊 )𝟐 (𝑨′𝒊 − 𝑨𝒎 )𝟐 9. Vérifier que SCT = SCR + SCE. 10. Calculer le coefficient de détermination et conclure. 𝒓𝟐 = 𝑺𝑪𝑬 𝑺𝑪𝑻 − 𝑺𝑪𝑹 𝑺𝑪𝑹 = =𝟏− 𝑺𝑪𝑻 𝑺𝑪𝑻 𝑺𝑪𝑻 La fonction Excel DROITEREG donne une matrice de 2 colonnes par 5 lignes, comportant un certain nombre d’informations statistiques sur la droite de régression d’une série de points expérimentaux (elle sera utilisée lors en TD et TP). Ci-dessous est reproduite la matrice obtenue avec la fonction DROITEREG appliquée aux données de l’activité n°1. 0,04640408 -0,00104898 0,0004876 0,002260895 0,99955855 0,003115793 9057,1201 4 0,087928 3,88327E-05 11. Retrouver et vérifier les valeurs de la pente a, de l’ordonnée à l’origine b, du coefficient de détermination r2 et des sommes quadratiques SCE et SCR. Année 2019/2020 Page 10 sur 16 Activité 2 : limites du calcul de r2 On dispose de plusieurs séries de données et la droite de régression associée à chacune. Graphe 1 y = 0,49x + 3,1809 R² = 0,6363 12 10 8 6 4 2 0 0 5 10 15 Graphe 2 y = 0,48x + 3,2982 R² = 0,6277 12 10 8 6 4 2 0 0 2 4 6 8 10 Graphe 3 12 14 16 y = 0,5073x + 2,9345 R² = 0,6159 14 12 10 8 6 4 2 0 0 Année 2019/2020 2 4 6 8 10 12 14 16 Page 11 sur 16 Graphe 4 y = 0,49x + 2,8511 R² = 0,6297 14 12 10 8 6 4 2 0 0 5 10 15 20 y = 0,4927x + 2,3745 R² = 0,9984 Graphe 5 10 8 6 4 2 0 0 5 10 15 1. Comparer les graphiques et les informations disponibles. 2. Conclure. Année 2019/2020 Page 12 sur 16 Activité 3 : test de Fisher-Snedecor sur les résultats de l’Activité 1 On reprend les données du dosage de la caféine de l’Activité 1. 1. Calculer la statistique F définie par : 𝝈𝟐𝑬 𝑭= 𝟐 𝝈𝑹 2. Grâce à la matrice obtenue avec DROITEREG dans l’activité n°1, retrouver et vérifier les valeurs de la statistique F et le nombre de degrés de liberté N-2. 3. Déterminer à l’aide de la table de Fisher-Snedecor la valeur de Fcritique = f(1-a ; 1 ; N-2) pour un risque de 5%. 4. Conclure sur la qualité de la droite de régression obtenue pour un risque de 5%. Activité 4 : intervalles de confiance sur les résultats de l’Activité 1 On reprend les données du dosage de la caféine de l’Activité 1. Ci-dessous est redonnée la matrice obtenue avec la fonction DROITEREG appliquée aux données de l’Activité 1. 0,04640408 -0,00104898 0,0004876 0,002260895 0,99955855 0,003115793 9057,1201 4 0,087928 3,88327E-05 1. Nous avons vu que la solution de caféine a été analysée en spectroscopie UV-visible. À la longueur d’onde de 272 nm, seule la caféine absorbe et l’absorbance mesurée est AX = 0,225. A l’aide des données statistiques fournies par DROITEREG, déterminer la concentration CX de la caféine dans la fiole. 2. De la matrice DROITEREG, extraire les valeurs des écarts-types sa (sur la pente a), sb (sur l’ordonnée à l’origine b) et sR (écart-type résiduel). 3. Déterminer à l’aide de la table de Student la valeur de 𝒕𝟏J𝜶V𝟐 pour N-2 degrés de liberté au risque a de 5%. 4. En déduire les intervalles de confiance sur a et b. 5. Déterminer l’intervalle de confiance sur la concentration CX de la caféine dans la fiole Année 2019/2020 Page 13 sur 16 ANNEXES Table de Fisher-Snedecor au risque de 5% Année 2019/2020 Page 14 sur 16 Table de Student Année 2019/2020 Page 15 sur 16 Année 2019/2020 Page 16 sur 16