Régression pour les modèles autres que linéaires Lorsqu’on recueille des données expérimentales mettant en relation deux variables il est souvent intéressant de trouver le modèle mathématique sousjacent. Le premier outil dont nous disposons est le diagramme de dispersion. En effet, il est souvent possible de déceler à première vue le type de fonction qui met en relation les variables. Dans le cas où les points forment une droite nous avons vu qu’il était facile de trouver l’équation modélisant les données et même qu’il était possible de quantifier la qualité d’ajustement des points à notre modèle linéaire grâce au coefficient de détermination. Dans les cas où le modèle mathématique est autre que linéaire et afin d’utiliser les outils que nous possédons déjà, (droite de régression et coefficient de corrélation); il faudra linéariser les données et par le fait même le modèle mathématique. Les principaux modèles que nous pourrons linéariser sont : -le modèle logarithmique : y = k0 + k1 ln x x -le modèle exponentiel : y = k0 k1 k1 -le modèle puissance : y = k0 x Comment trouver un modèle non linéaire plausible à partir du diagramme de dispersion Les diagrammes de dispersion suivants présentent les modèles plausibles selon la disposition des points. Comment linéariser une série de données Il est possible de linéariser un modèle non linéaire en remplaçant les valeurs de la variable indépendante (X) ou indépendante (Y) ou encore des deux variables par leur logarithme. Idéalement il est préférable de reconnaître d’abord le modèle qui semble s’ajuster le mieux au nuage de points puis vérifier ensuite si ce modèle est le bon. Comment vérifier si le modèle décelé est le bon : Si vous croyez qu’il s’agit d’un modèle exponentiel : Calculer le logarithme de chacune des valeurs de Y puis retracer le diagramme de dispersion avec ces nouvelles valeurs. Une autre méthode consiste simplement à tracer le diagramme de dispersion avec les valeurs initiales non modifiées, mais cette fois sur du papier semi-log où l’échelle logarithmique sera sur l’axe des Y. Dans un cas comme dans l’autre, si le nuage de points s’apparente à une droite c’est qu’il s’agit vraisemblablement d’un modèle exponentielle. Si vous croyez qu’il s’agit d’un modèle logarithmique : Calculer le logarithme de chacune des valeurs de X puis retracer le diagramme de dispersion avec ces nouvelles valeurs. Une autre méthode consiste simplement à tracer le diagramme de dispersion avec les valeurs initiales non modifiées, mais cette fois sur du papier semi-log où l’échelle logarithmique sera sur l’axe des X. Dans un cas comme dans l’autre, si le nuage de points s’apparente à une droite c’est qu’il s’agit vraisemblablement d’un modèle logarithmique. Si vous croyez qu’il s’agit d’un modèle puissance : Calculer le logarithme de chacune des valeurs de X et des valeurs de Y, puis retracer le diagramme de dispersion avec ces nouvelles valeurs. Une autre méthode consiste simplement à tracer le diagramme de dispersion avec les valeurs initiales non modifiées, mais cette fois sur du papier log-log où l’échelle logarithmique sera sur les deux axes. Dans un cas comme dans l’autre, si le nuage de points s’apparente à une droite c’est qu’il s’agit vraisemblablement d’un modèle puissance. Équation du modèle et équation du modèle linéarisé Voici les relations qui existent entre chacun des modèles et leur modèle linéarisé Pour le modèle exponentiel : On peut montrer facilement que : y = k0 k1x ln y = ln k0 k1x ln y = ln k0 + ln k1x ln y = ln k0 + x ln k1 qui est une équation de la forme: y′ = a + bx si a = ln k0 , b = ln k1 et y′ = ln y On notera évidemment que tel que nous l’avions précisé, on peut obtenir un modèle linéaire à partir d’un modèle exponentiel si les valeurs de Y sont remplacées par le logarithme de celles-ci. NB : On utilise aussi parfois pour le modèle exponentiel la forme suivante : y = k0 e k1x De même façon, on peut montrer que : y = k0 ek1x ln y = ln k0 ek1x ln y = ln k0 + ln ek1x ln y = ln k0 + k1 x ln e puisque ( ln e = 1) on aura ln y = ln k0 + k1 x qui est une équation de la forme: y′ = a + bx si a = ln k0 , b = k1 et que y′ = ln y Plusieurs modèles de calculatrice utilisent cette forme de l’équation exponentielle, le lecteur devra être alors vigilent pour écrire correctement le modèle mathématique. Pour le modèle logarithmique On peut montrer facilement que : y = k0 + k1 ln x qui est une équation de la forme: y = a + bx′ on voit bien ici que a = k0 , b = k1 et que x′ = ln x On notera évidemment que tel que nous l’avions précisé, on peut obtenir un modèle linéaire à partir d’un modèle exponentiel si les valeurs de X sont remplacées par le logarithme de celles-ci. Pour le modèle puissance On peut montrer facilement que : y = k0 x k1 ln y = ln k0 x k1 ln y = ln k0 + ln x k1 ln y = ln k0 + k1 ln x qui est une équation de la forme: y′ = a + bx′ si a = ln k0 , b = k1 et que y′ = ln y et que x′ = ln x On notera évidemment que tel que nous l’avions précisé, on peut obtenir un modèle linéaire à partir d’un modèle puissance si les valeurs de X et de Y sont remplacées par le logarithme de celles-ci. Comment calculer la droite de régression d’une série linéarisée Une fois que vous aurez linéarisé vos données, le calcul des coefficients (a et b) de la droite de régression s’effectuera comme avec des données purement linéaire. Consulter le volume pour plus de précisions sur le calcul des coefficients de la droite de régression. Utilisation de la calculatrice Il est extrêmement pratique d’utiliser votre calculatrice pour le calcul d’un modèle mathématique. La difficulté réside toutefois dans la recherche du modèle adéquat. Il existe une méthode non graphique de recherche du modèle mathématique basé sur le coefficient de corrélation. Il suffit simplement de calculer un coefficient de corrélation pour chacun des modèles qu’offre votre calculatrice. Le modèle mathématique le mieux adapté à vos observations sera celui qui aura produit le coefficient de corrélation le plus près de 1 ou -1. Pour ce qui est du calcul des coefficients de votre modèle (généralement a et b sur votre calculatrice) les valeurs obtenues sont DIRECTEMENT celles recherchées. Aucun calcul n’est nécessaire. Proprement dit le a que votre calculatrice trouvera correspond directement à K0 et le b correspond à K1. Exemples : Voici trois séries de données, trouvons le modèle mathématique le plus approprié pour chacune d’elle. Série 1 Série 2 Série 3 x y x y x y 2 4 6 8 10 12 14 8,9 10,9 12 12,8 13,4 13,9 14,3 1 2 3 4 5 6 2,2 4,9 10,8 23,8 52,7 116,5 1 2 3 4 5 6 7 2,00 11,31 31,18 64,00 111,80 176,36 259,28 Traçons le diagramme de dispersion de chacune des séries : Série 1 Y Diagramme de dispersion 16 14 12 10 8 6 4 2 0 0 5 10 X 15 Série 2 Diagramme de dispersion 140 120 100 Y 80 60 40 20 0 0 1 2 3 4 5 6 7 X Série 3 Y Diagramme de dispersion 300,00 250,00 200,00 150,00 100,00 50,00 0,00 0 2 4 6 8 X À partir des diagrammes de dispersion, nous pouvons déjà déterminer un modèle mathématique plausible pour chacune des séries. Série 1 : le modèle logarithmique semble approprié Série 2 : le modèle exponentiel semble approprié Série 3 : le modèle puissance semble approprié Afin d’être certain que le modèle présumé soit le bon modèle nous pouvons tracer chacune des séries sur du papier semi-log ou log-log Série 1 : modèle proposé : logarithmique. Pour démonter que le modèle proposé est adéquat on doit tracer la série sur du papier semi-log où seule l’axe des X est dans une échelle logarithmique. Si le nuage de points est linéaire on aura démontré qu’il s’agit bien d’un modèle logarithmique. Y Diagramme de dispersion (échelle logarithmique en x) 16 14 12 10 8 6 4 2 0 1 10 100 X Aucun doute, c’est bien un modèle logarithmique Série 2 : modèle proposé : exponentiel. Pour démonter que le modèle proposé est adéquat on doit tracer la série sur du papier semi-log où seule l’axe des Y est dans une échelle logarithmique. Si le nuage de points est linéaire on aura démontré qu’il s’agit bien d’un modèle exponentiel. Diagramme de dispersion (Échelle logarithmique en y) 1000 Y 100 10 1 0 1 2 3 4 5 6 7 X Aucun doute, c’est bien un modèle exponentiel Série 3 : modèle proposé : puissance. Pour démonter que le modèle proposé est adéquat on doit tracer la série sur du papier log-log où les deux axes sont dans une échelle logarithmique. Si le nuage de points est linéaire on aura démontré qu’il s’agit bien d’un modèle puissance. Diagramme de dispersion (Échelle logarithmique en X et Y) 1000,00 Y 100,00 10,00 1,00 1 10 X Aucun doute, c’est bien un modèle puissance Nous avons utilisé une méthode graphique pour s’assurer que le modèle choisi corresponde bien au modèle réel. Il faut maintenant trouver l’équation du modèle. Série 1 Étape 1 : linéariser les données Dans le cas où nous avons déterminé que notre modèle est logarithmique, les données seront linéarisées en remplaçant chacune des valeurs de x par leur logarithme. x’=ln x y ln2 ln4 ln6 ln8 ln10 ln12 ln14 8,9 10,9 12 12,8 13,4 13,9 14,3 Étape 2 : calcul de la droite de régression C’est à partir de ces données que nous calculerons la droite de régression : On trouve ici y = 7, 01 + 2, 77 l x′ ce qui nous permet de définir le vrai modèle logarithmique comme étant : y = 7,10 + 2, 77 ln x . (NB : x′ = ln x ) Série 2 Étape 1 : linéariser les données Dans le cas où nous avons déterminé que notre modèle est exponentiel, les données seront linéarisées en remplaçant chacune des valeurs de y par leur logarithme. x y’=lny 1 2 3 4 5 6 ln2,2 ln4,9 ln10,8 ln23,8 ln52,7 ln116,5 C’est à partir de ces données que nous calculerons la droite de régression : On trouve ici y ′ = −0, 001 + 0, 79 x ce qui nous permet de définir le vrai modèle exponentiel à partir du calcul suivant : (NB : y′ = ln y ) ln y = −0, 0014 + 0, 79 x donc eln y = e −0,0014+ 0,79 x y = e −0,0014 e0,79 x y = 0,99856e0,79 x ou encore y = 0,99856(e0,79 ) x = 0,99856 × 2.21x Série 3 Étape 1 : linéariser les données Dans le cas où nous avons déterminé que notre modèle est de type puissance, les données seront linéarisées en remplaçant chacune des valeurs de x et y par leur logarithme. x’=lnx y’=lny ln 1 ln 2 ln 3 ln 4 ln 5 ln 6 ln 7 ln 2,00 ln 11,31 ln 31,18 ln 64,00 ln 111,80 ln 176,36 ln 259,28 C’est à partir de ces données que nous calculerons la droite de régression : On trouve ici y′ = 0, 693 + 2,500 x′ ce qui nous permet de définir le vrai modèle puissance à partir du calcul suivant : (NB : y ′ = ln y et x′ = ln x ) ln y = 0, 693 + 2,500 ln x donc eln y = e0,693+ 2,500ln x y = e0,693e 2,500ln x y = e0,693 (eln x ) 2,500 propriété des exposants y = 2 x 2,5 NB : Avec la calculatrice Évidemment tous ces calculs sont futiles avec la calculatrice, en effet une fois le bon modèle choisi et les données non modifiées entrées, vous trouverez directement les coefficients (K0 et K1 ) du modèle. Il est à noter que très souvent la calculatrice utilise plutôt les variables a et b pour représenter les coefficient des modèles. Trouver le modèle mathématique de la série 1 sans utiliser le diagramme de dispersion : Méthode avec la calculatrice : On calcul le coefficient de corrélation selon chacun des modèles : Selon un modèle linéaire le coefficient de corrélation de la série 1 est : 0,9590 Selon un modèle exponentiel le coefficient de corrélation de la série 1 est :0,93 Selon un modèle puissance le coefficient de corrélation de la série 1 est :0,996 Selon un modèle logarithmique le coefficient de corrélation de la série 1 est :0,999 Conclusion puisque le coefficient de corrélation le plus près de 1 a été trouvé avec le modèle logarithmique, c’est ce modèle qui est le plus adéquat. C’est d’ailleurs ce que nous avions trouvé par la méthode graphique.