Notes de cours sur les régression non linéaires

publicité
Régression pour les modèles autres que linéaires
Lorsqu’on recueille des données expérimentales mettant en relation deux
variables il est souvent intéressant de trouver le modèle mathématique sousjacent. Le premier outil dont nous disposons est le diagramme de dispersion. En
effet, il est souvent possible de déceler à première vue le type de fonction qui
met en relation les variables. Dans le cas où les points forment une droite nous
avons vu qu’il était facile de trouver l’équation modélisant les données et même
qu’il était possible de quantifier la qualité d’ajustement des points à notre modèle
linéaire grâce au coefficient de détermination.
Dans les cas où le modèle mathématique est autre que linéaire et afin d’utiliser
les outils que nous possédons déjà, (droite de régression et coefficient de
corrélation); il faudra linéariser les données et par le fait même le modèle
mathématique. Les principaux modèles que nous pourrons linéariser sont :
-le modèle logarithmique : y = k0 + k1 ln x
x
-le modèle exponentiel : y = k0 k1
k1
-le modèle puissance : y = k0 x
Comment trouver un modèle non linéaire plausible à partir du diagramme
de dispersion
Les diagrammes de dispersion suivants présentent les modèles plausibles selon
la disposition des points.
Comment linéariser une série de données
Il est possible de linéariser un modèle non linéaire en remplaçant les valeurs de
la variable indépendante (X) ou indépendante (Y) ou encore des deux variables
par leur logarithme. Idéalement il est préférable de reconnaître d’abord le modèle
qui semble s’ajuster le mieux au nuage de points puis vérifier ensuite si ce
modèle est le bon.
Comment vérifier si le modèle décelé est le bon :
Si vous croyez qu’il s’agit d’un modèle exponentiel :
Calculer le logarithme de chacune des valeurs de Y puis retracer le
diagramme de dispersion avec ces nouvelles valeurs. Une autre méthode
consiste simplement à tracer le diagramme de dispersion avec les valeurs
initiales non modifiées, mais cette fois sur du papier semi-log où l’échelle
logarithmique sera sur l’axe des Y. Dans un cas comme dans l’autre, si le
nuage de points s’apparente à une droite c’est qu’il s’agit
vraisemblablement d’un modèle exponentielle.
Si vous croyez qu’il s’agit d’un modèle logarithmique :
Calculer le logarithme de chacune des valeurs de X puis retracer le
diagramme de dispersion avec ces nouvelles valeurs. Une autre méthode
consiste simplement à tracer le diagramme de dispersion avec les valeurs
initiales non modifiées, mais cette fois sur du papier semi-log où l’échelle
logarithmique sera sur l’axe des X. Dans un cas comme dans l’autre, si le
nuage de points s’apparente à une droite c’est qu’il s’agit
vraisemblablement d’un modèle logarithmique.
Si vous croyez qu’il s’agit d’un modèle puissance :
Calculer le logarithme de chacune des valeurs de X et des valeurs de Y,
puis retracer le diagramme de dispersion avec ces nouvelles valeurs. Une
autre méthode consiste simplement à tracer le diagramme de dispersion
avec les valeurs initiales non modifiées, mais cette fois sur du papier log-log
où l’échelle logarithmique sera sur les deux axes. Dans un cas comme
dans l’autre, si le nuage de points s’apparente à une droite c’est qu’il s’agit
vraisemblablement d’un modèle puissance.
Équation du modèle et équation du modèle linéarisé
Voici les relations qui existent entre chacun des modèles et leur modèle linéarisé
Pour le modèle exponentiel :
On peut montrer facilement que :
y = k0 k1x
ln y = ln k0 k1x
ln y = ln k0 + ln k1x
ln y = ln k0 + x ln k1 qui est une équation de la forme:
y′ = a + bx si a = ln k0 , b = ln k1 et y′ = ln y
On notera évidemment que tel que nous l’avions précisé, on peut obtenir un
modèle linéaire à partir d’un modèle exponentiel si les valeurs de Y sont
remplacées par le logarithme de celles-ci.
NB : On utilise aussi parfois pour le modèle exponentiel la forme suivante :
y = k0 e k1x
De même façon, on peut montrer que :
y = k0 ek1x
ln y = ln k0 ek1x
ln y = ln k0 + ln ek1x
ln y = ln k0 + k1 x ln e puisque ( ln e = 1) on aura
ln y = ln k0 + k1 x qui est une équation de la forme:
y′ = a + bx si a = ln k0 , b = k1 et que y′ = ln y
Plusieurs modèles de calculatrice utilisent cette forme de l’équation
exponentielle, le lecteur devra être alors vigilent pour écrire correctement le
modèle mathématique.
Pour le modèle logarithmique
On peut montrer facilement que :
y = k0 + k1 ln x qui est une équation de la forme:
y = a + bx′ on voit bien ici que a = k0 , b = k1 et que x′ = ln x
On notera évidemment que tel que nous l’avions précisé, on peut obtenir un
modèle linéaire à partir d’un modèle exponentiel si les valeurs de X sont
remplacées par le logarithme de celles-ci.
Pour le modèle puissance
On peut montrer facilement que :
y = k0 x k1
ln y = ln k0 x k1
ln y = ln k0 + ln x k1
ln y = ln k0 + k1 ln x qui est une équation de la forme:
y′ = a + bx′ si a = ln k0 , b = k1 et que y′ = ln y et que x′ = ln x
On notera évidemment que tel que nous l’avions précisé, on peut obtenir un
modèle linéaire à partir d’un modèle puissance si les valeurs de X et de Y
sont remplacées par le logarithme de celles-ci.
Comment calculer la droite de régression d’une série linéarisée
Une fois que vous aurez linéarisé vos données, le calcul des coefficients (a et b)
de la droite de régression s’effectuera comme avec des données purement
linéaire. Consulter le volume pour plus de précisions sur le calcul des coefficients
de la droite de régression.
Utilisation de la calculatrice
Il est extrêmement pratique d’utiliser votre calculatrice pour le calcul d’un modèle
mathématique. La difficulté réside toutefois dans la recherche du modèle
adéquat. Il existe une méthode non graphique de recherche du modèle
mathématique basé sur le coefficient de corrélation. Il suffit simplement de
calculer un coefficient de corrélation pour chacun des modèles qu’offre votre
calculatrice. Le modèle mathématique le mieux adapté à vos observations sera
celui qui aura produit le coefficient de corrélation le plus près de 1 ou -1. Pour ce
qui est du calcul des coefficients de votre modèle (généralement a et b sur votre
calculatrice) les valeurs obtenues sont DIRECTEMENT celles recherchées.
Aucun calcul n’est nécessaire. Proprement dit le a que votre calculatrice trouvera
correspond directement à K0 et le b correspond à K1.
Exemples : Voici trois séries de données, trouvons le modèle mathématique le
plus approprié pour chacune d’elle.
Série 1
Série 2
Série 3
x
y
x
y
x
y
2
4
6
8
10
12
14
8,9
10,9
12
12,8
13,4
13,9
14,3
1
2
3
4
5
6
2,2
4,9
10,8
23,8
52,7
116,5
1
2
3
4
5
6
7
2,00
11,31
31,18
64,00
111,80
176,36
259,28
Traçons le diagramme de dispersion de chacune des séries :
Série 1
Y
Diagramme de dispersion
16
14
12
10
8
6
4
2
0
0
5
10
X
15
Série 2
Diagramme de dispersion
140
120
100
Y
80
60
40
20
0
0
1
2
3
4
5
6
7
X
Série 3
Y
Diagramme de dispersion
300,00
250,00
200,00
150,00
100,00
50,00
0,00
0
2
4
6
8
X
À partir des diagrammes de dispersion, nous pouvons déjà déterminer un
modèle mathématique plausible pour chacune des séries.
Série 1 : le modèle logarithmique semble approprié
Série 2 : le modèle exponentiel semble approprié
Série 3 : le modèle puissance semble approprié
Afin d’être certain que le modèle présumé soit le bon modèle nous pouvons
tracer chacune des séries sur du papier semi-log ou log-log
Série 1 : modèle proposé : logarithmique.
Pour démonter que le modèle proposé est adéquat on doit tracer la série sur du
papier semi-log où seule l’axe des X est dans une échelle logarithmique. Si le
nuage de points est linéaire on aura démontré qu’il s’agit bien d’un modèle
logarithmique.
Y
Diagramme de dispersion
(échelle logarithmique en x)
16
14
12
10
8
6
4
2
0
1
10
100
X
Aucun doute, c’est bien un modèle logarithmique
Série 2 : modèle proposé : exponentiel.
Pour démonter que le modèle proposé est adéquat on doit tracer la série sur du
papier semi-log où seule l’axe des Y est dans une échelle logarithmique. Si le
nuage de points est linéaire on aura démontré qu’il s’agit bien d’un modèle
exponentiel.
Diagramme de dispersion
(Échelle logarithmique en y)
1000
Y
100
10
1
0
1
2
3
4
5
6
7
X
Aucun doute, c’est bien un modèle exponentiel
Série 3 : modèle proposé : puissance.
Pour démonter que le modèle proposé est adéquat on doit tracer la série sur du
papier log-log où les deux axes sont dans une échelle logarithmique. Si le nuage
de points est linéaire on aura démontré qu’il s’agit bien d’un modèle puissance.
Diagramme de dispersion
(Échelle logarithmique en X et Y)
1000,00
Y
100,00
10,00
1,00
1
10
X
Aucun doute, c’est bien un modèle puissance
Nous avons utilisé une méthode graphique pour s’assurer que le modèle choisi
corresponde bien au modèle réel. Il faut maintenant trouver l’équation du
modèle.
Série 1
Étape 1 : linéariser les données
Dans le cas où nous avons déterminé que notre modèle est logarithmique, les
données seront linéarisées en remplaçant chacune des valeurs de x par leur
logarithme.
x’=ln x
y
ln2
ln4
ln6
ln8
ln10
ln12
ln14
8,9
10,9
12
12,8
13,4
13,9
14,3
Étape 2 : calcul de la droite de régression
C’est à partir de ces données que nous calculerons la droite de régression :
On trouve ici y = 7, 01 + 2, 77 l x′ ce qui nous permet de définir le vrai modèle
logarithmique comme étant : y = 7,10 + 2, 77 ln x . (NB : x′ = ln x )
Série 2
Étape 1 : linéariser les données
Dans le cas où nous avons déterminé que notre modèle est exponentiel, les
données seront linéarisées en remplaçant chacune des valeurs de y par leur
logarithme.
x
y’=lny
1
2
3
4
5
6
ln2,2
ln4,9
ln10,8
ln23,8
ln52,7
ln116,5
C’est à partir de ces données que nous calculerons la droite de régression :
On trouve ici y ′ = −0, 001 + 0, 79 x ce qui nous permet de définir le vrai modèle
exponentiel à partir du calcul suivant : (NB : y′ = ln y )
ln y = −0, 0014 + 0, 79 x donc
eln y = e −0,0014+ 0,79 x
y = e −0,0014 e0,79 x
y = 0,99856e0,79 x
ou encore y = 0,99856(e0,79 ) x = 0,99856 × 2.21x
Série 3
Étape 1 : linéariser les données
Dans le cas où nous avons déterminé que notre modèle est de type puissance,
les données seront linéarisées en remplaçant chacune des valeurs de x et y par
leur logarithme.
x’=lnx
y’=lny
ln 1
ln 2
ln 3
ln 4
ln 5
ln 6
ln 7
ln 2,00
ln 11,31
ln 31,18
ln 64,00
ln 111,80
ln 176,36
ln 259,28
C’est à partir de ces données que nous calculerons la droite de régression :
On trouve ici y′ = 0, 693 + 2,500 x′ ce qui nous permet de définir le vrai modèle
puissance à partir du calcul suivant : (NB : y ′ = ln y et x′ = ln x )
ln y = 0, 693 + 2,500 ln x donc
eln y = e0,693+ 2,500ln x
y = e0,693e 2,500ln x
y = e0,693 (eln x ) 2,500 propriété des exposants
y = 2 x 2,5
NB : Avec la calculatrice
Évidemment tous ces calculs sont futiles avec la calculatrice, en effet une fois le
bon modèle choisi et les données non modifiées entrées, vous trouverez
directement les coefficients (K0 et K1 ) du modèle. Il est à noter que très souvent
la calculatrice utilise plutôt les variables a et b pour représenter les coefficient
des modèles.
Trouver le modèle mathématique de la série 1 sans utiliser le diagramme de
dispersion :
Méthode avec la calculatrice : On calcul le coefficient de corrélation selon chacun
des modèles :
Selon un modèle linéaire le coefficient de corrélation de la série 1 est : 0,9590
Selon un modèle exponentiel le coefficient de corrélation de la série 1 est :0,93
Selon un modèle puissance le coefficient de corrélation de la série 1 est :0,996
Selon un modèle logarithmique le coefficient de corrélation de la série 1
est :0,999
Conclusion puisque le coefficient de corrélation le plus près de 1 a été trouvé
avec le modèle logarithmique, c’est ce modèle qui est le plus adéquat. C’est
d’ailleurs ce que nous avions trouvé par la méthode graphique.
Téléchargement