Régression linéaire et non linéaire
Mark Asch
Septembre 2010
TADE - EDSS, UPJV 2010-11
1 Régression linéaire
1.1 La droite de moindres carrés
Le problème suivant est souvent rencontré dans tous les domaines où des
mathématiques sont appliquées. Pour des points discrets ti(souvent des instants
de temps), des observations bid’un phénomène quelconque sont faites, et les
résultats sont enrégistrés comme un ensemble de couples
D={(t1, b1),(t2, b2), ..., (tm, bm)}.
Sur la base des ces observations, le problème est de faire des estimations ou des
prévisions aux points (instants) ˆ
tdifférents des ti.L’approche classique est alors
de trouver l’équation de la courbe
y=f(t)
qui est ajustée au mieux aux points dans Dafin de pouvoir ensuite estimer le
phénomène selon ˆy=f(ˆ
t).
Commençons par ajuster une ligne droite aux points dans D.Une fois que
nous avons compris ceci, il est relativement facile d’ajuster les données avec des
lignes courbes. La stratégie est de déterminer les coefficients, αet β, de la droite
f(t) = α+βt
qui s’ajuste au mieux aux points (ti, bi)dans le sens où la somme des erreurs ver-
ticales (nous supposons ici que les instants sont connus sans erreurs) 1, 2, ...m
est minimale.
Si nous définissons les erruers comme
i=|f(ti)bi|=|α+βtibi|
1
alors le but est : trouver les valeurs de αet βqui minimisent
E=
m
X
i=1
2
i.
Selon la théorie d’optimisation, la valeur minimale se trouve par la résolution
des équations pour les points stationnaires,
E
α = 0 ,E
β = 0.
Nous calculons aisement,
2
m
X
i=1
(α+βtibi) = 0
2
m
X
i=1
(α+βtibi)ti= 0,
qui peut être réecrit en termes des deux inconnus,
m
X
i=1
1!α+ m
X
i=1
ti!β=
m
X
i=1
bi
m
X
i=1
ti!α+ m
X
i=1
t2
i!β=
m
X
i=1
tibi.
Ce système est équivalent à l’équation matricielle,
ATAx =ATb, (1)
avec
A=
1t1
1t2
.
.
..
.
.
1tm
, b =
b1
b2
.
.
.
bm
et x=α
β.
Le système (1) est le système d’équations normales associé au système Ax =b.
Le produit,
ATA=1 1 · · · 1
t1t2· · · tm
1t1
1t2
.
.
..
.
.
1tm
=mPm
i=1 ti
Pm
i=1 tiPm
i=1 t2
i.
2
Vu que les tisont supposés distincts, le système admet une solution unique
donnée par
x=ATA1ATb
et l’erreur totale par m
X
i=1
2
i= (Ax b)T(Ax b).
Nous résumons dans un théorème.
Pour ARm×net bRm,soit =(x) = Ax b. Le problème général de
moindres carrés est de trouver le vecteur xqui minimise la quantité
m
X
i=1
2
i=T= (Ax b)T(Ax b).
Tout vecteur qui fournit une valeur minimale s’appele une solution de moindres
carrés. L’ensemble de toutes les solutions de moindres carrés est précisément
l’ensemble de solutions du système des équations normales, ATAx =ATb. Il
existe une solution de moindres carrés unique, donnée par x=ATA1ATb,
si et seulement si le rank(A) = n. Si Ax =best consistente, alors la solution de
Ax =best la même que celle de moindres carrés.
1.2 La courbe de moindres carrés
Le problème est ici de trouver un polynôme de degré donné,
p(t) = α0+α1t+α2t2+· · · +αn1tn1
qui se rapproche autant que possible, dans le sens des moindres carrés, à un
ensemble de mesures
D={(t1, b1),(t2, b2), ..., (tm, bm)},
où les tisont distincts et nm. Le but, de nouveau, est de minimiser la somme
de carrés, m
X
i=1
2
i=
m
X
i=1
(p(ti)bi)2= (Ax b)T(Ax b).,
A=
1t1t2
1· · · tn1
1
1t2t2
2· · · tn1
2
.
.
..
.
..
.
.· · · .
.
.
1tmt2
m· · · tn1
m
, b =
b1
b2
.
.
.
bm
et x=
α0
α1
.
.
.
αn1
.
Le polynome de moindres carrés est unique parce que Am×nest une matrice de
Vandermonde avec nm, et donc rank(A) = n.
3
1.3 Résolution numérique des équations normales
instabilités d’une résolution directe par élimination de Gauss et même par
factorisation de Cholesky
QR (Householder) et SVD factorisations pour la résolution des équations
normales
Matlab anti-slash opérateur
SVD plus robuste que Householder, mais beaucoup plus cher
La solution de norme minimale à
Ax =b
est donnée par
x=A+b,
où la pseudoinverse de la matrice Ade dimension m×n, avec m > n, est définie
par
A+=ATA1AT.
La factorisation SVD de Aest
A=UΣVT
Uest une matrice orthogonale m×m,Vest une matrice orthogonale n×n
et Σest une matrice diagonale de dimension m×navec
σij =(0 pour i6=j,
σipour i=j
et σisont les valeurs singulières de A. Finalement le pseudoinverse est aussi
donnée par
A+=VΣ+UT.
La factorisation QR de Aest
A=QR
0
Qest une matrice orthogonale de dimension m×m, et Rest une matrice
triangulaire supérieure de dimension n×n. Finalement le pseudoinverse est aussi
donnée par
A+=R1QT
1
Q1est la partition m×nde Qtelle que
A=QR
0= [Q1Q2]R
0=Q1R.
4
2 Régression non linéaire
2.1 La méthode de Gauss-Newton
Dans les problèmes de moindres carrés non linéaires, la fonction à minimiser
prend en général la forme
g(x) = 1
2
m
X
i=1
gi(x)2.
Pour appliquer la méthode de Newton à la minimisation de g(x),on doit calculer
le Hessien de g, qui dans ce cas précis prend une forme particulière. D’une part,
la gradient de gest
g(x) =
m
X
i=1
gi(x)gi(x)
et le Hessien de gest donné par
2g(x) =
m
X
i=1
gi(x)gi(x)T+
m
X
i=1
gi(x)2gi(x).
Si l’on se place près de l’optimum, où on supposera que les gi(x)sont petits, le
deuxième terme peut alors être négligé. La matrice obtenue
H(x) =
m
X
i=1
gi(x)gi(x)T
est semi-définie positive et la plupart du temps, avec mn, elle est définie
positive. La méthode obtenue de la méthode de Newton en ramplacant 2g(x)
par H(x)est la méthode de Gauss-Newton :
x0donn´e,
Hk=Pm
i=1 gi(xk)gi(xk)T,
xk+1 =xkH1
kg(xk).
Pour l’ajustement de données (ti, yi), soit la fonction résiduelle
ri(x) = yif(t, xi), i = 1, ..., m
xest un vecteur de paramètres inconnus, fest une fonction non linéaire
connue. Nous voulons minimiser
φ(x) = 1
2rT(x)r(x).
Son gradient est
φ(x) = JT(x)r(x)
5
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !