Algèbre linéaire Applications à la modélisation des données

publicité
Algèbre linéaire
Applications à la modélisation des données
MNCS – Jean Hare, Noé Lahaye
Université Pierre et Marie CURIE
Méthodes numériques pour le calcul scientifique
12 mars 2013
1.0
0.5
0.0
-0.5
-1.0
-1.0
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
-0.5
0.0
12 mars 2013
0.5
1.0
1 / 37
Sommaire
1
Introduction
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
2 / 37
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
2 / 37
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
2 / 37
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
2 / 37
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
5
Qualité de l’ajustement : cas général
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
2 / 37
Introduction
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
5
Qualité de l’ajustement : cas général
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
3 / 37
Introduction
Optimisation
Optimisation : thématique transversale des mathématiques.
Applications dans toutes les disciplines :
Sciences
Economie
Recherche opérationelle (contraintes techniques, coûts
variables/incompresibles ⇒ fixer un ensemble de paramètres pour
maximiser un bénéfice sur divers produits.)
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
4 / 37
Introduction
Optimisation
Optimisation : thématique transversale des mathématiques.
Applications dans toutes les disciplines :
Sciences
Economie
Recherche opérationelle (contraintes techniques, coûts
variables/incompresibles ⇒ fixer un ensemble de paramètres pour
maximiser un bénéfice sur divers produits.)
Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de
différentes fractions en fonction :
de l’approvisionnement et de la composition pétroles bruts disponibles
de la demande et du prix de vente des différents sous-produits
des contraintes techniques de fonctionnement (chimie, stockage)
Dans ce cours nous nous limiterons au problème physique des ajustements
de données expérimentales par des fonctions appelées « modèle », et
utilisant les méthodes de l’algèbre linéaire.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
4 / 37
Introduction
Position du problème : ajustement
Exemple :
Ensemble de N points « expérimentaux » {(xi , yi , σi )}, i ∈ {1, . . . N }.
Précision limitée (déviation standard σi ↔ barre d’erreur sur yi ).
Objectif : vérifier une loi physique (ou autre) et déterminer aussi bien que
possible M paramètres pj , j ∈ {1, . . . M } qui caractérisent cette loi.
On suppose que les points devraient vérifier le modèle :
y(x) = f (x, p1 . . . pM ) = f (x, #»
p) ,
(1)
( #»
p : vecteur à M composantes des paramètres).
NB : La fonction modèle f est souvent notée yth , voire y tout court.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
5 / 37
Analyse du problème
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
5
Qualité de l’ajustement : cas général
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
6 / 37
Analyse du problème
Approche générale
Équations sur-déterminées
Points de mesures ⇔ déterminations ± exactes des paramètres #»
p du
modèle.
Problème : N équations v.s. M paramètres avec N M (en général)
=⇒ Équations sur-déterminées et souvent incompatibles.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
7 / 37
Analyse du problème
Approche générale
Équations sur-déterminées
Points de mesures ⇔ déterminations ± exactes des paramètres #»
p du
modèle.
Problème : N équations v.s. M paramètres avec N M (en général)
=⇒ Équations sur-déterminées et souvent incompatibles.
Exemple : cas linéaire → résolution d’un système de N équations à M
inconnues de la forme :
A·p=b
(A : matrice rectangulaire N × M ). En général : pas de solution.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
7 / 37
Analyse du problème
Approche générale
Équations sur-déterminées
Points de mesures ⇔ déterminations ± exactes des paramètres #»
p du
modèle.
Problème : N équations v.s. M paramètres avec N M (en général)
=⇒ Équations sur-déterminées et souvent incompatibles.
Exemple : cas linéaire → résolution d’un système de N équations à M
inconnues de la forme :
A·p=b
(A : matrice rectangulaire N × M ). En général : pas de solution.
« Moins mauvaise » solution obtenue en cherchant non plus à annuler
Ap − b, mais à minimiser sa norme kA · p − bk, par des méthodes directes
ou itératives selon la nature du problème.
Cette approche doit être justifiée par une analyse statistique du problème.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
7 / 37
Analyse du problème
Approche statistique
Déviations
Typiquement, on suppose qu’il existe
un jeu de valeurs #»
p v des paramètres
tel que :
8
7
yi = f (xi , #»
p v ) + i
(2)
6
y
où les déviations i résultent
5
de bruit sur les signaux,
4
d’un léger écart au modèle
(effets non pris en compte),
3
des incertitudes introduites dans
le processus de mesure.
0
0.5
x
1
1.5
2
NB : Les points de mesure xi sont supposés connus parfaitement.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
8 / 37
Analyse du problème
Approche statistique
Probabilité conditionnelle et vraisemblance
Hypothèses : déviations i sur les yi = variables aléatoires
indépendantes
distribution loi normale centrée, écart-type σi .
"
2 #
N #»
X
#»
1
y
−
f
(x
,
p
)
i
i
P y1 , · · · yN p ∝ exp −
.
2 i=1
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
σi
12 mars 2013
9 / 37
Analyse du problème
Approche statistique
Probabilité conditionnelle et vraisemblance
Hypothèses : déviations i sur les yi = variables aléatoires
indépendantes
distribution loi normale centrée, écart-type σi .
"
2 #
N #»
X
#»
1
y
−
f
(x
,
p
)
i
i
P y1 , · · · yN p ∝ exp −
.
2 i=1
σi
Valeurs des paramètres «les plus vraisemblables» ↔
fonction vraisemblance (likelihood) maximale.
L #»
p y1 , · · · yN ←→ P y1 , · · · yN #»
p .
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
(3)
12 mars 2013
9 / 37
Analyse du problème
Approche statistique
Probabilité conditionnelle et vraisemblance
Hypothèses : déviations i sur les yi = variables aléatoires
indépendantes
distribution loi normale centrée, écart-type σi .
"
2 #
N #»
X
#»
1
y
−
f
(x
,
p
)
i
i
P y1 , · · · yN p ∝ exp −
.
2 i=1
σi
Valeurs des paramètres «les plus vraisemblables» ↔
fonction vraisemblance (likelihood) maximale.
L #»
p y1 , · · · yN ←→ P y1 , · · · yN #»
p .
(3)
#»
Lorsque la fonction f est linéaire par rapport aux variables p , cette
identification est justifiée (et il n’est alors pas nécessaire que les i suivent
une loi normale), mais c’est évidement faux
dans le cas général.
Le théorème de Bayes assure que P(y1 , · · · yN | #»
p ) P( #»
p |y1 , · · · yN )
#»
= P(y1 , · · · yN ) P( p ), rapport qui n’a aucune raison d’être constant.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
9 / 37
Analyse du problème
Moindres carrés
Maximum de vraisemblance et moindres carrés
Les meilleures valeurs de #»
p , notées #»
p a , maximisent la vraisemblance L,
soit encore minimisent l’erreur totale :
N
X
E( #»
p) =
i=1
i
σi
2
=
N X
yi − f (xi , #»
p) 2
i=1
σi
.
(4)
Dans l’hypothèse où les déviations sont des variables normales
centrées, elle a la structure d’un χ2 (cf cours et TE de statistiques).
Elle est très souvent abusivement appelée « chi2 » (χ2 ), alors qu’elle
n’y correspond – au mieux – qu’au point #»
p a pour lequel on suppose
que la valeur moyenne des déviations normalisées est nulle.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
10 / 37
Analyse du problème
Moindres carrés
Équations normales
Minimum recherché #»
p a : point où le gradient de E s’annule.
=⇒ équations normales :
N X
p a)
yi − f (xi , #»
p a ) ∂f (xi , #»
i=1
σi2
∂pk
= 0,
k = 1, . . . , M
(5)
Résolution de ces équations → valeurs de #»
p a qui, si le modèle est valide,
rendent le mieux compte des données → détermination de la « vraie »
valeur #»
p v.
« Ajustement » des données par les moindres carrés ou “least squares
best fit” ou fit tout court.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
11 / 37
Analyse du problème
Moindres carrés
Linéaire vs non-linéaire
Deux situations à distinguer :
1
2
Cas particulier : fonction f (x, #»
p ) linéaire vis à vis des paramètres pj .
∂f (xi , #»
p a)
⇒ ∂pk
= cste (par rapport à #»
p)
→ système des équations normales linéaire : peut être résolu
simplement .
Cas général : f (x, p1 . . . pM ) est une fonction non-linéaire des
paramètres pj .
Le système est non-linéaire, et il faut trouver une autre méthode,
→ fondamentalement une méthode itérative.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
12 / 37
Ajustement linéaire
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
5
Qualité de l’ajustement : cas général
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
13 / 37
Ajustement linéaire
Régression linéaire
Régression linéaire : équations normales
Cas le plus simple et le plus important : modèle linéaire vis à vis des
paramètres et des données :
f (x, #»
p) = a +b x
(6)
d’où
N X
yi − a − bxi 2
H2H#»
#»
χ
( pH
) = E( p ) =
H
σi
i=1
où
#»
p = (a, b) .
(7)
Ce qui conduit aux équations :

N
X

∂E


=
0
⇒


 ∂a
i=1
yi − a − b xi
=0
σi2
(8)
N

X

∂E
yi − a − b xi



=0
=
0
⇒
xi

2
∂b
MNCS — Noé Lahaye (UPMC)
i=1
Algèbre linéaire
σi
12 mars 2013
14 / 37
Ajustement linéaire
Régression linéaire
Régression linéaire : résolution
En développant, on est conduit à définir les 6 sommes :
1
i=1 σ 2
i
Sx =
PN
xi yi
i=1 σ 2
i
Sxx =
PN
S=
PN
Sxy =
PN
yi
i=1 σ 2
i
xi
i=1 σ 2
i
Sy =
PN
xi2
i=1 σ 2
i
Syy =
PN
yi2
i=1 σ 2
i
dont l’interprétation en termes de moyennes et de variance est très claire.
Il vient alors :
(
Sxx Sy − Sx Sxy
∆
SSxy − Sx Sy
b=
∆
a=
aS + bSx
= Sy
aSx + bSxx
= Sxy
d’où
(9)
où ∆ = S Sxx − (Sx )2 est le déterminant du système et – à S près – la
variance des xi .
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
15 / 37
Ajustement linéaire
Régression linéaire
Qualité de la régression : variances/covariances de a et b
Résidus ri :
PN
2
i=1 ri
ri = yi − f (xi , #»
p a)
→ χ2 à N − M = N − 2 degrès de liberté
Variances et covariances de a et b :
Sxx
S
Sx
Var(b) =
Cov(a, b) = −
.
(10)
∆
∆
∆
La covariance de a et b est généralement rapportée à la variance de a et
de b pour définir le coefficient de corrélation de a et b :
Var(a) =
Rab =
Sx
Cov(a, b)
= −√
σa σb
S Sxx
On a −1 < Rab < 1, et il doit être aussi petit que possible en valeur
absolue.
(les valeurs ±1 annulent ∆ et font que a et b ne sont plus définis).
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
16 / 37
Ajustement linéaire
Régression linéaire
Qualité de la régression : coefficient de corrélation linéaire
Réécriture du modèle :
x = a 0 + b0 y
hypothèses simplificatrices sur σi :
60
50
x = 0.385 y + 2.500
y = 2.240 x - 2.397
40
R2=0.385 x 2.240=0.8624
S Sxy − Sx Sy
.
b0 =
S Syy − Sy2
30
20
10
Droites confondues ssi b × b0 = 1,
i.e. le coefficient de corrélation linéaire :
r 2 = b × b0 = Cov(x, y)/(σx σy )= 1
La corrélation linéaire est donc appréciée qualitativement selon que r 2 est
plus ou moins proche de ±1.
0
-10
0
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
5
10
15
12 mars 2013
20
25
17 / 37
Ajustement linéaire
Cas linéaire général
Cas linéaire général
Modèle y = f (x, #»
p ) linéaire par rapport aux paramètres #»
p :
f (x, #»
p) =
M
X
pk Fk (x) ,
(11)
k=1
où F1 (x) · · · FM (x) sont M fonctions quelconques de x.
La minimisation de
N
X
yi −
#»
E( p ) =
i=1
PM
k=1 pk
Fk (xi )
!2
σi
(12)
donne les M équations normales :
N
X
yi −
i=1
PM
j=1 pj
σi
MNCS — Noé Lahaye (UPMC)
Fj (xi ) Fk (xi )
= 0 pour k = 1, · · · M ,
σi
Algèbre linéaire
12 mars 2013
(13)
18 / 37
Ajustement linéaire
Cas linéaire général
Équations normales
En développant comme dans le cas 2-D, on obtient sous forme matricielle :
M
X
Akj pj = bk
A·p=b
soit
(14)
j=1
où les coefficients Akj de la matrice M × M symétrique A et les
composantes du vecteur-colonne b sont :
Akj =
N
X
Fk (xi ) Fj (xi )
i=1
σi2
et
bk =
N
X
yi Fk (xi )
i=1
σi2
(15)
Le vecteur des paramètres p peut alors être obtenu avec l’une des
méthodes standard de résolution des systèmes linéaires, sous la forme :
p = A−1 · b
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
19 / 37
Ajustement linéaire
Cas linéaire général
Structure de A et B
Aij et bi peuvent se calculer à partir de Gik = Fi (xk )/σk et Yk = yk /σk :
X

Aij =
Gik Gjk



k


 bi =
X
Gik Yk
(
soit
A = G tG
b = GY
donc
−1
p = G tG
·G·Y
k
de façon plus visuelle :  G ...G 
11
M1
.. 
  ..
G11 · · · · · · G1N 
. 
.

 ..


.
.
.. 
..   ..
A= .
. 



.
.. 
GM1 · · · · · · GMN  .

.
.
|
{z
}
tailleN M
G1N...GMN
|
{z
}


et
tailleMN

Y1

  .. 

G11 · · · · · · G1N 
 . 
 ..


.
.
..   .. 
b= .

 

.
GM1 · · · · · · GMN  . 
|
{z
} . 
tailleN M
YN
| {z }
taille1
NB : La matrice A (M ×M ) est évidement symétrique et définie positive
(somme des carrés des i ), ce qui assure l’existence d’un minimum unique.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
20 / 37
Ajustement linéaire
La qualité du fit
Variances-covariances : méthode probabiliste
Une fois obtenue la solution, il faut savoir estimer sa qualité. Une première
chose est de voir à quel point elle est contrainte, en évaluant la
co-variance des paramètres : c’est la matrice C = A−1 qui les donne.
En effet, de p = C G Y ⇒ pi =
⇒ Cov(pi , pj ) =
PM
P
m,n=1
m,k
PN
Cim Gmk Yk on tire :
k,l=1
Cim Gmk Cjn Gnl Cov(Yk , Yl )
|
{z
}
δkl
=
P
mn Cim Cjn
P
Gnk Gmk = [C A C]ij = Cij ,
}
| k {z
Amn
en utilisant successivement l’hypothèse d’indépendance des déviations
{k } et la symétrie de A et donc de C.
Ce résultat s’appliquera de la même façon dans le cas non linéaire.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
21 / 37
Ajustement linéaire
La qualité du fit
Variances-covariances : méthode algébrique
Expression de la vraisemblance L autour du point #»
pa :
#»
#»
#»
a
en notant δ p = p − p , on a :
L(δ #»
p ) ∝ exp − 12 tδp · A · δp .
Décroît d’autant plus vite que A est grand (minimum très piqué).
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
22 / 37
Ajustement linéaire
La qualité du fit
Variances-covariances : méthode algébrique
Expression de la vraisemblance L autour du point #»
pa :
#»
#»
#»
a
en notant δ p = p − p , on a :
L(δ #»
p ) ∝ exp − 12 tδp · A · δp .
Décroît d’autant plus vite que A est grand (minimum très piqué).
Diagonalisation de A sous la forme A = tU · D · U (U orthogonale, D
diagonale) → obtiention des paramètres qi , tels que #»
q = Uδ #»
p,
indépendants et de moyenne nulle. On a alors :
L∝
QM
i=1 exp
MNCS — Noé Lahaye (UPMC)
− 21 Dii qi2
⇒
Algèbre linéaire
Var(qi ) = 1/Dii .
12 mars 2013
22 / 37
Ajustement linéaire
La qualité du fit
Variances-covariances : méthode algébrique
Expression de la vraisemblance L autour du point #»
pa :
#»
#»
#»
a
en notant δ p = p − p , on a :
L(δ #»
p ) ∝ exp − 12 tδp · A · δp .
Décroît d’autant plus vite que A est grand (minimum très piqué).
Diagonalisation de A sous la forme A = tU · D · U (U orthogonale, D
diagonale) → obtiention des paramètres qi , tels que #»
q = Uδ #»
p,
indépendants et de moyenne nulle. On a alors :
L∝
QM
i=1 exp
− 21 Dii qi2
⇒
Var(qi ) = 1/Dii .
En revenant aux paramètres pi , et en utilisant l’indépendance des qi , on
obtient :
h
i
hδpi δpj i = tU · D−1 · U = Cij
ij
qui est le résultat énoncé précédemment.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
22 / 37
Cas Non-Linéaire
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
5
Qualité de l’ajustement : cas général
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
23 / 37
Cas Non-Linéaire
Généralités
Cas non-linéaire : approche générale
Cas général. Exemple : lorentzienne ou gaussienne (largeur w est un
paramètre de l’ajustement).
Problème : dans les équations normales :
N X
yi − f (xi , #»
p a ) ∂f (xi , #»
p a)
i=1
σi2
∂pk
= 0,
les dérivées partielles ∂f (xi , #»
p )/∂pk dépendent du point considéré
dans l’espace des paramètres.
p ) jusqu’à obtenir
Méthodes itératives : diminution progressive de E( #»
un minimum local.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
24 / 37
Cas Non-Linéaire
Généralités
Méthode itérative : principe
Valeur initiale #»
p (0) (“guess”) −→ #»
p (1) , · · · #»
p (n) .
Arrêt lorsque E( #»
p (n) ) cesse de diminuer → Critère de convergence :
0 6 E ( #»
p n ) − E( #»
p n+1 ) 6 ηtol.
où
ηtol. E #»
p (n)
.
(16)
Difficultés :
Convergence vers minimum local dénué de sens ← choix de #»
p (0)
pertinent, méthode bien adaptée s’il y a beaucoup de minima locaux
possibles.
E( #»
p ) peut présenter des vallées dans lesquelles on descend très vite,
et où ensuite la progression est très lente (méandres).
Nombre très élevé d’évaluations de la fonction f et de ses dérivées,
très coûteuse en temps de calcul si N est important.
Cela est d’autant plus probable que le nombre M de paramètres est élevé.
On procède alors par étapes en faisant varier certains paramètres
seulement.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
25 / 37
Cas Non-Linéaire
Généralités
20
La méthode du gradient
10
δ #»
p = −γ ∇E ( #»
p n)
15
Méthode la plus simple : déplacement
δ #»
p = #»
p n+1 − #»
p n dans la direction du gradient de
E, qui définit la plus grande pente (“steepest
descent”) de E( #»
p) :
(γ ∈ IR+ ) ,
0
2
4
6
8
10
0
5
Le gradient est défini par ses composantes ∂E/∂pk
(termes à gauche dans les équations normales, à un
facteur -2 près).
Cette méthode est assez robuste si le pas est assez petit,
mais dans ce cas elle converge très lentement.
Problème : Comment choisir γ ?
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
26 / 37
Cas Non-Linéaire
Généralités
Gradient : le choix du pas
20
15
10
5
0
10
8
6
4
2
0
Ni la minimisation en ligne ni la méthode à petits pas ne sont efficaces.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
27 / 37
Cas Non-Linéaire
Généralités
La hessienne
Gain de temps : considération de la courbure locale pour choisir la
direction de δ #»
p , via la hessienne :
[H( #»
p )]kl
=
∂ 2 E( #»
p)
∂pk ∂pl
= 2
M
X
1
i=N
σi2
∂f (xi , #»
p ) ∂f (xi , #»
p)
∂ 2 f (xi , #»
p)
− (yi − f (xi , #»
p ))
∂pk
∂pl
∂pk ∂pl
!
C’est son anisotropie qui est le principal responsable de la lenteur de
convergence de la méthode du gradient.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
28 / 37
Cas Non-Linéaire
Généralités
Prise en compte de la courbure
En faisant un développement limité de E( #»
p ) autour de #»
p (n) :
1
E( #»
p ) ≈ E( #»
p (n) ) + ∇E( #»
p (n) ) · δ #»
p + t δ #»
p · H · δ #»
p + ··· ,
2
(17)
En dérivant, le gradient au point #»
p (n+1) = #»
p (n) + δ #»
p s’écrit :
∇E( #»
p (n+1) ) = ∇E( #»
p (n) ) + H · δ #»
p
Pour qu’il s’annule, il faut choisir δ #»
p tel que :
∇E( #»
p (n) ) + H · δ #»
p =0
⇔
δ #»
p = −H−1 · ∇E( #»
p (n) ) .
(18)
Si E quadratique → solution direct.
(cas linéaire : H = 2A, ∇E = −b, indépendantes du point #»
p considéré.
Cette solution est bien plus rapide lorsqu’on est assez proche d’un
minimum, (i.e. au fond de la vallée).
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
29 / 37
Cas Non-Linéaire
Généralités
Illustration à une dimension
x1
MNCS — Noé Lahaye (UPMC)
x0
x2
Algèbre linéaire
12 mars 2013
30 / 37
Cas Non-Linéaire
Généralités
La méthode du gradient conjugué
Elle consiste à faire des « pas » ou
incréments ∆ #»
p dans la direction du δ #»
p tel
que défini par l’équation (18).
Elle est ainsi nommée car la surface de
niveau et l’incrément sont « conjugués », i.e.
ne sont pas orthogonaux pour le produit
scalaire normal, mais pour la forme
quadratique H, soit :
#»
u · ∇E = 0
⇒
t
gradient
δ #»
p H #»
u =0.
Elle a le mérite de progresser dans la
« bonne » direction, et conduit à une
convergence rapide si l’approximation
quadratique (17) est adaptée.
MNCS — Noé Lahaye (UPMC)
gradient conjugué
Algèbre linéaire
Comparaison des méthodes
du gradient et du gradient conjugué
12 mars 2013
31 / 37
Cas Non-Linéaire
Généralités
Taille des pas et choix de la méthode
Choix de la taille des pas ← courbure :
Par ex. : γi ≈ α/Hii , α < 1 .
N.B. : Facteur γi différent dans chaque direction.
Dans ces conditions :
La méthode du gradient est plus sûre quand on est loin de l’optimum
car l’approximation quadratique est alors grossière.
La méthode du gradient conjugué est plus rapide lorsqu’on s’approche
du minimum, car l’approximation quadratique est alors bien meilleure.
NB : Combinaison des deux méthodes (descente dans vallée puis
progression rapide) =⇒ Levenberg-Marquardt
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
32 / 37
Cas Non-Linéaire
Méthode du gradient conjugué
Méthode du gradient conjugué : les équations
Si les déviations k = yk − f (xk , #»
p ) sont petites, indépendantes et
dispersées selon une loi normale centrée, la contribution à H des
∂2f
termes en
est négligeable.
∂pk ∂pl
On définit alors la matrice A et le vecteur B comme suit :
1 ∂f (xk , #»
p)
k
A = G tG , b = G E où Gik =
et Ek =
σk
∂pi
σk
(19)
Parallélisme avec la méthode dans le cas linéaire. A et b dépendent
du point considéré mais tendent assez vite vers leur valeur au
minimum.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
33 / 37
Cas Non-Linéaire
Méthode du gradient conjugué
Méthode du gradient conjugué : l’algorithme
Les itérations sont alors effectuées comme suit :
1 Choisir une valeur initiale #»
p (0) et évaluer E( #»
p (0) ).
3
Au point #»
p (n) , évaluer A, b et résoudre l’équation A δp = b.
Prendre #»
p (n+1) = #»
p (n) + δ #»
p.
4
Tester la convergence : si E ne diminue plus, c’est à dire si
2
0 < E( #»
p (n) ) − E( #»
p (n+1) ) < η 1,
on peut arrêter les itérations. Sinon, retourner en (2).
Variante : Méthode plus robuste avec δ #»
p ← γδ #»
p , 0 < γ < 1 et contrôle
de γ en fonction de l’évolution de E à chaque itération.
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
34 / 37
Qualité de l’ajustement : cas général
Sommaire
1
Introduction
2
Analyse du problème
Approche générale
Approche statistique
Moindres carrés
3
Ajustement linéaire
Régression linéaire
Cas linéaire général
La qualité du fit
4
Cas Non-Linéaire
Généralités
Méthode du gradient conjugué
5
Qualité de l’ajustement : cas général
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
35 / 37
Qualité de l’ajustement : cas général
Critères d’évaluation de la qualité de l’ajustement
Matrice variances-covariances : A−1 .
Evalue la contrainte de l’ajustement.
Variances souvent très faible et
non-significatives.
Attention aux covariances ≡ choix des
paramètres.
1.6
1.4
1.2
1.0
y
0.8
0.6
0.4
0.2
0.0
-10
Dépendance en x et distribution
statistique des résidus → vraisemblance
du modèle et qualité de l’ajustement.
-5
x
0
5
0
50
10
30
20
10
0
-50
x10-3
χ2
La pertinence du modèle est enfin appréciée par le test du
(erreur
évaluée au minimum !), avec N − M degrés de liberté, dont la fonction de
répartition est proportionnelle à la fonction Γ incomplète (cf TE 3).
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
36 / 37
Qualité de l’ajustement : cas général
Test du χ2
On calcule alors :
Q
χ2
N −M
2 , 2
γ
=1−
Γ
N −M χ2
2 , 2
N −M
2
,
Mesure la probabilité que des résidus (∝ loi normale) donnent une valeur
supérieure ou égale à la valeur χ2 obtenue.
Seuils à utiliser ←→ risque toléré.
Typiquement : Q > 0.1 → confiance au modèle, Q ∼ 0.01 valeur juste
passable.
Note : valeur trop grande de χ2 (↔ trop faible de Q) ⇐= dispersions σi
sous-évaluées (trop optimiste sur les barres d’erreur).
MNCS — Noé Lahaye (UPMC)
Algèbre linéaire
12 mars 2013
37 / 37
Téléchargement