Algèbre linéaire Applications à la modélisation des données MNCS – Jean Hare, Noé Lahaye Université Pierre et Marie CURIE Méthodes numériques pour le calcul scientifique 12 mars 2013 1.0 0.5 0.0 -0.5 -1.0 -1.0 MNCS — Noé Lahaye (UPMC) Algèbre linéaire -0.5 0.0 12 mars 2013 0.5 1.0 1 / 37 Sommaire 1 Introduction MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 2 / 37 Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 2 / 37 Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 2 / 37 Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 2 / 37 Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué 5 Qualité de l’ajustement : cas général MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 2 / 37 Introduction Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué 5 Qualité de l’ajustement : cas général MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 3 / 37 Introduction Optimisation Optimisation : thématique transversale des mathématiques. Applications dans toutes les disciplines : Sciences Economie Recherche opérationelle (contraintes techniques, coûts variables/incompresibles ⇒ fixer un ensemble de paramètres pour maximiser un bénéfice sur divers produits.) MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 4 / 37 Introduction Optimisation Optimisation : thématique transversale des mathématiques. Applications dans toutes les disciplines : Sciences Economie Recherche opérationelle (contraintes techniques, coûts variables/incompresibles ⇒ fixer un ensemble de paramètres pour maximiser un bénéfice sur divers produits.) Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction : de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage) Dans ce cours nous nous limiterons au problème physique des ajustements de données expérimentales par des fonctions appelées « modèle », et utilisant les méthodes de l’algèbre linéaire. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 4 / 37 Introduction Position du problème : ajustement Exemple : Ensemble de N points « expérimentaux » {(xi , yi , σi )}, i ∈ {1, . . . N }. Précision limitée (déviation standard σi ↔ barre d’erreur sur yi ). Objectif : vérifier une loi physique (ou autre) et déterminer aussi bien que possible M paramètres pj , j ∈ {1, . . . M } qui caractérisent cette loi. On suppose que les points devraient vérifier le modèle : y(x) = f (x, p1 . . . pM ) = f (x, #» p) , (1) ( #» p : vecteur à M composantes des paramètres). NB : La fonction modèle f est souvent notée yth , voire y tout court. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 5 / 37 Analyse du problème Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué 5 Qualité de l’ajustement : cas général MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 6 / 37 Analyse du problème Approche générale Équations sur-déterminées Points de mesures ⇔ déterminations ± exactes des paramètres #» p du modèle. Problème : N équations v.s. M paramètres avec N M (en général) =⇒ Équations sur-déterminées et souvent incompatibles. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 7 / 37 Analyse du problème Approche générale Équations sur-déterminées Points de mesures ⇔ déterminations ± exactes des paramètres #» p du modèle. Problème : N équations v.s. M paramètres avec N M (en général) =⇒ Équations sur-déterminées et souvent incompatibles. Exemple : cas linéaire → résolution d’un système de N équations à M inconnues de la forme : A·p=b (A : matrice rectangulaire N × M ). En général : pas de solution. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 7 / 37 Analyse du problème Approche générale Équations sur-déterminées Points de mesures ⇔ déterminations ± exactes des paramètres #» p du modèle. Problème : N équations v.s. M paramètres avec N M (en général) =⇒ Équations sur-déterminées et souvent incompatibles. Exemple : cas linéaire → résolution d’un système de N équations à M inconnues de la forme : A·p=b (A : matrice rectangulaire N × M ). En général : pas de solution. « Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap − b, mais à minimiser sa norme kA · p − bk, par des méthodes directes ou itératives selon la nature du problème. Cette approche doit être justifiée par une analyse statistique du problème. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 7 / 37 Analyse du problème Approche statistique Déviations Typiquement, on suppose qu’il existe un jeu de valeurs #» p v des paramètres tel que : 8 7 yi = f (xi , #» p v ) + i (2) 6 y où les déviations i résultent 5 de bruit sur les signaux, 4 d’un léger écart au modèle (effets non pris en compte), 3 des incertitudes introduites dans le processus de mesure. 0 0.5 x 1 1.5 2 NB : Les points de mesure xi sont supposés connus parfaitement. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 8 / 37 Analyse du problème Approche statistique Probabilité conditionnelle et vraisemblance Hypothèses : déviations i sur les yi = variables aléatoires indépendantes distribution loi normale centrée, écart-type σi . " 2 # N #» X #» 1 y − f (x , p ) i i P y1 , · · · yN p ∝ exp − . 2 i=1 MNCS — Noé Lahaye (UPMC) Algèbre linéaire σi 12 mars 2013 9 / 37 Analyse du problème Approche statistique Probabilité conditionnelle et vraisemblance Hypothèses : déviations i sur les yi = variables aléatoires indépendantes distribution loi normale centrée, écart-type σi . " 2 # N #» X #» 1 y − f (x , p ) i i P y1 , · · · yN p ∝ exp − . 2 i=1 σi Valeurs des paramètres «les plus vraisemblables» ↔ fonction vraisemblance (likelihood) maximale. L #» p y1 , · · · yN ←→ P y1 , · · · yN #» p . MNCS — Noé Lahaye (UPMC) Algèbre linéaire (3) 12 mars 2013 9 / 37 Analyse du problème Approche statistique Probabilité conditionnelle et vraisemblance Hypothèses : déviations i sur les yi = variables aléatoires indépendantes distribution loi normale centrée, écart-type σi . " 2 # N #» X #» 1 y − f (x , p ) i i P y1 , · · · yN p ∝ exp − . 2 i=1 σi Valeurs des paramètres «les plus vraisemblables» ↔ fonction vraisemblance (likelihood) maximale. L #» p y1 , · · · yN ←→ P y1 , · · · yN #» p . (3) #» Lorsque la fonction f est linéaire par rapport aux variables p , cette identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général. Le théorème de Bayes assure que P(y1 , · · · yN | #» p ) P( #» p |y1 , · · · yN ) #» = P(y1 , · · · yN ) P( p ), rapport qui n’a aucune raison d’être constant. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 9 / 37 Analyse du problème Moindres carrés Maximum de vraisemblance et moindres carrés Les meilleures valeurs de #» p , notées #» p a , maximisent la vraisemblance L, soit encore minimisent l’erreur totale : N X E( #» p) = i=1 i σi 2 = N X yi − f (xi , #» p) 2 i=1 σi . (4) Dans l’hypothèse où les déviations sont des variables normales centrées, elle a la structure d’un χ2 (cf cours et TE de statistiques). Elle est très souvent abusivement appelée « chi2 » (χ2 ), alors qu’elle n’y correspond – au mieux – qu’au point #» p a pour lequel on suppose que la valeur moyenne des déviations normalisées est nulle. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 10 / 37 Analyse du problème Moindres carrés Équations normales Minimum recherché #» p a : point où le gradient de E s’annule. =⇒ équations normales : N X p a) yi − f (xi , #» p a ) ∂f (xi , #» i=1 σi2 ∂pk = 0, k = 1, . . . , M (5) Résolution de ces équations → valeurs de #» p a qui, si le modèle est valide, rendent le mieux compte des données → détermination de la « vraie » valeur #» p v. « Ajustement » des données par les moindres carrés ou “least squares best fit” ou fit tout court. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 11 / 37 Analyse du problème Moindres carrés Linéaire vs non-linéaire Deux situations à distinguer : 1 2 Cas particulier : fonction f (x, #» p ) linéaire vis à vis des paramètres pj . ∂f (xi , #» p a) ⇒ ∂pk = cste (par rapport à #» p) → système des équations normales linéaire : peut être résolu simplement . Cas général : f (x, p1 . . . pM ) est une fonction non-linéaire des paramètres pj . Le système est non-linéaire, et il faut trouver une autre méthode, → fondamentalement une méthode itérative. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 12 / 37 Ajustement linéaire Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué 5 Qualité de l’ajustement : cas général MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 13 / 37 Ajustement linéaire Régression linéaire Régression linéaire : équations normales Cas le plus simple et le plus important : modèle linéaire vis à vis des paramètres et des données : f (x, #» p) = a +b x (6) d’où N X yi − a − bxi 2 H2H#» #» χ ( pH ) = E( p ) = H σi i=1 où #» p = (a, b) . (7) Ce qui conduit aux équations : N X ∂E = 0 ⇒ ∂a i=1 yi − a − b xi =0 σi2 (8) N X ∂E yi − a − b xi =0 = 0 ⇒ xi 2 ∂b MNCS — Noé Lahaye (UPMC) i=1 Algèbre linéaire σi 12 mars 2013 14 / 37 Ajustement linéaire Régression linéaire Régression linéaire : résolution En développant, on est conduit à définir les 6 sommes : 1 i=1 σ 2 i Sx = PN xi yi i=1 σ 2 i Sxx = PN S= PN Sxy = PN yi i=1 σ 2 i xi i=1 σ 2 i Sy = PN xi2 i=1 σ 2 i Syy = PN yi2 i=1 σ 2 i dont l’interprétation en termes de moyennes et de variance est très claire. Il vient alors : ( Sxx Sy − Sx Sxy ∆ SSxy − Sx Sy b= ∆ a= aS + bSx = Sy aSx + bSxx = Sxy d’où (9) où ∆ = S Sxx − (Sx )2 est le déterminant du système et – à S près – la variance des xi . MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 15 / 37 Ajustement linéaire Régression linéaire Qualité de la régression : variances/covariances de a et b Résidus ri : PN 2 i=1 ri ri = yi − f (xi , #» p a) → χ2 à N − M = N − 2 degrès de liberté Variances et covariances de a et b : Sxx S Sx Var(b) = Cov(a, b) = − . (10) ∆ ∆ ∆ La covariance de a et b est généralement rapportée à la variance de a et de b pour définir le coefficient de corrélation de a et b : Var(a) = Rab = Sx Cov(a, b) = −√ σa σb S Sxx On a −1 < Rab < 1, et il doit être aussi petit que possible en valeur absolue. (les valeurs ±1 annulent ∆ et font que a et b ne sont plus définis). MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 16 / 37 Ajustement linéaire Régression linéaire Qualité de la régression : coefficient de corrélation linéaire Réécriture du modèle : x = a 0 + b0 y hypothèses simplificatrices sur σi : 60 50 x = 0.385 y + 2.500 y = 2.240 x - 2.397 40 R2=0.385 x 2.240=0.8624 S Sxy − Sx Sy . b0 = S Syy − Sy2 30 20 10 Droites confondues ssi b × b0 = 1, i.e. le coefficient de corrélation linéaire : r 2 = b × b0 = Cov(x, y)/(σx σy )= 1 La corrélation linéaire est donc appréciée qualitativement selon que r 2 est plus ou moins proche de ±1. 0 -10 0 MNCS — Noé Lahaye (UPMC) Algèbre linéaire 5 10 15 12 mars 2013 20 25 17 / 37 Ajustement linéaire Cas linéaire général Cas linéaire général Modèle y = f (x, #» p ) linéaire par rapport aux paramètres #» p : f (x, #» p) = M X pk Fk (x) , (11) k=1 où F1 (x) · · · FM (x) sont M fonctions quelconques de x. La minimisation de N X yi − #» E( p ) = i=1 PM k=1 pk Fk (xi ) !2 σi (12) donne les M équations normales : N X yi − i=1 PM j=1 pj σi MNCS — Noé Lahaye (UPMC) Fj (xi ) Fk (xi ) = 0 pour k = 1, · · · M , σi Algèbre linéaire 12 mars 2013 (13) 18 / 37 Ajustement linéaire Cas linéaire général Équations normales En développant comme dans le cas 2-D, on obtient sous forme matricielle : M X Akj pj = bk A·p=b soit (14) j=1 où les coefficients Akj de la matrice M × M symétrique A et les composantes du vecteur-colonne b sont : Akj = N X Fk (xi ) Fj (xi ) i=1 σi2 et bk = N X yi Fk (xi ) i=1 σi2 (15) Le vecteur des paramètres p peut alors être obtenu avec l’une des méthodes standard de résolution des systèmes linéaires, sous la forme : p = A−1 · b MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 19 / 37 Ajustement linéaire Cas linéaire général Structure de A et B Aij et bi peuvent se calculer à partir de Gik = Fi (xk )/σk et Yk = yk /σk : X Aij = Gik Gjk k bi = X Gik Yk ( soit A = G tG b = GY donc −1 p = G tG ·G·Y k de façon plus visuelle : G ...G 11 M1 .. .. G11 · · · · · · G1N . . .. . . .. .. .. A= . . . .. GM1 · · · · · · GMN . . . | {z } tailleN M G1N...GMN | {z } et tailleMN Y1 .. G11 · · · · · · G1N . .. . . .. .. b= . . GM1 · · · · · · GMN . | {z } . tailleN M YN | {z } taille1 NB : La matrice A (M ×M ) est évidement symétrique et définie positive (somme des carrés des i ), ce qui assure l’existence d’un minimum unique. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 20 / 37 Ajustement linéaire La qualité du fit Variances-covariances : méthode probabiliste Une fois obtenue la solution, il faut savoir estimer sa qualité. Une première chose est de voir à quel point elle est contrainte, en évaluant la co-variance des paramètres : c’est la matrice C = A−1 qui les donne. En effet, de p = C G Y ⇒ pi = ⇒ Cov(pi , pj ) = PM P m,n=1 m,k PN Cim Gmk Yk on tire : k,l=1 Cim Gmk Cjn Gnl Cov(Yk , Yl ) | {z } δkl = P mn Cim Cjn P Gnk Gmk = [C A C]ij = Cij , } | k {z Amn en utilisant successivement l’hypothèse d’indépendance des déviations {k } et la symétrie de A et donc de C. Ce résultat s’appliquera de la même façon dans le cas non linéaire. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 21 / 37 Ajustement linéaire La qualité du fit Variances-covariances : méthode algébrique Expression de la vraisemblance L autour du point #» pa : #» #» #» a en notant δ p = p − p , on a : L(δ #» p ) ∝ exp − 12 tδp · A · δp . Décroît d’autant plus vite que A est grand (minimum très piqué). MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 22 / 37 Ajustement linéaire La qualité du fit Variances-covariances : méthode algébrique Expression de la vraisemblance L autour du point #» pa : #» #» #» a en notant δ p = p − p , on a : L(δ #» p ) ∝ exp − 12 tδp · A · δp . Décroît d’autant plus vite que A est grand (minimum très piqué). Diagonalisation de A sous la forme A = tU · D · U (U orthogonale, D diagonale) → obtiention des paramètres qi , tels que #» q = Uδ #» p, indépendants et de moyenne nulle. On a alors : L∝ QM i=1 exp MNCS — Noé Lahaye (UPMC) − 21 Dii qi2 ⇒ Algèbre linéaire Var(qi ) = 1/Dii . 12 mars 2013 22 / 37 Ajustement linéaire La qualité du fit Variances-covariances : méthode algébrique Expression de la vraisemblance L autour du point #» pa : #» #» #» a en notant δ p = p − p , on a : L(δ #» p ) ∝ exp − 12 tδp · A · δp . Décroît d’autant plus vite que A est grand (minimum très piqué). Diagonalisation de A sous la forme A = tU · D · U (U orthogonale, D diagonale) → obtiention des paramètres qi , tels que #» q = Uδ #» p, indépendants et de moyenne nulle. On a alors : L∝ QM i=1 exp − 21 Dii qi2 ⇒ Var(qi ) = 1/Dii . En revenant aux paramètres pi , et en utilisant l’indépendance des qi , on obtient : h i hδpi δpj i = tU · D−1 · U = Cij ij qui est le résultat énoncé précédemment. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 22 / 37 Cas Non-Linéaire Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué 5 Qualité de l’ajustement : cas général MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 23 / 37 Cas Non-Linéaire Généralités Cas non-linéaire : approche générale Cas général. Exemple : lorentzienne ou gaussienne (largeur w est un paramètre de l’ajustement). Problème : dans les équations normales : N X yi − f (xi , #» p a ) ∂f (xi , #» p a) i=1 σi2 ∂pk = 0, les dérivées partielles ∂f (xi , #» p )/∂pk dépendent du point considéré dans l’espace des paramètres. p ) jusqu’à obtenir Méthodes itératives : diminution progressive de E( #» un minimum local. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 24 / 37 Cas Non-Linéaire Généralités Méthode itérative : principe Valeur initiale #» p (0) (“guess”) −→ #» p (1) , · · · #» p (n) . Arrêt lorsque E( #» p (n) ) cesse de diminuer → Critère de convergence : 0 6 E ( #» p n ) − E( #» p n+1 ) 6 ηtol. où ηtol. E #» p (n) . (16) Difficultés : Convergence vers minimum local dénué de sens ← choix de #» p (0) pertinent, méthode bien adaptée s’il y a beaucoup de minima locaux possibles. E( #» p ) peut présenter des vallées dans lesquelles on descend très vite, et où ensuite la progression est très lente (méandres). Nombre très élevé d’évaluations de la fonction f et de ses dérivées, très coûteuse en temps de calcul si N est important. Cela est d’autant plus probable que le nombre M de paramètres est élevé. On procède alors par étapes en faisant varier certains paramètres seulement. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 25 / 37 Cas Non-Linéaire Généralités 20 La méthode du gradient 10 δ #» p = −γ ∇E ( #» p n) 15 Méthode la plus simple : déplacement δ #» p = #» p n+1 − #» p n dans la direction du gradient de E, qui définit la plus grande pente (“steepest descent”) de E( #» p) : (γ ∈ IR+ ) , 0 2 4 6 8 10 0 5 Le gradient est défini par ses composantes ∂E/∂pk (termes à gauche dans les équations normales, à un facteur -2 près). Cette méthode est assez robuste si le pas est assez petit, mais dans ce cas elle converge très lentement. Problème : Comment choisir γ ? MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 26 / 37 Cas Non-Linéaire Généralités Gradient : le choix du pas 20 15 10 5 0 10 8 6 4 2 0 Ni la minimisation en ligne ni la méthode à petits pas ne sont efficaces. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 27 / 37 Cas Non-Linéaire Généralités La hessienne Gain de temps : considération de la courbure locale pour choisir la direction de δ #» p , via la hessienne : [H( #» p )]kl = ∂ 2 E( #» p) ∂pk ∂pl = 2 M X 1 i=N σi2 ∂f (xi , #» p ) ∂f (xi , #» p) ∂ 2 f (xi , #» p) − (yi − f (xi , #» p )) ∂pk ∂pl ∂pk ∂pl ! C’est son anisotropie qui est le principal responsable de la lenteur de convergence de la méthode du gradient. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 28 / 37 Cas Non-Linéaire Généralités Prise en compte de la courbure En faisant un développement limité de E( #» p ) autour de #» p (n) : 1 E( #» p ) ≈ E( #» p (n) ) + ∇E( #» p (n) ) · δ #» p + t δ #» p · H · δ #» p + ··· , 2 (17) En dérivant, le gradient au point #» p (n+1) = #» p (n) + δ #» p s’écrit : ∇E( #» p (n+1) ) = ∇E( #» p (n) ) + H · δ #» p Pour qu’il s’annule, il faut choisir δ #» p tel que : ∇E( #» p (n) ) + H · δ #» p =0 ⇔ δ #» p = −H−1 · ∇E( #» p (n) ) . (18) Si E quadratique → solution direct. (cas linéaire : H = 2A, ∇E = −b, indépendantes du point #» p considéré. Cette solution est bien plus rapide lorsqu’on est assez proche d’un minimum, (i.e. au fond de la vallée). MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 29 / 37 Cas Non-Linéaire Généralités Illustration à une dimension x1 MNCS — Noé Lahaye (UPMC) x0 x2 Algèbre linéaire 12 mars 2013 30 / 37 Cas Non-Linéaire Généralités La méthode du gradient conjugué Elle consiste à faire des « pas » ou incréments ∆ #» p dans la direction du δ #» p tel que défini par l’équation (18). Elle est ainsi nommée car la surface de niveau et l’incrément sont « conjugués », i.e. ne sont pas orthogonaux pour le produit scalaire normal, mais pour la forme quadratique H, soit : #» u · ∇E = 0 ⇒ t gradient δ #» p H #» u =0. Elle a le mérite de progresser dans la « bonne » direction, et conduit à une convergence rapide si l’approximation quadratique (17) est adaptée. MNCS — Noé Lahaye (UPMC) gradient conjugué Algèbre linéaire Comparaison des méthodes du gradient et du gradient conjugué 12 mars 2013 31 / 37 Cas Non-Linéaire Généralités Taille des pas et choix de la méthode Choix de la taille des pas ← courbure : Par ex. : γi ≈ α/Hii , α < 1 . N.B. : Facteur γi différent dans chaque direction. Dans ces conditions : La méthode du gradient est plus sûre quand on est loin de l’optimum car l’approximation quadratique est alors grossière. La méthode du gradient conjugué est plus rapide lorsqu’on s’approche du minimum, car l’approximation quadratique est alors bien meilleure. NB : Combinaison des deux méthodes (descente dans vallée puis progression rapide) =⇒ Levenberg-Marquardt MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 32 / 37 Cas Non-Linéaire Méthode du gradient conjugué Méthode du gradient conjugué : les équations Si les déviations k = yk − f (xk , #» p ) sont petites, indépendantes et dispersées selon une loi normale centrée, la contribution à H des ∂2f termes en est négligeable. ∂pk ∂pl On définit alors la matrice A et le vecteur B comme suit : 1 ∂f (xk , #» p) k A = G tG , b = G E où Gik = et Ek = σk ∂pi σk (19) Parallélisme avec la méthode dans le cas linéaire. A et b dépendent du point considéré mais tendent assez vite vers leur valeur au minimum. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 33 / 37 Cas Non-Linéaire Méthode du gradient conjugué Méthode du gradient conjugué : l’algorithme Les itérations sont alors effectuées comme suit : 1 Choisir une valeur initiale #» p (0) et évaluer E( #» p (0) ). 3 Au point #» p (n) , évaluer A, b et résoudre l’équation A δp = b. Prendre #» p (n+1) = #» p (n) + δ #» p. 4 Tester la convergence : si E ne diminue plus, c’est à dire si 2 0 < E( #» p (n) ) − E( #» p (n+1) ) < η 1, on peut arrêter les itérations. Sinon, retourner en (2). Variante : Méthode plus robuste avec δ #» p ← γδ #» p , 0 < γ < 1 et contrôle de γ en fonction de l’évolution de E à chaque itération. MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 34 / 37 Qualité de l’ajustement : cas général Sommaire 1 Introduction 2 Analyse du problème Approche générale Approche statistique Moindres carrés 3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit 4 Cas Non-Linéaire Généralités Méthode du gradient conjugué 5 Qualité de l’ajustement : cas général MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 35 / 37 Qualité de l’ajustement : cas général Critères d’évaluation de la qualité de l’ajustement Matrice variances-covariances : A−1 . Evalue la contrainte de l’ajustement. Variances souvent très faible et non-significatives. Attention aux covariances ≡ choix des paramètres. 1.6 1.4 1.2 1.0 y 0.8 0.6 0.4 0.2 0.0 -10 Dépendance en x et distribution statistique des résidus → vraisemblance du modèle et qualité de l’ajustement. -5 x 0 5 0 50 10 30 20 10 0 -50 x10-3 χ2 La pertinence du modèle est enfin appréciée par le test du (erreur évaluée au minimum !), avec N − M degrés de liberté, dont la fonction de répartition est proportionnelle à la fonction Γ incomplète (cf TE 3). MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 36 / 37 Qualité de l’ajustement : cas général Test du χ2 On calcule alors : Q χ2 N −M 2 , 2 γ =1− Γ N −M χ2 2 , 2 N −M 2 , Mesure la probabilité que des résidus (∝ loi normale) donnent une valeur supérieure ou égale à la valeur χ2 obtenue. Seuils à utiliser ←→ risque toléré. Typiquement : Q > 0.1 → confiance au modèle, Q ∼ 0.01 valeur juste passable. Note : valeur trop grande de χ2 (↔ trop faible de Q) ⇐= dispersions σi sous-évaluées (trop optimiste sur les barres d’erreur). MNCS — Noé Lahaye (UPMC) Algèbre linéaire 12 mars 2013 37 / 37