Plan du cours 1. Rappels de statistique descriptive 2. Analyse des données multivariées 3. Rappel des bases de la statistique paramétrique 4. Régression linéaire multiple 5. Tests d’adéquation 1 p✓ 2. Analyse des données Multivariées But: réduire la dimension (pour, entre autre, les visualiser) de données de haute dimension A. Analyse en Composantes Principales Jeu de données multivarié • Nous disposons de 6 mesures pour des billets suisses. 3 jeu de données multivarié • Nous avons à notre disposition les mesures de 200 billets, 100 authentiques, 100 contrefaits. • Boxplots 4 jeu de données multivarié • Corrélations n sxy 1X = (xi n i=1 ⇢xy 5 x̄)(yi ȳ) sxy sxy =p = sxx syy sx sy jeu de données multivarié • Scatterplots 6 jeu de données multivarié • Scatterplots 6 jeu de données multivarié • Scatterplots 6 Jeu de données multivarié • Moyen plus efficace pour représenter ces données? • Approche possible: ACP (Analyse en Composantes Principales, ou PCA en anglais) Karl PEARSON 7 Analyse en Composantes Principales • Point de départ X = (x1 , x2 , . . . , xn ) 2 R d⇥n • Définissons l’inertie (ou l’énergie) de ce jeu de données: ! ! ! ! ! ! 1 I(X) = n n X 1 kxj k = n j=1 2 n X T xj xj j=1 • Si I(X) est très petit, tous les vecteurs sont ~ 0. Rien à faire. x1 kx1 k2 x2 xn 8 Analyse en Composantes Principales • Point de départ X = (x1 , x2 , . . . , xn ) 2 R d⇥n • Définissons l’inertie (ou l’énergie) de ce jeu de données: ! ! ! ! ! ! 1 I(X) = n n X 1 kxj k = n j=1 2 n X T xj xj j=1 • Si I(X) est très petit, tous les vecteurs sont ~ 0. Rien à faire. x1 kx1 k2 x2 xn 8 Inertie = 2 Moyenne + Variance • 1er essai: expliquer l’inertie avec la moyenne 1 I(X) = kx̄k + n 2 n X j=1 kxj x1 x2 xn 9 2 x̄k Inertie = 2 Moyenne + Variance • 1er essai: expliquer l’inertie avec la moyenne 1 I(X) = kx̄k + n 2 n X j=1 kxj x1 x2 x̄ xn 9 2 x̄k Inertie = 2 Moyenne + Variance • 1er essai: expliquer l’inertie avec la moyenne 1 I(X) = kx̄k + n 2 n X j=1 kxj x1 x2 x̄ xn 9 2 x̄k Inertie = 2 Moyenne + Variance • 1er essai: expliquer l’inertie avec la moyenne 1 I(X) = kx̄k + n 2 n X j=1 kxj 2 x̄k Variance totale (généralisation du cas univarié) x1 x2 x̄ xn 9 Données Centrées • 1er essai: expliquer l’inertie avec la moyenne n X 1 2 2 I(X) = kx̄k + kx̃j k n j=1 x j = : x̃j x̃1 x̃2 x̃n 10 x̄ Expliquer la Variance • 2ème étape… peux-t-on expliquer le terme résiduel en utilisant des outils simples d’analyse descriptive? x̃1 x̃2 1 I(X) = kx̄k + n 2 n X j=1 2 kx̃j k x̃n • Ceci implique de ne pouvoir utiliser, à nouveau, que des données univariées ou bivariées, i.e., transformer nos données multivariées en simples chiffres. 11 Expliquer la Variance • 2ème étape… peux-t-on expliquer le terme résiduel en utilisant des outils simples d’analyse descriptive? x̃1 x̃2 1 I(X) = kx̄k + n 2 n X j=1 2 kx̃j k n d X n X X 1 1 2 T 2 kx̃j k = (ei x̃j ) n j=1 n j=1 i=1 11 x̃n 2 3 0 6 .. 7 6 .7 6 7 607 6 7 index i 617 = : 7 ei 6 7 60 7 6 7 6 .. 4 .5 0 Expliquer la Variance • 2ème étape… peux-t-on expliquer le terme résiduel en utilisant des outils simples d’analyse descriptive? x̃1 x̃2 1 I(X) = kx̄k + n 2 n X j=1 2 kx̃j k n d X n X X 1 1 2 T 2 kx̃j k = (ei x̃j ) n j=1 n j=1 i=1 x̃n 2 3 0 6 .. 7 6 .7 6 7 607 6 7 index i 617 = : 7 ei 6 7 60 7 6 7 6 .. 4 .5 “inertie résiduelle = somme des variances de chaque variable” 11 0 Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃2 x̃n 12 Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃2 1 n n X 1 T 2 (v x̃j ) / n j=1 n X j=1 2 kx̃j k 12 v x̃n Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃2 1 n n X 1 T 2 (v x̃j ) / n j=1 n X j=1 2 kx̃j k 12 v x̃n Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃j x̃2 T 1 n n X 1 T 2 (v x̃j ) / n j=1 v x̃j n X j=1 2 kx̃j k 12 v x̃n Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃j x̃2 T 1 n n X 1 T 2 (v x̃j ) / n j=1 v x̃j n X j=1 2 kx̃j k 12 v 0 x̃n Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃j x̃2 T 1 n n X 1 T 2 (v x̃j ) / n j=1 chiffres v x̃j n X 2 kx̃j k j=1 normes 12 v 0 x̃n Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃j x̃2 T 1 n v x̃j n X 1 T 2 (v x̃j ) / n j=1 chiffres n X kvk =1 kx̃j k x̃n j=1 normes 1 (ACP) : max d n v2R 2 2 n X j=1 12 T (v x̃j ) v 0 2 Analyse Composantes Principales • Peut-on espérer trouver une seule direction, normée, qui capture l’essentiel de l’inertie résiduelle? x̃1 x̃j x̃2 T 1 n v x̃j n X 1 T 2 (v x̃j ) / n j=1 chiffres n X kvk =1 2 kx̃j k x̃n j=1 normes 1 (ACP) : max d n v2R 2 v 0 n X j=1 12 T (v x̃j ) 2 Comment résoudre ce problème? Analyse Composantes Principales • Intermède Calculatoire T 2 T T T T (a b) = (a b)(b a) = a (bb )a 2 = = • Ceci est compliqué en apparence, mais s’avère très utile. 13 Analyse Composantes Principales • Suite de nos calculs… 1 n n X 1 (v x̃j ) = n j=1 T 2 n X v T T (x̃j x̃j )v j=1 0 1 n X T @1 TA =v x̃j x̃j v n j=1 ˆv =v ⌃ T ˆ • Tout s’explique en fonction d’une matrice ⌃ 14 Analyse Composantes Principales dim d • Regardons ˆ de plus près. ⌃ dim n 1 ˆ= ⌃ n dim d dim n 15 Analyse Composantes Principales • Regardons ⇥ ˆ de plus près. ⌃ dim d . . . x̃T1 . . . ⇤ dim n 1 ˆ= ⌃ n 2 3 .. 6.7 6x̃1 7 4 5 .. . dim d dim n 15 Analyse Composantes Principales • Regardons ⇥ dim d ⇤ . . . x̃T1 . . . ⇥ ⇤ T . . . x̃2 . . . ˆ de plus près. ⌃ dim n 1 ˆ= ⌃ n 2 32 3 .. .. 6 . 76 . 7 6x̃1 76x̃2 7 4 54 5 .. .. . . dim d dim n 15 Analyse Composantes Principales • Regardons ⇥ dim d ⇤ . . . x̃T1 . . . ⇥ ⇤ T . . . x̃2 . . . ˆ de plus près. ⌃ .. . dim n + .. . 1 ˆ= ⌃ n 2 32 3 .. .. 6 . 76 . 7 . . . 6x̃1 76x̃2 7 4 54 5 .. .. . . + ... dim n 2 3 .. 6 . 7 6x̃n 7 4 5 dim d .. . 15 ⇥ . . . x̃Tn ... ⇤ Analyse en Composantes Principales dim d • Regardons ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. 1 ˆ= ⌃ n X̃ X̃ dim n dim d 16 T d⇥d dim n Analyse en Composantes Principales dim d • Regardons ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. 1 ˆ= ⌃ n dim d X̃ dim n 17 T dim n X̃ Analyse en Composantes Principales dim d ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. 1 ˆ= ⌃ n valeurs de la variable i dim n (i, i) dim d X̃ 17 valeurs de la variable i • Regardons T dim n X̃ Analyse en Composantes Principales dim d ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. valeurs de la variable i • Regardons T dim n X̃ 2 svariable i 1 ˆ= ⌃ n valeurs de la variable i dim d X̃ dim n (i, i) 17 Analyse en Composantes Principales dim d ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. valeurs de la variable i • Regardons T dim n X̃ 2 si 1 ˆ= ⌃ n valeurs de la variable i dim d X̃ dim n (i, i) 17 Analyse en Composantes Principales dim d • Regardons ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. 1 ˆ= ⌃ n dim d X̃ dim n 17 T dim n X̃ Analyse en Composantes Principales dim d ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. 1 ˆ= ⌃ n dim n dim d 17 T dim n X̃ (i, j) valeurs de la variable i X̃ valeurs de la variable j • Regardons Analyse en Composantes Principales dim d ˆ de plus près. ⌃ • Cette matrice s’écrit simplement en fonction des données. • Elle s’écrit aussi très naturellement en fonctions des variances/ covariances de toutes les variables. 1 ˆ= ⌃ n dim n dim d 17 T dim n X̃ (i, j) valeurs de la variable i X̃ valeurs de la variable j • Regardons sij Analyse en Composantes Principales • Le problème de l’ACP se simplifie donc en: 1 max v,kvk2 =1 n n X T 2 (v x̃j ) = j=1 ˆv max v ⌃ 2 T v,kvk =1 • Comment obtenir cette direction de variance maximale? ˆ est symétrique, réelle, et • Algèbre bilinéaire à l’aide. ⌃ donc diagonalisable. • La solution v du problème est donc le vecteur propre ˆ de valeur propre maximale. Nous l’appelons de ⌃ l’axe principal. 18 Analyse en Composantes Principales • Le problème de l’ACP se simplifie donc en: 1 max v,kvk2 =1 n n X T 2 (v x̃j ) = j=1 ˆv max v ⌃ 2 T v,kvk =1 • Comment obtenir cette direction de variance maximale? ˆ est symétrique, réelle, et • Algèbre bilinéaire à l’aide. ⌃ donc diagonalisable. • La solution v du problème est donc le vecteur propre ˆ de valeur propre maximale. Nous l’appelons de ⌃ l’axe principal. t n e m e u q i n U ! e u q i t y l a n a n o i t u l o s . PAS de e n i h c a m e n u r a p e é n n o d , e u q i r solution numé 18 Analyse en Composantes Principales • Supposons que nous soyons plus ambitieux, et que nous voulions trouver une 2ème direction utile. • 2ème = différente de la première • On retient l’orthogonalité x̃1 x̃2 comme critère. x̃n 1 (ACP-2) : max d n v2 2R 2 kv2 k =1 T v2 v=0 n X j=1 19 T (v2 x̃j ) 2 Analyse en Composantes Principales • Supposons que nous soyons plus ambitieux, et que nous voulions trouver une 2ème direction utile. • 2ème = différente de la première • On retient l’orthogonalité x̃1 x̃2 comme critère. x̃n 1 (ACP-2) : max d n v2 2R 2 kv2 k =1 T v2 v=0 n X j=1 19 T (v2 x̃j ) 2 Analyse en Composantes Principales • Supposons que nous soyons plus ambitieux, et que nous voulions trouver une 2ème direction utile. • 2ème = différente de la première • On retient l’orthogonalité x̃1 x̃2 comme critère. x̃n 1 (ACP-2) : max d n v2 2R 2 kv2 k =1 T v2 v=0 n X j=1 19 T (v2 x̃j ) 2 Problème encore plus compliqué! Analyse en Composantes Principales • Trouver une 2ème composante principale revient à 1 max d n v2 2R 2 kv2 k =1 T v2 v=0 n X ˆ 2 (v2 x̃j ) = max v2 ⌃v T 2 T d v2 2R kv2 k2 =1 T v2 v=0 j=1 • Cette fois, nous avons besoin d’un théorème plus puissant, le théorème minimax de Courant. • Ce théorème nous donne que la meilleur direction v2 est celle donnée par le vecteur propre qui a la 2ème plus grande valeur propre. 20 Analyse en Composantes Principales • Et ainsi de suite: (ACP-k) : max d vk 2R 2 kvk k =1 ? vk 2Vect(v,v2 ,...,vn ) 1 n n X T (vk x̃j ) 2 j=1 • résolu en prenant le vecteur propre de k-ème plus grande valeur propre. 21 Comment utiliser l’ACP • Visualisation: transformer chaque point en son projeté sur les k premières valeurs propres. • En pratique, représenter 2 3 .. . 6 7 2 3 1 T 6 .. 7 p v1 x̃j 6.7 1 6 7 6 7 . . dim d 6xj 7 ! 4 5 . 6 7 6.7 1 T p . vk x̃j 6.7 k 4 5 .. . 22 dim k Comment choisir k • Si utiliser afin de visualiser les données, on se contente de prendre k = 2. On peut aussi regarder la décroissance des valeurs propres pour décider où s’arrêter. 23 (en termes de distance normée sur les 6 caractéristi Example factoriel (u1 horizontalement, u2 verticalement) (voi F IGURE 2.4 – A gauche : 24projection des individus su (en termes de distance normée les 6 caractéristi s 6 caractéristiques) entre billets sursur le premier plan Example factoriel (u1 Fig.2.4 horizontalement, calement) (voir à gauche). uDans cet exemple,(voi 2 verticalement) F IGURE 2.4 A premier gauche :plan projection des individus su es individus sur– le factoriel. A droite : 24 Analyse Composantes Principales 25 Survol du cours 1. Rappels de statistique descriptive 2. Analyse des données multivariées 3. Bases de la statistique paramétrique 4. Régression linéaire multiple 5. Tests d’adéquation 26 p✓ 3. Bases de la Statistique Paramétrique But: comment décrire des données en utilisant des familles paramétriques de distributions? A. B. C. D. Modèle statistique Estimation Intervalles de confiance Tests paramétriques Statistique Paramétrique Statistiques vs. Probabilités • Statistiques • j’ai tiré n billes d’un pot. A partir de cette information, que puis-je dire des billes contenues dans le pot? ! • Probabilités • je sais tout des billes qui sont à l’intérieur du pot. Que risque-til de se passer si j’en tire un nombre n? 29 Questions fondamentales • Statistiques • j’ai tiré n billes d’un pot. A partir de cette information, que puis-je dire des billes contenues dans le pot? ! • Nous interprétons cette question comme celle de décrire ou deviner, le mieux possible, la loi de probabilité qui a généré notre jeu de données. ! • Quelles outils peut-on utiliser pour décrire des lois de probabilité sur l’espace de nos données? 30 Modèle Paramétrique • Un modèle paramétrique est une famille de mesures de probabilités sur un espace mesurable. • Cette famille est indexée par un paramètre qui est un vecteur de dimension finie. p (X , F), P✓ = {p✓ , ✓ 2 ⇥ ⇢ R } • Examples pour nombres réels, vecteurs, éléments discrets, matrices, arbres. 31 Bernoulli X = {0, 1} ✓ = p 2 [0, 1] 32 Bernoulli X = {0, 1} ✓ = p 2 [0, 1] fréquemment reformulé comme: 32 Binomiale ✓ ◆ n k f (k; n, p) = Pr(X = k) = p (1 k p) n k 1kn distribution de probabilité X =N ✓ = (n, p) 2 N ⇥ [0, 1] 33 Cauchy X =R densité ✓ = (x0 , ) 2 R ⇥ R+ 34 Cauchy X =R densité ✓ = (x0 , ) 2 R ⇥ R+ … ! e c n a r é p s e ’ d s Pa 34 Logistique densité X =R ✓ = (µ, s) 2 R ⇥ R+ 35 Laplace densité X =R ✓ = (µ, b) 2 R ⇥ R+ 36 Normale densité X =R ✓ = (µ, 2 ) 2 R ⇥ R+ 37 Normale multivariée (hors programme) X =R p fx (x1 , . . . , xp ; µ, ⌃) = ✓ = (µ, ⌃) 2 X ⇥ Sp exp 1 (x 2 p T µ) ⌃ 1 (x (2⇡)k |⌃| Sp = {matrices symétriques p ⇥ p à valeurs propres strict. positives} 38 µ) Wishart (hors programme) X = Sp ✓ = (V, n) 2 Sn ⇥ {n 2 N, n f (X; V, p) = 1 2np/2 |V| n/2 n p 2 39 |X| (n p 1)/2 e (1/2) tr(V p} 1 X)