Analyse des données Master Statistique et économétrie Notes de

Analyse des données
Master Statistique et économétrie
Notes de cours
V. Monbet
Master 1 - 2013-2014
Table des matières
1 Introduction 5
2 Rappels et compléments d’algèbre linéaire
Décompositions de matrices 7
2.1 Lesprojecteurs ..................................... 7
2.1.1 Sous espaces supplémentaires et projecteurs . . . . . . . . . . . . . . . . . 7
2.1.2 Exemple fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Matrices carrées diagonalisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Décomposition en valeurs singulières . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Les projecteurs M-orthogonaux............................ 11
3 Analyse en Composantes Principales 13
3.1 Introduction....................................... 13
3.2 ACP par projection : approche géométrique . . . . . . . . . . . . . . . . . . . . . 15
3.3 Représentations graphiques et aide à l’interprétation . . . . . . . . . . . . . . . . 18
3.3.1 Lesindividus .................................. 18
3.3.2 Lesvariables .................................. 18
3.4 Exemple......................................... 19
3.5 Propriétés asymptotiques des estimateurs de composantes principales . . . . . . . 21
3.6 ACP par minimisation de l’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.7 Changement de métrique dans l’espace des individus et poids sur les individus . . 22
4 Analyse Canonique des Corrélations 24
4.1 Introduction....................................... 24
4.2 Interprétation géométrique de l’analyse canonique . . . . . . . . . . . . . . . . . . 25
4.2.1 Analyse canonique ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2.2 Analyse canonique généralisée . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3.1 Représentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3.2 Représentation des individus . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4 Exemple......................................... 28
4.5 Interprétation probabiliste de l’analyse canonique . . . . . . . . . . . . . . . . . . 30
4.5.1 Rappel : analyse en composante principale . . . . . . . . . . . . . . . . . . 30
4.5.2 Modèle probabiliste pour l’analyse canonique . . . . . . . . . . . . . . . . 30
2
5 Analyse des Correspondances 32
5.1 Introduction....................................... 32
5.2 Modèledindépendance................................. 34
5.2.1 Testduchi2.................................. 34
5.2.2 AFC et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Analyse factorielle des correspondances . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3.1 Nuagesdepoints................................ 36
5.3.2 l’AFC proprement dite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.1 Biplot ...................................... 38
5.4.2 Représentation barycentrique . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.3 Exemples .................................... 39
5.5 Interprétation des résultats de l’AFC . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.5.1 Valeurspropres................................. 43
5.5.2 Contribution des modalités . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5.3 Interprétation en terme de reconstruction des effectifs . . . . . . . . . . . 44
5.6 Exemple......................................... 44
6 Analyse des Correspondances Multiples 46
6.1 Introduction....................................... 46
6.2 Definitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2.1 Tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2.2 TableaudeBurt ................................ 49
6.2.3 Tableau des χ2................................. 49
6.3 Analyse Factorielle des Correspondances Multiples . . . . . . . . . . . . . . . . . 50
6.3.1 AFC du tableau disjonctif complet relatif à 2 variables . . . . . . . . . . . 50
6.3.2 AFC du tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . 52
6.3.3 AFC du tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.4 Interprétation.................................. 55
6.3.5 Représentation des individus . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.6 Représentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.7 Représentation simultanée . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.4 Individus et variables suplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5 Lesvariablescontinues................................. 61
7 Analyse Discriminante 63
7.1 Introduction....................................... 63
7.2 Analyse discriminante décisionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.1 Règlededécision................................ 64
7.2.2 RisquedeBayes ................................ 65
7.2.3 Cas de variables aléatoires gaussiennes . . . . . . . . . . . . . . . . . . . . 66
7.2.4 Cas de variables dépendantes quelconques . . . . . . . . . . . . . . . . . . 70
7.3 Analyse factorielle discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.1 Variances interclasse et intraclasse . . . . . . . . . . . . . . . . . . . . . . 72
7.3.2 Axes et variables discriminantes . . . . . . . . . . . . . . . . . . . . . . . . 74
7.3.3 Une ACP particulière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3
7.3.4 Sélection de modèle et MANOVA . . . . . . . . . . . . . . . . . . . . . . . 76
7.4 Validationdemodèle.................................. 76
8 Classification, segmentation 77
8.1 Introduction....................................... 77
8.2 Distances et similarités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.2.1 Similarité entre des objets à structure binaire . . . . . . . . . . . . . . . . 78
8.2.2 Distance entre des objets à variables nominales . . . . . . . . . . . . . . . 79
8.2.3 Distance entre des objets à variables continues . . . . . . . . . . . . . . . 79
8.3 Classification hiérarhique ascendante . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.4 Méthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.4.1 Généralisations................................. 81
8.4.2 Modèlesdemélange .............................. 81
8.5 Exemple : composition du lait chez différents mammifères . . . . . . . . . . . . . 83
8.6 Combinaison de différentes méthodes de classification . . . . . . . . . . . . . . . . 84
4
Chapitre 1
Introduction
L’analyse statistique multivariée consiste à analyser et comprendre des données de grande
dimension. Nous supposons que nous avons un ensemble {xi}i=1,··· ,n de nobservations d’un
vecteur de variables Xdans Rp. Autrement dit, nous supposons que chaque observation xi
admet pdimensions :
xi= (xi1, xi2,··· , xip)
et que c’est une valeur observée (ou réalisation) d’un vecteur de variables XRp. Le vecteur X
est composé de pvariables aléatoires :
X= (X1, X2, ..., Xp)
Xj, pour j= 1,··· , p, est une variable aléatoire de dimension 1. Comment allons nous
analyser ce type de données ? Avant de considérer la question de ce qu’on peut inférer à partir
de ces données, on doit penser à comment regarder les données. Ceci implique des techniques
descriptives. Les questions auxquelles nous pouvons répondre à l’aide d’analyses descriptives
sont :
Y a t’il certaines composantes de Xqui sont plus dispersées que d’autres ?
Y a t’il des éléments de Xqui indiquent des sous-groupes dans les données ?
Y a t’il des valeurs extrêmes et/ou aberrantes dans des données ?
La distribution des données est-elle "normale" ?
Y a t’il des combinaisons linéaires de faible dimension de Xqui montrent des comporte-
ments "non-normaux" ?
Une difficulté des méthodes descriptives pour les données de grande dimension est le système
de perception humain. Les nuages de points en deux dimensions sont faciles à comprendre et à
interpréter. Avec les techniques de visualisation interactives modernes on a la possibilité de voir
des rotations 3D en temps réel et ainsi percevoir aussi les données à 3 dimensions. Une technique
de glissement 1décrite par Härdle et Scott (1992) permet de matérialiser une 4ème dimension en
représentant des contours 3D avec la 4ème dimension en niveau de couleur.
Un saut qualitatif dans les difficultés de représentation apparaît pour des dimensions supérieurs à
5, à moins que la structure de grande dimension ne puisse être projetée dans un espace de dimen-
1. sliding technic
5
1 / 87 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !