ANALYSE DE DONNEES V 4.9 Marc MENOU Mars 2008 2 TABLE DES MATIERES 1 INTRODUCTION 3 2 ELEMENTS FONDAMENTAUX 8 21 RAPPELS SUR LA THEORIE DES ENSEMBLES 22 RAPPELS DE GEOMETRIE 23 RAPPELS SUR LES MATRICES 24 RAPPELS DE STATISTIQUE DESCRIPTIVE 26 RAPPELS SUR LA THEORIE DE L'INFORMATION 27 LES TABLEAUX TABLEAUX INDIVIDUS X VARIABLES QUANTITATIVES TABLEAUX LOGIQUES OU BOOLEENS OU BINAIRES TABLEAUX PRESENCE ABSENCE TABLEAUX DE DONNEES ORDINALES OU DE PREFERENCES TABLEAUX DES RANGS TABLEAUX HETEROGENES OU MIXTES 28 LES RELATIONS ENTRE VARIABLES 3 METHODES 4 LES ANALYSES FACTORIELLES 41 L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 42 L'ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 43 L'ANALYSE DES CORRESPONDANCES MULTIPLES ACM 44 L’ANALYSE FACTORIELLE DES SIMILARITES (OU DE DISSIMILARITES) ET DES PREFERENCES 45 L'ANALYSE DISCRIMINANTE (AFD) 46 L’ANALYSE DES MESURES CONJOINTES 47 L'ANALYSE CANONIQUE 5 LES METHODES DE CLASSIFICATION, DE TYPOLOGIE OU DE TAXINOMIE 51 L'ANALYSE NON HIERARCHIQUE 52 L'ANALYSE HIERARCHIQUE 8 8 9 10 11 11 12 12 12 12 12 12 13 13 15 15 26 30 32 36 42 43 46 47 53 LOGICIELS 59 BIBLIOGRAPHIE 60 M. MENOU / ANALYSE DE DONNEES 3 1 Introduction L'analyse des données est une technique relativement ancienne 1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant des développements récents 1960-1970 du fait de l'expansion de l'informatique. L'informatique est importante car cette technique nécessite le brassage de beaucoup de données par beaucoup de calculs pour en tirer des représentations graphiques. Elle apporte rapidité et fiabilité. L'analyse des données est une technique d'analyse statistique d'ensemble de données. Elle cherche à décrire des tableaux et à en exhiber des relations pertinentes. Elle se distingue de l’analyse exploratoire des données. La statistique est une technique qui permet la compréhension de la réalité. C’est un moyen d’investigation de la complexité. STATISTIQUE REEL COMPLEXE REPRESENTATION SIMPLIFIEE 4 En effet, comme le dit P. VALERY "tout ce qui est simple est faux, tout ce qui ne l'est pas est inutilisable". Il s'agit en quelque sorte d'"élaguer" la réalité en ne retenant que ce qui est primordial. Il faut en particulier réduire les dimensions de la réalité, c’est-à-dire ne pas considérer certaines variables tout en cherchant à conserver le maximum de sens. Cela revient à effectuer une projection. Ces trois schémas représentent une chaise dessinée dans le plan. Ils permettent une plus ou moins bonne identification selon l’axe de projection. La réalité peut être considérée comme un nuage de points à n dimensions que notre cerveau a du mal à se représenter. La statistique est donc une méthode de traitement de l'information. L'information est ce qui permet d'entreprendre une action. Mais pour agir, il faut savoir. La connaissance, en rapport avec les ensembles réels, se rapporte à ce qui pour une population donnée, distingue ses individus. Tel l'Horace, qui a M. MENOU / ANALYSE DE DONNEES 5 cherché à distancer les Curiaces, le pouvoir ne peut s'exercer efficacement qu'à l'encontre des individus isolés. Diviser pour mieux régner est aussi une devise bien connue. Il faut donc chercher la ou les variables qui opposent le plus, qui séparent le plus, les individus. La variance est donc, comme caractéristique de dispersion, le critère de choix le plus désigné des critères de connaissance. L'analyse des données repose donc essentiellement sur les notions de variances, de covariance, de distances, de groupe, de lien et de hiérarchie. La théorie des ensembles fournit le cadre conceptuel de base dans lequel il convient de poser la problématique. L'analyse des données souhaite cependant se démarquer des techniques statistiques et économétriques classiques. Elle cherche à regarder les données pour elles-mêmes en oubliant les théories qui ont permis de les rassembler. Car l'élaboration d'un modèle et l'observation projettent les idées déjà contenues dans le cerveau. Il n'est perçu que ce que l'on désire essentiellement percevoir. Il faut comme l’a écrit KRISHNAMURTI : « se libérer du connu ». Pour ce faire, il faut considérer beaucoup de données afin d’éviter l’arbitraire de leur choix. Bien entendu, il existe une différence entre les objectifs et les réalisations car les moyens sont limités. R. THOM relève que prédire n’est pas expliquer. Si les modèles statistiques permettent la prévision, il s’agit souvent de mettre en évidence des liaisons quantitatives observables. Cela 6 constate simplement, cela n’explique rien. L'analyse de données entend se démarquer des statistiques paramétriques. La statistique paramétrique effectue des mesures quantitatives et utilise le théorème central limite qui ramène à la loi de LAPLACE-GAUSS. La contestation par l'approche non paramétrique cherche l'obligation de d'une passer part, par la à loi se débarrasser normale et donc de des contraintes sur la taille des échantillons, et d'autre part, à s'intéresser aux données qualitatives. L'analyse des données se distingue en rejetant l'aspect inférentiel et insiste sur l'aspect descriptif d'un ensemble considéré comme complet. L'analyse des données est un moyen de lutte contre l'idéologie. Il n'y a de vérité que statistique, tout le reste n'est que littérature. La force de toute idéologie est qu'elle représente la réalité, ce qui la rend crédible. Toute idéologie véhicule une part de réalité mais, simplifiée par les à priori déjà acceptés. La réalité complexe est difficilement intelligible pour l'homme. Elle est de plus souvent inacceptable comme l'indique l'épisode de la caverne de PLATON. Elle peut être considérée comme le font les scientifiques par un nuage de points dans statisticiens un ensemble par ce qui de est dimension appelée importante. l'analyse de Les données déterminent, le plus souvent, des plans de projections de cette réalité en deux dimensions. Ce type d'instrument porte mal son nom car il s'agit plus de synthèse que d'analyse, puisqu'il s'agit de projeter des relations. Ils simplifient la réalité, M. MENOU / ANALYSE DE DONNEES 7 ils l'élaguent mais en cherchant des plans qui conservent le maximum d'informations, de variances, et ce par une méthode relativement rationnelle, relativement indépendante de l'observateur. L'idéologue effectue le même travail, mais sans aucun support mathématique, il projette sur le plan qui correspond à sa finalité. La subjectivité est importante. Mais, il ne peut être entièrement contré puisque c'est bien la réalité complexe qu'il projette. Finalement, cela revient à pondérer à priori chaque observation selon des objectifs affectifs. Chaque idéologie n'est en fait qu'une détermination, a priori et subjective, de hiérarchie. La différence entre les idéologies réside donc dans le choix de ce qui est essentiel et de ce qui paraît secondaire. Elles sont donc vraies dans la mesure où elles parlent d'objets réels, fausses dans la mesure où il ne s'agit que de hiérarchies finalisées. C'est pour cela qu'elles se distinguent plus par le non-dit que par le dit. Elles disent toutes la réalité qu'elles cherchent à décrire, elles taisent leur pondération. Si les structures réelles sont emboîtées en niveaux d'organisation croissants, les structures idéologiques constituées progressivement ne se recouvrent pas complètement. Les idéologies se complètent parfois et se contrarient souvent. C'est une marque de leur irréalisme. L'univers est un ensemble de structures. La connaissance de l'environnement passe par la description et la compréhension des causes et conséquences de ces structures. Si les éléments composant les structures sont visibles, en revanche, les 8 relations qui lient les éléments ne le sont pas. L'objectif de la démarche statistique est de faire apparaître ces liaisons. Les deux types de relations fondamentales sont les relations d'équivalence et les relations d'ordre. Ainsi, une population peut-elle être décomposée en classes hiérarchisées. 2 Eléments fondamentaux 21 rappels sur la théorie des ensembles ensemble appartenance sous ensemble inclusion réunion intersection relation d'équivalence relation d'ordre partition 22 rappels de géométrie produit scalaire Le produit scalaire de deux vecteurs est le produit de la longueur de l'un par la projection de l'autre (u.v.Cos(u,v)) Le produit scalaire est commutatif et distributif. M. MENOU / ANALYSE DE DONNEES sur lui. 9 Si les vecteurs sont orthogonaux le produit scalaire est nul. Si les vecteurs sont colinéaires le produit scalaire est (u.v) Si les vecteurs unitaires sont orthogonaux le produit scalaire est égal à la somme des vecteur sur produits des composantes correspondantes. projection La projection d'un un axe est obtenue par le produit scalaire du vecteur par le vecteur unitaire de l'axe. Cela permet le changement d’axe de coordonnées. distance Dans l’espace des variables, un produit scalaire particulier, et donc une distance, s’impose. 1 n x, y x i yi n i 1 Ainsi, le coefficient de corrélation correspond au cosinus de l’angle formé par les deux variables centrées. Le choix d’une distance est toujours arbitraire dans l’espace des individus, car il est possible d’associer à chaque variable un coefficient de pondération. métrique 23 rappels sur les matrices trace La trace d'une matrice est la somme des termes de la diagonale principale. valeur propre est valeur propre de A <=> Det(A - I) = 0 10 vecteur propre V est vecteur propre de f si f(V) = V matrice diagonale Une matrice diagonale est une matrice dont tous les termes appartiennent à la diagonale principale. diagonalisation de matrice 24 rappels de statistique descriptive population variable variable qualitative variable quantitative passage du quantitatif au qualitatif passage du qualitatif au quantitatif moyenne variance La variance est un concept important car il indique si la variable discrimine (étale) les individus. Une grande variance donne de l'information sur la population et donc du pouvoir. 25 rappels de mécanique centre de gravité Le centre de gravité d'un solide, ou barycentre, correspond à la notion statistique de moyenne. inertie L'inertie d'un solide correspond à la notion de variance. M. MENOU / ANALYSE DE DONNEES 11 Un corps a d'autant plus d'inertie qu'il faut d'énergie pour le mettre en rotation autour d'un axe. (distance/axe)2 x masse =: (écart/moyenne)2 x fréquence Ainsi, l'inertie est minimum par rapport au centre de gravité, comme la variance est minimale par rapport à la moyenne. théorème de HUYGENS Inertie d'un corps/O = inertie/G + m x OG2 Variance/x = variance/M + x(x-M)2 Tout corps biscornu se comporte comme un ellipsoïde à 3 axes de symétrie. Autour du grand axe, l'inertie est minimale, autour du petit, l'inertie est maximale. Soit un nuage de n points pesants dans un espace de dimension 3, il correspond à un ellipsoïde d'inertie. Le centre de gravité sert d'origine des coordonnées x,y,z. Soit X(n,3) la matrice des coordonnées. V(3,3) = X'X la matrice d'inertie du nuage. L'inertie totale est égale à l'inertie expliquée par l'axe et l'inertie autour de l'axe. Les 3 valeurs propres de V sont les inerties expliquées par les 3 axes du nuage. Leur somme est égale à la trace de V, soit à l'inertie du nuage. 26 rappels sur la théorie de l'information 27 les tableaux Les populations comprennent des individus distingués selon un certain nombre de variables. Ces informations sont rassemblées dans des tableaux de base croisant individus et variables. Ces 12 tableaux peuvent d'individus dans s'interpréter un ensemble de de deux façons, variables ou un un nuage nuage de variables dans un ensemble d'individus. Tableaux individus x variables quantitatives Tableaux logiques ou booléens ou binaires Tableaux disjonctifs complet : individu x variable à chaque modalité, placée en colonne, correspond une variable indicatrice. C’est la juxtaposition de plusieurs les éléments tableaux logiques. X’X est une matrice diagonale dont sont les effectifs de chaque modalité. Tableaux présence absence Tableaux de données ordinales ou de préférences Individus x objets à classer. Une case correspond à une note variant de 1 au nombre d’objets à classer Tableau de distances ou de proximités : individus x individus Il présente les distances entre les individus. Ces tableaux sont symétrique autour de la diagonale principale. Tableaux de contingence : variable x variable Il croise les modalités de deux variables qualitatives Tableaux de BURT : il croise les modalités de plus de 2 variables qualitatives. Il est symétrique. Tableaux des rangs Tableaux hétérogènes ou mixtes Individus x variables Les variables sont de différentes natures M. MENOU / ANALYSE DE DONNEES 13 Soit les variables sont déjà des classements, soit pour les variables quantitatives on remplace les valeurs par leur rang. 28 les relations entre variables relations entre deux caractères quantitatifs Covariance Coefficient de corrélation linéaire de BRAVAIS-PEARSON relations entre deux caractères qualitatifs Le khi-deux relations entre caractères quantitatifs et qualitatifs Le rapport de corrélation théorique Le rapport de corrélation empirique 3 méthodes Les méthodes d'analyse des données peuvent se classer en deux grandes catégories : les méthodes factorielles et les méthodes de classifications. Ces deux catégories sont plus complémentaires que concurrentes. Les méthodes factorielles peuvent avoir deux objectifs : Réduire, simplifier, synthétiser, on parle alors de méthodes descriptives. Toutes les variables sont considérées ensemble. Si les variables sont métriques : analyse en composantes principales. Si les variables sont nominales : analyse factorielle des 14 correspondances. Si les variables sont ordinales : Analyse des similarités. Expliquer, identifier, explicatives. endogènes Les (à on variables parle se alors répartissent expliquer) et à sont de méthodes en variables variables exogènes (explicatives). Si les variables expliquer nominales : analyse discriminante. Si les variables à expliquer sont métriques : analyse de régression multiple, Analyse de la variance. Si les variables mesures conjointes. M. MENOU / ANALYSE DE DONNEES à expliquer sont ordinales : analyse des 15 4 Les analyses factorielles 41 L'analyse en composantes principales (ACP) Technique de base de l'analyse factorielle, elle a été créée par HOTELLING (1933). C'est la méthode utilisée quand on ne peut se ramener à un tableau de contingence. 411 Caractéristique L'analyse concerne un tableau individus x variables xij (n lignes, p colonnes). Les variables sont quantitatives, continues, corrélées entre elles deux à deux. 412 Objectif Réduire les dimensions du tableau en déterminant de nouvelles variables (les composantes principales), moins nombreuses (en général deux ou trois), non corrélées, mais comprenant plus d'informations (variance maximale) chacune que les variables initiales. Il s’agit d’exhiber les relations entre individus du fait de leur proximité, entre variables du fait de leurs corrélations et entre individus et variables. Cela permet d’identifier des sous-ensembles d'individus classification. 413 Différents types afin de constituer une 16 l'analyse en composantes principales centrées, fondée sur la matrice des variances-covariances empiriques l'analyse en composantes principales normées. Cela revient à centrer et réduire les variables initiales. En d’autres termes, on utilise une métrique diagonale des inverses des variances. L’analyse est fondée sur la matrice des coefficients de corrélation linéaire. l'analyse factorielle des rangs fondée sur la matrice des coefficients de corrélation des rangs lorsque l’on fait plus confiance aux rangs qu’aux valeurs l’analyse factorielle sur tableau de distance ou de dissimilarités 414 Principe On dispose d'un tableau qui représente un nuage de points de n individus dans un espace (de variables) de dimension p. On souhaite réduire l'espace des variables à un plan (dimension 2). Cela consiste à projeter les n individus sur un plan. Or, la projection réduit les distances. Ce plan doit donc être défini de façon telle, que les distances entre points soient le mieux conservées. On cherche donc à rendre maximum la moyenne des carrés des distances entre les projections. M. MENOU / ANALYSE DE DONNEES 17 415 Méthode La matrice des données [X] (n,p) est, selon le choix du type d'analyse, le plus souvent, centrée réduite. En effet, le centrage et la réduction permettent de gommer les effets taille et unité des expressions de variables. Les distances entre des individus caractérisés par des variables d’unités différentes n’auraient pas de sens. Les longueurs des variables (leurs normes) alors sont toutes égales à 1. L’extrémité des vecteurs se trouve sur une sphère. Le cosinus de l’angle formé par 2 variables est égal au coefficient de corrélation linéaire entre ces variables. Cette matrice est ensuite pré-multipliée par sa transposée de façon à obtenir une matrice [X’X] (p,p) de variance covariance (également centrées matrice réduites). des La corrélations somme des si les éléments variables de la sont diagonale principale (des variances), la trace par définition, représente 18 l'inertie du nuage de points. Si toutes les variables sont réduites, leur variance commune est 1 et la somme des variances est alors p. p représente l’information totale du nuage. La matrice est alors diagonalisée. Les lignes et colonnes de cette matrice correspondent à de nouvelles variables appelées composantes nouvelle propres principales. diagonale i Du fait principale classées par de la comprend ordre diagonalisation, alors décroissant. les p La trace la valeurs est conservée par cette transformation, mais les covariances sont annulées car les composantes principales, concentrent toute l'information. Les valeurs propres correspondent aux variances des composantes principales. Var (Ci) = i Ces p composantes principales Ci s’expriment comme combinaison linéaire des anciennes variables. Elles sont telles que la somme des carrés de leurs corrélations avec les anciennes variables soit maximum. Ci v i1 x1 vi 2 x2 ... vip x p où vi est le vecteur propre associé à i Des graphes sont alors dessinés croisant les composantes principales 1 et 2 (voire 1 et 3 et/ou 2 et 3 etc.), tant pour les variables que pour les individus, séparément car l’interprétation ne suit pas les mêmes principes. Les graphes M. MENOU / ANALYSE DE DONNEES 19 des variables comprend le cercle des corrélations. Cette transformation revient à déterminer de nouveaux axes orthogonaux, appelés facteurs (ou composantes), centrés sur le point moyen. Ils sont engendrés par les vecteurs propres. Le premier axe est celui qui correspond à la plus grande inertie. Le second est choisi orthogonalement au premier et qui exprime la plus grande inertie restante et ainsi de suite. 416 Interprétation Les composantes principales constituent de nouvelles variables (correspondant à de nouveaux concepts), qu'il s'agit d'identifier. Ces variables sont non corrélées entre elles. Elles s'expriment comme des combinaisons linéaires des anciennes. L'interprétation passe par plusieurs étapes : . La matrice des corrélations des variables initiales permet de voir si l'analyse peut être globalement possible. En effet, une des conditions de mise en œuvre est que les variables initiales soient corrélées, sinon, le nombre de dimensions ne peut-être réduit. On ne peut résumer que ce qui est partiellement redondant et lié. Il faut donc qu’un maximum de valeurs de la matrice des corrélations soient proches de 1 en valeur absolue. Si toutes les corrélations sont positives c’est qu’il existe un 20 facteur taille, les individus peuvent être ordonnés. . La qualité globale d'explication Le pourcentage de variance expliquée par les axes factoriels retenus est obtenu par la somme de leurs valeurs propres divisée par la trace. Cette valeur mesure la qualité globale de la représentation. i x100 i Le nombre d'axes à retenir doit être tel, que ce pourcentage cumulé soit supérieur ou égal à 75 %. Cette condition très arbitraire n’a pour objectif que d’attirer l’attention sur la significativité de l’analyse. En général, 3 axes maximum sont retenus, car au-delà leur interprétation s'avère délicate. Pour une ACP centrée réduite, il ne faut retenir que les valeurs propres signifie supérieures que information à comme égale 1 (critère chaque à 1 de variable (variance), on KAISER). initiale ne Ce critère apporte retient que une les composantes qui apportent au moins autant d’information que les variables initiales. Le critère du coude de CATTELL détecte le ralentissement dans la décroissance des valeurs propres. En abscisse, on place les numéros de valeur propre et, en ordonnée, le pourcentage d’inertie expliquée. Quand ce pourcentage devient peu différent entre les valeurs propres (après le coude) les axes ne sont plus importants. M. MENOU / ANALYSE DE DONNEES 21 On peut aussi décider de ne conserver que les axes qui restituent une proportion d’inertie supérieure à k (entier égal à 2 ou 3) fois 100/p, où p représente le nombre de variable observées. Un axe qui correspond à un faible taux d’inertie peut cependant être pertinent. . Les corrélations entre les axes factoriels et les variables initiales indiquent la qualité de représentation de la variable sur l'axe. Les coordonnées des variables sont égales aux corrélations avec les axes. Plus une corrélation entre une variable et un axe est forte, plus la variable est proche de l’axe. Il ne faut interpréter les axes qu'à partir des variables les mieux représentées, c’est-à-dire celles dont la corrélation est proche de 1 en valeur absolue. Autrement dit, les variables bien représentées corrélations. La dans le proximité plan sont entre proche points du cercle variables des n'est exploitable que si ces points sont proches de la circonférence appelée cercle des corrélations (centre O et rayon 1). La corrélation entre les variables de départ et la r ième composante est : 2 1 n r v Cir n i1 où vr est le vecteur propre associé à la r ième composante Interprétation des axes factoriels par les points variables. L'analyse consiste à déterminer la signification des axes 22 factoriels. Une ancienne variable a pour coordonnées le coefficient de corrélation entre cette variable et la composante principale. Les proximités des variables (bien représentées) avec les axes, associées aux oppositions entre variables permettent de trouver la signification des nouvelles variables. Ces proximités indiquent leurs corrélations. Ce n’est pas la distance au centre qu’il faut interpréter mais les angles entre les variables et avec les axes. Des variables qui forment un angle nul entre elles sont corrélées, celles qui font un angle droit ne sont pas corrélées, et celles qui présentent un angle plat sont corrélées négativement. Plus une variable est corrélée avec un axe plus elle est proche de celui-ci. Lorsque les variables anciennes sont corrélées positivement entre elles, le premier axe définit généralement un facteur taille. Le deuxième axe différencie alors les individus de taille semblable, c'est un facteur forme. . Les corrélations entre les axes factoriels et les individus suivent les mêmes principes. Une sélection, des individus les mieux représentés, doit l'interprétation des caractérisés une par être axes. valeur effectuée, Les pour pour individus chaque contribuer qui variable à étaient d’origine prennent maintenant une valeur pour chaque composante (nouvelle variable). Pour visualiser la dispersion de ces valeurs (les individus sont différents), on passe de la dimension p à la M. MENOU / ANALYSE DE DONNEES 23 dimension effectue 2 (ou une 3 à la projection. rigueur). Cela Or projection toute signifie que l’on déforme les distances qui se raccourcissent. Il ne faut retenir que les distances qui ont été le mieux conservées. Cette qualité ponctuelle de représentation est fournie, selon les logiciels par : les contributions absolues, les contributions relatives des points au facteur (CTR), les cosinus carrés (pour éviter les signes négatifs) des projections et la qualité de la représentation (QLTr). Le cosinus carré est appelé contribution relative du plan à l’individu. Plus un individu est proche du plan plus l’angle est faible plus le cosinus carré est proche de 1. Les contributions absolues expriment l’importance de chaque individu dans la création des axes par rapport aux autres individus. g La proximité sur le graphique peut correspondre à des individus très différents par rapport aux variables initiales. On compare donc le carré de la norme ( de la distance à l’origine des axes) initial à celui après projection. 24 La qualité de représentation d’un individu i sur l’axe r est mesurée par : C X r 2 i p j 1 où 2 ij le dénominateur l’individu variables au et représente centre le du le nuage numérateur le carré dans la carré de la base de distance des la de anciennes distance de l’individu i au centre du nuage suivant l’axe r. L’individu est bien représenté si le numérateur est important par rapport au dénominateur. La contribution (dite absolue) de l’individu i à la variance de l’axe est donnée par le rapport : 1 r 2 C n i 1 n r 2 C i n i 1 où le dénominateur représente la variance expliquée par l’axe r, et le numérateur la part de cette variance due à l’individu i. Si ce rapport est important, cela signifie que l’individu i joue un rôle important dans la définition de l’axe. . Interprétation des axes factoriels par les points individus. Les proximités l'analyse de et leurs les oppositions points communs, entre individus, aident aussi à par la compréhension des nouveaux axes. Les individus proches ont des profils semblables (réponses voisines aux diverses questions). Une analyse typologique peut préciser ces regroupements. Les M. MENOU / ANALYSE DE DONNEES 25 individus placés au centre du graphique doivent être analysés comme « moyens ». 417 Limites L’analyse est sensible aux individus très différents. Pour ne pas trop falsifier l’analyse, il est possible de les considérer comme des individus supplémentaires. L’interprétation doit être prudente, car les processus sousjacents sont représentations. complexes, ce ne sont jamais que des 26 42 L'analyse factorielle des correspondances (AFC) Travaux de J.-P. BENZECRI (1960). 421 Caractéristique Cette méthode permet d'étudier la liaison entre les modalités de deux variables qualitatives (correspondances). Comme toute variable quantitative peut, par un codage, se ramener à une variable qualitative, l'AFC permet de mettre en évidence des liaisons non détectées par linéaires le entre coefficient variables de quantitatives corrélation non linéaire. L’objectif poursuivi est le même que pour l’ACP, à savoir, réduire le nombre de dimensions pour permettre une meilleure compréhension de phénomènes noyés dans la masse des informations. Elle se ramène à une ACP effectuée avec une métrique spéciale, celle du khi-deux, sur un tableau de contingence (Tableau variable x variable). C'est une technique d'exploration des tableaux (ou profils) croisés. Les représentations graphiques sont relativement faciles à interpréter. 422 Méthode Cette méthode généralise le test d’indépendance du khi-deux. La population est définie par deux variables qualitatives X (l modalités) et Y (c modalités), ce qui permet d'obtenir deux M. MENOU / ANALYSE DE DONNEES 27 représentations, deux nuages. Deux analyses duales équivalentes sont alors possibles. Soit on s'intéresse aux profils ligne, ce qui ramène à un tableau individu x variable, où les individus sont les modalités de la variable X, placée en lignes et affectés des poids ni./n... Soit on s'intéresse aux profils colonne, ce qui ramène à un tableau individu x variable, où les individus sont les modalités de la variable Y, placée en colonne, affectés des poids n.j/n... Il s'agit alors d'effectuer deux ACP : une sur le tableau des profils lignes (l,l) une sur le tableau des profils colonne (c,c) au lieu de la matrice des corrélations. Ces deux ACP sont équivalentes. Les valeurs propres et vecteurs propres résultant des 2 ACP sont identiques. I somme des valeurs propres (en nombre : min(l,c)-1) mesure l’information contenue dans les deux tableaux. Le produit de I par le nombre d’observations n est égal au khi-deux. L’information contenue dans un tableau de contingence est donc d’autant plus grande que les lignes et colonnes sont dépendantes. Concrètement le tableau des effectifs nij est transformé en tableau des fréquences fij. Ce tableau est alors centré avant de permettre de calculer la matrice de variance covariance. Cette matrice est alors diagonalisée. 28 423 Interprétation Il s’agit d’analyser case par case les contributions au khideux les plus élevées, puisque ce sont elles qui ont entraîné le rejet de l’hypothèse d’indépendance. L'interprétation passe par plusieurs étapes : . La qualité globale d'explication Le pourcentage de variance expliquée par les axes factoriels retenus est obtenu par la somme de leurs valeurs propres divisée par la trace. Le nombre d'axes à retenir doit être tel, que ce pourcentage soit supérieur ou égal à 75 % (nombre arbitraire). En général, 3 axes maximum sont retenus, car au-delà l'interprétation s'avère délicate. Les valeurs propres sont toutes inférieures ou égales à 1, donc le critère de KAISER utilisé pour l’ACP ne peut être retenu. Seule la méthode du coude de CATTELL peut être utilisée. . Les contributions des points à l'inertie des axes (CTA) et la contribution des axes à l'inertie d'un point (CTR) permettent la sélection des éléments explicatifs. Les cosinus carrés des projections indiquent ensuite la qualité de la représentation (QLT). Il ne faut interpréter les axes qu'à partir des modalités les mieux représentées. Les proximités entre points modalités ne sont exploitables que si ces points sont proches de la périphérie. M. MENOU / ANALYSE DE DONNEES 29 . L'analyse consiste à déterminer la signification des axes factoriels. associées Les aux proximités oppositions des modalités entre des modalités, deux nuages, permettent de trouver la signification des axes. La proximité entre deux modalités du même proximité entre nuage deux signifie modalités un de profil similaire. variables La différentes signifie un même centre de gravité pour les individus possédant les modalités des variables concernées. L'interprétation graphique est favorisée par la dualité des deux analyses qui permet de représenter les deux nuages de façon superposée. Parfois la forme des nuages rend plus rapide l'interprétation. 424 Remarque L'analyse factorielle des correspondances revient à une analyse canonique appliquée à deux tableaux disjonctifs. (Chaque modalité de variable qualitative est remplacée par une variable quantitative prenant les valeurs 0 et 1.) 30 43 L'analyse des correspondances multiples ACM 431 Caractéristique GUTTMAN (1941), BURT (1950) Cette analyse constitue une généralisation de l'A.F.C. Les n individus sont caractérisés par p variables qualitatives chacune ayant mi modalités. La méthode est très utile pour dépouiller rapidement un questionnaire qui comprend notamment des réponses multiples. Si celui-ci comprend des variables quantitatives, il suffit de les transformer en variables qualitatives par découpage en classes. Il s’agit d’appliquer une AFC à un tableau disjonctif complet. Chaque individu modalités d’individus des est représenté variables. soit 5 fois Il plus par faut les indicatrices alors important que que le le des nombre nombre de colonnes. Il est aussi possible de traiter des variables à réponses multiples. 432 Méthode Le tableau croisé, dit tableau de BURT, est un tableau dont chaque bloc constitutif est un tableau de contingence. Il est traité comme pour une AFC. On utilise les distances du khi-deux en tenant compte que le tableau comprend des données binaires. Les profils lignes sont obtenus en divisant chaque terme d’une M. MENOU / ANALYSE DE DONNEES 31 ligne par le nombre de colonnes. Le carré de la distance entre 2 individus i et j est : 2 Pki Pk j m d 2 (i, j) k 1 Pk Les profils colonnes sont obtenus en divisant chaque terme d’une colonne par la somme des termes de la colonne. Le carré de la distance entre 2 profils colonnes i et j est : P n i k d (i, j) 2 2 Pk k 1 j 1 n 433 Interprétation L'interprétation ne diffère pas de celle d'une A.F.C.. 32 44 L’analyse factorielle des similarités (ou de dissimilarités) et des préférences Analyse d’un tableau des dissimilarités (ATD) ou Multi Dimensional Scaling of similarities and preferences (MDS) 441 Caractéristiques : On considère n objets repérés les uns par rapport aux autres par un indice (dissimilarités ou distance). On dispose ainsi d’un tableau carré symétrique de dimension n représentant les distances entre ces objets. La diagonale principale est donc occupée par des 0. Ex : distances entre villes Les distances estimations souvent peuvent être subjectives. plutôt que des des Dans mesures ce valeurs dernier objectives cas, métriques, ou des on préfère des valeurs ordinales. Les données représentent des similarités ou des préférences (rangs). Les distances sont données par un individu ou par la moyenne des distances pour un groupe d’individus. Les objets (unités statistiques ou les variables) sont définis par un indice de dissimilarités ou de distance. On compare les objets deux à deux à partir d’une liste de critères. M. MENOU / ANALYSE DE DONNEES 33 Un indice de dissimilarité est une fonction mesurant des différences et vérifiant des propriétés : La dissimilarité est d’autant plus grande que les objets sont différents La dissimilarité entre 2 objets i et j est positive ou nulle La dissimilarité entre un objet et lui-même est nulle La dissimilarité entre les objets i et j est égale à la dissimilarité entre les objets j et i. 442 Objectif Représentation, sous forme graphique, d’un ensemble d’objets en fonction de leurs distances (dimensions cachées). On cherche une représentation de ces n objets dans un espace de nombre de dimensions le plus faible possible. Mais, si pour des villes la carte existe, il n’est pas certain que pour des objets ce soit le cas. Par ailleurs, il y a des risques que pour placer tous les objets on soit obligé de multiplier les dimensions. En marketing, positionnement on des se sert produits de et cette la méthode conception de pour le nouveaux produits. 443 Méthode : A partir du tableau de distances, on dresse un second tableau, 34 carré symétrique des produits scalaires de chaque couple de vecteurs. C’est la matrice de variances/covariances du nuage. La méthode consiste, alors, à diagonaliser cette matrice dite de TORGERSON. Les valeurs points sont propres sont ordonnées en ordre décroissant. Si tous les dans le plan, toutes les valeurs propres sont nulles sauf les 2 premières. Il arrive cependant que certaines valeurs propres soient négatives, dans ce cas, la représentation est impossible. La méthode détermine des axes, la carte perceptuelle, situant les objets les uns par rapport aux autres. Ces axes correspondent à la dispersion maximale des objets. 444 Interprétation : L’interprétation se fait grâce au graphique, par les proximités et les écarts entre objets. L’évaluation de la qualité de représentation se fait à l’aide de deux indices : le stress et le R2. Le Stress exprime en pourcentage le respect de l’ordre initial de classement des objets. Si l’ordre est respecté le stress est nul. R2 représente le carré du coefficient de corrélation entre M. MENOU / ANALYSE DE DONNEES 35 les distances (ou similarités sous forme de rangs) de départ et les distances recalculées. Un R2 proche de 1 indique un bon ajustement. 36 45 L'analyse discriminante (AFD) Travaux de FISHER (1936) et MAHALANOBIS (1936). 451 Objectifs On cherche à décrire et à classer des individus caractérisés par un grand nombre de variables. Il s’agit de déterminer les variables qui distinguent le mieux les groupes d’individus. 452 Caractéristique Il s’agit de mettre en évidence les relations entre une variable qualitative Y à expliquer et un ensemble important de variables quantitatives explicatives. On dispose d'un tableau individus x variables. (n individus, p variables Xi) Le nombre de variables explicatives doit être très inférieur au nombre d’individus. La variable qualitative Y prenant q modalités, elle réalise une partition de l'ensemble des individus. L’objectif est d'être capable d’affecter, dans un deuxième temps, dans chaque classe, de nouveaux individus, grâce à la fonction discriminante préalablement constituée. La première discriminante étape à consiste partir des donc à préciser observations la des fonction variables quantitatives. De nouvelles variables doivent être déterminées, de sorte que les q groupes soient séparés le mieux possible, c’est-à-dire distinguables sans ambiguïté. Les coefficients de la fonction estimée (dite discriminante), M. MENOU / ANALYSE DE DONNEES 37 sur l'ensemble partitionné d'individus, permettent par la suite de faire des prévisions pour caractériser la modalité de la variable à expliquer. Le challenge consiste à réduire le nombre de variables quantitatives à considérer. Cette méthode est utilisée pour la reconnaissance de formes, l’appartenance politique, le diagnostic en médecine, etc. 453 Méthode Il s'agit de déterminer les q combinaisons linéaires, appelées variables discriminantes, non corrélées entre elles, des variables quantitatives explicatives qui séparent au mieux les classes déjà définies. Les valeurs prises par ces nouvelles variables, pour les individus d’une même classe, doivent être les plus concentrées possibles et les valeurs prises par ces mêmes variables, pour des individus de classes différentes, les plus dispersées possibles. A A A A B A B B B B B 38 Les projections des points sur l’axe ont une abscisse positive pour le groupe des B et une abscisse négative pour le groupe des A. Pour chaque individu i, on calcule une fonction u(i) (nouvelle variable) combinaison des p variables quantitatives centrées. La variance de cette variable u (u'Tu) se décompose en variance intra-classes et variance inter-classes (théorème de HUYGENS). Il faut chercher u tel, que la variance interne (u'Du) soit minimale et la variance externe (u'Eu) maximale. Cela se traduit par rendre maximal le rapport Vext/Vint ou (Vext/Vtot) ou minimal Vint/Vext ou (Vtot/Vext). En pratique, on cherche à rendre maximum u'Eu sous la contrainte u'Du = 1. Les multiplicateurs de LAGRANGE permettent la résolution de cette méthode d'optimisation. L = u'Eu - (u'Du - 1) L'annulation de la dérivée par rapport à u : 2 (Eu - Du) = 0 La résolution de l'équation donne D-1 Eu = u u est donc vecteur propre de D-1E, le vecteur choisi sera celui correspondant à la plus grande valeur propre. Cela revient donc à effectuer une ACP sur le nuage des centres de gravité des classes avec la métrique de MAHALANOBIS. La distance de MAHALANOBIS entre deux vecteurs est définie par : d2 (u,v) = (u-v)’ D-1 (u-v) M. MENOU / ANALYSE DE DONNEES 39 où D-1 est la matrice des variances covariances intra-classes. Pour réduire le coût de l'analyse, il convient de limiter le nombre de variables explicatives soit par une analyse en composantes principales préalable, soit par la démarche du pas à pas. Le passage par l'analyse en composantes principales consiste dans la pratique de l'ACP des centres de gravité des classes. La démarche pas à pas revient à choisir successivement des variables en prenant celles qui maximisent la trace de D-1 E ou celles qui maximisent le pourcentage de bien classés. Il est possible de pratiquer une analyse discriminante sur des variables qualitatives en transformant les modalités des variables qualitatives en variables binaires. 454 Interprétation La valeur des valeurs propres exprime le pouvoir discriminant des facteurs. Si la valeur propre est égale à 1, la discrimination est parfaite On retient un nombre de facteurs tels que la variance expliquée (somme des valeurs propres retenues sur somme totale des valeurs propres) soit convenable. L'interprétation des facteurs peut s'effectuer par l'analyse des corrélations entre facteurs et variables comme en ACP. Le graphique des individus sur les axes discriminants permet de 40 visualiser quel axe discrimine quels groupes. Le logiciel indique aussi le pourcentage d’individus bien classés. Après avoir précisé la fonction discriminante, il est préférable de l’appliquer à un deuxième ensemble d’observations pour voir si les affectations aux classes sont correctes avant de procéder à des prévisions sur de nouveaux individus dont on ignore l’appartenance aux classes. Les règles d’affectation sont multiples. La règle géométrique consiste à affecter l’individu à la classe dont la moyenne est la plus proche selon la distance de MAHALANOBIS. Mais, cette règle conduit à des affectations erronées si les effectifs des classes sont très différents. La règle probabiliste considère que l’on doit affecter un individu à la classe dont la distribution de probabilité, supposée normale, de l’appartenance de cet individu est la plus forte. A priori chaque classe a la même probabilité de comprendre l’individu. Mais, ces probabilités sont révisées ensuite en fonction de la taille du groupe. 455 Remarques : comparaisons avec les autres techniques L'analyse discriminante est une régression sur une variable qualitative. L'analyse discriminante n'est pas une méthode de classification automatique, puisque la partition existe, mais, de mise en M. MENOU / ANALYSE DE DONNEES 41 évidence de cette partition. 42 46 L’analyse des mesures conjointes 461 Objectif Mesurer l’effet conjoint de plusieurs variables (explicatives) indépendantes qualitatives xi sur l’ordre des valeurs prises par une variable (à expliquer) dépendante qualitative y. On cherche quelles variables conduisent à un classement donné. 462 Caractéristiques On dispose de plusieurs variables explicatives indépendantes (éventuellement nominales transformées en binaires) ayant des valeurs ordonnées. 463 Méthode Il s’agit de transformer la variable à expliquer en une fonction monotone (1,2,3,4, …) On utilise généralement la méthode d’analyse monotone de la variance. La variable à expliquer s’exprime variables selon un modèle additif. M. MENOU / ANALYSE DE DONNEES en fonction des autres 43 47 L'analyse canonique 471 Caractéristique On dispose d'un tableau individus x variables (quantitatives réparties en deux groupes de dimension p et q). Cette méthode permet de déterminer si les deux ensembles de variables mesurent les mêmes propriétés. En d’autres termes, la méthode mesure la liaison globale entre deux ensembles de variables. Peu utilisée en soi, cette analyse décrit une démarche générale qui se retrouve dans d'autres méthodes (AFC, AFDiscriminante). Si un ensemble ne comprend qu’une variable, on a affaire à une régression multiple. Si de plus les autres variables sont catégorisées, c’est une analyse de variance. 472 Méthode L'on recherche la combinaison linéaire du premier groupe de variables et la combinaison linéaire du deuxième groupe de variables qui maximisent le carré de leur corrélation. Cela revient à trouver deux vecteurs u et v (variables canoniques) formant un angle minimum. Les corrélations les plus fortes exhibent les variables qui contribuent le plus à la liaison des deux groupes. Les couples à faible corrélation correspondent à des variables spécifiques à chaque ensemble. 44 Géométriquement, la méthode consiste à rechercher les lignes de plus grandes pentes de 2 sous-espaces W1 et W2. W2 v u W1 473 Interprétation Si les 2 ensembles de variables que l’on peut construire par combinaison linéaire de chaque groupe sont confondus (angle nul), on peut se contenter d’un seul ensemble de variables. Si les 2 ensembles sont orthogonaux (angle droit) cela signifie que les deux ensembles décrivent des phénomènes différents. Il faut analyser les corrélations entre variables initiales et variables canoniques. 474 Extension M. MENOU / ANALYSE DE DONNEES 45 Il est possible d’appliquer la méthode à plus de deux ensembles. Il est également possible de travailler avec des variables qualitatives. Il suffit de considérer chaque modalité comme une variable binaire. 46 5 Les méthodes de classification, de typologie ou de taxinomie Ces méthodes visent à répartir les individus en classes (groupes, segments, clusters, types) homogènes. L’homogénéité est mesurée par la distance euclidienne usuelle. Ces méthodes se répartissent en deux catégories les non hiérarchiques et les hiérarchiques. Les méthodes non hiérarchiques déterminent des partitions. Les méthodes hiérarchiques déterminent des suites de partitions emboîtées en classes de plus en plus larges. Les tableaux utilisés sont : des tableaux de distances entre individus des tableaux de dissimilarités entre individus des tableaux individus x caractères numériques des tableaux des coordonnées factorielles d'une analyse des correspondances M. MENOU / ANALYSE DE DONNEES 47 51 L'analyse non hiérarchique 511 Objectifs Ces méthodes cherchent à établir une partition des individus en classes. Les individus regroupés dans une classe doivent être les plus semblables possibles entre eux et les classes les plus séparées possibles afin de pouvoir les identifier. Bien sûr, le problème ne se pose que lorsque l’on a affaire à une population caractérisée par plusieurs variables. Cependant, il y a peu de chances que des classes existent nettement. Il est donc difficile de prouver l’existence de classes ou de montrer l’efficacité d’une méthode basant sur des classes connues. de classification en se 48 Un autre problème concerne la détermination du nombre de classes. Pour un ensemble donné, le nombre de partitions concevables étant très important, il faut définir une méthode. Il est en effet impossible, en pratique, de procéder par simple sélection, selon un critère, dans l’ensemble de tous les cas possibles. Concrètement, il est conseillé de faire plusieurs essais et de choisir celui qui s’interprète le plus facilement. Un seuil de regroupement est défini correspondant à la distance maximum acceptable pour rassembler deux individus. 512 Méthode : Il existe plusieurs méthodes de partitionnement : les méthodes basées sur l’inertie, et celles basées sur les relations p variables) d’équivalence. 5121 Les méthodes basées sur l’inertie Le nuage de n points de IRp (n individus, représentant la population est divisée en plusieurs (k) sousnuages (ou classes). La distance considérée entre les individus est évaluée par une distance euclidienne. Chaque sous-nuage M. MENOU / ANALYSE DE DONNEES 49 doit, pour être le plus homogène, avoir le moins d'inertie intra-classes. L'inertie de chaque classe (ou intra-classes) est la moyenne des carrés des distances des points au centre de gravité. La somme des inerties des sous-nuages dite intraclasse doit être la plus petite possible. En revanche, il faut que la dispersion des centres de gravité de chaque l'ensemble, sous-nuage l'inertie par rapport au inter-classes, centre soit de la gravité plus de grande possible. L'inertie totale du nuage est la somme des inerties inter et intra-classes. Maximiser l'inertie inter-classes, c'est minimiser l'inertie intra, puisque leur somme est constante. Il convient de définir essentiellement un critère global de proximité. Méthode des centres mobiles (FORGY) On définit k centres arbitraires (choisis au hasard), et on regroupe les individus autour de ces centres selon leur plus faible distance relative. 50 Cela revient à effectuer une partition en domaines polyédraux convexes déterminés par les hyperplans médiateurs des centres. Le centre de gravité de chaque groupe est alors calculé. On regroupe les individus autour de ces nouveaux centres selon leur moindre distance relative. On recommence l'algorithme, en recalculant de nouveaux centres de gravité et, en reclassant les individus jusqu'à ce que la qualité du partitionnement ne s'améliore plus. intra-classe. Cette qualité L’algorithme étant converge, mesurée selon le par l'inertie théorème de HUYGENS, après un petit nombre d’itérations, vers l’inertie intra minimale. Le critère d’arrêt peut être fixé par un nombre maximal d’itérations ou par un seuil de variations. La méthode peut être utilisée pour des données qualitatives à conditions de prendre les coordonnées factorielles. M. MENOU / ANALYSE DE DONNEES 51 L'inconvénient de cette méthode est que le résultat est dépendant de la partition de départ. Un autre problème peut provenir de classes vides, car cela réduit le nombre de classes. Méthode des nuées dynamiques E. DIDAY généralise la méthode des centres mobiles en définissant chaque classe par q individus (les plus centraux) constituant le noyau (au lieu de son seul centre de gravité). Partant de k noyaux, on répartit les individus autour de ces noyaux. On recalcule de nouveaux noyaux, plus représentatifs des classes ainsi formées, jusqu'à ce que la qualité de la partition ne s'améliore plus. Comme la partition finale peut dépendre du choix des noyaux de départ, il est nécessaire de recommencer l’opération avec des conditions initiales différentes plusieurs fois. Les éléments regroupés dans plusieurs partitions finales sont appelés formes fortes. La méthode des k-means (Mac QUEEN) Cette méthode procède comme celle des centres mobiles, sauf que, les centres sont recalculés après l’affectation de chaque point. 52 5122 Les méthodes basées sur les relations d’équivalence F. MARCOTORCHINO et P. MICHAUD ont élaboré des méthodes applicables aux variables qualitatives ne nécessitant pas la détermination du nombre de classes a priori. Le principe repose sur le fait qu’une partition est une relation binaire d’équivalence. Toute variable qualitative à m modalités permet une partition des individus en m classes. Les individus d’une même classe sont équivalents. Si la relation d’équivalence est représentée par un tableau tel que : cij = 1 si la relation est vérifiée et cij = 0 sinon alors Cii = 1 (réflexivité) Cij = Cji (symétrie) Cij + Cjk - Cik 1. La méthode consiste alors à trouver une matrice C qui respecte les conditions précédentes. Si on dispose de p variables qui ont respectivement m1, m2, ..., mp modalités, on dispose de p partitions. Le problème est donc de trouver un compromis entre ces p partitions. 513 Interprétation : Il faut donner un nom aux classes obtenues et pouvoir les décrire. On peut identifier M. MENOU / ANALYSE DE DONNEES plus facilement les groupes les plus 53 homogènes. On utilise les variables initiales. On calcule pour chacune le rapport de la variance inter sur la variance totale et on ne retient que celles qui ont une valeur proche de 1. L’interprétation peut être déduite de la position relative des classes. On compare pour cela les moyennes des variables de chaque classe en tenant compte de leurs écarts type. Plus l’écart type est faible plus la comparaison est valable. On peut représenter graphiquement les individus, différenciés selon la classe, pour les variables importantes de la classification prise deux par deux. 514 Limites Les méthodes décrites n’aboutissent qu’à des optimums locaux dépendant de la partition initiale. 515 Comparaison avec les autres méthodes : La classification permet d’effectuer à la suite une AFD. Si celle-ci est correcte c’est que la typologie est intéressante. 52 L'analyse hiérarchique L'analyse hiérarchique se partage entre méthodes ascendantes et 54 descendantes. Les méthodes descendantes sont peu usitées. Les méthodes d'analyse hiérarchique descendantes partent de la population globale pour aller vers les individus. Les méthodes définir des d'analyse ensembles hiérarchique de ascendante partitions, de cherchent nombre de à classes décroissant, emboîtées les unes dans les autres. Partant d'une partition en n classes, d'un élément chacune ( n étant le nombre d'individus), on cherche à regrouper, à chaque étape, les deux classes les plus proches, jusqu'au regroupement en une classe comprenant tous les individus. Il y a donc n-2 partitions à déterminer. Une classification dendrogramme, ou hiérarchique arbre de est représentée classification, ou hiérarchique. P1 M. MENOU / ANALYSE DE DONNEES P2 par un arbre 55 P5 = a/b/c/d/e P4 = a b/c/d/e P3 = a b/c/d e P2 = a b c/d e P1 = a b c d e L’indice de partition correspond à un indice d’agrégation. A partir de l’arbre, les classes sont définies, en coupant l’arbre à un certain niveau, on examine alors les branches qui tombent. Généralement, une échelle sur le côté permet de déterminer l’éloignement des groupes les uns par rapport aux autres. C’est une moyenne des distances entre individus de l’un des groupes et ceux de l’autre. Les nœuds sont à une hauteur proportionnelle à l’inertie inter perdue du fait de la fusion. 56 Les méthodes se distinguent selon le choix du critère de regroupement de deux classes. Méthode de WARD Le critère choisi est celui de l’inertie. Cette méthode est aussi appelée méthode du moment d’ordre deux. Caractéristique On considère quantitatives, n individus, caractérisés par p variables dont on évalue la proximité par une distance euclidienne. Méthode Au départ chaque individu forme une classe. L’inertie interclasses est alors égale à l’inertie totale. L’inertie totale est la moyenne des carrés des distances des individus au centre du nuage. d'éléments Il s'agit d'une ensuite partition de diminuer jusqu'à de l'obtention un le d'une nombre seule classe comprenant tous les éléments. L’inertie inter-classes est alors nulle. Il faut donc réunir les deux classes (les plus proches) pour lesquelles la perte d'inertie est la plus faible. On agrége donc les individus qui font le moins varier l’inertie intra-classes. A chaque étape, on calcule l’indice du rapport M. MENOU / ANALYSE DE DONNEES 57 de l’inertie inter-classes à l’inertie totale. Lorsque l’on regroupe 2 classes, l’inertie inter-classes diminue. Cette diminution est mesurée par le critère d’agrégation de Ward. Pour le regroupement des classes i et j : ni n j d 2 (gi ,g j ) n(ni n j ) n correspond à l’effectif g au centre de gravité Le carré de la distance est obtenu en faisant la somme des rapports, pour chaque variable, du carré de la différence entre les valeurs des 2 individus et de la variance. On regroupe donc les deux classes qui minimisent le critère de Ward. Interprétation Le critère de Ward cumulé à partir de la dernière itération permet de calculer les inerties expliquées par les différentes partitions successives. En divisant ces totaux par le nombre de variables, on obtient la part d’inertie expliquée. On retient une typologie en c classes lorsque la part d’inertie expliquée augmente peu en ajoutant une classe supplémentaire. La partition est d’autant meilleure que les groupes sont homogènes. Cela se traduit par une inertie intra-classes faible et une inertie inter-classes forte. 58 L’analyse hiérarchique est souvent associée à une ACP. L’interprétation est facilitée par le tracé des classes sur le graphe du plan des composantes principales. Si les individus sont trop nombreux, pour être tous représentés, ce sont les centres de gravité des classes qui sont reportés. Autres Méthodes Les autres méthodes s’appliquent lorsque les distances ne sont pas euclidiennes. Plusieurs distances peuvent être envisagées. Parmi elles : Distance du saut minimal (ou de l’inf) A et B étant deux classes les ei, ej des individus d(A,B) = inf d(ei,ej) pour ei A ej B Distance du diamètre (ou du sup) d(A,B) = sup d(ei,ej) Distance moyenne 1 d(A, B) = d(ei, ej) PA PB le poids de chaque classe PA PB i j Ces méthodes donnent des résultats différents M. MENOU / ANALYSE DE DONNEES 59 logiciels ALCESTE ADDAD ANACONDA BMDP CHADOC VS CSS DBASE STATS DESTIN EOLE 3 EXECUSTAT EyeLID FLASH FUTURMASTER GLADYS ITEM LADDAD LEAS LE SPHINX LIDE + LTSM MODALISA MINITAB NCSS PCSM PRECIS QUADEOLE QUEST QUESTION R S+ SAS SIMCA-P SOLO SPAD SPSS PC STATBOX STATGRAPHICS STATISTICA STAT ITCF STATLAB STATVIEW SYNTHESE 2 SYSTAT UNISTAT TRI-DEUX VESTAL 60 Bibliographie AAKER D. A., Multivariate analysis in marketing, Wadsworth, 1971. ANTOINE J., Le sondage outil du marketing, Dunod, 1986. AURAY DURU ZIGHED, Analyse des données multidimensionnelles, tome 1 : les méthodes descriptives, Editions A. Lacassagne, 1991. AURAY DURU, Analyse des données multidimensionnelles, tome 3 : les méthodes explicatives, Editions A. Lacassagne, 1991. AVENEL M. RIFFAULT J.-F., gestion, Foucher, 2005. Mathématiques appliquées BAIR J., Algèbre linéaire pour l’économie sociales, De Boeck Université, 1984. et les à la sciences BASTIN C. et Alii, Pratique de l’analyse des données, Dunod, 1980. BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.-P., Guide de l’analyse statistique de données avec SPSS 6, Slatkine, 1996. BENZECRI J.-P., L'analyse des données, T1 La taxinomie, Dunod, 1979. BENZECRI J.-P., L'analyse des correspondances, Dunod, 1982. données, T2 L'analyse des BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse des données, T1 Analyse des correspondances. Exposé élémentaire, Dunod, 1984. BENZECRI J.-P. BENZECRI F., La Pratique données, T 5 Economie, Dunod, 1980. de l'analyse des BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique de l'analyse des données, T2 Abrégé théorique, études de cas de modèle, Dunod, 1980. BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique de l'analyse des données, T 3 Linguistique et lexicologie, Dunod, 1981. BENZECRI J.-P., Correspondance Analysis Handbook, Marcel Dekker Inc., 1992. M. MENOU / ANALYSE DE DONNEES 61 BERTIER P. BOUROCHE J.-M., multidimensionnelles, P.U.F., 1977. Analyse des données BERTRAND R., Pratique de l’analyse statistique des données, Presses de l’Université de Québec, 1986. BIALES C., L'analyse statistique des données, Chotard, 1988. BOUROCHE J.-M. SAPORTA G., L'analyse des données, P.U.F., 1980. BOUROCHE J.-M., Analyse des données en marketing, Masson, 1977. BRY X., Analyses factorielles simples, Economica, 1995. CAILLIEZ F. PAGES J.-P., Introduction à l'analyse des données, Smash, 1976. CASIN P., Analyse des données et des panels de données, De Boeck Université, 1999. CEHESSAT R., Exercices commentés de statistique et informatique appliquée, Dunod, 1981. CELEUX G. DIDAY E. GOVAERT G. LECHEVALLIER Y. RALAMBONDRAINY H., Classification automatique des données. Environnement statistique et informatique, Dunod. Cereq, Bref 84, Fev 1993. CHANDON J.-L. PINSON S., Analyse typologique, Masson, 1980. CHANDON J.-L., L'Analyse de données dans les sciences gestion, Encyclopédie du management 2, Vuibert, 1980. de CIARLET P.-G., Introduction à l’analyse numérique matricielle et à l’optimisation, Dunod, 1982. CIBOIS P., L'analyse factorielle, P.U.F., 1983. CIBOIS P., L'analyse des données en sociologie, P.U.F., 1984. CRAUSER J.-P. HARVATOPOULOS Y. SARNIN P., Guide d'analyse des données, Editions d'Organisation, 1989. pratique DAGNELIE P., Analyse statistique à plusieurs variables, Presses agronomiques de Grembloux, 1975. DAGNELIE P., Statistique descriptive et base de l’inférence statistique, De Boeck Université, 1998. DAVIDSON M. L., Multivariate scaling, Wiley and Sons, 1983. DIDAY E., Optimisation en classification automatique, INRIA, 1979 62 DIDAY E. LEMAIRE J. POUGET J. TESTU F., Eléments d'analyse de données, Dunod, 1985. DOISE CLEMENCE, Représentation données, P. U. Grenoble. ESCOFFIER B. PAGES J., quantitatifs, Masson, 1988. sociologique Analyse conjointe et analyse de de tableaux ESCOFFIER B. PAGES J., Analyse factorielles simples et multiples. Objectifs, méthodes et interprétations, Dunod, 1998. EVRARD Y. LEMAIRE P., Information et décision en marketing, Dalloz, 1976. EVRARD Y. PRAS RAUX, Etudes et recherches en marketing, Nathan, 19. FALISSARD B., Comprendre et utiliser les statistiques dans les sciences de la vie, Masson, 1996. FENELON J.-P., Qu'est-ce que l'analyse des données, Lefonen, 1981. FOUCART T., Analyse factorielle de tableaux multiples, Masson, 1984. FOUCART T., Analyse factorielle. Programmation sur ordinateurs avec nouveaux programmes, Masson, 1985. FOUCART T., L’analyse des données. Universitaires de Rennes, 1997. Mode d’emploi, microPresses GENINET B., Mathématiques et statistiques générales appliquées au marketing, Economica, 1986. GORDON A.-D., Classification, Chapmann and Hall, 1981. GRANGE D. LEBART L., Traitements statistiques des enquêtes, Dunod, 1994. GUIGOU J.-L., Méthodologies multidimensionnelles : Analyse des données et choix à critères multiples, Dunod, 1977. HAIR J. F. ANDERSON R.E. analysis, Macmillan, 1987. TATHAM R.L., Multivariate data HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., L’art de l’enquête, Editions Eyrolles, 1989. HERMAN J., d'enquêtes, 1986. Analyse de données qualitatives. T1 Traitement échantillon, répartitions, associations, Masson, M. MENOU / ANALYSE DE DONNEES 63 HERMAN J., Analyse de données qualitatives. d'enquêtes. Modèles multivariés, Masson, 1990. T2 Traitement IDRISS, Algèbre linéaire. Probabilité mathématique. Initiation à l'analyse des données, Ellipses. JAMBU M., Exploration informatique et statistique des données, Dunod, 1989. JAMBU M. LEBEAUX M.-O., Classification automatique pour l'analyse des données. T1 Méthodes et algorithmes, Dunod, 1979. JAMBU M. LEBEAUX M.-O., Classification automatique l'analyse des données. T2 Logiciels, Dunod, 1979. pour JAMBU M., Méthodes de base de l’analyse des données, Eyrolles et France Télécom-Cnet, 1999. JARDINE N. SIBSON R., Mathematical Taxonomy, Wiley, 1971. JULIEN A., 30/06/72. Analyse de données multidimensionnelles, Thèse, KENDALL M.-G. STUART A., The advance Theory of Statistics, T1, Griffin 1977. KENDALL M.-G. STUART A., The advance Theory of Statistics, T2, Griffin 1973. KENDALL M.-G. STUART A., The advance Theory of Statistics, T3, Griffin 1976. LAGARDE J. (de), Initiation à l'analyse de données, Dunod, 1983. LAMBERT D. C., 19 Amériques latines, Economica, 1984. LAMBIN J.-J., La recherche Prévoir, McGraw Hill, 1990. marketing. LAPIN L.L., Statistique d’Organisation, 1987. de Analyser, gestion, Les mesurer, Editions LAVIT Ch., Analyse conjointe de tableaux quantitatifs, Dunod, 1988. LEBART L. FENELON J.-P., appliquées, Dunod, 1971. Statistiques et informatique LEBART L. MORINEAU A. FENELON J.-P., Traitement des données statistiques. Méthodes et programmes, Dunod, 1979. LEBART L. MORINEAU A. PIRON M., Statistique exploratoire 64 multidimensionnelle, Dunod, 1997. LEBART L. MORINEAU A., SPAD, Système portable pour l'analyse des données, CESIA, 1985. LEBART L. MORINEAU A. TABARD N., Techniques de la description statistique. Méthodes et logiciels pour l'analyse des grands tableaux, Dunod, 1986. LEBART L. SALEM A., Analyse statistique des données textuelles, Dunod, 1994. LEFEBVRE J., Introduction aux multidimensionnelles, Masson, 1976. analyses statistiques LERMAN I.-C., Classification et analyse ordinale des données, Dunod, 1981. Les cahiers de l'analyse des données, DUNOD, Depuis 1976. MAKRIDAKIS S. WINKLER R.L. DESPLAS M., Programmes statistique interactifs, Les Editions d’organisation, 1988. de MARCOTORCHINO J.F. MICHAUD P., Optimisation en analyse ordinale des données, Masson, 1979. MASSON M., Méthodologies générales du traitement statistique de l'information de masse, Cédic-Nathan, 1980. Mathématiques en sciences humaines 11ème année, n˚44, 1973, p. 5.34. Mathématiques en sciences humaines 12ème année, n˚45, 1974, p. 5.28. MOORE D. McCABE G.-P., Introduction Statistics, Freeemann, 1993. to the Practice of MORICE E. CHARTIER F., Méthode statistique, INSEE, 1954. MORRISON D.F., Multivariate statistical methods, MacGraw-Hill, 1990. MOSCAROLA J., Enquêtes et analyses des données avec le sphinx, Vuibert, 1995. NAKACHE J.-P. CHEVALIER A. MORICE V., Exercices commentés de mathématiques pour l'analyse des données, Dunod, 1981. PONTIER, Le modèle euclidien en analyse de données, Ellipses. PUPION P.-C., Statistiques pour la gestion. Applications avec Excel et SPSS, Dunod, 2004. M. MENOU / ANALYSE DE DONNEES 65 ROMEDER J.-M., Méthodes et programmes d'analyse discriminante, Dunod, 1973. ROUANET H. LE ROUX B., multidimensionnelles, Dunod, 1992. Ananlyse des données SAPORTA B., Marketing industriel, Eyrolles, 1992. SAPORTA G., Théorie et méthode de la statistique, Technip, 1978. SAPORTA G., Probabilités, analyse des données et statistique, Technip, 1990. SIMON C. BLUME L., Mathématiques pour économistes, De Boeck Université, 1998. TENENHAUS M., Statistique. Méthodes pour décrire, expliquer et prévoir, Dunod, 2007. TENENHAUS M., Méthodes statistiques en gestion, Dunod, 1994. (HD 30.25 1025) VEDRINE J.-P., Le traitement des données en marketing, Les éditions d'organisation, 1991. VOLLE M., Analyse des données, Economica, 1997.