Analyse des données Faculté des sciences Semlalia Licence professionnelle électrotechnique et électronique industrielle Présenté par : YOUSSEF ELLABIB 2023/2024 Introduction L'analyse en composantes principales (ACP) est une technique statistique utilisée pour réduire la dimensionnalité des données tout en préservant autant d'informations que possible. L'objectif principal de l'ACP est de transformer un grand nombre de variables corrélées en un plus petit nombre de variables non corrélées appelées composantes principales. Données : • n individus observés sur p variables quantitatives. • L’A.C.P. permet d’explorer les liaisons entre variables et les ressemblances entre individus. Résultats : • Visualisation des individus (Notion de distances entre individus) • Visualisation des variables (en fonction de leurs corrélations) L’ANALYSE EN COMPOSANTES PRINCIPALES LE PROBLÈME LES DONNÉES p variables quantitatives observées sur n individus. On cherche à représenter le nuage des individus. A chaque individu présenté par un point 𝑅 𝑝 = espace des individus. A chaque variable du tableau X est associé un axe de 𝑅 𝑝 . PRINCIPE DE L’A.C.P. • On cherche une représentation des n individus , dans un sousespace F k de Rp de dimension k ( k petit 2, 3 …; par exemple un plan) Autrement dit, on cherche à définir k nouvelles variables combinaisons linéaires des p variables initiales qui feront perdre le moins d’information possible. • les variables seront appelées «composantes principales » • les axes qu’elles déterminent : « axes principaux » • les formes linéaires associées : « facteurs principaux » Données centrées Si la moyen est nul on dit que les données sont centrées Si on calcule la moyen par colonne on la trouve égale a zéro donc les variables devinent centrées Ecart-type On dit que les données sont réduites si l’Ecarttype =1 Formule : Données centrées-réduites si l'on ne réduit pas le nuage : une variable à forte variance va « tirer » tout l'effet de l'ACP à elle Objectifs Nous considérons X centrée-réduite (ACP normée) • Le tableau X peut être analysé à travers ses lignes (les individus) ou à travers ses colonnes (les variables) ⇒ résumer l’information en gardant à l’esprit cette dualité ⇒ former des groupes d’individus semblables Termes clé : ressemblance ⇒ former des groupes de variables liées Termes clé : liaison - corrélation Dualité : Quelles (groupes de) variables expliquent le plus la variabilité inter-individus ? Nuage Np des individus : n points de 𝑹𝒑 • Un individu ( ligne) est un point de 𝑅𝑝 (espace à p dimensions) • Nuage Np des individus : nuage de n points dans 𝑅 𝑝 • La “ligne” moyenne est le centre de gravité G du nuage • Analogie avec la géométrie de 𝑅 2 , 𝑅 3 Information Identification des groupes de points proches Identification de points isolés ⇒ dans quelles directions (individu sur quelles variables) ? Identification de la forme du nuage Des directions d’allongements en particulier ⇒ concept clé : distances entre points Distance dans 𝒑 𝑹 • Analogie pour calculer la distance entre points de 𝑅 𝑝 : • Une quantification de l’information sur l’ensemble des distances : la somme (des carrés) des distances au centre de gravité : Nuage Nn des variables : p vecteurs de Rn Une variable (mois - colonne) est ici considérée comme un vecteur de Rn • Nuage Nn des variables : p vecteurs dans Rn • Chaque axe est associé à un individu (ville) : Coefficient de corrélation Rappel (coefficient de) corrélation de 2 variables : C’est le produit scalaire des deux colonnes centréesréduites associées (à 1/n près) : Interprétation X centrée-réduite ⇒ les colonnes ont même norme (≡ norme 1) • Les p colonnes sont alors dans une (hyper)sphère (de rayon 1) • L’angle formé par les vecteurs colonnes renseignent la corrélation sur les variables Inertie L’inertie I des données est (à 1/n près) la somme des carrés des cellules de X centrée-réduite C’est la somme (à 1/n près) des carrés des distances au centre de gravité pour tous les individus Quantification de l’information portée par les données ⇒ renseigne sur la “forme” du nuage des individus Décomposition de l’inertie • Idée : construction d’une suite de p axes permettant de restituer la forme du nuage • Construction itérative • On en déduit des représentations planes simples à interpréter • Principe de réduction de la dimension • Basé sur la décomposition de l’inertie 1 er axe : Axe principal de variabilité du nuage Direction de Rp qui maximise l’inertie projetée : On cherche ensuite un axe u2, orthogonal à u1, qui maximise l’inertie projetée • C’est le second axe de variabilité du nuage • Ce 2ém axe présente moins de variabilité que le précédent % inertie On itère le procédé en cherchant u3 orthogonal au plan u1, u2 qui maximise l’inertie projetée • Jusqu’à obtenir p axes orthogonaux • La part d’inertie projetée sur chaque axe donne la part de variabilité restituée : axes Plan factoriel On privilégie les représentations planes en projetant les individus sur les plans formés par les axes La projection orthogonale sur le plan formé par u1 et u2 est la meilleure représentation plane du nuage des individus Il concentre 98% de l’inertie Cercle des corrélations • • • • • Les axes factoriels sont des combinaisons linéaires des colonnes de X sont des vecteurs de Rn orthogonaux 2 à 2 Les cercles de corrélations représentent les projections des colonnes de X sur les plans formés par ces axes Aide à l’interprétation Exemple : effet taille • Toutes les variables sont corrélées positivement : effet taille ⇒ la plupart des villes sont ou chaudes ou froides toute l’année Simulation sur SPSS Présentation de l'étude de positionnement sur le marché introduction L'entreprise LP-EEI cherche à établir sa position sur le marché actuel, caractérisé par une concurrence intense et des attentes changeantes des consommateurs. Pour cela, une analyse approfondie des facteurs de succès et des tendances du marché est essentielle. Objectif de l'étude L'objectif de cette étude est d'identifier les composantes principales du marché qui influencent la réussite des entreprises, afin d'aider Lp-EEI à élaborer une stratégie de positionnement efficace et durable. Méthodologie Nous avons utilisé la méthode des composantes principales (PCA) pour analyser un ensemble de données comprenant des informations sur les acteurs du marché, les produits, les prix, les canaux de distribution et les préférences des consommateurs. Simulation