1 Introduction

publicité
ANALYSE DE DONNEES
V 4.9
Marc MENOU
Mars 2008
2
TABLE DES MATIERES
1 INTRODUCTION
3
2 ELEMENTS FONDAMENTAUX
8
21 RAPPELS SUR LA THEORIE DES ENSEMBLES
22 RAPPELS DE GEOMETRIE
23 RAPPELS SUR LES MATRICES
24 RAPPELS DE STATISTIQUE DESCRIPTIVE
26 RAPPELS SUR LA THEORIE DE L'INFORMATION
27 LES TABLEAUX
TABLEAUX INDIVIDUS X VARIABLES QUANTITATIVES
TABLEAUX LOGIQUES OU BOOLEENS OU BINAIRES
TABLEAUX PRESENCE ABSENCE
TABLEAUX DE DONNEES ORDINALES OU DE PREFERENCES
TABLEAUX DES RANGS
TABLEAUX HETEROGENES OU MIXTES
28 LES RELATIONS ENTRE VARIABLES
3 METHODES
4 LES ANALYSES FACTORIELLES
41 L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
42 L'ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)
43 L'ANALYSE DES CORRESPONDANCES MULTIPLES ACM
44 L’ANALYSE FACTORIELLE DES SIMILARITES (OU DE DISSIMILARITES) ET DES PREFERENCES
45 L'ANALYSE DISCRIMINANTE (AFD)
46 L’ANALYSE DES MESURES CONJOINTES
47 L'ANALYSE CANONIQUE
5 LES METHODES DE CLASSIFICATION, DE TYPOLOGIE OU DE TAXINOMIE
51 L'ANALYSE NON HIERARCHIQUE
52 L'ANALYSE HIERARCHIQUE
8
8
9
10
11
11
12
12
12
12
12
12
13
13
15
15
26
30
32
36
42
43
46
47
53
LOGICIELS
59
BIBLIOGRAPHIE
60
M. MENOU / ANALYSE DE DONNEES
3
1 Introduction
L'analyse des données est une technique relativement ancienne
1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant des
développements
récents
1960-1970
du
fait
de
l'expansion
de
l'informatique.
L'informatique est importante car cette technique nécessite le
brassage de beaucoup de données par beaucoup de calculs pour en
tirer des représentations graphiques. Elle apporte rapidité et
fiabilité.
L'analyse des données est une technique d'analyse statistique
d'ensemble de données. Elle cherche à décrire des tableaux et à
en exhiber des relations pertinentes. Elle se distingue de
l’analyse exploratoire des données.
La statistique est une technique qui permet la compréhension de
la réalité. C’est un moyen d’investigation de la complexité.
STATISTIQUE
REEL COMPLEXE
REPRESENTATION
SIMPLIFIEE
4
En effet, comme le dit P. VALERY "tout ce qui est simple est
faux, tout ce qui ne l'est pas est inutilisable". Il s'agit en
quelque sorte d'"élaguer" la réalité en ne retenant que ce qui
est primordial. Il faut en particulier réduire les dimensions
de
la
réalité,
c’est-à-dire
ne
pas
considérer
certaines
variables tout en cherchant à conserver le maximum de sens.
Cela revient à effectuer une projection.
Ces trois schémas représentent une chaise dessinée dans le
plan. Ils permettent une plus ou moins bonne identification
selon l’axe de projection.
La réalité peut être considérée comme un nuage de points à n
dimensions que notre cerveau a du mal à se représenter.
La
statistique
est
donc
une
méthode
de
traitement
de
l'information. L'information est ce qui permet d'entreprendre
une action. Mais pour agir, il faut savoir. La connaissance, en
rapport avec les ensembles réels, se rapporte à ce qui pour une
population donnée, distingue ses individus. Tel l'Horace, qui a
M. MENOU / ANALYSE DE DONNEES
5
cherché à distancer les Curiaces, le pouvoir ne peut s'exercer
efficacement qu'à l'encontre des individus isolés. Diviser pour
mieux régner est aussi une devise bien connue. Il faut donc
chercher la ou les variables qui opposent le plus, qui séparent
le
plus,
les
individus.
La
variance
est
donc,
comme
caractéristique de dispersion, le critère de choix le plus
désigné des critères de connaissance. L'analyse des données
repose donc essentiellement sur les notions de variances, de
covariance, de distances, de groupe, de lien et de hiérarchie.
La théorie des ensembles fournit le cadre conceptuel de base
dans lequel il convient de poser la problématique.
L'analyse
des
données
souhaite
cependant
se
démarquer
des
techniques statistiques et économétriques classiques.
Elle
cherche
à
regarder
les
données
pour
elles-mêmes
en
oubliant les théories qui ont permis de les rassembler. Car
l'élaboration d'un modèle et l'observation projettent les idées
déjà contenues dans le cerveau. Il n'est perçu que ce que l'on
désire
essentiellement
percevoir.
Il
faut
comme
l’a
écrit
KRISHNAMURTI : « se libérer du connu ». Pour ce faire, il faut
considérer beaucoup de données afin d’éviter l’arbitraire de
leur choix.
Bien entendu, il existe une différence entre les objectifs et
les réalisations car les moyens sont limités.
R. THOM relève que prédire n’est pas expliquer. Si les modèles
statistiques
permettent
la
prévision,
il
s’agit
souvent
de
mettre en évidence des liaisons quantitatives observables. Cela
6
constate simplement, cela n’explique rien.
L'analyse
de
données
entend
se
démarquer
des
statistiques
paramétriques. La statistique paramétrique effectue des mesures
quantitatives et utilise le théorème central limite qui ramène
à la loi de LAPLACE-GAUSS. La contestation par l'approche non
paramétrique
cherche
l'obligation
de
d'une
passer
part,
par
la
à
loi
se
débarrasser
normale
et
donc
de
des
contraintes sur la taille des échantillons, et d'autre part, à
s'intéresser aux données qualitatives.
L'analyse des données
se distingue en rejetant l'aspect inférentiel et insiste sur
l'aspect descriptif d'un ensemble considéré comme complet.
L'analyse des données est un moyen de lutte contre l'idéologie.
Il n'y a de vérité que statistique, tout le reste n'est que
littérature. La force de toute idéologie est qu'elle représente
la réalité, ce qui la rend crédible. Toute idéologie véhicule
une part de réalité mais, simplifiée par les à priori déjà
acceptés. La réalité complexe est difficilement intelligible
pour
l'homme.
Elle
est
de
plus
souvent
inacceptable
comme
l'indique l'épisode de la caverne de PLATON. Elle peut être
considérée comme le font les scientifiques par un nuage de
points
dans
statisticiens
un
ensemble
par
ce
qui
de
est
dimension
appelée
importante.
l'analyse
de
Les
données
déterminent, le plus souvent, des plans de projections de cette
réalité en deux dimensions. Ce type d'instrument porte mal son
nom car il s'agit plus de synthèse que d'analyse, puisqu'il
s'agit de projeter des relations. Ils simplifient la réalité,
M. MENOU / ANALYSE DE DONNEES
7
ils l'élaguent mais en cherchant des plans qui conservent le
maximum d'informations, de variances, et ce par une méthode
relativement
rationnelle,
relativement
indépendante
de
l'observateur. L'idéologue effectue le même travail, mais sans
aucun
support
mathématique,
il
projette
sur
le
plan
qui
correspond à sa finalité. La subjectivité est importante. Mais,
il
ne
peut
être
entièrement
contré
puisque
c'est
bien
la
réalité complexe qu'il projette. Finalement, cela revient à
pondérer
à
priori
chaque
observation
selon
des
objectifs
affectifs. Chaque idéologie n'est en fait qu'une détermination,
a priori et subjective, de hiérarchie. La différence entre les
idéologies réside donc dans le choix de ce qui est essentiel et
de ce qui paraît secondaire. Elles sont donc vraies dans la
mesure où elles parlent d'objets réels, fausses dans la mesure
où il ne s'agit que de hiérarchies finalisées. C'est pour cela
qu'elles se distinguent plus par le non-dit que par le dit.
Elles disent toutes la réalité qu'elles cherchent à décrire,
elles taisent leur pondération. Si les structures réelles sont
emboîtées en niveaux d'organisation croissants, les structures
idéologiques constituées progressivement ne se recouvrent pas
complètement.
Les
idéologies
se
complètent
parfois
et
se
contrarient souvent. C'est une marque de leur irréalisme.
L'univers est un ensemble de structures. La connaissance de
l'environnement passe par la description et la compréhension
des causes et conséquences de ces structures. Si les éléments
composant
les
structures
sont
visibles,
en
revanche,
les
8
relations qui lient les éléments ne le sont pas. L'objectif de
la démarche statistique est de faire apparaître ces liaisons.
Les deux types de relations fondamentales sont les relations
d'équivalence et les relations d'ordre. Ainsi, une population
peut-elle être décomposée en classes hiérarchisées.
2 Eléments fondamentaux
21 rappels sur la théorie des ensembles
ensemble
appartenance
sous ensemble
inclusion
réunion
intersection
relation d'équivalence
relation d'ordre
partition
22 rappels de géométrie
produit scalaire
Le produit scalaire de deux vecteurs est le produit de la
longueur
de
l'un
par
la
projection
de
l'autre
(u.v.Cos(u,v))
Le produit scalaire est commutatif et distributif.
M. MENOU / ANALYSE DE DONNEES
sur
lui.
9
Si les vecteurs sont orthogonaux le produit scalaire est nul.
Si les vecteurs sont colinéaires le produit scalaire est (u.v)
Si les vecteurs unitaires sont orthogonaux le produit scalaire
est
égal
à
la
somme
des
vecteur
sur
produits
des
composantes
correspondantes.
projection
La
projection
d'un
un
axe
est
obtenue
par
le
produit scalaire du vecteur par le vecteur unitaire de l'axe.
Cela permet le changement d’axe de coordonnées.
distance
Dans l’espace des variables, un produit scalaire particulier,
et donc une distance, s’impose.
1 n
 x, y   x i yi
n i 1
Ainsi, le coefficient de corrélation correspond au cosinus de
l’angle formé par les deux variables centrées.
Le choix d’une distance est toujours arbitraire dans l’espace
des individus, car il est possible d’associer à chaque variable
un coefficient de pondération.
métrique
23 rappels sur les matrices
trace
La trace d'une matrice est la somme des termes de la diagonale
principale.
valeur propre
 est valeur propre de A <=> Det(A -  I) = 0
10
vecteur propre
V est vecteur propre de f si f(V) =  V
matrice diagonale
Une matrice diagonale est une matrice dont tous les termes
appartiennent à la diagonale principale.
diagonalisation de matrice
24 rappels de statistique descriptive
population
variable
variable qualitative
variable quantitative
passage du quantitatif au qualitatif
passage du qualitatif au quantitatif
moyenne
variance
La variance est un concept important car il indique si la
variable discrimine (étale) les individus. Une grande variance
donne de l'information sur la population et donc du pouvoir.
25 rappels de mécanique
centre de gravité
Le centre de gravité d'un solide, ou barycentre, correspond à
la notion statistique de moyenne.
inertie
L'inertie d'un solide correspond à la notion de variance.
M. MENOU / ANALYSE DE DONNEES
11
Un corps a d'autant plus d'inertie qu'il faut d'énergie pour le
mettre en rotation autour d'un axe.
(distance/axe)2 x masse
=:
(écart/moyenne)2 x fréquence
Ainsi, l'inertie est minimum par rapport au centre de gravité,
comme la variance est minimale par rapport à la moyenne.
théorème de HUYGENS
Inertie d'un corps/O = inertie/G + m x OG2
Variance/x = variance/M + x(x-M)2
Tout corps biscornu se comporte comme un ellipsoïde à 3 axes de
symétrie. Autour du grand axe, l'inertie est minimale, autour
du petit, l'inertie est maximale.
Soit un nuage de n points pesants dans un espace de dimension
3,
il
correspond
à
un
ellipsoïde
d'inertie.
Le
centre
de
gravité sert d'origine des coordonnées x,y,z. Soit X(n,3) la
matrice des coordonnées. V(3,3) = X'X la matrice d'inertie du
nuage. L'inertie totale est égale à l'inertie expliquée par
l'axe et l'inertie autour de l'axe. Les 3 valeurs propres de V
sont les inerties expliquées par les 3 axes du nuage. Leur
somme est égale à la trace de V, soit à l'inertie du nuage.
26 rappels sur la théorie de l'information
27 les tableaux
Les populations comprennent des individus distingués selon un
certain nombre de variables. Ces informations sont rassemblées
dans des tableaux de base croisant individus et variables. Ces
12
tableaux
peuvent
d'individus
dans
s'interpréter
un
ensemble
de
de
deux
façons,
variables
ou
un
un
nuage
nuage
de
variables dans un ensemble d'individus.
Tableaux individus x variables quantitatives
Tableaux logiques ou booléens ou binaires
Tableaux disjonctifs complet : individu x variable
à chaque modalité, placée en colonne, correspond une variable
indicatrice.
C’est
la
juxtaposition
de
plusieurs
les
éléments
tableaux
logiques.
X’X
est
une
matrice
diagonale
dont
sont
les
effectifs de chaque modalité.
Tableaux présence absence
Tableaux de données ordinales ou de préférences
Individus x objets à classer. Une case correspond à une note
variant de 1 au nombre d’objets à classer
Tableau de distances ou de proximités : individus x individus
Il présente les distances entre les individus. Ces tableaux
sont symétrique autour de la diagonale principale.
Tableaux de contingence : variable x variable
Il croise les modalités de deux variables qualitatives
Tableaux
de
BURT :
il
croise
les
modalités
de
plus
de
2
variables qualitatives. Il est symétrique.
Tableaux des rangs
Tableaux hétérogènes ou mixtes
Individus x variables Les variables sont de différentes natures
M. MENOU / ANALYSE DE DONNEES
13
Soit les variables sont déjà des classements, soit pour les
variables quantitatives on remplace les valeurs par leur rang.
28 les relations entre variables
relations entre deux caractères quantitatifs
Covariance
Coefficient de corrélation linéaire de BRAVAIS-PEARSON
relations entre deux caractères qualitatifs
Le khi-deux
relations entre caractères quantitatifs et qualitatifs
Le rapport de corrélation théorique
Le rapport de corrélation empirique
3 méthodes
Les méthodes d'analyse des données peuvent se classer en deux
grandes catégories : les méthodes factorielles et les méthodes
de classifications.
Ces deux catégories sont plus complémentaires que concurrentes.
Les méthodes factorielles peuvent avoir deux objectifs :

Réduire, simplifier, synthétiser, on parle alors de méthodes
descriptives.
Toutes
les
variables
sont
considérées
ensemble.
Si
les
variables
sont
métriques :
analyse
en
composantes
principales.
Si
les
variables
sont
nominales :
analyse
factorielle
des
14
correspondances.
Si les variables sont ordinales : Analyse des similarités.

Expliquer,
identifier,
explicatives.
endogènes
Les
(à
on
variables
parle
se
alors
répartissent
expliquer)
et
à
sont
de
méthodes
en
variables
variables
exogènes
(explicatives).
Si
les
variables
expliquer
nominales :
analyse
discriminante.
Si
les
variables
à
expliquer
sont
métriques
:
analyse
de
régression multiple, Analyse de la variance.
Si
les
variables
mesures conjointes.
M. MENOU / ANALYSE DE DONNEES
à
expliquer
sont
ordinales :
analyse
des
15
4 Les analyses factorielles
41 L'analyse en composantes principales (ACP)
Technique de base de l'analyse factorielle, elle a été créée
par HOTELLING (1933). C'est la méthode utilisée quand on ne
peut se ramener à un tableau de contingence.
411 Caractéristique
L'analyse concerne un tableau individus x variables xij (n
lignes, p colonnes).
Les variables sont quantitatives, continues, corrélées entre
elles deux à deux.
412 Objectif
Réduire les dimensions du tableau en déterminant de nouvelles
variables (les composantes principales), moins nombreuses (en
général deux ou trois), non corrélées, mais comprenant plus
d'informations (variance maximale) chacune que les variables
initiales.
Il s’agit d’exhiber les relations entre individus du fait de
leur proximité, entre variables du fait de leurs corrélations
et entre individus et variables. Cela permet d’identifier des
sous-ensembles
d'individus
classification.
413 Différents types
afin
de
constituer
une
16
l'analyse en composantes principales centrées, fondée sur la
matrice des variances-covariances empiriques
l'analyse en composantes principales normées. Cela revient à
centrer et réduire les variables initiales. En d’autres termes,
on utilise une métrique diagonale des inverses des variances.
L’analyse
est
fondée
sur
la
matrice
des
coefficients
de
corrélation linéaire.
l'analyse
factorielle
des
rangs
fondée
sur
la
matrice
des
coefficients de corrélation des rangs lorsque l’on fait plus
confiance aux rangs qu’aux valeurs
l’analyse
factorielle
sur
tableau
de
distance
ou
de
dissimilarités
414 Principe
On dispose d'un tableau qui représente un nuage de points de n
individus dans un espace (de variables) de dimension p.
On souhaite réduire l'espace des variables à un plan (dimension
2). Cela consiste à projeter les n individus sur un plan.
Or, la projection réduit les distances. Ce plan doit donc être
défini de façon telle, que les distances entre points soient le
mieux conservées. On cherche donc à rendre maximum la moyenne
des carrés des distances entre les projections.
M. MENOU / ANALYSE DE DONNEES
17
415 Méthode
La matrice des données [X] (n,p) est, selon le choix du type
d'analyse,
le
plus
souvent,
centrée
réduite.
En
effet,
le
centrage et la réduction permettent de gommer les effets taille
et unité des expressions de variables. Les distances entre des
individus caractérisés par des variables d’unités différentes
n’auraient pas de sens. Les longueurs des variables (leurs
normes) alors sont toutes égales à 1. L’extrémité des vecteurs
se trouve sur une sphère. Le cosinus de l’angle formé par 2
variables est égal au coefficient de corrélation linéaire entre
ces variables.
Cette matrice est ensuite pré-multipliée par sa transposée de
façon à obtenir une matrice [X’X] (p,p) de variance covariance
(également
centrées
matrice
réduites).
des
La
corrélations
somme
des
si
les
éléments
variables
de
la
sont
diagonale
principale (des variances), la trace par définition, représente
18
l'inertie du nuage de points. Si toutes les variables sont
réduites, leur variance commune est 1 et la somme des variances
est alors p. p représente l’information totale du nuage.
La matrice est alors diagonalisée. Les lignes et colonnes de
cette matrice correspondent à de nouvelles variables appelées
composantes
nouvelle
propres
principales.
diagonale
i
Du
fait
principale
classées
par
de
la
comprend
ordre
diagonalisation,
alors
décroissant.
les
p
La
trace
la
valeurs
est
conservée par cette transformation, mais les covariances sont
annulées car les composantes principales, concentrent toute
l'information. Les valeurs propres correspondent aux variances
des composantes principales.
Var (Ci) = i
Ces p composantes principales Ci s’expriment comme combinaison
linéaire des anciennes variables. Elles sont telles que la
somme
des
carrés
de
leurs
corrélations
avec
les
anciennes
variables soit maximum.
Ci  v i1 x1  vi 2 x2  ...  vip x p
où vi est le vecteur propre associé à i
Des
graphes
sont
alors
dessinés
croisant
les
composantes
principales 1 et 2 (voire 1 et 3 et/ou 2 et 3 etc.), tant pour
les
variables
que
pour
les
individus,
séparément
car
l’interprétation ne suit pas les mêmes principes. Les graphes
M. MENOU / ANALYSE DE DONNEES
19
des variables comprend le cercle des corrélations.
Cette
transformation
revient
à
déterminer
de
nouveaux
axes
orthogonaux, appelés facteurs (ou composantes), centrés sur le
point moyen. Ils sont engendrés par les vecteurs propres. Le
premier axe est celui qui correspond à la plus grande inertie.
Le second est choisi orthogonalement au premier et qui exprime
la plus grande inertie restante et ainsi de suite.
416 Interprétation
Les composantes principales constituent de nouvelles variables
(correspondant
à
de
nouveaux
concepts),
qu'il
s'agit
d'identifier. Ces variables sont non corrélées entre elles.
Elles
s'expriment
comme
des
combinaisons
linéaires
des
anciennes.
L'interprétation passe par plusieurs étapes :
. La matrice des corrélations des variables initiales permet de
voir si l'analyse peut être globalement possible. En effet, une
des conditions de mise en œuvre est que les variables initiales
soient corrélées, sinon, le nombre de dimensions ne peut-être
réduit.
On
ne
peut
résumer
que
ce
qui
est
partiellement
redondant et lié. Il faut donc qu’un maximum de valeurs de la
matrice des corrélations soient proches de 1 en valeur absolue.
Si toutes les corrélations sont positives c’est qu’il existe un
20
facteur taille, les individus peuvent être ordonnés.
. La qualité globale d'explication
Le pourcentage de variance expliquée par les axes factoriels
retenus
est
obtenu
par
la
somme
de
leurs
valeurs
propres
divisée par la trace. Cette valeur mesure la qualité globale de
la représentation.
i
x100
 i
Le nombre d'axes à retenir doit être tel, que ce pourcentage
cumulé soit supérieur ou égal à 75 %. Cette condition très
arbitraire n’a pour objectif que d’attirer l’attention sur la
significativité de l’analyse. En général, 3 axes maximum sont
retenus, car au-delà leur interprétation s'avère délicate. Pour
une ACP centrée réduite, il ne faut retenir que les valeurs
propres
signifie
supérieures
que
information
à
comme
égale
1
(critère
chaque
à
1
de
variable
(variance),
on
KAISER).
initiale
ne
Ce
critère
apporte
retient
que
une
les
composantes qui apportent au moins autant d’information que les
variables initiales.
Le critère du coude de CATTELL détecte le ralentissement dans
la décroissance des valeurs propres. En abscisse, on place les
numéros
de
valeur
propre
et,
en
ordonnée,
le
pourcentage
d’inertie expliquée. Quand ce pourcentage devient peu différent
entre les valeurs propres (après le coude) les axes ne sont
plus importants.
M. MENOU / ANALYSE DE DONNEES
21
On
peut
aussi
décider
de
ne
conserver
que
les
axes
qui
restituent une proportion d’inertie supérieure à k (entier égal
à 2 ou 3) fois 100/p, où p représente le nombre de variable
observées. Un axe qui correspond à un faible taux d’inertie
peut cependant être pertinent.
. Les corrélations entre les axes factoriels et les variables
initiales indiquent la qualité de représentation de la variable
sur
l'axe.
Les
coordonnées
des
variables
sont
égales
aux
corrélations avec les axes. Plus une corrélation entre une
variable et un axe est forte, plus la variable est proche de
l’axe.
Il ne faut interpréter les axes qu'à partir des variables les
mieux représentées, c’est-à-dire celles dont la corrélation est
proche de 1 en valeur absolue. Autrement dit, les variables
bien
représentées
corrélations.
La
dans
le
proximité
plan
sont
entre
proche
points
du
cercle
variables
des
n'est
exploitable que si ces points sont proches de la circonférence
appelée cercle des corrélations (centre O et rayon 1).
La corrélation entre les variables de départ et la r ième
composante est :
2
1 n
r
v
Cir 


n i1
où vr est le vecteur propre associé à la r ième composante

Interprétation des axes factoriels par les points variables.
L'analyse
consiste
à
déterminer
la
signification
des
axes
22
factoriels.
Une ancienne variable a pour coordonnées le coefficient de
corrélation entre cette variable et la composante principale.
Les proximités des variables (bien représentées) avec les axes,
associées aux oppositions entre variables permettent de trouver
la
signification
des
nouvelles
variables.
Ces
proximités
indiquent leurs corrélations.
Ce n’est pas la distance au centre qu’il faut interpréter mais
les angles entre les variables et avec les axes. Des variables
qui forment un angle nul entre elles sont corrélées, celles qui
font
un
angle
droit
ne
sont
pas
corrélées,
et
celles
qui
présentent un angle plat sont corrélées négativement. Plus une
variable est corrélée avec un axe plus elle est proche de
celui-ci.
Lorsque les variables anciennes sont corrélées positivement
entre elles, le premier axe définit généralement un facteur
taille. Le deuxième axe différencie alors les individus de
taille semblable, c'est un facteur forme.
. Les corrélations entre les axes factoriels et les individus
suivent les mêmes principes. Une sélection, des individus les
mieux
représentés,
doit
l'interprétation
des
caractérisés
une
par
être
axes.
valeur
effectuée,
Les
pour
pour
individus
chaque
contribuer
qui
variable
à
étaient
d’origine
prennent maintenant une valeur pour chaque composante (nouvelle
variable). Pour visualiser la dispersion de ces valeurs (les
individus sont différents), on passe de la dimension p à la
M. MENOU / ANALYSE DE DONNEES
23
dimension
effectue
2
(ou
une
3
à
la
projection.
rigueur).
Cela
Or
projection
toute
signifie
que
l’on
déforme
les
distances qui se raccourcissent. Il ne faut retenir que les
distances
qui
ont
été
le
mieux
conservées.
Cette
qualité
ponctuelle de représentation est fournie, selon les logiciels
par : les contributions absolues, les contributions relatives
des points au facteur (CTR), les cosinus carrés (pour éviter
les
signes
négatifs)
des
projections
et
la
qualité
de
la
représentation (QLTr). Le cosinus carré est appelé contribution
relative du plan à l’individu. Plus un individu est proche du
plan plus l’angle est faible plus le cosinus carré est proche
de
1.
Les
contributions
absolues
expriment
l’importance
de
chaque individu dans la création des axes par rapport aux
autres individus.

g
La proximité sur le graphique peut correspondre à des individus
très différents par rapport aux variables initiales.
On compare donc le carré de la norme ( de la distance à
l’origine des axes) initial à celui après projection.
24
La qualité de représentation d’un individu i sur l’axe r est
mesurée par :
C 
 X 
r 2
i
p
j 1
où
2
ij
le
dénominateur
l’individu
variables
au
et
représente
centre
le
du
le
nuage
numérateur
le
carré
dans
la
carré
de
la
base
de
distance
des
la
de
anciennes
distance
de
l’individu i au centre du nuage suivant l’axe r.
L’individu est bien représenté si le numérateur est important
par rapport au dénominateur.
La contribution (dite absolue) de l’individu i à la variance de
l’axe est donnée par le rapport :
1 r 2
C 
n i
1 n
r 2
C



i
n i 1
où le dénominateur représente la variance expliquée par l’axe
r, et le numérateur la part de cette variance due à l’individu
i.
Si ce rapport est important, cela signifie que l’individu i
joue un rôle important dans la définition de l’axe.
. Interprétation des axes factoriels par les points individus.
Les
proximités
l'analyse
de
et
leurs
les
oppositions
points
communs,
entre
individus,
aident
aussi
à
par
la
compréhension des nouveaux axes. Les individus proches ont des
profils semblables (réponses voisines aux diverses questions).
Une analyse typologique peut préciser ces regroupements. Les
M. MENOU / ANALYSE DE DONNEES
25
individus placés au centre du graphique doivent être analysés
comme « moyens ».
417 Limites
L’analyse est sensible aux individus très différents. Pour ne
pas trop falsifier l’analyse, il est possible de les considérer
comme des individus supplémentaires.
L’interprétation doit être prudente, car les processus sousjacents
sont
représentations.
complexes,
ce
ne
sont
jamais
que
des
26
42 L'analyse factorielle des correspondances (AFC)
Travaux de J.-P. BENZECRI (1960).
421 Caractéristique
Cette méthode permet d'étudier la liaison entre les modalités
de deux variables qualitatives (correspondances). Comme toute
variable quantitative peut, par un codage, se ramener à une
variable qualitative, l'AFC permet de mettre en évidence des
liaisons
non
détectées
par
linéaires
le
entre
coefficient
variables
de
quantitatives
corrélation
non
linéaire.
L’objectif poursuivi est le même que pour l’ACP, à savoir,
réduire le nombre de dimensions pour permettre une meilleure
compréhension
de
phénomènes
noyés
dans
la
masse
des
informations.
Elle se ramène à une ACP effectuée avec une métrique spéciale,
celle
du
khi-deux,
sur
un
tableau
de
contingence
(Tableau
variable x variable). C'est une technique d'exploration des
tableaux (ou profils) croisés.
Les
représentations
graphiques
sont
relativement
faciles
à
interpréter.
422 Méthode
Cette méthode généralise le test d’indépendance du khi-deux.
La population est définie par deux variables qualitatives X (l
modalités) et Y (c modalités), ce qui permet d'obtenir deux
M. MENOU / ANALYSE DE DONNEES
27
représentations, deux nuages. Deux analyses duales équivalentes
sont alors possibles. Soit on s'intéresse aux profils ligne, ce
qui ramène à un tableau individu x variable, où les individus
sont
les
modalités
de
la
variable
X,
placée
en
lignes
et
affectés des poids ni./n...
Soit on s'intéresse aux profils colonne, ce qui ramène à un
tableau
individu
x
variable,
où
les
individus
sont
les
modalités de la variable Y, placée en colonne, affectés des
poids n.j/n... Il s'agit alors d'effectuer deux ACP : une sur
le tableau des profils lignes (l,l) une sur le tableau des
profils colonne (c,c) au lieu de la matrice des corrélations.
Ces deux ACP sont équivalentes.
Les valeurs propres et vecteurs propres résultant des 2 ACP
sont identiques.
I somme des
valeurs propres (en nombre : min(l,c)-1) mesure
l’information contenue dans les deux tableaux. Le produit de I
par
le
nombre
d’observations
n
est
égal
au
khi-deux.
L’information contenue dans un tableau de contingence est donc
d’autant
plus
grande
que
les
lignes
et
colonnes
sont
dépendantes.
Concrètement le tableau des effectifs nij est transformé en
tableau des fréquences fij.
Ce tableau est alors centré avant de permettre de calculer la
matrice de variance covariance.
Cette matrice est alors diagonalisée.
28
423 Interprétation
Il s’agit d’analyser case par case les contributions au khideux les plus élevées, puisque ce sont elles qui ont entraîné
le rejet de l’hypothèse d’indépendance.
L'interprétation passe par plusieurs étapes :
. La qualité globale d'explication
Le pourcentage de variance expliquée par les axes factoriels
retenus
est
obtenu
par
la
somme
de
leurs
valeurs
propres
divisée par la trace. Le nombre d'axes à retenir doit être tel,
que
ce
pourcentage
soit
supérieur
ou
égal
à
75
%
(nombre
arbitraire).
En
général,
3
axes
maximum
sont
retenus,
car
au-delà
l'interprétation s'avère délicate.
Les valeurs propres sont toutes inférieures ou égales à 1, donc
le critère de KAISER utilisé pour l’ACP ne peut être retenu.
Seule la méthode du coude de CATTELL peut être utilisée.
. Les contributions des points à l'inertie des axes (CTA) et la
contribution des axes à l'inertie d'un point (CTR) permettent
la sélection des éléments explicatifs. Les cosinus carrés des
projections indiquent ensuite la qualité de la représentation
(QLT).
Il
ne
faut
interpréter
les
axes
qu'à
partir
des
modalités les mieux représentées. Les proximités entre points
modalités ne sont exploitables que si ces points sont proches
de la périphérie.
M. MENOU / ANALYSE DE DONNEES
29
. L'analyse consiste à déterminer la signification des axes
factoriels.
associées
Les
aux
proximités
oppositions
des
modalités
entre
des
modalités,
deux
nuages,
permettent
de
trouver la signification des axes. La proximité entre deux
modalités
du
même
proximité
entre
nuage
deux
signifie
modalités
un
de
profil
similaire.
variables
La
différentes
signifie un même centre de gravité pour les individus possédant
les modalités des variables concernées.
L'interprétation graphique est favorisée par la dualité des
deux analyses qui permet de représenter les deux nuages de
façon superposée.
Parfois la forme des nuages rend plus rapide l'interprétation.
424 Remarque
L'analyse factorielle des correspondances revient à une analyse
canonique
appliquée
à
deux
tableaux
disjonctifs.
(Chaque
modalité de variable qualitative est remplacée par une variable
quantitative prenant les valeurs 0 et 1.)
30
43 L'analyse des correspondances multiples ACM
431 Caractéristique
GUTTMAN
(1941),
BURT
(1950)
Cette
analyse
constitue
une
généralisation de l'A.F.C. Les n individus sont caractérisés
par p variables qualitatives chacune ayant mi modalités. La
méthode
est
très
utile
pour
dépouiller
rapidement
un
questionnaire qui comprend notamment des réponses multiples. Si
celui-ci comprend des variables quantitatives, il suffit de les
transformer en variables qualitatives par découpage en classes.
Il s’agit d’appliquer une AFC à un tableau disjonctif complet.
Chaque
individu
modalités
d’individus
des
est
représenté
variables.
soit
5
fois
Il
plus
par
faut
les
indicatrices
alors
important
que
que
le
le
des
nombre
nombre
de
colonnes.
Il est aussi possible de traiter des variables à réponses
multiples.
432 Méthode
Le tableau croisé, dit tableau de BURT, est un tableau dont
chaque bloc constitutif est un tableau de contingence. Il est
traité comme pour une AFC.
On utilise les distances du khi-deux en tenant compte que le
tableau comprend des données binaires.
Les profils lignes sont obtenus en divisant chaque terme d’une
M. MENOU / ANALYSE DE DONNEES
31
ligne par le nombre de colonnes.
Le carré de la distance entre 2 individus i et j est :
2
Pki  Pk j 
m
d 2 (i, j) 
k 1
Pk
Les profils colonnes sont obtenus en divisant chaque terme
d’une colonne par la somme des termes de la colonne.
Le carré de la distance entre 2 profils colonnes i et j est :
P
n
i
k
d (i, j) 
2
2
 Pk
k 1
j

1
n
433 Interprétation
L'interprétation ne diffère pas de celle d'une A.F.C..
32
44 L’analyse factorielle des similarités (ou de dissimilarités) et des préférences
Analyse
d’un
tableau
des
dissimilarités
(ATD)
ou
Multi
Dimensional Scaling of similarities and preferences (MDS)
441 Caractéristiques :
On considère n objets repérés les uns par rapport aux autres
par un indice (dissimilarités ou distance). On dispose ainsi
d’un tableau carré symétrique de dimension n représentant les
distances entre ces objets. La diagonale principale est donc
occupée par des 0.
Ex : distances entre villes
Les
distances
estimations
souvent
peuvent
être
subjectives.
plutôt
que
des
des
Dans
mesures
ce
valeurs
dernier
objectives
cas,
métriques,
ou
des
on
préfère
des
valeurs
ordinales.
Les données représentent des similarités ou des préférences
(rangs).
Les distances sont données par un individu ou par la moyenne
des distances pour un groupe d’individus.
Les objets (unités statistiques ou les variables) sont définis
par un indice de dissimilarités ou de distance. On compare les
objets deux à deux à partir d’une liste de critères.
M. MENOU / ANALYSE DE DONNEES
33
Un
indice
de
dissimilarité
est
une
fonction
mesurant
des
différences et vérifiant des propriétés :

La dissimilarité est d’autant plus grande que les objets
sont différents

La dissimilarité entre 2 objets i et j est positive ou nulle

La dissimilarité entre un objet et lui-même est nulle

La dissimilarité entre les objets i et j est égale à la
dissimilarité entre les objets j et i.
442 Objectif
Représentation, sous forme graphique, d’un ensemble d’objets en
fonction de leurs distances (dimensions cachées). On cherche
une représentation de ces n objets dans un espace de nombre de
dimensions le plus faible possible.
Mais, si pour des villes la carte existe, il n’est pas certain
que pour des objets ce soit le cas. Par ailleurs, il y a des
risques que pour placer tous les objets on soit obligé de
multiplier les dimensions.
En
marketing,
positionnement
on
des
se
sert
produits
de
et
cette
la
méthode
conception
de
pour
le
nouveaux
produits.
443 Méthode :
A partir du tableau de distances, on dresse un second tableau,
34
carré symétrique des produits scalaires de chaque couple de
vecteurs. C’est la matrice de variances/covariances du nuage.
La méthode consiste, alors, à diagonaliser cette matrice dite
de
TORGERSON.
Les
valeurs
points
sont
propres
sont
ordonnées
en
ordre
décroissant.
Si
tous
les
dans
le
plan,
toutes
les
valeurs
propres sont nulles sauf les 2 premières. Il arrive cependant
que certaines valeurs propres soient négatives, dans ce cas, la
représentation est impossible.
La méthode détermine des axes, la carte perceptuelle, situant
les
objets
les
uns
par
rapport
aux
autres.
Ces
axes
correspondent à la dispersion maximale des objets.
444 Interprétation :
L’interprétation se fait grâce au graphique, par les proximités
et les écarts entre objets.
L’évaluation de la qualité de représentation se fait à l’aide
de deux indices : le stress et le R2.

Le
Stress
exprime
en
pourcentage
le
respect
de
l’ordre
initial de classement des objets.
Si l’ordre est respecté le stress est nul.

R2 représente le carré du coefficient de corrélation entre
M. MENOU / ANALYSE DE DONNEES
35
les distances (ou similarités sous forme de rangs) de départ
et les distances recalculées.
Un R2 proche de 1 indique un bon ajustement.
36
45 L'analyse discriminante (AFD)
Travaux de FISHER (1936) et MAHALANOBIS (1936).
451 Objectifs
On cherche à décrire et à classer des individus caractérisés
par un grand nombre de variables. Il s’agit de déterminer les
variables qui distinguent le mieux les groupes d’individus.
452 Caractéristique
Il
s’agit
de
mettre
en
évidence
les
relations
entre
une
variable qualitative Y à expliquer et un ensemble important de
variables quantitatives explicatives. On dispose d'un tableau
individus x variables. (n individus, p variables Xi)
Le nombre de variables explicatives doit être très inférieur au
nombre d’individus.
La variable qualitative Y prenant q modalités, elle réalise une
partition de l'ensemble des individus. L’objectif est d'être
capable d’affecter, dans un deuxième temps, dans chaque classe,
de
nouveaux
individus,
grâce
à
la
fonction
discriminante
préalablement constituée.
La
première
discriminante
étape
à
consiste
partir
des
donc
à
préciser
observations
la
des
fonction
variables
quantitatives. De nouvelles variables doivent être déterminées,
de sorte que les q groupes soient séparés le mieux possible,
c’est-à-dire distinguables sans ambiguïté.
Les coefficients de la fonction estimée (dite discriminante),
M. MENOU / ANALYSE DE DONNEES
37
sur l'ensemble partitionné d'individus, permettent par la suite
de faire des prévisions pour caractériser la modalité de la
variable à expliquer. Le challenge consiste à réduire le nombre
de variables quantitatives à considérer.
Cette méthode est utilisée pour la reconnaissance de formes,
l’appartenance politique, le diagnostic en médecine, etc.
453 Méthode
Il s'agit de déterminer les q combinaisons linéaires, appelées
variables
discriminantes,
non
corrélées
entre
elles,
des
variables quantitatives explicatives qui séparent au mieux les
classes déjà définies. Les valeurs prises par ces nouvelles
variables, pour les individus d’une même classe, doivent être
les plus concentrées possibles et les valeurs prises par ces
mêmes variables, pour des individus de classes différentes, les
plus dispersées possibles.
A
A
A
A
B
A
B
B
B
B
B
38
Les projections des points sur l’axe ont une abscisse positive
pour le groupe des B et une abscisse négative pour le groupe
des A.
Pour chaque individu i, on calcule une fonction u(i) (nouvelle
variable) combinaison des p variables quantitatives centrées.
La variance de cette variable u (u'Tu) se décompose en variance
intra-classes et variance inter-classes (théorème de HUYGENS).
Il faut chercher u tel, que la variance interne (u'Du) soit
minimale et la variance externe (u'Eu) maximale.
Cela se traduit par rendre maximal le rapport Vext/Vint ou
(Vext/Vtot) ou minimal Vint/Vext ou (Vtot/Vext). En pratique,
on cherche à rendre maximum u'Eu sous la contrainte u'Du = 1.
Les multiplicateurs de LAGRANGE permettent la résolution de
cette méthode d'optimisation. L = u'Eu -  (u'Du - 1)
L'annulation de la dérivée par rapport à u :
2 (Eu -

Du) = 0
La résolution de l'équation donne D-1 Eu =

u
u est donc vecteur propre de D-1E, le vecteur choisi sera celui
correspondant à la plus grande valeur propre.
Cela revient donc à effectuer une ACP sur le nuage des centres
de gravité des classes avec la métrique de MAHALANOBIS.
La distance de MAHALANOBIS entre deux vecteurs est définie
par :
d2 (u,v) = (u-v)’ D-1 (u-v)
M. MENOU / ANALYSE DE DONNEES
39
où D-1 est la matrice des variances covariances intra-classes.
Pour réduire le coût de l'analyse, il convient de limiter le
nombre
de
variables
explicatives
soit
par
une
analyse
en
composantes principales préalable, soit par la démarche du pas
à pas.
Le passage par l'analyse en composantes principales consiste
dans la pratique de l'ACP des centres
de gravité des classes.
La démarche pas à pas revient à choisir successivement des
variables en prenant celles qui maximisent la trace de D-1 E ou
celles qui maximisent le pourcentage de bien classés.
Il est possible de pratiquer une analyse discriminante sur des
variables
qualitatives
en
transformant
les
modalités
des
variables qualitatives en variables binaires.
454 Interprétation
La valeur des valeurs propres exprime le pouvoir discriminant
des
facteurs.
Si
la
valeur
propre
est
égale
à
1,
la
discrimination est parfaite
On retient un nombre de facteurs tels que la variance expliquée
(somme
des
valeurs
propres
retenues
sur
somme
totale
des
valeurs propres) soit convenable.
L'interprétation des facteurs peut s'effectuer par l'analyse
des corrélations entre facteurs et variables comme en ACP.
Le graphique des individus sur les axes discriminants permet de
40
visualiser quel axe discrimine quels groupes.
Le
logiciel
indique
aussi
le
pourcentage
d’individus
bien
classés.
Après
avoir
précisé
la
fonction
discriminante,
il
est
préférable de l’appliquer à un deuxième ensemble d’observations
pour voir si les affectations aux classes sont correctes avant
de procéder à des prévisions sur de nouveaux individus dont on
ignore l’appartenance aux classes.
Les règles d’affectation sont multiples.

La règle géométrique consiste à affecter l’individu à la
classe dont la moyenne est la plus proche selon la distance
de MAHALANOBIS. Mais, cette règle conduit à des affectations
erronées si les effectifs des classes sont très différents.

La règle probabiliste considère que l’on doit affecter un
individu à la classe dont la distribution de probabilité,
supposée normale, de l’appartenance de cet individu est la
plus forte. A priori chaque classe a la même probabilité de
comprendre l’individu. Mais, ces probabilités sont révisées
ensuite en fonction de la taille du groupe.
455 Remarques : comparaisons avec les autres techniques
L'analyse discriminante est une régression sur une variable
qualitative.
L'analyse discriminante n'est pas une méthode de classification
automatique, puisque la partition existe, mais, de mise en
M. MENOU / ANALYSE DE DONNEES
41
évidence de cette partition.
42
46 L’analyse des mesures conjointes
461 Objectif
Mesurer l’effet conjoint de plusieurs variables (explicatives)
indépendantes qualitatives xi sur l’ordre des valeurs prises
par une variable (à expliquer) dépendante qualitative y. On
cherche quelles variables conduisent à un classement donné.
462 Caractéristiques
On dispose de plusieurs variables explicatives indépendantes
(éventuellement nominales transformées en binaires) ayant des
valeurs ordonnées.
463 Méthode
Il
s’agit
de
transformer
la
variable
à
expliquer
en
une
fonction monotone (1,2,3,4, …)
On utilise généralement la méthode d’analyse monotone de la
variance.
La
variable
à
expliquer
s’exprime
variables selon un modèle additif.
M. MENOU / ANALYSE DE DONNEES
en
fonction
des
autres
43
47 L'analyse canonique
471 Caractéristique
On dispose d'un tableau individus x variables (quantitatives
réparties en deux groupes de dimension p et q). Cette méthode
permet
de
déterminer
si
les
deux
ensembles
de
variables
mesurent les mêmes propriétés. En d’autres termes, la méthode
mesure la liaison globale entre deux ensembles de variables.
Peu utilisée en soi, cette analyse décrit une démarche générale
qui se retrouve dans d'autres méthodes (AFC, AFDiscriminante).
Si un ensemble ne comprend qu’une variable, on a affaire à une
régression
multiple.
Si
de
plus
les
autres
variables
sont
catégorisées, c’est une analyse de variance.
472 Méthode
L'on recherche la combinaison linéaire du premier groupe de
variables et la combinaison linéaire du deuxième groupe de
variables qui maximisent le carré de leur corrélation. Cela
revient à trouver deux vecteurs u et v (variables canoniques)
formant un angle minimum.
Les corrélations les plus fortes exhibent les variables qui
contribuent le plus à la liaison des deux groupes. Les couples
à faible corrélation correspondent à des variables spécifiques
à chaque ensemble.
44
Géométriquement, la méthode consiste à rechercher les lignes de
plus grandes pentes de 2 sous-espaces W1 et W2.
W2
v
u
W1
473 Interprétation
Si les 2 ensembles de variables que l’on peut construire par
combinaison linéaire de chaque groupe sont confondus (angle
nul), on peut se contenter d’un seul ensemble de variables. Si
les 2 ensembles sont orthogonaux (angle droit) cela signifie
que les deux ensembles décrivent des phénomènes différents.
Il faut analyser les corrélations entre variables initiales et
variables canoniques.
474 Extension
M. MENOU / ANALYSE DE DONNEES
45
Il est possible d’appliquer la méthode à plus de deux
ensembles.
Il est également possible de travailler avec des variables
qualitatives. Il suffit de considérer chaque modalité comme une
variable binaire.
46
5 Les méthodes de classification, de typologie ou de taxinomie
Ces
méthodes
visent
à
répartir
les
individus
en
classes
(groupes, segments, clusters, types) homogènes.
L’homogénéité est mesurée par la distance euclidienne usuelle.
Ces
méthodes
se
répartissent
en
deux
catégories
les
non
hiérarchiques et les hiérarchiques.
Les méthodes non hiérarchiques déterminent des partitions.
Les méthodes hiérarchiques déterminent des suites de partitions
emboîtées en classes de plus en plus larges.
Les tableaux utilisés sont :
des tableaux de distances entre individus
des tableaux de dissimilarités entre individus
des tableaux individus x caractères numériques
des tableaux des coordonnées factorielles d'une analyse des
correspondances
M. MENOU / ANALYSE DE DONNEES
47
51 L'analyse non hiérarchique
511 Objectifs
Ces méthodes cherchent à établir une partition des individus en
classes. Les individus regroupés dans une classe doivent être
les plus semblables possibles entre eux et les classes les plus
séparées possibles afin de pouvoir les identifier.
Bien sûr, le problème ne se pose que lorsque l’on a affaire à
une population caractérisée par plusieurs variables.
Cependant, il y a peu de chances que des classes existent
nettement.
Il est donc difficile de prouver l’existence de classes ou de
montrer
l’efficacité
d’une
méthode
basant sur des classes connues.
de
classification
en
se
48
Un
autre
problème
concerne
la
détermination
du
nombre
de
classes.
Pour un ensemble donné, le nombre de partitions concevables
étant très important, il faut définir une méthode. Il est en
effet
impossible,
en
pratique,
de
procéder
par
simple
sélection, selon un critère, dans l’ensemble de tous les cas
possibles. Concrètement, il est conseillé de faire plusieurs
essais et de choisir celui qui s’interprète le plus facilement.
Un seuil de regroupement est défini correspondant à la distance
maximum acceptable pour rassembler deux individus.
512 Méthode :
Il existe plusieurs méthodes de partitionnement : les méthodes
basées
sur
l’inertie,
et
celles
basées
sur
les
relations
p
variables)
d’équivalence.
5121 Les méthodes basées sur l’inertie
Le
nuage
de
n
points
de
IRp
(n
individus,
représentant la population est divisée en plusieurs (k) sousnuages (ou classes). La distance considérée entre les individus
est évaluée par une distance euclidienne. Chaque sous-nuage
M. MENOU / ANALYSE DE DONNEES
49
doit, pour être le plus homogène, avoir le moins d'inertie
intra-classes. L'inertie de chaque classe (ou intra-classes)
est la moyenne des carrés des distances des points au centre de
gravité. La somme des inerties des sous-nuages dite intraclasse doit être la plus petite possible.
En revanche, il faut que la dispersion des centres de gravité
de
chaque
l'ensemble,
sous-nuage
l'inertie
par
rapport
au
inter-classes,
centre
soit
de
la
gravité
plus
de
grande
possible.
L'inertie totale du nuage est la somme des inerties inter et
intra-classes.
Maximiser l'inertie inter-classes, c'est minimiser l'inertie
intra, puisque leur somme est constante.
Il convient de définir essentiellement un critère global de
proximité.
Méthode des centres mobiles (FORGY)
On définit k centres arbitraires (choisis au hasard), et on
regroupe les individus autour de ces centres selon leur plus
faible distance relative.
50
Cela revient à effectuer une partition en domaines polyédraux
convexes déterminés par les hyperplans médiateurs des centres.
Le centre de gravité de chaque groupe est alors calculé. On
regroupe les individus autour de ces nouveaux centres selon
leur moindre distance relative. On recommence l'algorithme, en
recalculant de nouveaux centres de gravité et, en reclassant
les individus jusqu'à ce que la qualité du partitionnement ne
s'améliore
plus.
intra-classe.
Cette
qualité
L’algorithme
étant
converge,
mesurée
selon
le
par
l'inertie
théorème
de
HUYGENS, après un petit nombre d’itérations, vers l’inertie
intra minimale. Le critère d’arrêt peut être fixé par un nombre
maximal d’itérations ou par un seuil de variations.
La méthode peut être utilisée pour des données qualitatives à
conditions de prendre les coordonnées factorielles.
M. MENOU / ANALYSE DE DONNEES
51
L'inconvénient
de
cette
méthode
est
que
le
résultat
est
dépendant de la partition de départ.
Un autre problème peut provenir de classes vides, car cela
réduit le nombre de classes.
Méthode des nuées dynamiques
E.
DIDAY
généralise
la
méthode
des
centres
mobiles
en
définissant chaque classe par q individus (les plus centraux)
constituant le noyau (au lieu de son seul centre de gravité).
Partant de k noyaux, on répartit les individus autour de ces
noyaux. On recalcule de nouveaux noyaux, plus représentatifs
des classes ainsi formées, jusqu'à ce que la qualité de la
partition ne s'améliore plus.
Comme la partition finale peut dépendre du choix des noyaux de
départ, il est nécessaire de recommencer l’opération avec des
conditions initiales différentes plusieurs fois. Les éléments
regroupés dans plusieurs partitions finales sont appelés formes
fortes.
La méthode des k-means (Mac QUEEN)
Cette méthode procède comme celle des centres mobiles, sauf
que, les centres sont recalculés après l’affectation de chaque
point.
52
5122 Les méthodes basées sur les relations d’équivalence
F.
MARCOTORCHINO
et
P.
MICHAUD
ont
élaboré
des
méthodes
applicables aux variables qualitatives ne nécessitant pas la
détermination du nombre de classes a priori.
Le
principe
repose
sur
le
fait
qu’une
partition
est
une
relation binaire d’équivalence. Toute variable qualitative à m
modalités permet une partition des individus en m classes. Les
individus d’une même classe sont équivalents. Si la relation
d’équivalence  est représentée par un tableau tel que :
cij = 1 si la relation est vérifiée et cij = 0 sinon alors Cii =
1
(réflexivité) Cij = Cji (symétrie) Cij + Cjk - Cik  1.
La méthode consiste alors à trouver une matrice C qui respecte
les conditions précédentes.
Si on dispose de p variables qui ont respectivement m1, m2,
..., mp modalités, on dispose de p partitions.
Le
problème
est
donc
de
trouver
un
compromis
entre
ces
p
partitions.
513 Interprétation :
Il faut donner un nom aux classes obtenues et pouvoir les
décrire.
On
peut
identifier
M. MENOU / ANALYSE DE DONNEES
plus
facilement
les
groupes
les
plus
53
homogènes.
On utilise les variables initiales. On calcule pour chacune le
rapport de la variance inter sur la variance totale et on ne
retient que celles qui ont une valeur proche de 1.
L’interprétation peut être déduite de la position relative des
classes. On compare pour cela les moyennes des variables de
chaque classe en tenant compte de leurs écarts type. Plus
l’écart type est faible plus la comparaison est valable.
On peut représenter graphiquement les individus, différenciés
selon
la
classe,
pour
les
variables
importantes
de
la
classification prise deux par deux.
514 Limites
Les méthodes décrites n’aboutissent qu’à des optimums locaux
dépendant de la partition initiale.
515 Comparaison avec les autres méthodes :
La classification permet d’effectuer à la suite une AFD. Si
celle-ci est correcte c’est que la typologie est intéressante.
52 L'analyse hiérarchique
L'analyse hiérarchique se partage entre méthodes ascendantes et
54
descendantes. Les méthodes descendantes sont peu usitées.
Les méthodes d'analyse hiérarchique descendantes partent de la
population globale pour aller vers les individus.
Les
méthodes
définir
des
d'analyse
ensembles
hiérarchique
de
ascendante
partitions,
de
cherchent
nombre
de
à
classes
décroissant, emboîtées les unes dans les autres. Partant d'une
partition en n classes, d'un élément chacune ( n étant le
nombre d'individus), on cherche à regrouper, à chaque étape,
les deux classes les plus proches, jusqu'au regroupement en une
classe
comprenant
tous
les
individus.
Il
y
a
donc
n-2
partitions à déterminer.
Une
classification
dendrogramme,
ou
hiérarchique
arbre
de
est
représentée
classification,
ou
hiérarchique.
P1
M. MENOU / ANALYSE DE DONNEES
P2
par
un
arbre
55
P5 = a/b/c/d/e
P4 = a b/c/d/e
P3 = a b/c/d e
P2 = a b c/d e
P1 = a b c d e
L’indice de partition correspond à un indice d’agrégation.
A partir de l’arbre, les classes sont définies, en coupant
l’arbre à un certain niveau, on examine alors les branches qui
tombent.
Généralement, une échelle sur le côté permet de déterminer
l’éloignement des groupes les uns par rapport aux autres. C’est
une moyenne des distances entre individus de l’un des groupes
et ceux de l’autre.
Les nœuds sont à une hauteur proportionnelle à l’inertie inter
perdue du fait de la fusion.
56
Les
méthodes
se
distinguent
selon
le
choix
du
critère
de
regroupement de deux classes.
Méthode de WARD
Le critère choisi est celui de l’inertie.
Cette méthode est aussi appelée méthode du moment d’ordre deux.
Caractéristique
On
considère
quantitatives,
n
individus,
caractérisés
par
p
variables
dont on évalue la proximité par une distance
euclidienne.
Méthode
Au départ chaque individu forme une classe. L’inertie interclasses est alors égale à l’inertie totale. L’inertie totale
est la moyenne des carrés des distances des individus au centre
du
nuage.
d'éléments
Il
s'agit
d'une
ensuite
partition
de
diminuer
jusqu'à
de
l'obtention
un
le
d'une
nombre
seule
classe comprenant tous les éléments. L’inertie inter-classes
est alors nulle. Il faut donc réunir les deux classes (les plus
proches) pour lesquelles la perte d'inertie est la plus faible.
On agrége donc les individus qui font le moins varier l’inertie
intra-classes. A chaque étape, on calcule l’indice du rapport
M. MENOU / ANALYSE DE DONNEES
57
de l’inertie inter-classes à l’inertie totale.
Lorsque
l’on
regroupe
2
classes,
l’inertie
inter-classes
diminue.
Cette diminution est mesurée par le critère d’agrégation de
Ward.
Pour le regroupement des classes i et j :
ni n j
d 2 (gi ,g j )
n(ni  n j )
n correspond à l’effectif
g au centre de gravité
Le carré de la distance est obtenu en faisant la somme des
rapports, pour chaque variable, du carré de la différence entre
les valeurs des 2 individus et de la variance.
On regroupe donc les deux classes qui minimisent le critère de
Ward.
Interprétation
Le critère de Ward cumulé à partir de la dernière itération
permet de calculer les inerties expliquées par les différentes
partitions successives. En divisant ces totaux par le nombre de
variables, on obtient la part d’inertie expliquée. On retient
une typologie en c classes lorsque la part d’inertie expliquée
augmente peu en ajoutant une classe supplémentaire.
La
partition
est
d’autant
meilleure
que
les
groupes
sont
homogènes. Cela se traduit par une inertie intra-classes faible
et une inertie inter-classes forte.
58
L’analyse
hiérarchique
est
souvent
associée
à
une
ACP.
L’interprétation est facilitée par le tracé des classes sur le
graphe du plan des composantes principales. Si les individus
sont trop nombreux, pour être tous représentés, ce sont les
centres de gravité des classes qui sont reportés.
Autres Méthodes
Les autres méthodes s’appliquent lorsque les distances ne sont
pas euclidiennes.
Plusieurs distances peuvent être envisagées. Parmi elles :

Distance du saut minimal (ou de l’inf)
A et B étant deux classes les ei, ej des individus
d(A,B) = inf d(ei,ej) pour ei  A

ej
 B
Distance du diamètre (ou du sup)
d(A,B) = sup d(ei,ej)

Distance moyenne
1
d(A, B) =
  d(ei, ej) PA PB le poids de chaque classe
PA PB i j
Ces méthodes donnent des résultats différents
M. MENOU / ANALYSE DE DONNEES
59
logiciels
ALCESTE
ADDAD
ANACONDA
BMDP
CHADOC VS
CSS
DBASE STATS
DESTIN
EOLE 3
EXECUSTAT
EyeLID
FLASH
FUTURMASTER
GLADYS
ITEM
LADDAD
LEAS
LE SPHINX
LIDE +
LTSM
MODALISA
MINITAB
NCSS
PCSM
PRECIS
QUADEOLE
QUEST
QUESTION
R
S+
SAS
SIMCA-P
SOLO
SPAD
SPSS PC
STATBOX
STATGRAPHICS
STATISTICA
STAT ITCF
STATLAB
STATVIEW
SYNTHESE 2
SYSTAT
UNISTAT
TRI-DEUX
VESTAL
60
Bibliographie
AAKER D. A., Multivariate analysis in marketing, Wadsworth,
1971.
ANTOINE J., Le sondage outil du marketing, Dunod, 1986.
AURAY DURU ZIGHED, Analyse des données multidimensionnelles,
tome 1 : les méthodes descriptives, Editions A. Lacassagne,
1991.
AURAY DURU, Analyse des données multidimensionnelles, tome 3 :
les méthodes explicatives, Editions A. Lacassagne, 1991.
AVENEL M. RIFFAULT J.-F.,
gestion, Foucher, 2005.
Mathématiques
appliquées
BAIR J., Algèbre linéaire pour l’économie
sociales, De Boeck Université, 1984.
et
les
à
la
sciences
BASTIN C. et Alii, Pratique de l’analyse des données, Dunod,
1980.
BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.-P., Guide de
l’analyse statistique de données avec SPSS 6, Slatkine, 1996.
BENZECRI J.-P., L'analyse des données, T1 La taxinomie, Dunod,
1979.
BENZECRI J.-P., L'analyse des
correspondances, Dunod, 1982.
données,
T2
L'analyse
des
BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse des
données, T1 Analyse des correspondances. Exposé élémentaire,
Dunod, 1984.
BENZECRI J.-P. BENZECRI F., La Pratique
données, T 5 Economie, Dunod, 1980.
de
l'analyse
des
BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique de
l'analyse des données, T2 Abrégé théorique, études de cas de
modèle, Dunod, 1980.
BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique de
l'analyse des données, T 3 Linguistique et lexicologie, Dunod,
1981.
BENZECRI J.-P., Correspondance Analysis Handbook, Marcel Dekker
Inc., 1992.
M. MENOU / ANALYSE DE DONNEES
61
BERTIER
P.
BOUROCHE
J.-M.,
multidimensionnelles, P.U.F., 1977.
Analyse
des
données
BERTRAND R., Pratique de l’analyse statistique des données,
Presses de l’Université de Québec, 1986.
BIALES C., L'analyse statistique des données, Chotard, 1988.
BOUROCHE J.-M. SAPORTA G., L'analyse des données, P.U.F., 1980.
BOUROCHE J.-M., Analyse des données en marketing, Masson, 1977.
BRY X., Analyses factorielles simples, Economica, 1995.
CAILLIEZ F. PAGES J.-P., Introduction à l'analyse des données,
Smash, 1976.
CASIN P., Analyse des données et des panels de données, De
Boeck Université, 1999.
CEHESSAT R., Exercices commentés de statistique et informatique
appliquée, Dunod, 1981.
CELEUX G. DIDAY E. GOVAERT G. LECHEVALLIER Y. RALAMBONDRAINY
H., Classification automatique des données. Environnement
statistique et informatique, Dunod.
Cereq, Bref 84, Fev 1993.
CHANDON J.-L. PINSON S., Analyse typologique, Masson, 1980.
CHANDON J.-L., L'Analyse de données dans les sciences
gestion, Encyclopédie du management 2, Vuibert, 1980.
de
CIARLET P.-G., Introduction à l’analyse numérique matricielle
et à l’optimisation, Dunod, 1982.
CIBOIS P., L'analyse factorielle, P.U.F., 1983.
CIBOIS P., L'analyse des données en sociologie, P.U.F., 1984.
CRAUSER J.-P. HARVATOPOULOS Y. SARNIN P., Guide
d'analyse des données, Editions d'Organisation, 1989.
pratique
DAGNELIE P., Analyse statistique à plusieurs variables, Presses
agronomiques de Grembloux, 1975.
DAGNELIE P., Statistique descriptive et base de l’inférence
statistique, De Boeck Université, 1998.
DAVIDSON M. L., Multivariate scaling, Wiley and Sons, 1983.
DIDAY E., Optimisation en classification automatique, INRIA,
1979
62
DIDAY E. LEMAIRE J. POUGET J. TESTU F., Eléments d'analyse de
données, Dunod, 1985.
DOISE CLEMENCE, Représentation
données, P. U. Grenoble.
ESCOFFIER
B.
PAGES
J.,
quantitatifs, Masson, 1988.
sociologique
Analyse
conjointe
et
analyse
de
de
tableaux
ESCOFFIER B. PAGES J., Analyse factorielles simples et
multiples. Objectifs, méthodes et interprétations, Dunod, 1998.
EVRARD Y. LEMAIRE P., Information et décision en marketing,
Dalloz, 1976.
EVRARD Y. PRAS RAUX, Etudes et recherches en marketing, Nathan,
19.
FALISSARD B., Comprendre et utiliser les statistiques dans les
sciences de la vie, Masson, 1996.
FENELON J.-P., Qu'est-ce que l'analyse des données, Lefonen,
1981.
FOUCART T., Analyse factorielle de tableaux multiples, Masson,
1984.
FOUCART T., Analyse factorielle. Programmation sur
ordinateurs avec nouveaux programmes, Masson, 1985.
FOUCART T., L’analyse des données.
Universitaires de Rennes, 1997.
Mode
d’emploi,
microPresses
GENINET B., Mathématiques et statistiques générales appliquées
au marketing, Economica, 1986.
GORDON A.-D., Classification, Chapmann and Hall, 1981.
GRANGE D. LEBART L., Traitements statistiques des enquêtes,
Dunod, 1994.
GUIGOU J.-L., Méthodologies multidimensionnelles : Analyse des
données et choix à critères multiples, Dunod, 1977.
HAIR J. F. ANDERSON R.E.
analysis, Macmillan, 1987.
TATHAM
R.L.,
Multivariate
data
HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., L’art de l’enquête,
Editions Eyrolles, 1989.
HERMAN J.,
d'enquêtes,
1986.
Analyse de données qualitatives. T1 Traitement
échantillon, répartitions, associations, Masson,
M. MENOU / ANALYSE DE DONNEES
63
HERMAN J., Analyse de données qualitatives.
d'enquêtes. Modèles multivariés, Masson, 1990.
T2
Traitement
IDRISS, Algèbre linéaire. Probabilité mathématique. Initiation
à l'analyse des données, Ellipses.
JAMBU M., Exploration informatique et statistique des données,
Dunod, 1989.
JAMBU M. LEBEAUX M.-O., Classification automatique pour
l'analyse des données. T1 Méthodes et algorithmes, Dunod, 1979.
JAMBU M. LEBEAUX M.-O., Classification automatique
l'analyse des données. T2 Logiciels, Dunod, 1979.
pour
JAMBU M., Méthodes de base de l’analyse des données, Eyrolles
et France Télécom-Cnet, 1999.
JARDINE N. SIBSON R., Mathematical Taxonomy, Wiley, 1971.
JULIEN A.,
30/06/72.
Analyse
de
données
multidimensionnelles,
Thèse,
KENDALL M.-G. STUART A., The advance Theory of Statistics, T1,
Griffin 1977.
KENDALL M.-G. STUART A., The advance Theory of Statistics, T2,
Griffin 1973.
KENDALL M.-G. STUART A., The advance Theory of Statistics, T3,
Griffin 1976.
LAGARDE J. (de), Initiation à l'analyse de données, Dunod,
1983.
LAMBERT D. C., 19 Amériques latines, Economica, 1984.
LAMBIN J.-J., La recherche
Prévoir, McGraw Hill, 1990.
marketing.
LAPIN
L.L.,
Statistique
d’Organisation, 1987.
de
Analyser,
gestion,
Les
mesurer,
Editions
LAVIT Ch., Analyse conjointe de tableaux quantitatifs, Dunod,
1988.
LEBART
L.
FENELON
J.-P.,
appliquées, Dunod, 1971.
Statistiques
et
informatique
LEBART L. MORINEAU A. FENELON J.-P., Traitement des données
statistiques. Méthodes et programmes, Dunod, 1979.
LEBART
L.
MORINEAU
A.
PIRON
M.,
Statistique
exploratoire
64
multidimensionnelle, Dunod, 1997.
LEBART L. MORINEAU A., SPAD, Système portable pour l'analyse
des données, CESIA, 1985.
LEBART L. MORINEAU A. TABARD N., Techniques de la description
statistique. Méthodes et logiciels pour l'analyse des grands
tableaux, Dunod, 1986.
LEBART L. SALEM A., Analyse statistique des données textuelles,
Dunod, 1994.
LEFEBVRE
J.,
Introduction
aux
multidimensionnelles, Masson, 1976.
analyses
statistiques
LERMAN I.-C., Classification et analyse ordinale des données,
Dunod, 1981.
Les cahiers de l'analyse des données, DUNOD, Depuis 1976.
MAKRIDAKIS
S.
WINKLER
R.L.
DESPLAS
M.,
Programmes
statistique interactifs, Les Editions d’organisation, 1988.
de
MARCOTORCHINO J.F. MICHAUD P., Optimisation en analyse ordinale
des données, Masson, 1979.
MASSON M., Méthodologies générales du traitement statistique de
l'information de masse, Cédic-Nathan, 1980.
Mathématiques en sciences humaines 11ème année, n˚44, 1973, p.
5.34.
Mathématiques en sciences humaines 12ème année, n˚45, 1974, p.
5.28.
MOORE D. McCABE G.-P., Introduction
Statistics, Freeemann, 1993.
to
the
Practice
of
MORICE E. CHARTIER F., Méthode statistique, INSEE, 1954.
MORRISON D.F., Multivariate statistical methods, MacGraw-Hill,
1990.
MOSCAROLA J., Enquêtes et analyses des données avec le sphinx,
Vuibert, 1995.
NAKACHE J.-P. CHEVALIER A. MORICE V., Exercices commentés de
mathématiques pour l'analyse des données, Dunod, 1981.
PONTIER, Le modèle euclidien en analyse de données, Ellipses.
PUPION P.-C., Statistiques pour la gestion. Applications avec
Excel et SPSS, Dunod, 2004.
M. MENOU / ANALYSE DE DONNEES
65
ROMEDER J.-M., Méthodes et programmes d'analyse discriminante,
Dunod, 1973.
ROUANET
H.
LE
ROUX
B.,
multidimensionnelles, Dunod, 1992.
Ananlyse
des
données
SAPORTA B., Marketing industriel, Eyrolles, 1992.
SAPORTA G., Théorie et méthode de la statistique, Technip,
1978.
SAPORTA G., Probabilités, analyse des données et statistique,
Technip, 1990.
SIMON C. BLUME L., Mathématiques pour économistes, De Boeck
Université, 1998.
TENENHAUS M., Statistique. Méthodes pour décrire, expliquer et
prévoir, Dunod, 2007.
TENENHAUS M., Méthodes statistiques en gestion, Dunod, 1994.
(HD 30.25 1025)
VEDRINE J.-P., Le traitement des données en marketing, Les
éditions d'organisation, 1991.
VOLLE M., Analyse des données, Economica, 1997.
Téléchargement