Telechargé par Med Fatiho

Les contraints des analyses factorielles

publicité
Espace géographique
L'analyse factorielle : ses contraintes mathématiques et ses limites
en géographie
André Dauphiné
Abstract
Factor analysis : its mathematical restrictions and its limitations in geography. — Factor analyses are used by the geographer to
discover hidden structures, and to achieve an objectivity which is difficult to attain with classical techniques. But the use of these
techniques is dependent on a long series of mathematical restraints and limitations peculiar to geography. New, less restrictive
models appear every year, facilitating the elimination of obstacles, but before proposing models, the geographer must be
acquainted with the imperfection of these techniques.
Résumé
Les analyses factorielles sont un moyen pour le géographe de découvrir des structures cachées, et de parvenir à une objectivité
difficilement atteinte par les techniques classiques. Mais l'emploi de ces techniques est soumis à une longue série de
contraintes mathématiques, et de limites propres à la science géographique. De nouveaux modèles moins contraignants
apparaissent chaque année, faisant disparaître des obstacles, mais avant de proposer des modèles factoriels, le géographeutilisateur doit connaître les imperfections de ces techniques.
Citer ce document / Cite this document :
Dauphiné André. L'analyse factorielle : ses contraintes mathématiques et ses limites en géographie. In: Espace géographique,
tome 2, n°1, 1973. pp. 74-80;
doi : https://doi.org/10.3406/spgeo.1973.1382
https://www.persee.fr/doc/spgeo_0046-2497_1973_num_2_1_1382
Fichier pdf généré le 03/01/2019
L'Espace géographique, n° 1, 1973, 74-80.
Doin, 8, place de l'Odéon, Paris-VIe.
Méthodes d'analyse
L'ANALYSE
FACTORIELLE :
SES CONTRAINTES MATHÉMATIQUES
ET SES LIMITES EN GÉOGRAPHIE
André DA UPHINÉ
Laboratoire Raoul Blanchard, Université de Nice
RESUME. Les analyses factorielles sont un moyen pour le géographe de découvrir des structures cachées, et de parvenir
à une objectivité difficilement atteinte par les techniques classiques. Mais l'emploi de ces techniques est soumis à une
longue série de contraintes mathématiques, et de limites propres à la science géographique. De nouveaux modèles moins
contraignants apparaissent chaque année, faisant disparaître des obstacles, mais avant de proposer des modèles factoriels,
le géographe-utilisateur doit connaître les imperfections de ces techniques.
ABSTRACT. Factor analysis : its mathematical restrictions and its limitations in geography. — Factor analyses are used
by the geographer to discover hidden structures, and to achieve an objectivity which is difficult to attain with classical
techniques. But the use of these techniques is dependent on a long series of mathematical restraints and limitations peculiar
to geography. New, less restrictive models appear every year, facilitating the elimination of obstacles, but before
proposing models, the geographer must be acquainted with the imperfection of these techniques.
L'auteur de cette note technique et
méthodologique (1) pense que la géographie est une science,
position nullement originale que de nombreux
géographes ont prise avant nous (2). Les techniques
mathématiques sont un des moyens les plus sûrs
d'atteindre ce but, même si d'autres existent
parallèlement, en particulier l'exploitation cartographique.
Accuser les géographes « quantitatifs », dénomination
impropre, de scientistes, c'est en réalité ignorer que
les statistiques descriptives et inductives ont pour
fondement la théorie des probabilités; probabilisme
et scientisme ou déterminisme sont deux philosophies
du monde qui s'excluent mutuellement.
Cette prise de position nous semble nécessaire, car
les observations que nous formulons à l' encontre de
l'analyse factorielle (3) ne doivent pas cacher son
utilité, ni conduire à une condamnation hâtive des
techniques mathématiques. Ce dont souffre le
géographe, ce n'est pas d'employer les statistiques, mais
de mal les connaître : « dans l'état actuel des choses,
sa formation est nulle en ce domaine » (R. Brunet [3]) ;
et, pire encore, de les utiliser après un survol trop
rapide. Les exemples à citer sont nombreux, mais le
rôle de censeur ne nous intéresse nullement. La
première démarche rationnelle est de s'initier à
l'analyse mathématique.
I. LES FAUSSES CONTRAINTES DU MODELE
FACTORIEL.
Avant d'aborder l'examen détaillé des contraintes
réelles, il faut, sinon rejeter, du moins préciser deux
critiques souvent émises. Selon certains chercheurs,
l'analyse factorielle, et parfois même de simples
paramètres statistiques, sont trop complexes. La science,
(1) Nous remercions vivement M. Novi, mathématicien
sociologue à l'UER Lettres et Sciences humaines de Nice, des
remarques qu'il nous a aimablement communiqués.
(2) Cf. J. Tricart : « La géographie est une science » (repris
par A. Meynier [1], p. 126). Les nombres entre crochets
renvoient à la bibliographie.
(3) II existe en réalité de nombreux modèles d'analyse
factorielle. Voir, pour les plus récents, L. Lebart et J. P. FÉnelon [23].
L'analyse factorielle
est-il besoin de le rappeler, n'est pas une tâche aisée,
et de tels aveux sont des signes de faiblesse.
Plus intéressantes sont les citations qui soulignent
que les techniques mathématiques ne sont pas
explicatives. De telles affirmations reposent sur une
conception schématique de l'explication en géographie. Il
existe en effet deux questions explicatives que le
géographe a le devoir d'élucider, le comment et le
pourquoi. La majorité de nos confrères scientifiques
sont satisfaits après avoir répondu à la question
comment, mais une des originalités du géographe est
son désir de découvrir le pourquoi d'une structure
spatiale.
L'analyse mathématique permet de répondre
rationnellement au comment d'un fait, première étape
indispensable de l'explication; et le géographe ne peut
pas répondre à la question pourquoi avant d'avoir
élucidé le comment d'une série d'états.. Il est dans
l'obligation d'ordonner le réel, démarche qui consiste
essentiellement à établir un modèle mathématique
plus ou moins complexe. Il est donc partiellement vrai
de prétendre que les statistiques et autres techniques
mathématiques ne permettent pas de découvrir le
pourquoi d'un fait géographique.
Ces quelques remarques sont succinctes, et donc
trop abruptes. L'explication dépend de l'intelligence
du géographe, mais l'esprit ne formule que des
hypothèses, et leur vérification nécessite l'emploi des
mathématiques. Soit l'exemple précis des
précipitations méditerranéennes en France : les géographes
avancent, comme explication, la présence en altitude
d'une goutte ou d'une vallée froide, idée qui demeure
une hypothèse aussi longtemps qu'on ne démontre pas
l'existence de liens entre les pluies et ce type de
situation, démonstration que l'on peut faire avec le test
du x2; rien n'interdit, en effet, de penser qu'une telle
situation en altitude se présente sans que tombent
des précipitations.
La géographie est ainsi encombrée d'hypothèses
non démontrées, qui sont admises comme autant de
lois. Ces remarques n'entraînent aucun jugement de
valeur, précisons-le, sur la justesse de ces hypothèses;
mais une telle démarche ne peut pas prétendre être
scientifique. Ces contraintes mineures écartées,
d'autres existent, qui paraissent plus profondes.
II. LES CONTRAINTES MATHÉMATIQUES
DE L'ANALYSE FACTORIELLE.
Les techniques multivariées sont nombreuses. Pour
ne pas troubler les géographes, nous identifions
analyse multivariée et analyse factorielle, ce que refusent
les mathématiciens. Pour eux, l'analyse multivariée
correspond à l'introduction de « variables-tests » pour
étudier la relation entre des variables indépendantes
et une variable dépendante. L'analyse factorielle
75
siste à dégager des facteurs qualifiés « explicatifs »
d'une batterie de variables quelconques. Les solutions
proposées par les mathématiciens varient, comme en
témoigne le gros ouvrage de Horst [4]. Nous
admettons implicitement dans cette réflexion que sont
connues l'analyse en composantes principales,
notamment celle de Hotelling, l'analyse des correspondances
mise au point par Shepard aux Etats-Unis et Benzécri en France, et enfin l'analyse factorielle dite
classique de Spearman, améliorée par les recherches
de Thurstone.
1. Contraintes sur la matrice des données.
Dès la phase initiale de la confection de la matrice
des observations, tableau où les lignes correspondent
aux espaces étudiés, et où les attributs retenus
figurent dans les colonnes, des contraintes apparaissent,
mal connues et souvent négligées.
Il est recommandé de ne pas mélanger dans la
matrice initiale des variables quantitatives et des
variables qualitatives classées par la technique des rangs.
Duband, dans son modèle factoriel, mis au point pour
prévoir les hauteurs de pluies recueillies sur un
bassin versant, a volontairement limité le nombre des
variables, refusant de mélanger données cardinales
et ordinales [5].
Les solutions à ce problème sont bien connues et
nous n'insisterons pas. L'analyse des correspondances
est un modèle mathématique qui permet d'analyser
les caractères qualitatifs et ordinaux. Une seconde
solution consiste à classer les observations et calculer
les coefficients de rangs de Sperman pour une analyse
en composantes principales suivant le modèle de
Hotelling. Cette seconde formule s'accompagne
cependant d'une perte d'information. Enfin, quand on
retient seulement une ou deux variables qualitatives,
il est souhaitable de faire une analyse en donnant la
valeur 0 à ces variables, puis de procéder à un
deuxième traitement avec la valeur 1, et de comparer
les résultats.
Souvent, les valeurs que prennent les attributs sont
très dissemblables. Dans une étude urbaine par
exemple, le nombre d'usines est comptabilisé en dizaines,
mais la population active en milliers. Chaque fois
qu'une telle disharmonie est constatée, il faut
présenter une matrice des variables centrées :
X'^Xi — X
ou, mieux encore, de variables réduites ou centréesnorme es :
XT = (X, — X)/cr,
où X est la moyenne, cx l'écart-type.
En effet, quand les valeurs des variables sont trop
différentes, des erreurs graves, dites de chute,
peuvent apparaître en cours de traitement, et il est donc
nécessaire de standardiser les variables initiales.
A. Dauphiné
76
Une troisième contrainte, souvent négligée, doit
être respectée : la matrice des données ne doit pas
contenir de rapport. Cette limitation n'est pas
imperative, mais les quotients sont des êtres
mathématiques dont le comportement est mal élucidé. Il est
préférable d'introduire dans le tableau d'observation
les deux variables que sont le numérateur et le
dénominateur d'un rapport. Par exemple, pour une
analyse multivariée d'une structure agricole, les
mathématiciens recommandent d'intégrer le nombre
d'hectolitres de lait recueilli et le nombre de vaches
laitières, plutôt que de présenter les rendements
laitiers, qui sont un quotient. Le géographe, grâce à
l'emploi efficace de l'ordinateur, peut définir de
nouveaux indicateurs géographiques en établissant des
rapports, mais il est dangereux de les faire intervenir
dans une analyse multivariée.
2. Les contraintes sur la matrice de corrélation.
Le schéma général de l'analyse factorielle consiste
à résoudre l'équation matricielle RV = XV, où R est
la matrice de corrélation. Cette matrice contient les
coefficients de corrélation de Bravais-Pearson. Ceuxci n'ont un sens mathématique que pour les relations
linéaires, c'est-à-dire quand les variables ont une
loi de distribution fréquentielle normale ou gaussienne. Si des paramètres géographiques
s'ordonnent bien ainsi, en fait « on sait aujourd'hui que bien
rares sont les distributions géographiques qui
obéissent à cette loi de normalité » (Racine et Lemay [6]).
Cette constatation s'avère exacte non seulement en
géographie humaine mais aussi en géographie
physique. Deux variables peuvent être « totalement »
dépendantes, et si elles ne sont pas gaussiennes le
coefficient de corrélation pourra être voisin de 0,
semblant indiquer une indépendance presque parfaite.
Il est logique de penser que, tous les calculs
effectués à partir d'une telle matrice de corrélation seront
inexacts.
En fait, l'estimation d'un coefficient de corrélation
linéaire n'est possible que si les trois conditions
suivantes existent : les deux variables Xj et X2 doivent
être aléatoires; les distributions marginales et liées
de ces variables doivent être normales; elles doivent
respecter le principe d'homoscédasticité, c'est-à-dire
que les variances des distributions liées doivent être
égales, généralement à 1. De telles conditions doivent
être vérifiées avant le passage en ordinateur de la
matrice des données.
Pour résoudre cet obstacle, deux catégories de
solutions existantes à retenir : rendre les distributions
normales, ou effectuer les calculs à partir d'une autre
matrice de corrélation. Dans le premier cas, il existe
à notre connaissance deux procédés : l'anamorphose,
et la transformation des variables en utilisant des
puissances fractionnaires. Le problème est en fait plus
complexe (4). Ce n'est pas, semble-t-il, parce qu'on
(4) Les remarques suivantes sont de M. Novi.
normalise les distributions marginales, que l'on
normalise la distribution bivariée, à savoir qu'on rend
elliptique le nuage de points. Cette réserve faite pour
deux variables est a fortiori plus vraie dans un espace
à n dimensions, qui est caractéristique des analyses
factorielles.
L'anamorphose est une technique et nous proposons,
pour l'expliciter, quelques distributions. Soit une
variable obéissant à une loi logarithmique simple; le
géographe peut normaliser la distribution en
définissant de nouvelles valeurs XJ telles que X< = log X*.
Dans son étude sur les structures commerciales de
Chicago, Berry normalise ainsi ses dix variables en
prenant comme valeur leur logarithme [7]. Cette
solution n'est d'ailleurs possible que si Xj > 0. Pour
X{ < 0, il faut prendre : X* = log (Xo -f XJ , en
donnant à Xo une valeur telle que le logarithme ait un
sens. Cette transformation logarithmique n'est pas
universelle, car de nombreuses variables obéissent à
des lois plus complexes. Au cours de travaux
personnels, nous avons découvert des éléments du complexe
géographique s'ordonnant suivant la loi ~K = a/(b-\-t),
fonction qui s'applique sans doute à de nombreux
paroxysmes (5). Les statisticiens américains Draper
et Smith ont démontré que cette technique
d'anamorphose est parfois impossible, certaines
distributions ne pouvant pas être ramenées à une loi de
Gauss [8].
Un second procédé consiste à transformer les
variables en utilisant des puissances fractionnaires. Nous
ne pouvons pas présenter en détail cette technique
dans le cadre de cet article. Elle a pour but essentiel
de normaliser une distribution dissymétrique. Pour
vérifier les résultats, le chercheur calcule les
coefficients [31 et P2 de Pearson, qui sont des tests. En effet
pour une distribution gaussienne on obtient :
31 = 0
32 = 3
Cependant, ces deux coefficients sont susceptibles de
fortes fluctuations d'échantillonnage. Ils ne peuvent
donc être calculés que sur des séries comprenant au
moins 50 valeurs d'une variable, ce qui n'est pas
toujours possible dans certaines analyses multivariées.
Un second groupe de solutions consiste à remplacer
la matrice des coefficients de corrélation de Pearson
par une autre matrice contenant des paramètres de
corrélation plus généraux. Parmi les différents
coefficients existant dans la littérature mathématique,
deux semblent intéressants. Le premier est le
coefficient de corrélation de rang de Spearman.
6ZD2
R, = 1 - N(N2 ou, mieux encore, le rapport de corrélation
2(X,. -X)2
(5) Cette liste n'est nullement limitative : citons encore
X' = VX etX' = o sin y/X.
L'analyse factorielle
Citons en outre le coefficient élaboré par Kendall qui,
à l'inverse du coefficient de Spearman, se généralise
pour le calcul des corrélations partielles. L'étude de
Héraux et Novi (6) est une analyse en composantes
principales de Hotelling avec une matrice de
corrélation renfermant les coefficients de rang de
Spearman.
Le rapport de corrélation est très général, et il
permet de déterminer les relations non linéaires. Il
est parfois employé comme test pour vérifier si une
relation est parfaitement linéaire. Quand la
corrélation est linéaire on obtient :
Vy/x = ± Ry/x
Malheureusement le calcul d'une matrice de rapports
de corrélation pose de nombreux problèmes
techniques pour le programmeur, particulièrement en
FORTRAN. D'autre part, pour déterminer une courbe et
non plus une droite, il faut disposer d'au moins trois
points, soit cent cinquante valeurs d'un attribut, ce
qui est rarement possible. En effet, le rapport de
corrélation n'a de sens que pour un quotient classesdonnées de 1/50 (Grisollet, [9]).
Un dernier paramètre de corrélation permettrait,
peut-on penser, de résoudre cette difficulté : l'indice
général de corrélation, qui est indépendant des
distributions théoriques des variables :
2 (Y,- - Y)2
~V 2 (Yf -Y)2
où le numérateur est la variance des résidus et le
dénominateur est la variance des Yf. Mais un tel
coefficient est difficilement calculable, car il faut
déterminer les résidus et donc passer par un modèle
de régression.
Ces trois solutions décrites succinctement sont
imparfaites, et elles apparaissent dans peu d'ouvrages
mathématiques. N'ayant nullement l'ambition de
remplacer les mathématiciens chevronnés, nous les
proposons comme sujets de réflexion et hypothèses de
travail, mais des études approfondies peuvent conduire
à leur rejet.
3. Les différents modèles d'analyse multivariée.
Face à ces conditions tyranniques pour le
géographe, et dans l'attente de modèles d'analyse
factorielle non linéaire, la prudence doit être la règle, et
ceci d'autant plus que les modèles ne sont pas tous
équivalents.
L'analyse en facteurs communs de Thurstone ou
Burt est la moins utile pour le géographe. Sur le plan
mathématique, on démontre que, si une solution
existe, il y en a une infinité. Avec un tel outil, les hypo(6) P. Héraux et M. Novi, Application de l'analyse
factorielle à l'étude de l'idéologie.
77
thèses doivent obligatoirement précéder l'analyse, qui
devient ainsi une mise à l'épreuve. En fait, cette
technique nous paraît très entachée de subjectivité,
et nous ne doutons pas que certains géographes
parviennent à démontrer ainsi la validité de n'importe
laquelle des hypothèses formulées au départ. D'autre
part, ce modèle classique est le plus restrictif, si bien
que son emploi est très limité.
L'analyse en composantes principales de Pearson ou
Hotelling est plus simple. La solution factorielle existe
toujours et elle est unique. Ce modèle est purement
descriptif selon de nombreux auteurs, ce dont nous
doutons, car toute réduction ordonnée est un acte
rationnel et qui dirige l'explication. Certains, du fait
de ce rôle modeste accordé à cette technique, pensent
que la condition de normalité n'est pas gênante.
Rappelons que les facteurs sont les vecteurs propres de
la matrice des corrélations, correspondant aux plus
grandes valeurs propres. Si la matrice des corrélations
contient les coefficients de Bravais -Pearson, nous ne
voyons pas ce qui peut justifier la non-observance de
la contrainte de normalité. Il est logiquement
préférable d'élaborer une matrice de corrélation de rang.
Ce dernier choix présente un autre avantage
important: connaissant le nombre d'attributs p et le
nombre d'observations n, il est possible de savoir avec
précision quand doit s'arrêter l'extraction des
facteurs, alors que, dans l'analyse classique, on retient le
seuil 5 % ou 6 % suivant les auteurs.
L'analyse des correspondances est le modèle le
moins restrictif, car elle ne distingue pas les variables
et les observations. Cette remarque est fondamentale,
car « l'obligation » de normalité disparaît; mais,
surtout, il est possible d'établir une factorisation dans les
deux espaces vectoriels Rw et Rp, et il existe des
relations étroites entre les deux groupes de facteurs,
permettant de résoudre, au moins partiellement, le
problème de l'auto-corrélation spatiale.
Il existe une autre technique d'analyse multivariée,
la régression multiple. Peu prisée, notamment en
France, elle présente cependant trois avantages
sérieux. Les traitements-calculs sont plus simples,
caractère non négligeable, à moins que le snobisme ne
s'empare du géographe et que seuls les outils
sophistiqués ne lui paraissent dignes d'attention, même s'ils
sont imparfaits.
D'autre part, l'hypothèse de normalité est levée.
En effet, le géographe peut élaborer pas à pas, en
vérifiant sur des papiers fonctionnels d'échelles
diverses, un modèle précis, qu'il teste dans un second
temps. Ce déroulement pragmatique des opérations,
plus lent, permet d'éviter les erreurs grossières qui
pullulent dans les analyses factorielles actuellement
présentées.
Le troisième intérêt est d'ordre épistémologique.
Les multiples techniques factorielles, qualifiées à tort
d'uniquement descriptives, sont déjà explicatives, car
elles permettent de mettre à jour des structures
cachées, des ordres qui sont une réponse à la question
comment. Mais elles ne sont pas aptes à répondre à
la question pourquoi.
78
Dans le modèle de régression multiple, les variables
dites indépendantes, même si elles sont corrélées
entre elles, peuvent être de nature causale. Le
géographe formule une hypothèse en élaborant sa
matrice des données, puis il teste et vérifie ces
hypothèses. Cette démarche est rationnelle; trop
souvent, dans les analyses factorielles, les hypothèses
sont faites et en même temps vérifiées à partir des
résultats, ce qui est un comble pour une analyse en
facteurs communs de Thurstone, quand existe une
infinité de solutions. En fait, sauf le premier facteur
dont la définition est généralement évidente (7), la
qualification des résultats, malgré le recours à la
matrice de corrélation et aux différents paramètres,
est entachée de subjectivité. Certes, cette subjectivité
est réduite, et moindre par rapport à celle qui
transparaît dans les études de géographie classique, mais
elle n'en demeure pas moins. Dans l'analyse en
composantes principales des dépenses des familles, étude
du CREDOC menée par des
mathématiciens-sociologues ([2], p. 217), deux définitions sont proposées
pour qualifier le deuxième facteur.
Dans un modèle de régression multiple, les
paramètres a0, a]t a2 .... aw du modèle proposé
Y = a0 + ajXï + a2X2 + .... anXn + e
le coefficient de corrélation multiple ou l'indice de
corrélation multiple, les coefficients de corrélation
partielle, et les limites de confiance calculées à partir
des erreurs-types, permettent d'apprécier à sa juste
valeur le modèle explicatif proposé par le géographe.
Une telle technique permet de résoudre partiellement
les problèmes de la géographie dite appliquée, car
elle est prédictive. En effet connaissant les différents
Xj et les paramètres correspondants, le géographe
peut délimiter Yt avec une probabilité définie
généralement à 95 %.
Malgré ces nombreux avantages, la régression
multiple présente un défaut majeur : il faut que le
paramètre Y soit parfaitement défini. En géographie
humaine, il est facile d'étudier une évolution
démographique par cette technique (8) ; de même, en
géographie physique, l'auteur de cette note essaye de
mettre au point un modèle de régression multiple pour
voir, en fonction des types de situation
météorologiques, quelle est l'importance respective des
facteurs de condensation et de déclenchement des
précipitations rendant le mieux compte des hauteurs d'eau
recueillies dans les Midis français. Mais, en
géographie régionale, il est difficile de trouver un
indicateur unique Y condensant l'information d'une région.
La régression multiple est donc une technique qui
paraît devoir rendre de très grands services en
géographie thématique, mais elle a des limites,
notamment en géographie régionale.
(7) Les facteurs extraits sont orthogonaux, si bien que la
position du premier détermine celle de tous les autres, d'où
son importance.
(8) En fait, dès que le géographe étudie une dynamique,
il se heurte au problème de l'autocorrélation temporelle ou
persistance, comme nous le montrons dans la troisième partie
de cet article.
A. Dauphiné
La contrainte de normalité est donc importante.
Elle peut difficilement être tournée, et tous les tests
de signification n'ont alors aucun sens. Seul le modèle
de Benzécri paraît échapper à ces contraintes
mathématiques précises. Des limites propres à la science
géographique se dressent alors face au chercheur.
III. LES CONTRAINTES GÉOGRAPHIQUES.
Les limites en géographie de l'analyse multivariée
sont nombreuses, mais deux sont principalement
contraignantes : l'autocorrélation temporelle ou
persistance, et l'autocorrélation spatiale.
1. L'autocorrélation temporelle.
Les valeurs que peuvent prendre à un instant
donné les variables géographiques ne sont pas
indépendantes du temps passé. Il existe souvent entre des
valeurs successives une dépendance plus ou moins
forte. Il est évident que le flux des capitaux apporté à
la région grenobloise lors des Jeux Olympiques
d'Hiver a des conséquences géographiques qui
s'impriment encore dans le paysage. De même, la quantité
d'eau relevée au cours d'un mois est influencée, sans
doute très légèrement, par celle du mois qui le
précède. C'est ce phénomène qui peut être qualifié
de persistance et qui apparaît chaque fois que le
caractère dynamique d'une situation géographique est
envisagé. Certes, comme le souligne P. George, il ne
faut pas exagérer l'opposition entre géographie
statique et géographie dynamique, mais elle existe.
La persistance varie suivant l'intervalle de temps
considéré et en fonction de la nature du fait considéré.
La hauteur d'eau mesurée au cours d'une année est
pratiquement indépendante de celle de l'année
précédente, mais la dépendance est forte si on prend un
intervalle de vingt-quatre heures. D'autre part, tous
les travaux menés sur la région niçoise attestent la
persistance de l'ancienne frontière sur le Var, un
siècle après sa disparition.
L'autocorrélation peut être non seulement interne
à une série, mais affecter les rapports entre deux ou
plusieurs variables. La persistance peut être directe
si l'évolution temporelle des deux caractères est
concomitante, cas très rare en géographie. Plus
fréquemment la liaison est indirecte, et la covariation décalée.
Les ondes de crues d'un cours d'eau présentent ainsi
une covariation avec les averses qui tombent sur son
bassin versant, mais il y a un décalage entre les deux
événements. Ceci s'observe encore plus facilement en
géographie humaine. La notion de crise est souvent
due à des dynamiques différentielles des flux.
L'exemple du tourisme est frappant : les flux des touristes
subissent de stransformations rapides, mais les attri-
L'analyse factorielle
79
buts structurels, voies de communication, hôtellerie,
évoluent plus lentement, avec un décalage
temporel.
Les modèles factoriels classiques sont statiques, et
ne permettent pas d'intégrer ce phénomène de
persistance. La définition des facteurs est valable à un
temps t, et la dynamique des systèmes apparaît mal.
Pour abroger cette limite, des solutions multiples
sont accessibles au géographe. La définition de
l'autocorrélation peut faire l'objet d'analyses séparatives
sur les différentes variables. Pour tester la persistance
interne à une sérié, le chercheur peut utiliser parfois
le paramètre de contagion imaginé par Polya, ou le
coefficient de corrélation tétrachorique
R, = COS 7T \_y/ad + yfbc
J
2. L'autocorrélation spatiale.
paramètres,
avec
coefficient
Quand
l'un
d'autocorrélation
une
l'autocorrélation
des recherche
trois testspréalable
suivants.
est directe
peut
Onentre
appelle
êtredeux
conduite
N-l
=2 y
:2
La table d'Anderson (reproduite dans [10]) permet
d'en déterminer la signification en fonction du nombre
de données et d'un seuil de probabilité fixé. Les tests
de Durbin-Watson et de Von Neumann permettent
aussi de tirer des conclusions sur l'autocorrélation,
à partir des résidus, qui doivent être indépendants
dans un modèle linéaire.
La découverte d'une persistance décalée peut être
menée à bien grâce aux techniques des « boucles »
statistiques et, mieux encore, du corrélogramme. Le
corrélogramme est un graphe qui permet de présenter
les coefficients de corrélations entre Yt et Xt_h en
fonction de la valeur du décalage h; sa formule est :
£
p
enrichi; des schémas voisins semblent très
intéressants. Sans entrer dans le détail de ces techniques,
qui nécessitent une longue étude, on doit souligner
la fécondité des analyses spectrales (Girault [12]). Il
existe en effet des liens entre l'analyse factorielle et
cette technique, notamment au stade de la
détermination des valeurs propres et des vecteurs propres d'une
matrice. Les chaînes de Markov, et leur corollaire les
processus de diffusion, sont des instruments
privilégiés qui complètent l'analyse multivariée en
réintroduisant la dynamique dans les modèles
statistiques. Il existe même une analyse de structure latente
qui est une adaptation de chaîne de Markov, et qui,
similaire à l'analyse factorielle de Spearman, semble
très utile (Rouanet [13]).
(Y, - Y) (X, „ - X)
(N-h- l)s(Yt).s(Xt_h)
Les techniques de corrélation glissante proposées
par Augustin sont aussi très utiles [11]. Toutes ces
solutions sont séparatives, et ne peuvent être
appliquées directement à un modèle multivarié.
La comparaison entre des analyses multivariées,
faites au temps tlt t2 ... tn, semble être une autre
solution, non separative. Mais le géographe se heurte
à des problèmes pratiques. Il doit obligatoirement
utiliser les mêmes attributs et les mêmes limites
spatiales, ce qui n'est pas toujours possible. Les
résultats obtenus ne semblent pas très probants. En
dernier ressort, les facteurs découverts forment une
structure au temps tj , t2 ... tn , mais la dynamique du
système n'est pas apréhendée directement.
Pour pallier cet inconvénient majeur, le recours
au processus aléatoire dé Markov est nécessaire. Ce
modèle, élaboré à l'aube du vingtième siècle, a été
La notion de contiguïté spatiale est fondamentale
et le géographe ne peut renoncer à l'étudier sans
détruire l'originalité de la géographie. Un fait
géographique présente une corrélation positive avec le
même fait observé dans un espace voisin. La densité
de population d'une « zone » suburbaine est
dépendante des densités des zones urbaines et rurales
adjacentes. La théorie qualitative, donc empirique, des
régions polarisées, qu'elle soit vérifiée ou non, a pour
fondement ce thème majeur de la corrélation
spatiale.
Les observations de Ceaux [14] sont précieuses,
mais la solution a posteriori proposée par cet auteur
n'est nullement satisfaisante, comme lui-même le
remarque. En effet, c'est à l'amont de l'analyse
factorielle, et non à l'aval, qu'une solution scientifique
doit être proposée.
Les deux modèles offerts par Matheron pour abolir
cette contrainte sont le covariogramme transitif et
le demi-variogramme [15]. Mais ils sont très
complexes et il semble douteux qu'on puisse les
introduire directement dans un modèle d'analyse
factorielle. Plus simple paraît être la solution proposée par
Lebart, car elle s'inscrit dans l'analyse multivariée.
Quand cet article a été mis en chantier, son auteur
n'avait pas pris connaissance des schémas d'analyse
proposés par Racine et Lemay [6]. Nous pensions, en
effet, que la recherche d'une solution devait passer
par la mise à nu de corrélations entre les différentes
unités spatiales (9) . Le schéma proposé par Racine et
Lemay, plus complexe, est sans conteste un immense
progrès pour résoudre la contrainte de contiguité
spatiale. Sans entrer dans le détail, rappelons que
l'auteur propose un algorithme de tri à partir d'une
matrice de corrélation où sont inscrits les coefficients
(9) Ces réflexions s'appuyaient sur les techniques de
corrélation proposées pour choisir rationnellement les stations
pluviométriques à représenter sur la carte climatique de la
France mise au point par TER30 du C.N.R.S., dirigée par
Ch.-P. Péguy.
A. Dauphiné
80
de corrélations, non pas entre les attributs (analyse
f actorielle) , mais entre les unités spatiales, c'està-dire entre les lignes de la matrice d'observation.
Il est en effet possible de faire une analyse dans un
espace vectoriel à p dimensions (nombre de variables)
et dans un espace vectoriel à n dimensions (nombre
d'observations, généralement des unités spatiales).
Bien que notre culture mathématique soit
inférieure à celle de l'auteur qui propose cette
remarquable solution, nous pouvons faire deux remarques. Les
coefficients de corrélation, fondement de l'analyse
discriminatoire, doivent obéir aux conditions
mathématiques énoncées dans la seconde partie de cet
article. En fait, on peut penser que la normalité et
autres contraintes sont moins astreignantes, si on
procède directement au tri. La seconde contrainte est
le caractère aléatoire des séries; or, « il apparaît
(ainsi) que les variables régionalisées ne peuvent pas
êter assimilées aux variables aléatoires dont l'étude
est l'objet de la statistique habituelle » (Matheron
[15]). Le géographe devra donc vérifier le caractère
aléatoire des séries analysées à partir des
distributions marginales, et des résidus.
Conclusions.
Au terme de cette brève étude, les géographes
seront perplexes quant à l'utilité des modèles multivariés, et critiqueront les études déjà parues en
France. De tels travaux, quelles que soient leurs
lacunes, ont le mérite d'exister, et nous pensons que
la science géographique progresse à partir de modèles
imparfaits : l'essor de la géomorphologie climatique
n'est-elle pas aussi une conséquence de l'imperfection
du schéma de Davis ?
Cependant, le géographe doit avoir pleinement
conscience des contraintes et des limites de l'analyse
multivariée. Les contraintes sont essentiellement
d'ordre mathématique. Pour qu'un coefficient de
corrélation puisse être estimé il faut que les variables
soient aléatoires, que leurs distributions marginales
et liées soient normales, et que le principe d'homoscédasticité soit vérifié. Les limites propres à la
géographie, moins imperatives pour certains modèles, ne
doivent pas être délibérément ignorées, et la
dynamique reste difficilement accessible par ces
techniques.
Actuellement, en l'état de nos connaissances, le
modèle de régression multiple, pour lequel peut être
négligé la contrainte de normalité par le calcul de
l'index de corrélation, et le modèle d'analyse des
correspondances, complété par l'analyse discriminatoire
proposée par Racine et Lemay, sont les moins
contraignants.
RÉFÉRENCES BIBLIOGRAPHIQUES
[1] A. Meynier, Histoire de la pensée géographique en
France. Paris, PUF, coll. SUP, 1969, p. 126.
[2] L. Lebart et J. P. Fénelon, Statistique et
informatique appliquée. Paris, Dunod, 1971, 420 p.; ouvrage
fondamental, qui apporte les solutions récentes.
[3] R. Brunet, Les phénomènes de discontinuité en
géographie. Paris, C.N.R.S., 1968, coll. Mémoires et
documents, vol. 7.
[4] P. Horst, Factor analysis of data matrices. New
York, 1965.
[5] D. Duband, Reconnaissance dynamique de la forme
des situations météorologiques. Application à la
prévision quantitative des précipitations. Grenoble, 1971,
7 p.
[6] J. B. Racine et G. Lemay, L'analyse discriminatoire
des correspondances typologiques dans l'espace
géographique. L'Espace géographique, 3, 1972, p. 145166.
[7] B.J.L. Berry, Commercial structure and commercial
light. University of Chicago, Research Paper 85, 1963.
[8] NR. Draper et H. Smith, Applied regression analysis.
New York, 1966.
[9] H. Grisollet, B. Guilmet et R. Arlery, Climatologie.
Méthodes et pratiques. Paris, Gauthier- Villars, 1962,
p. 217.
[10] M. Ezekiel et K. A. Fox, Methods of correlation of
regression analysis. New York, Wiley, 1959.
[11] H. Augustin, Note sur l'emploi des méthodes de
corrélation glissante pour la détection et l'étude des
liaisons existant entre les éléments de deux séries
chronologiques. Journal de mécanique et physique
atmosphérique, 1961, p. 39-47.
[12] M. Girault, Processus aléatoires. Paris, Dunod, 1965,
150 p.
[13] H. Rouanet, Modèles stochastiques d'apprentissage.
Paris, Gauthier- Villars, 1967, 262 p.
[14] M. J. Ceaux, L'analyse statistique des espaces
^urbains. Quelques applications à Marseille. Bull. Assoc.
de Géogr. français, janv.-fév. 1972, p. 21-30.
[15] G. Matheron, Les variables régionalisées et leur
estimation. Paris, Masson, 1965, 305 p.
Dépôt légal 1er trimestre 1973 - N° d'édition 1093
Le Directeur de la publication : M. Casalis
Imprimerie Louis-Jean, 05 Gap — Publications scientifiques et littéraires — Dépôt légal 198-1973
Téléchargement