Espace géographique L'analyse factorielle : ses contraintes mathématiques et ses limites en géographie André Dauphiné Abstract Factor analysis : its mathematical restrictions and its limitations in geography. — Factor analyses are used by the geographer to discover hidden structures, and to achieve an objectivity which is difficult to attain with classical techniques. But the use of these techniques is dependent on a long series of mathematical restraints and limitations peculiar to geography. New, less restrictive models appear every year, facilitating the elimination of obstacles, but before proposing models, the geographer must be acquainted with the imperfection of these techniques. Résumé Les analyses factorielles sont un moyen pour le géographe de découvrir des structures cachées, et de parvenir à une objectivité difficilement atteinte par les techniques classiques. Mais l'emploi de ces techniques est soumis à une longue série de contraintes mathématiques, et de limites propres à la science géographique. De nouveaux modèles moins contraignants apparaissent chaque année, faisant disparaître des obstacles, mais avant de proposer des modèles factoriels, le géographeutilisateur doit connaître les imperfections de ces techniques. Citer ce document / Cite this document : Dauphiné André. L'analyse factorielle : ses contraintes mathématiques et ses limites en géographie. In: Espace géographique, tome 2, n°1, 1973. pp. 74-80; doi : https://doi.org/10.3406/spgeo.1973.1382 https://www.persee.fr/doc/spgeo_0046-2497_1973_num_2_1_1382 Fichier pdf généré le 03/01/2019 L'Espace géographique, n° 1, 1973, 74-80. Doin, 8, place de l'Odéon, Paris-VIe. Méthodes d'analyse L'ANALYSE FACTORIELLE : SES CONTRAINTES MATHÉMATIQUES ET SES LIMITES EN GÉOGRAPHIE André DA UPHINÉ Laboratoire Raoul Blanchard, Université de Nice RESUME. Les analyses factorielles sont un moyen pour le géographe de découvrir des structures cachées, et de parvenir à une objectivité difficilement atteinte par les techniques classiques. Mais l'emploi de ces techniques est soumis à une longue série de contraintes mathématiques, et de limites propres à la science géographique. De nouveaux modèles moins contraignants apparaissent chaque année, faisant disparaître des obstacles, mais avant de proposer des modèles factoriels, le géographe-utilisateur doit connaître les imperfections de ces techniques. ABSTRACT. Factor analysis : its mathematical restrictions and its limitations in geography. — Factor analyses are used by the geographer to discover hidden structures, and to achieve an objectivity which is difficult to attain with classical techniques. But the use of these techniques is dependent on a long series of mathematical restraints and limitations peculiar to geography. New, less restrictive models appear every year, facilitating the elimination of obstacles, but before proposing models, the geographer must be acquainted with the imperfection of these techniques. L'auteur de cette note technique et méthodologique (1) pense que la géographie est une science, position nullement originale que de nombreux géographes ont prise avant nous (2). Les techniques mathématiques sont un des moyens les plus sûrs d'atteindre ce but, même si d'autres existent parallèlement, en particulier l'exploitation cartographique. Accuser les géographes « quantitatifs », dénomination impropre, de scientistes, c'est en réalité ignorer que les statistiques descriptives et inductives ont pour fondement la théorie des probabilités; probabilisme et scientisme ou déterminisme sont deux philosophies du monde qui s'excluent mutuellement. Cette prise de position nous semble nécessaire, car les observations que nous formulons à l' encontre de l'analyse factorielle (3) ne doivent pas cacher son utilité, ni conduire à une condamnation hâtive des techniques mathématiques. Ce dont souffre le géographe, ce n'est pas d'employer les statistiques, mais de mal les connaître : « dans l'état actuel des choses, sa formation est nulle en ce domaine » (R. Brunet [3]) ; et, pire encore, de les utiliser après un survol trop rapide. Les exemples à citer sont nombreux, mais le rôle de censeur ne nous intéresse nullement. La première démarche rationnelle est de s'initier à l'analyse mathématique. I. LES FAUSSES CONTRAINTES DU MODELE FACTORIEL. Avant d'aborder l'examen détaillé des contraintes réelles, il faut, sinon rejeter, du moins préciser deux critiques souvent émises. Selon certains chercheurs, l'analyse factorielle, et parfois même de simples paramètres statistiques, sont trop complexes. La science, (1) Nous remercions vivement M. Novi, mathématicien sociologue à l'UER Lettres et Sciences humaines de Nice, des remarques qu'il nous a aimablement communiqués. (2) Cf. J. Tricart : « La géographie est une science » (repris par A. Meynier [1], p. 126). Les nombres entre crochets renvoient à la bibliographie. (3) II existe en réalité de nombreux modèles d'analyse factorielle. Voir, pour les plus récents, L. Lebart et J. P. FÉnelon [23]. L'analyse factorielle est-il besoin de le rappeler, n'est pas une tâche aisée, et de tels aveux sont des signes de faiblesse. Plus intéressantes sont les citations qui soulignent que les techniques mathématiques ne sont pas explicatives. De telles affirmations reposent sur une conception schématique de l'explication en géographie. Il existe en effet deux questions explicatives que le géographe a le devoir d'élucider, le comment et le pourquoi. La majorité de nos confrères scientifiques sont satisfaits après avoir répondu à la question comment, mais une des originalités du géographe est son désir de découvrir le pourquoi d'une structure spatiale. L'analyse mathématique permet de répondre rationnellement au comment d'un fait, première étape indispensable de l'explication; et le géographe ne peut pas répondre à la question pourquoi avant d'avoir élucidé le comment d'une série d'états.. Il est dans l'obligation d'ordonner le réel, démarche qui consiste essentiellement à établir un modèle mathématique plus ou moins complexe. Il est donc partiellement vrai de prétendre que les statistiques et autres techniques mathématiques ne permettent pas de découvrir le pourquoi d'un fait géographique. Ces quelques remarques sont succinctes, et donc trop abruptes. L'explication dépend de l'intelligence du géographe, mais l'esprit ne formule que des hypothèses, et leur vérification nécessite l'emploi des mathématiques. Soit l'exemple précis des précipitations méditerranéennes en France : les géographes avancent, comme explication, la présence en altitude d'une goutte ou d'une vallée froide, idée qui demeure une hypothèse aussi longtemps qu'on ne démontre pas l'existence de liens entre les pluies et ce type de situation, démonstration que l'on peut faire avec le test du x2; rien n'interdit, en effet, de penser qu'une telle situation en altitude se présente sans que tombent des précipitations. La géographie est ainsi encombrée d'hypothèses non démontrées, qui sont admises comme autant de lois. Ces remarques n'entraînent aucun jugement de valeur, précisons-le, sur la justesse de ces hypothèses; mais une telle démarche ne peut pas prétendre être scientifique. Ces contraintes mineures écartées, d'autres existent, qui paraissent plus profondes. II. LES CONTRAINTES MATHÉMATIQUES DE L'ANALYSE FACTORIELLE. Les techniques multivariées sont nombreuses. Pour ne pas troubler les géographes, nous identifions analyse multivariée et analyse factorielle, ce que refusent les mathématiciens. Pour eux, l'analyse multivariée correspond à l'introduction de « variables-tests » pour étudier la relation entre des variables indépendantes et une variable dépendante. L'analyse factorielle 75 siste à dégager des facteurs qualifiés « explicatifs » d'une batterie de variables quelconques. Les solutions proposées par les mathématiciens varient, comme en témoigne le gros ouvrage de Horst [4]. Nous admettons implicitement dans cette réflexion que sont connues l'analyse en composantes principales, notamment celle de Hotelling, l'analyse des correspondances mise au point par Shepard aux Etats-Unis et Benzécri en France, et enfin l'analyse factorielle dite classique de Spearman, améliorée par les recherches de Thurstone. 1. Contraintes sur la matrice des données. Dès la phase initiale de la confection de la matrice des observations, tableau où les lignes correspondent aux espaces étudiés, et où les attributs retenus figurent dans les colonnes, des contraintes apparaissent, mal connues et souvent négligées. Il est recommandé de ne pas mélanger dans la matrice initiale des variables quantitatives et des variables qualitatives classées par la technique des rangs. Duband, dans son modèle factoriel, mis au point pour prévoir les hauteurs de pluies recueillies sur un bassin versant, a volontairement limité le nombre des variables, refusant de mélanger données cardinales et ordinales [5]. Les solutions à ce problème sont bien connues et nous n'insisterons pas. L'analyse des correspondances est un modèle mathématique qui permet d'analyser les caractères qualitatifs et ordinaux. Une seconde solution consiste à classer les observations et calculer les coefficients de rangs de Sperman pour une analyse en composantes principales suivant le modèle de Hotelling. Cette seconde formule s'accompagne cependant d'une perte d'information. Enfin, quand on retient seulement une ou deux variables qualitatives, il est souhaitable de faire une analyse en donnant la valeur 0 à ces variables, puis de procéder à un deuxième traitement avec la valeur 1, et de comparer les résultats. Souvent, les valeurs que prennent les attributs sont très dissemblables. Dans une étude urbaine par exemple, le nombre d'usines est comptabilisé en dizaines, mais la population active en milliers. Chaque fois qu'une telle disharmonie est constatée, il faut présenter une matrice des variables centrées : X'^Xi — X ou, mieux encore, de variables réduites ou centréesnorme es : XT = (X, — X)/cr, où X est la moyenne, cx l'écart-type. En effet, quand les valeurs des variables sont trop différentes, des erreurs graves, dites de chute, peuvent apparaître en cours de traitement, et il est donc nécessaire de standardiser les variables initiales. A. Dauphiné 76 Une troisième contrainte, souvent négligée, doit être respectée : la matrice des données ne doit pas contenir de rapport. Cette limitation n'est pas imperative, mais les quotients sont des êtres mathématiques dont le comportement est mal élucidé. Il est préférable d'introduire dans le tableau d'observation les deux variables que sont le numérateur et le dénominateur d'un rapport. Par exemple, pour une analyse multivariée d'une structure agricole, les mathématiciens recommandent d'intégrer le nombre d'hectolitres de lait recueilli et le nombre de vaches laitières, plutôt que de présenter les rendements laitiers, qui sont un quotient. Le géographe, grâce à l'emploi efficace de l'ordinateur, peut définir de nouveaux indicateurs géographiques en établissant des rapports, mais il est dangereux de les faire intervenir dans une analyse multivariée. 2. Les contraintes sur la matrice de corrélation. Le schéma général de l'analyse factorielle consiste à résoudre l'équation matricielle RV = XV, où R est la matrice de corrélation. Cette matrice contient les coefficients de corrélation de Bravais-Pearson. Ceuxci n'ont un sens mathématique que pour les relations linéaires, c'est-à-dire quand les variables ont une loi de distribution fréquentielle normale ou gaussienne. Si des paramètres géographiques s'ordonnent bien ainsi, en fait « on sait aujourd'hui que bien rares sont les distributions géographiques qui obéissent à cette loi de normalité » (Racine et Lemay [6]). Cette constatation s'avère exacte non seulement en géographie humaine mais aussi en géographie physique. Deux variables peuvent être « totalement » dépendantes, et si elles ne sont pas gaussiennes le coefficient de corrélation pourra être voisin de 0, semblant indiquer une indépendance presque parfaite. Il est logique de penser que, tous les calculs effectués à partir d'une telle matrice de corrélation seront inexacts. En fait, l'estimation d'un coefficient de corrélation linéaire n'est possible que si les trois conditions suivantes existent : les deux variables Xj et X2 doivent être aléatoires; les distributions marginales et liées de ces variables doivent être normales; elles doivent respecter le principe d'homoscédasticité, c'est-à-dire que les variances des distributions liées doivent être égales, généralement à 1. De telles conditions doivent être vérifiées avant le passage en ordinateur de la matrice des données. Pour résoudre cet obstacle, deux catégories de solutions existantes à retenir : rendre les distributions normales, ou effectuer les calculs à partir d'une autre matrice de corrélation. Dans le premier cas, il existe à notre connaissance deux procédés : l'anamorphose, et la transformation des variables en utilisant des puissances fractionnaires. Le problème est en fait plus complexe (4). Ce n'est pas, semble-t-il, parce qu'on (4) Les remarques suivantes sont de M. Novi. normalise les distributions marginales, que l'on normalise la distribution bivariée, à savoir qu'on rend elliptique le nuage de points. Cette réserve faite pour deux variables est a fortiori plus vraie dans un espace à n dimensions, qui est caractéristique des analyses factorielles. L'anamorphose est une technique et nous proposons, pour l'expliciter, quelques distributions. Soit une variable obéissant à une loi logarithmique simple; le géographe peut normaliser la distribution en définissant de nouvelles valeurs XJ telles que X< = log X*. Dans son étude sur les structures commerciales de Chicago, Berry normalise ainsi ses dix variables en prenant comme valeur leur logarithme [7]. Cette solution n'est d'ailleurs possible que si Xj > 0. Pour X{ < 0, il faut prendre : X* = log (Xo -f XJ , en donnant à Xo une valeur telle que le logarithme ait un sens. Cette transformation logarithmique n'est pas universelle, car de nombreuses variables obéissent à des lois plus complexes. Au cours de travaux personnels, nous avons découvert des éléments du complexe géographique s'ordonnant suivant la loi ~K = a/(b-\-t), fonction qui s'applique sans doute à de nombreux paroxysmes (5). Les statisticiens américains Draper et Smith ont démontré que cette technique d'anamorphose est parfois impossible, certaines distributions ne pouvant pas être ramenées à une loi de Gauss [8]. Un second procédé consiste à transformer les variables en utilisant des puissances fractionnaires. Nous ne pouvons pas présenter en détail cette technique dans le cadre de cet article. Elle a pour but essentiel de normaliser une distribution dissymétrique. Pour vérifier les résultats, le chercheur calcule les coefficients [31 et P2 de Pearson, qui sont des tests. En effet pour une distribution gaussienne on obtient : 31 = 0 32 = 3 Cependant, ces deux coefficients sont susceptibles de fortes fluctuations d'échantillonnage. Ils ne peuvent donc être calculés que sur des séries comprenant au moins 50 valeurs d'une variable, ce qui n'est pas toujours possible dans certaines analyses multivariées. Un second groupe de solutions consiste à remplacer la matrice des coefficients de corrélation de Pearson par une autre matrice contenant des paramètres de corrélation plus généraux. Parmi les différents coefficients existant dans la littérature mathématique, deux semblent intéressants. Le premier est le coefficient de corrélation de rang de Spearman. 6ZD2 R, = 1 - N(N2 ou, mieux encore, le rapport de corrélation 2(X,. -X)2 (5) Cette liste n'est nullement limitative : citons encore X' = VX etX' = o sin y/X. L'analyse factorielle Citons en outre le coefficient élaboré par Kendall qui, à l'inverse du coefficient de Spearman, se généralise pour le calcul des corrélations partielles. L'étude de Héraux et Novi (6) est une analyse en composantes principales de Hotelling avec une matrice de corrélation renfermant les coefficients de rang de Spearman. Le rapport de corrélation est très général, et il permet de déterminer les relations non linéaires. Il est parfois employé comme test pour vérifier si une relation est parfaitement linéaire. Quand la corrélation est linéaire on obtient : Vy/x = ± Ry/x Malheureusement le calcul d'une matrice de rapports de corrélation pose de nombreux problèmes techniques pour le programmeur, particulièrement en FORTRAN. D'autre part, pour déterminer une courbe et non plus une droite, il faut disposer d'au moins trois points, soit cent cinquante valeurs d'un attribut, ce qui est rarement possible. En effet, le rapport de corrélation n'a de sens que pour un quotient classesdonnées de 1/50 (Grisollet, [9]). Un dernier paramètre de corrélation permettrait, peut-on penser, de résoudre cette difficulté : l'indice général de corrélation, qui est indépendant des distributions théoriques des variables : 2 (Y,- - Y)2 ~V 2 (Yf -Y)2 où le numérateur est la variance des résidus et le dénominateur est la variance des Yf. Mais un tel coefficient est difficilement calculable, car il faut déterminer les résidus et donc passer par un modèle de régression. Ces trois solutions décrites succinctement sont imparfaites, et elles apparaissent dans peu d'ouvrages mathématiques. N'ayant nullement l'ambition de remplacer les mathématiciens chevronnés, nous les proposons comme sujets de réflexion et hypothèses de travail, mais des études approfondies peuvent conduire à leur rejet. 3. Les différents modèles d'analyse multivariée. Face à ces conditions tyranniques pour le géographe, et dans l'attente de modèles d'analyse factorielle non linéaire, la prudence doit être la règle, et ceci d'autant plus que les modèles ne sont pas tous équivalents. L'analyse en facteurs communs de Thurstone ou Burt est la moins utile pour le géographe. Sur le plan mathématique, on démontre que, si une solution existe, il y en a une infinité. Avec un tel outil, les hypo(6) P. Héraux et M. Novi, Application de l'analyse factorielle à l'étude de l'idéologie. 77 thèses doivent obligatoirement précéder l'analyse, qui devient ainsi une mise à l'épreuve. En fait, cette technique nous paraît très entachée de subjectivité, et nous ne doutons pas que certains géographes parviennent à démontrer ainsi la validité de n'importe laquelle des hypothèses formulées au départ. D'autre part, ce modèle classique est le plus restrictif, si bien que son emploi est très limité. L'analyse en composantes principales de Pearson ou Hotelling est plus simple. La solution factorielle existe toujours et elle est unique. Ce modèle est purement descriptif selon de nombreux auteurs, ce dont nous doutons, car toute réduction ordonnée est un acte rationnel et qui dirige l'explication. Certains, du fait de ce rôle modeste accordé à cette technique, pensent que la condition de normalité n'est pas gênante. Rappelons que les facteurs sont les vecteurs propres de la matrice des corrélations, correspondant aux plus grandes valeurs propres. Si la matrice des corrélations contient les coefficients de Bravais -Pearson, nous ne voyons pas ce qui peut justifier la non-observance de la contrainte de normalité. Il est logiquement préférable d'élaborer une matrice de corrélation de rang. Ce dernier choix présente un autre avantage important: connaissant le nombre d'attributs p et le nombre d'observations n, il est possible de savoir avec précision quand doit s'arrêter l'extraction des facteurs, alors que, dans l'analyse classique, on retient le seuil 5 % ou 6 % suivant les auteurs. L'analyse des correspondances est le modèle le moins restrictif, car elle ne distingue pas les variables et les observations. Cette remarque est fondamentale, car « l'obligation » de normalité disparaît; mais, surtout, il est possible d'établir une factorisation dans les deux espaces vectoriels Rw et Rp, et il existe des relations étroites entre les deux groupes de facteurs, permettant de résoudre, au moins partiellement, le problème de l'auto-corrélation spatiale. Il existe une autre technique d'analyse multivariée, la régression multiple. Peu prisée, notamment en France, elle présente cependant trois avantages sérieux. Les traitements-calculs sont plus simples, caractère non négligeable, à moins que le snobisme ne s'empare du géographe et que seuls les outils sophistiqués ne lui paraissent dignes d'attention, même s'ils sont imparfaits. D'autre part, l'hypothèse de normalité est levée. En effet, le géographe peut élaborer pas à pas, en vérifiant sur des papiers fonctionnels d'échelles diverses, un modèle précis, qu'il teste dans un second temps. Ce déroulement pragmatique des opérations, plus lent, permet d'éviter les erreurs grossières qui pullulent dans les analyses factorielles actuellement présentées. Le troisième intérêt est d'ordre épistémologique. Les multiples techniques factorielles, qualifiées à tort d'uniquement descriptives, sont déjà explicatives, car elles permettent de mettre à jour des structures cachées, des ordres qui sont une réponse à la question comment. Mais elles ne sont pas aptes à répondre à la question pourquoi. 78 Dans le modèle de régression multiple, les variables dites indépendantes, même si elles sont corrélées entre elles, peuvent être de nature causale. Le géographe formule une hypothèse en élaborant sa matrice des données, puis il teste et vérifie ces hypothèses. Cette démarche est rationnelle; trop souvent, dans les analyses factorielles, les hypothèses sont faites et en même temps vérifiées à partir des résultats, ce qui est un comble pour une analyse en facteurs communs de Thurstone, quand existe une infinité de solutions. En fait, sauf le premier facteur dont la définition est généralement évidente (7), la qualification des résultats, malgré le recours à la matrice de corrélation et aux différents paramètres, est entachée de subjectivité. Certes, cette subjectivité est réduite, et moindre par rapport à celle qui transparaît dans les études de géographie classique, mais elle n'en demeure pas moins. Dans l'analyse en composantes principales des dépenses des familles, étude du CREDOC menée par des mathématiciens-sociologues ([2], p. 217), deux définitions sont proposées pour qualifier le deuxième facteur. Dans un modèle de régression multiple, les paramètres a0, a]t a2 .... aw du modèle proposé Y = a0 + ajXï + a2X2 + .... anXn + e le coefficient de corrélation multiple ou l'indice de corrélation multiple, les coefficients de corrélation partielle, et les limites de confiance calculées à partir des erreurs-types, permettent d'apprécier à sa juste valeur le modèle explicatif proposé par le géographe. Une telle technique permet de résoudre partiellement les problèmes de la géographie dite appliquée, car elle est prédictive. En effet connaissant les différents Xj et les paramètres correspondants, le géographe peut délimiter Yt avec une probabilité définie généralement à 95 %. Malgré ces nombreux avantages, la régression multiple présente un défaut majeur : il faut que le paramètre Y soit parfaitement défini. En géographie humaine, il est facile d'étudier une évolution démographique par cette technique (8) ; de même, en géographie physique, l'auteur de cette note essaye de mettre au point un modèle de régression multiple pour voir, en fonction des types de situation météorologiques, quelle est l'importance respective des facteurs de condensation et de déclenchement des précipitations rendant le mieux compte des hauteurs d'eau recueillies dans les Midis français. Mais, en géographie régionale, il est difficile de trouver un indicateur unique Y condensant l'information d'une région. La régression multiple est donc une technique qui paraît devoir rendre de très grands services en géographie thématique, mais elle a des limites, notamment en géographie régionale. (7) Les facteurs extraits sont orthogonaux, si bien que la position du premier détermine celle de tous les autres, d'où son importance. (8) En fait, dès que le géographe étudie une dynamique, il se heurte au problème de l'autocorrélation temporelle ou persistance, comme nous le montrons dans la troisième partie de cet article. A. Dauphiné La contrainte de normalité est donc importante. Elle peut difficilement être tournée, et tous les tests de signification n'ont alors aucun sens. Seul le modèle de Benzécri paraît échapper à ces contraintes mathématiques précises. Des limites propres à la science géographique se dressent alors face au chercheur. III. LES CONTRAINTES GÉOGRAPHIQUES. Les limites en géographie de l'analyse multivariée sont nombreuses, mais deux sont principalement contraignantes : l'autocorrélation temporelle ou persistance, et l'autocorrélation spatiale. 1. L'autocorrélation temporelle. Les valeurs que peuvent prendre à un instant donné les variables géographiques ne sont pas indépendantes du temps passé. Il existe souvent entre des valeurs successives une dépendance plus ou moins forte. Il est évident que le flux des capitaux apporté à la région grenobloise lors des Jeux Olympiques d'Hiver a des conséquences géographiques qui s'impriment encore dans le paysage. De même, la quantité d'eau relevée au cours d'un mois est influencée, sans doute très légèrement, par celle du mois qui le précède. C'est ce phénomène qui peut être qualifié de persistance et qui apparaît chaque fois que le caractère dynamique d'une situation géographique est envisagé. Certes, comme le souligne P. George, il ne faut pas exagérer l'opposition entre géographie statique et géographie dynamique, mais elle existe. La persistance varie suivant l'intervalle de temps considéré et en fonction de la nature du fait considéré. La hauteur d'eau mesurée au cours d'une année est pratiquement indépendante de celle de l'année précédente, mais la dépendance est forte si on prend un intervalle de vingt-quatre heures. D'autre part, tous les travaux menés sur la région niçoise attestent la persistance de l'ancienne frontière sur le Var, un siècle après sa disparition. L'autocorrélation peut être non seulement interne à une série, mais affecter les rapports entre deux ou plusieurs variables. La persistance peut être directe si l'évolution temporelle des deux caractères est concomitante, cas très rare en géographie. Plus fréquemment la liaison est indirecte, et la covariation décalée. Les ondes de crues d'un cours d'eau présentent ainsi une covariation avec les averses qui tombent sur son bassin versant, mais il y a un décalage entre les deux événements. Ceci s'observe encore plus facilement en géographie humaine. La notion de crise est souvent due à des dynamiques différentielles des flux. L'exemple du tourisme est frappant : les flux des touristes subissent de stransformations rapides, mais les attri- L'analyse factorielle 79 buts structurels, voies de communication, hôtellerie, évoluent plus lentement, avec un décalage temporel. Les modèles factoriels classiques sont statiques, et ne permettent pas d'intégrer ce phénomène de persistance. La définition des facteurs est valable à un temps t, et la dynamique des systèmes apparaît mal. Pour abroger cette limite, des solutions multiples sont accessibles au géographe. La définition de l'autocorrélation peut faire l'objet d'analyses séparatives sur les différentes variables. Pour tester la persistance interne à une sérié, le chercheur peut utiliser parfois le paramètre de contagion imaginé par Polya, ou le coefficient de corrélation tétrachorique R, = COS 7T \_y/ad + yfbc J 2. L'autocorrélation spatiale. paramètres, avec coefficient Quand l'un d'autocorrélation une l'autocorrélation des recherche trois testspréalable suivants. est directe peut Onentre appelle êtredeux conduite N-l =2 y :2 La table d'Anderson (reproduite dans [10]) permet d'en déterminer la signification en fonction du nombre de données et d'un seuil de probabilité fixé. Les tests de Durbin-Watson et de Von Neumann permettent aussi de tirer des conclusions sur l'autocorrélation, à partir des résidus, qui doivent être indépendants dans un modèle linéaire. La découverte d'une persistance décalée peut être menée à bien grâce aux techniques des « boucles » statistiques et, mieux encore, du corrélogramme. Le corrélogramme est un graphe qui permet de présenter les coefficients de corrélations entre Yt et Xt_h en fonction de la valeur du décalage h; sa formule est : £ p enrichi; des schémas voisins semblent très intéressants. Sans entrer dans le détail de ces techniques, qui nécessitent une longue étude, on doit souligner la fécondité des analyses spectrales (Girault [12]). Il existe en effet des liens entre l'analyse factorielle et cette technique, notamment au stade de la détermination des valeurs propres et des vecteurs propres d'une matrice. Les chaînes de Markov, et leur corollaire les processus de diffusion, sont des instruments privilégiés qui complètent l'analyse multivariée en réintroduisant la dynamique dans les modèles statistiques. Il existe même une analyse de structure latente qui est une adaptation de chaîne de Markov, et qui, similaire à l'analyse factorielle de Spearman, semble très utile (Rouanet [13]). (Y, - Y) (X, „ - X) (N-h- l)s(Yt).s(Xt_h) Les techniques de corrélation glissante proposées par Augustin sont aussi très utiles [11]. Toutes ces solutions sont séparatives, et ne peuvent être appliquées directement à un modèle multivarié. La comparaison entre des analyses multivariées, faites au temps tlt t2 ... tn, semble être une autre solution, non separative. Mais le géographe se heurte à des problèmes pratiques. Il doit obligatoirement utiliser les mêmes attributs et les mêmes limites spatiales, ce qui n'est pas toujours possible. Les résultats obtenus ne semblent pas très probants. En dernier ressort, les facteurs découverts forment une structure au temps tj , t2 ... tn , mais la dynamique du système n'est pas apréhendée directement. Pour pallier cet inconvénient majeur, le recours au processus aléatoire dé Markov est nécessaire. Ce modèle, élaboré à l'aube du vingtième siècle, a été La notion de contiguïté spatiale est fondamentale et le géographe ne peut renoncer à l'étudier sans détruire l'originalité de la géographie. Un fait géographique présente une corrélation positive avec le même fait observé dans un espace voisin. La densité de population d'une « zone » suburbaine est dépendante des densités des zones urbaines et rurales adjacentes. La théorie qualitative, donc empirique, des régions polarisées, qu'elle soit vérifiée ou non, a pour fondement ce thème majeur de la corrélation spatiale. Les observations de Ceaux [14] sont précieuses, mais la solution a posteriori proposée par cet auteur n'est nullement satisfaisante, comme lui-même le remarque. En effet, c'est à l'amont de l'analyse factorielle, et non à l'aval, qu'une solution scientifique doit être proposée. Les deux modèles offerts par Matheron pour abolir cette contrainte sont le covariogramme transitif et le demi-variogramme [15]. Mais ils sont très complexes et il semble douteux qu'on puisse les introduire directement dans un modèle d'analyse factorielle. Plus simple paraît être la solution proposée par Lebart, car elle s'inscrit dans l'analyse multivariée. Quand cet article a été mis en chantier, son auteur n'avait pas pris connaissance des schémas d'analyse proposés par Racine et Lemay [6]. Nous pensions, en effet, que la recherche d'une solution devait passer par la mise à nu de corrélations entre les différentes unités spatiales (9) . Le schéma proposé par Racine et Lemay, plus complexe, est sans conteste un immense progrès pour résoudre la contrainte de contiguité spatiale. Sans entrer dans le détail, rappelons que l'auteur propose un algorithme de tri à partir d'une matrice de corrélation où sont inscrits les coefficients (9) Ces réflexions s'appuyaient sur les techniques de corrélation proposées pour choisir rationnellement les stations pluviométriques à représenter sur la carte climatique de la France mise au point par TER30 du C.N.R.S., dirigée par Ch.-P. Péguy. A. Dauphiné 80 de corrélations, non pas entre les attributs (analyse f actorielle) , mais entre les unités spatiales, c'està-dire entre les lignes de la matrice d'observation. Il est en effet possible de faire une analyse dans un espace vectoriel à p dimensions (nombre de variables) et dans un espace vectoriel à n dimensions (nombre d'observations, généralement des unités spatiales). Bien que notre culture mathématique soit inférieure à celle de l'auteur qui propose cette remarquable solution, nous pouvons faire deux remarques. Les coefficients de corrélation, fondement de l'analyse discriminatoire, doivent obéir aux conditions mathématiques énoncées dans la seconde partie de cet article. En fait, on peut penser que la normalité et autres contraintes sont moins astreignantes, si on procède directement au tri. La seconde contrainte est le caractère aléatoire des séries; or, « il apparaît (ainsi) que les variables régionalisées ne peuvent pas êter assimilées aux variables aléatoires dont l'étude est l'objet de la statistique habituelle » (Matheron [15]). Le géographe devra donc vérifier le caractère aléatoire des séries analysées à partir des distributions marginales, et des résidus. Conclusions. Au terme de cette brève étude, les géographes seront perplexes quant à l'utilité des modèles multivariés, et critiqueront les études déjà parues en France. De tels travaux, quelles que soient leurs lacunes, ont le mérite d'exister, et nous pensons que la science géographique progresse à partir de modèles imparfaits : l'essor de la géomorphologie climatique n'est-elle pas aussi une conséquence de l'imperfection du schéma de Davis ? Cependant, le géographe doit avoir pleinement conscience des contraintes et des limites de l'analyse multivariée. Les contraintes sont essentiellement d'ordre mathématique. Pour qu'un coefficient de corrélation puisse être estimé il faut que les variables soient aléatoires, que leurs distributions marginales et liées soient normales, et que le principe d'homoscédasticité soit vérifié. Les limites propres à la géographie, moins imperatives pour certains modèles, ne doivent pas être délibérément ignorées, et la dynamique reste difficilement accessible par ces techniques. Actuellement, en l'état de nos connaissances, le modèle de régression multiple, pour lequel peut être négligé la contrainte de normalité par le calcul de l'index de corrélation, et le modèle d'analyse des correspondances, complété par l'analyse discriminatoire proposée par Racine et Lemay, sont les moins contraignants. RÉFÉRENCES BIBLIOGRAPHIQUES [1] A. Meynier, Histoire de la pensée géographique en France. Paris, PUF, coll. SUP, 1969, p. 126. [2] L. Lebart et J. P. Fénelon, Statistique et informatique appliquée. Paris, Dunod, 1971, 420 p.; ouvrage fondamental, qui apporte les solutions récentes. [3] R. Brunet, Les phénomènes de discontinuité en géographie. Paris, C.N.R.S., 1968, coll. Mémoires et documents, vol. 7. [4] P. Horst, Factor analysis of data matrices. New York, 1965. [5] D. Duband, Reconnaissance dynamique de la forme des situations météorologiques. Application à la prévision quantitative des précipitations. Grenoble, 1971, 7 p. [6] J. B. Racine et G. Lemay, L'analyse discriminatoire des correspondances typologiques dans l'espace géographique. L'Espace géographique, 3, 1972, p. 145166. [7] B.J.L. Berry, Commercial structure and commercial light. University of Chicago, Research Paper 85, 1963. [8] NR. Draper et H. Smith, Applied regression analysis. New York, 1966. [9] H. Grisollet, B. Guilmet et R. Arlery, Climatologie. Méthodes et pratiques. Paris, Gauthier- Villars, 1962, p. 217. [10] M. Ezekiel et K. A. Fox, Methods of correlation of regression analysis. New York, Wiley, 1959. [11] H. Augustin, Note sur l'emploi des méthodes de corrélation glissante pour la détection et l'étude des liaisons existant entre les éléments de deux séries chronologiques. Journal de mécanique et physique atmosphérique, 1961, p. 39-47. [12] M. Girault, Processus aléatoires. Paris, Dunod, 1965, 150 p. [13] H. Rouanet, Modèles stochastiques d'apprentissage. Paris, Gauthier- Villars, 1967, 262 p. [14] M. J. Ceaux, L'analyse statistique des espaces ^urbains. Quelques applications à Marseille. Bull. Assoc. de Géogr. français, janv.-fév. 1972, p. 21-30. [15] G. Matheron, Les variables régionalisées et leur estimation. Paris, Masson, 1965, 305 p. Dépôt légal 1er trimestre 1973 - N° d'édition 1093 Le Directeur de la publication : M. Casalis Imprimerie Louis-Jean, 05 Gap — Publications scientifiques et littéraires — Dépôt légal 198-1973