Un Modèle à Base de Règles d’Associations Spatio-temporelles pour la Prédiction de l’évolution Territoriale Asma GHARBI 1 , Cyril DE RUNZ 2 , Sami FAIZ 3 , Herman AKDAG 1 1. LIASD, Université de Paris 8, Saint-Denis, France { asma.gharbi,akdag}@ai.univ-paris8 .fr 2. CReSTIC University of Champagne-Adrenne, Reims, France [email protected] 3. LTSIRS, Université de La Mannouba, Tunis [email protected] Dans cet article, nous partons de l’hypothèse que les dynamiques spatiales et les usages des objets géographiques peuvent, en partie, être anticipés par leurs historiques de changements de fonctions et de co-localisations. Ainsi nous proposons d’exploiter la recherche des motifs fréquents et des règles d’associations, pour en extraire les règles régissant ces dynamiques. Ce travail tente également d’adapter le processus de fouille pour tenir compte de la spécificité des données spatio-temporelles utilisées, en particulier, leur asymétrie. RÉSUMÉ. In the present article we start from the hypothesis that spatial dynamics and geographic objects’ use can, partially, be anticipated by their functions and colocations’ changes. Hence, we suggest mining frequent patterns and associations, in order to derive rules governing these dynamics. Our work, attempts, equally, to adapt the mining process in order to deal with our spatio-temporal data specificities, in particular, their asymmetric aspect. ABSTRACT. Règles d’Association, Dynamiques Spatiales, Prédiction, Règles d’association de classification MOTS-CLÉS : KEYWORDS: Association Rules, Spatial Dynamics, Prediction, Class Association rules SAGEO’2016 - Nice, 6-9 décembre 2016 2 SAGEO’2016 1. Introduction Un territoire évolue, se bâtit et se transforme au fil du temps. Ainsi, nos sociétés ont besoin d’outils permettant d’estimer, voire de prédire, quelles seront les évolutions futures de nos territoires (urbains, rurales, etc.). Les modèles sous-jacents à ces outils permettront, éventuellement, de tester des hypothèses et envisager leur possible répercussion en termes d’aménagement. Un large panel de travaux, se basant sur la fouille de données spatiotemporelles pour traiter la question des changements d’occupation/usage du sol, ont été proposés (Jenerette, Wu, 2001 ; Yang et al., 2008 ; Charif et al., 2012 ; Malek et al., 2015 ; Qiang, Lam, 2015). La plupart de ces travaux visent essentiellement à identifier et à caractériser ces changements ainsi qu’à découvrir les relations qu’ils ont avec les différents variables naturelles et anthropogéniques. Bien qu’efficace, cette approche est spécifiques au type de couverture suivi (e.g. végétations, bâti), se concentre sur les caractéristiques internes des zones étudiées et néglige les relations spatiales et temporelles des données (i.e. une telle propriété apparait à une telle co-localisation à un tel moment). L’approche que nous proposons dans ce papier, tente, en partie, de répondre à ces problématiques. Effectivement, elle se concentre sur les relations spatiotemporelles entre les entités géographiques qui, à l’encontre de quelques variables très spécifique au domaine d’application ou au type d’occupation du sol suivi, sont toujours présentes et valides, d’où sa généricité. Concrètement, nous proposons d’explorer la dépendance entre les variables décrivant l’historique de l’évolution d’un certain objet spatio-temporel (relations temporelles de succession d’occupation), l’historique de ses co-localisations (relations spatiales de voisinage) et sa future occupation du sol ou évolution d’usage. Ceci correspond à une tâche courante de fouille de données : la recherche de règles d’association. Dans cet article, nous proposons, également, d’adaptater le processus de fouille à travers la modification de Apriori (Agrawal et al., 1993), un algorithme fondamentale et largement utilisé. Cette modification, vise essentiellement, à tenir compte de la spécificité des données spatiotemporelles, en particulier, leur asymétrie. La section 2 fournit un aperçu de la recherche de règles d’association ainsi que du processus de fouille employé dans l’algorithme Apriori. La section 3 décrit notre proposition pour adapter ce processus au contexte spatio-temporel de notre problème. Enfin, les conclusions et perspectives sont exposées dans la dernière section. 2. Les règles d’association Dans le domaine de la fouille de donneés, la recherche de règles d’association représente une tâche fondamentale et courante. Son objectif est de découvrir des relations ou structures (associations), statistiquement intéressantes, entre Prédiction de l’évolution territoriale 3 deux ou plusieurs variables stockées dans des grandes bases de données qui sont, généralement, transactionnelles. La définition formelle d’une règle d’association peut être énoncée comme suit : Soit D une base de transactions et T (T ={t1 , t2 , t3 , . . . , tn }) un ensemble de transactions dans D, composé par un ensemble d’item I ={i1 , i2 , i3 , ..., ix } tel que ti ⊆ I. Une règle d’association représente l’implication de la forme suivante: X −→ Y. X et Y sont deux ensembles d’items, appelés itemsets; X, Y ⊂ I ; et X ∩ Y = ∅. Depuis son introduction par (Agrawal et al., 1993), la recherche de règles d’association fut un domaine de recherche très actif. Mis à part sa capacité à capturer les relations et structures incorporées dans les données d’apprentissage, cette méthode présente plusieurs atouts tels que son exhaustivité en termes de génération de règles ou de motifs fréquents, sa simplicité, son intuitivité et sa capacité à gérer le problème de démarrage à froid posant souvent problème aux autres approches de la fouille de données (p.ex. classification). L’utilisation d’un seuil de fréquence (support) garantit la capture des associations tant que l’on dispose d’une quantité suffisante de données même si elle est restreinte. Cette méthode de fouille de données a également évoluée, au fil des années, pour supporter d’autres types de données – spatiales, temporelles cycliques ou séquentielles, quantitatives et floues – et donc produire des règles plus complexes – règles spatio-temporelles, règles multi-dimensionnelles, floues – et traiter d’autres types de problèmes – classifications, partitionnement, detection d’anomalies, detection d’évènement – (Han et al., 2007). Apriori est l’un des premiers algorithmes proposés et est très couramment utilisé. Cet algorithme adopte une heuristique qui se base sur la connaissance a priori de l’information sur la fréquence des items. La fréquence d’un item ou d’un itemset (Support) est évaluée à travers son nombre d’occurences dans la base. Un item ou un itemset est dit fréquent si son nombre d’occurences dans la base dépasse un seuil, spécifié par l’utilisateur, dit support minimal (minsup). Afin d’identifier les itemsets fréquents pour en construire les règles d’association, l’algoritme effectue plusieurs balayages de la base d’apprentissage (voir algorithme ??). En effet, il procède en deux étapes : – Une étape de génération d’itemsets fréquents utilisant une fonction de jointure pour générer des itemsets candidats (candidGen) et une fonction d’élagage pour ne garder que les candidats fréquents. La jointure se fait en liant la liste d’itemsets fréquents d’ordre directement inférieur à lui même (e.g. Les candidats de cardinalité 3 est obtenu à partir d’une jointure sur les itemsets fréquents de cardinalité 2). – Une étape de génération de règles d’association à partir des itemsets (ensemble d’items) fréquents trouvés. Pour chaque itemset fréquent f Apriori iden- 4 SAGEO’2016 tifie tout ses sous-ensembles non vides s et génère, pour chacun, une règle de la forme : s −→ (f − s) De nombreuses extensions, proposées dans la littérature (Hipp et al., 2000), visent à améliorer sa performance et produire des règles plus complexes. C’est dans cette dynamique que nous nous inscrivons afin d’exploiter l’essence d’Apriori pour l’extraction de règles spatiotemporelles. Algorithme 1 : Le pseudo code le l’algorithme Apriori 1 2 3 4 5 6 7 8 9 10 Données : D; Ck : Liste d’itemsets candidats de taille k; Lk : Liste d’itemsets fréquents de taille k; L1 =les items fréquents pour (k = 1;Lk ! = ∅; k++) faire Ck+1 = candidats générés à partir de Lk ; pour chaque transaction t dans D faire Incrémenter le décompte de chaque candidat de Ck+1 contenu dans t ; Lk+1 = les candidats dont le support dépasse le seuil minsup ; Résultat : ∪k Lk ; 3. Notre Proposition Dans cette section, nous exposons notre approche pour la génération de règles permettant la prédiction de l’évolution d’une zone géospatiale. Dans ce contexte nous proposons quelques modifications à l’algorithme de recherche de règles d’association Apriori afin d’adapter son processus de fouille à notre problème. Notre objectif est d’explorer l’applicabilité des règles d’association pour souligner l’effet des relations spatio-temporelles sur l’évolution d’un territoire. Il convient de noter que cette approche supporte deux contextes d’applications : – La modélisation de la nature physique des entités qui représentent des portions de terrain. – La modélisation de la fonction socio-économique et environnementale des entités associées, généralement, à du bâti. 3.1. Cadre Conceptuel Dans ce travail, nous adoptons la conceptualisation de l’espace comme support (Pradeau, 1996). En d’autres termes, un cadre de référence où on localise Prédiction de l’évolution territoriale 5 des objets et on envisage leurs relations en se basant, principalement, sur le critère de distance. Dans cette conception, l’espace est indépendant des facteurs externes (absolu), et ses propriétés (e.g. conditions géo-climatiques) sont homogènes et isotropes (sont les mêmes dans toutes les directions). Les entités géographiques sont caractérisées par leurs fonctions (i.e. occupation/usage du sol). Elles sont reliées par deux types de relations : les relations spatiales de voisinage et les relations temporelles définies par la succession chronologique des fonctions d’un même objet géographique. Pour la modélisation de l’évolution d’un objet géographique physique, nous adoptons le paradigme identitaire de (Cheylan, Lardon, 1993). Ce dernier, se focalise sur le concept de l’entité géographique. Il considère qu’elle correspond à un atome qui représente les attributs sémantiques et spatiaux d’un objet physique à un moment donnée. Selon ce même paradigme, la vie d’un objet géographique est reconstituée par la projection, sur l’axe temporel, de la suite des atomes (entitées) appartenant à cet objet (cf. figure 1.a). 3.2. Données d’apprentissage Dans ce travail, nous proposons d’utiliser comme cas d’application les données Corine Land Cover (CLC) concernant le département 93 (Seine SaintDenis) en France. CLC est une base de données d’occupation biophysique du sol sur le territoire européen. Diffusée par l’Agence européenne de l’environnement (AEE), les données CLC sont disponibles pour quatre dates différentes (1990, 2000, 2006 et 2012 ) formant ainsi quatre cartes géographiques au format vectoriel. La première étape dans la recherche de règles d’association consiste à proposer un format de représentation des données, adéquat à la génération de règles cibles. En effet, nos instances d’apprentissage correspondent aux trajectoires de vie de l’ensemble d’objets formant un territoire ; et nos règles cibles devraient porter, dans la partie condition, sur l’historique de changement de fonction et de co-localisation d’un objet géographique et dans la partie conclusion sur sa probable fonction future. Dans ce contexte, une trajectoire de vie d’un certain objet géographique (l’objet E3 dans la figure 1.a) est représentée sous la forme d’une transaction constituée par : – Un item représentant l’attribut (SPF ). Il correspond à la séquence de fonctions des entités modélisant son évolution jusqu’à son état actuel (séquence d’évolution). La figure 1.a représente un exemple d’une trajectoire de vie. Le SPF, dans cet exemple, est représenté par la séquence composée par les fonctions f1 , f2 et f3 correspondant, respectivement, aux entités E1 , E2 , E3 (E1 et E2 les versions anciennes, E3 la version actuelle). – Un item ou un ensemble d’items représentant l’attribut (N ). Ceux-ci correspondent aux fonctions des voisins de chaque entité impliquée dans la sé- 6 SAGEO’2016 quence d’évolution. Autrement dit, les fonctions des voisins de l’entité valide à chaque ti . Dans notre exemple, les items de types N sont : - < F : f2 ; N : f5 > représentant le voisin E5 de l’entité E2 à t=2. - < F : f3 ; N : f6 > et < F : f3 ; N : f7 > représentants les voisins E6 et E5 de l’entité E3 à t=3. Il faut noter qu’à ce stade de notre travail les voisinages sont identifiés selon la relation topologique « se toucher ». – Un item représentant l’attribut (S). Il correspondant à la probable fonction de l’entité successeuse. C’est l’item < S : f4 > dans la figure 1.a. Ainsi, la transaction correspondant à notre exemple de trajectoire est: < SP F : f1 f2 f3 >, < F : f2 ; N : f5 >, < F : f3 ; N : f6 >, < F : f3 ; N : f7 >, < S : f4 > La figure 1.c illustre la structure tabulaire du fichier d’apprentissage. Les lignes correspondent aux instances d’apprentissage (trajectoire d’évolution) et les colonnes représentent les différents items qui correspondent aux variables SPF, N, F. Il convient de mentionner qu’une division ou une fusion à n’importe quel niveau temporel de l’évolution, implique la génération d’une nouvelle transaction, comme montré dans la figure 2. 3.3. Résultats préliminaires Afin de vérifier la pertinence du format proposé pour la représentation des données d’apprentissage, nous avons appliqué Apriori. Ces données sont supposées permettre la génération des règles sous la forme cible : SPF ∧ N −→ S Or, les résultats préliminaires, illustrés dans la figure 3, ont révélé un problème d’asymétrie des données. En effet, seules des règles impliquant l’attribut de voisinage ont été générées. Ceci s’explique par un taux de fréquence de cet attribut très élevé par rapport aux autres attributs de la base (i.e. les attributs S et SPF ). En outre, ces règles ne correspondent pas à la forme (ci-dessus) que nous jugeons adéquate pour la prédiction de l’évolution (i.e. l’attribut S doit figure dans la partie condition). Deux sortes de mesure sont à prévoir : 1. Modifier la fonction de génération de candidats en ajoutant des contraintes qui garantissent la génération d’itemsets complets. Un itemset est dit complet s’il contient au moins trois items dont un item SPF, un item S et et au moins un item N. Prédiction de l’évolution territoriale 7 Figure 1. Le processus de construction de la base d’apprentissage. (a) la trajectoire de vie composée de relations temporelles de succession S et relations spatiales de voisinage V. (c) la structure de la base d’apprentissage 2. Modifier la fonction de construction de règles à partir de ces itemsets pour générer des règles d’association prédictives (désigner l’attribut S comme un attribut classe figurant toujours dans la partie conclusion de la règle). 3.4. Support multiples pour la génération des candidats complets Dans une première étape, Apriori génère un ensemble de candidats, les évalue en termes de fréquence et, enfin, élimine ceux qui sont peu fréquents dans la base d’apprentissage. Le minsup représente l’élément clé de cette étape car c’est le seuil utilisé pour l’évaluation des candidats. Cependant, utiliser un seul minsup suppose que les valeurs des supports de tous les itemsets soient proches, ce qui ne l’est pas dans différents cas d’application réels et, particulièrement, dans le nôtre. 8 SAGEO’2016 Figure 2. Les transactions générées à partir d’une trajectoire de vie comportant des liaisons de division et de fusion. Figure 3. Quelques exemples de premières règles d’association produites. En effet, dans notre jeu de données, les items de voisinages sont très fréquents par rapports aux autres items (S, SPF). Ces derniers, ne peuvent être capturés que si on définit un minsup assez faible, ce qui mène, toutefois, à un problème d’explosion combinatoire, i.e. un très grand nombre de candidats. Afin de remédier à celui-ci nous proposons d’utiliser plusieurs minsup (i.e. spécifier un minsup faible pour les items qui sont rare et un minsup élevé pour les items qui sont trés fréquents). Ainsi, nous proposons tout d’abord de partitionner les items en plusieurs groupes, puis définir pour chaqu’un de ces groupes son propre minsup. Un item est dit fréquent si son nombre d’occurrence dans la base d’apprentissage est supérieur ou égal au minsup correspondant au groupe auquel il appartient. Le minsup d’un itemset, dont les items appartiennent à différentes partitions, correspond au minsup le plus faible de ceux-ci. Le partitionnement a pour objectif de grouper les items ayant des supports (nombres d’occurences dans la base) proches. Le partitionnement des items peut se faire selons deux méthodes : – Une méthodes se basant sur les algorithmes de partitionnement tels que k-moyennes ou l’algorithme espérance-maximisation (EM). Prédiction de l’évolution territoriale 9 – Une méthode se basant sur des paramètres d’analyse statistique tels ques les indices de centralité et de dispersion de données (médiane, quartile, equarttype). Dans notre cas d’application la série statistique à analyser est constituée d’un ensemble de valeurs correspondant aux supports des items (cf. 4.a). Selon par exemple, le paramètre "quartile", cette série peut être partitionnée en quatres groupes de même taille (cf. 4.b). Le premier quartile ou quartile inférieur représente la valeur de la série qui sépare les 25% inférieurs des individus de la série. Le deuxième quartile ou la médiane représente la valeur qui sépare en deux partie égales (50%) les individus de la série. Le troisème quartile ou le quartile supérieur est la valeur de la série qui sépare les 25% supérieurs des valeurs. Afin de déterminer les valeurs de ces indices, la série statistique est d’abord triée en ordre croissant. Ensuite, on détermine la médiane (2ème quartile) pour séparer la série en deux parties, puis, pour chaque partie on calcule la médiane et ainsi on optient le premier quartile (mediane de la partie inéfieure de la série) et le troisième quartile (médiane de la partie supérieure de la série). Figure 4. (a) Un exemple de série statistique décrivant les nombres d’occurence des items dans la base d’apprentissage. (b) Un diagramme en nuage de point illustrant les quatres parties délimitées par les indices : quartile inférieur Q1, médiane Q2 et quartile supérieur Q3. Une fois le partitionnement des items fait, une valeur minsup, pour chaque partition, doit être spécifiée. Comme nous devons traiter une série de valeurs numériques, nous avons également, dans cette tâche, opté pour les paramètres statistiques. La moyenne est l’un des paramètres les plus connus pour caractériser un jeu de valeurs. Elle est, généralement, utilisée pour indiquer la tendance centrale (une valeur clé autour de laquelle les autres valeurs sont réparties) d’un ensemble de valeurs. Cependant, elle est sensible à la dispersion des données. 10 SAGEO’2016 Dans des séries contenant des quantités extrêmement faibles par rapport aux autres valeurs, la moyenne se trouve loin de la concentration des données et donc ne remplie pas sa vocation d’indicateur de centralité. Dans ce genre de cas, recourir à la médiane (2ème quartile) semble plus approprié comme elle représente une estimatrice robuste de la position centrale dans un échantillon (insensible à la variabilité ou la dispersion des données). En effet, la médiane représente la valeur qui sépare les données en deux tels que une moitié de celles-ci lui sont supérieurs et une autre lui sont inférieures. Pour une liste ordonnée contenant 2N+1 valeurs la médiane est la valeur à la position N+1 ; pour une liste ordonnée comportant 2N valeurs, la médiane est le centre de l’intervalle formé les valeurs à la Nième et les (N+1)-ièmes positions ou en fonction du contexte (nécessité que la valeur soit présente dans l’échantillon) soit la valeur de la position N soit celle de N+1. 3.5. Résultats et discussion Afin de générer des itemsets pertinents et ainsi des règles pertinentes, nous avons proposé l’utilisation de plusieurs minsup. Ceci a pour objectif de pallier au problème de déséquilibre des données, en faisant apparaitre plus d’items rares (S et SPF) et donc améliorer la probabilité de générer des itemsets complets. Dans le tableau 1, on constate que le nombre des items S, SPF a augmenté pour les deux méthodes proposées et idem pour le ratio des item S, SPF par rapport au total des items. Le tableau 2 résume l’évolution remarquées, par rapport à la méthode de support unique, en termes de génération des items (S et SPF). Ainsi, ilcomparent pour chaque méthode (support unique, multiple support avec partitionnement par quartile et multiple support avec partitionnement par l’algorithme EM) le ratio d’items fréquents S, SPF par rapport au total (fréquent et non fréquent) des items S, SPF et le ratio des items S, SPF par rapport au total des items fréquents. Total Item Item 296 Item S, SPF 78 Table 1. Résultats en termes de générations des items S et SPF Unique MinSup SM : Analyse Stat SM : Algorithme ME Total items fréquents S, SPF quents 70 163 173 18 43 47 Fré- Ratio S, SPF fréquents/total S, SPF 0,2307692308 0,5512820513 0,602564103 Ratio S, SPF/Total items Fréquents 0,257142857 0,263803681 0,271676301 Prédiction de l’évolution territoriale 11 Table 2. Un tableau résumant l’évolution des résultats trouvés par rapport à la méthode unique support Unique MinSup SM : Analyse Stat SM : Algorithme ME Evolution par rapport à unique support Ratio S, SPF fréquents/total S, Ratio S, SPF/Total items FréSPF quents 1 1 2,388888889 1,025903204 2,611111111 1,056518949 Bien que légères, ces améliorations sont prometteuses comme elles peuvent être rehaussées par la définition et l’utilisation de nouvelles méthodes de partitionnement prenant en compte les types d’items, ou des méthodes hybrides considérant, à la fois, leurs caractéristiques statistiques (nombres d’occurrences) et sémantiques (type d’items, S, SPF ou N ). Par ailleurs, il convient de noter que ces améliorations, bien que sensibles, nous ont permis de générer des règles complètes non extraites au paravent . 4. Conclusion Dans cet article nous proposons d’analyser et de comprendre les relations spatio-temporelles de voisinage et de succession d’usage des objets géographique pour produire un modèle prospectif et prédictif de l’évolution d’un territoire. Notre proposition traite des questions liées à la représentation des relations spatio-temporelles incorporées dans le jeu de données étudié, en produire des règles dans une forme adéquate à notre problème de prédiction, et la prise en compte des items rares mais qui peuvent être utiles en suggérant de spécifier, d’une façon adéquate, plusieurs seuils de fréquence. Dans nos perspectives, nous avons l’intention de développer le concept de voisinage en nous basant sur la distance entre objets plutôt qu’à leur adjacence. Bibliographie Agrawal R., Imieliński T., Swami A. (1993). Mining association rules between sets of items in large databases. In Acm sigmod record, vol. 22, p. 207–216. Charif O., Omrani H., Basse R.-M. (2012). Cellular automata based on artificial neural network for simulating land use changes. In Proceedings of the 45th annual simulation symposium, p. 1:1–1:9. San Diego, CA, USA, Society for Computer Simulation International. Consulté sur http://dl.acm.org/citation.cfm?id=2331751 .2331752 Cheylan J.-P., Lardon S. (1993). Towards a conceptual data model for the analysis of spatio-temporal processes: the example of the search for optimal grazing strategies. In A. Frank, I. Campari (Eds.), Spatial information theory a theoretical basis for gis, vol. 716, p. 158-176. Springer Berlin Heidelberg. Consulté sur http:// dx.doi.org/10.1007/3-540-57207-4_11 12 SAGEO’2016 Han J., Cheng H., Xin D., Yan X. (2007, août). Frequent pattern mining: Current status and future directions. Data Min. Knowl. Discov., vol. 15, no 1, p. 55–86. Consulté sur http://dx.doi.org/10.1007/s10618-006-0059-1 Hipp J., Güntzer U., Nakhaeizadeh G. (2000, juin). Algorithms for association rule mining &mdash; a general survey and comparison. SIGKDD Explor. Newsl., vol. 2, no 1, p. 58–64. Consulté sur http://doi.acm.org/10.1145/360402.360421 Jenerette G. D., Wu J. (2001). Analysis and simulation of land-use change in the central arizona – phoenix region, usa. Landscape Ecology, vol. 16, no 7, p. 611–626. Consulté sur http://dx.doi.org/10.1023/A:1013170528551 Malek Ž., Boerboom L., Glade T. (2015). Future forest cover change scenarios with implications for landslide risk: An example from buzau subcarpathians, romania. Environmental Management, vol. 56, no 5, p. 1228–1243. Consulté sur http:// dx.doi.org/10.1007/s00267-015-0577-y Pradeau J.-F. (1996). Des conceptions de l’espace. Espaces Temps, vol. 62, no 1, p. 50–58. Consulté sur http://www.persee.fr/doc/espat_0339-3267_1996_num _62_1_3987 Qiang Y., Lam N. S. N. (2015). Modeling land use and land cover changes in a vulnerable coastal region using artificial neural networks and cellular automata. Environmental Monitoring and Assessment, vol. 187, no 3, p. 57. Consulté sur http://dx.doi.org/10.1007/s10661-015-4298-8 Yang Q., Li X., Shi X. (2008, juin). Cellular automata for simulating land use changes based on support vector machines. Comput. Geosci., vol. 34, no 6, p. 592–602. Consulté sur http://dx.doi.org/10.1016/j.cageo.2007.08.003