Fouille de données complexes Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM Introduction De plus en plus d’entrepôts de données sont ou seront créés Raisons principales : Explosion des données multimédias 2 Le tout numérique dans l’entreprise génère des données à entreposer échange et recherche de données facilités (via Internet) capteurs et numérisations de toute sorte (librairies digitales) SIG / Télédétection (données cartographiques, données satellitales) agence de photo de presses CAO, Bio-informatique, imagerie médicales (données techniques) finance (cours des actions= séries temporelles) GED (documents, emails) vidéo, … K. Zeitouni Cours M2 COSY - Fouille de données complexes Plan Fouille de données spatiales Les Bases de données spatiales Méthodes de la FDS Fouille de données textuelles Fouille de données séquentielles 3 K. Zeitouni Cours M2 COSY - Fouille de données complexes Bases de données spatiales Définition d’une BD spatiale Ensemble organisé d’objets géographiques : Chaque objet est une association d'une description qualitative ou quantitative et d’une localisation spatiale Gérée au sein d’un SIG Organisée en couches thématiques Ex : découpage administratif, Réseaux routier, Cadastre, POS, Topographie (courbes de niveau)... 5 K. Zeitouni Cours M2 COSY - Fouille de données complexes Interface graphique 6 K. Zeitouni Cours M2 COSY - Fouille de données complexes Parallèle relationnel – Spatial (1) Parallèle entre Thème et table: Un thème peut être vu comme une table avec un attribut de localisation Table 7 Id_route Nom_route TypeSurface Nb_voies 1 Av. Morane Saulnier Goudronnée 4 2 Rue Dewoitine Goudronnée 3 3 Av. Europe Goudronnée 1 K. Zeitouni Localisation Cours M2 COSY - Fouille de données complexes Parallèle relationnel – Spatial (2) select c.nom, c.loc from commune c where c.population > 10000 Requêtes spatiales Sélection Sélection spatiale select c.nom, c.loc from commune c where Intersecte (c.loc, Rectangle(xmin,ymin,xmax,ymax)) select c.* from commune c, route r where r.nom = 'N10' and adjacent(c.loc, r.loc) Zones d’intersection des communes select c.nom, f.nom, Intersection (c.loc, f.loc) from commune c, foret f et des forêts (map overlay) Agrégation 8 Communes au bord de le N10 Jointure spatiale Accès aux objets situés dans une fenêtre donnée Accès par relation à un objet Ville de plus de 10 000 Fusion des communes par département where Intersecte (c.loc, f.loc) select departement, fusion (loc) Cours M2 COSY - Fouille de données from commune K. Zeitouni complexes group by departement Parallèle relationnel – Spatial (3) Cette comparaison montre que : les SGBD Géographiques sont spécifiques, mais ils peuvent être vus comme une extension des SGBD relationnels RELATIONNEL Données Prédicats et calculs Manipulation Liens entre objets Méthodes d'accès 9 SPATIAL Entier, Réel, Texte, … Plus complexes: Point, Ligne, Région … Tests : =, >,… Calculs : +, /,… et fonctions simples Opérateurs de l'algèbre : Sélection, Projection, Jointure… Agrégats : Count, Sum, Avg… Par clés de jointures Prédicats et calculs géom. et topologiques: Tests : intersecte, adjacent à,… Fonctions géom. : intersection, surface… Manipulation par thème ou inter-thèmes Sélection et jointure sur critère spatial Agrégats : fusion d'objets adjacents Liens spatiaux (souvent) implicites Index B-tree, hachage Index R-tree, quad-tree, etc. K. Zeitouni Cours M2 COSY - Fouille de données complexes Exemple d’Oracle spatial Niveau de fiabilité supérieur à celui des simples fichiers (sécurité d’accès, intégrité transactionnelle…) Intégration des données géo-spatiales dans un SGBD: =>utilisation beaucoup plus efficace des données =>garantie de l’universalité et de l’interopérabilité - conforme aux normes (OpenGIS, ISO, …) =>requêtes combinées aux informations géo-spatiales et classiques - dans un langage SQL (familier aux développeurs) 10 K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de données spatiales Problème type Dr. John Snow découvre la cause probable des cas de choléra 12 K. Zeitouni Cours M2 COSY - Fouille de données complexes Autre application - Analyse de l’accidentologie routière Vise à décrire et expliquer le risque routier par : la description des accidents inventoriés leur contexte géographique Accidents inventoriés Fouille de Données Spatiales Voirie Cartes et connaissances extraites Activités ... 13 K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de données spatiales versus Analyse spatiale Applications décisionnelles : Analyse spatiale de phénomènes localisés : risque routier, épidémiologie, criminologie, pollution, … FDS versus Analyse spatiale Fouille de données spatiales Analyse spatiale (Dr J. Snow) Découverte automatique de connaissances Découverte visuelle de connaissances Exploratoire (génère des hypothèses) Confirmatoire Opère sur des gros volumes de données Inapplicable sur des BD volumineuses 14 K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de données spatiales versus Fouille de données classique BD spatiales Requêtes avec critères spatiaux Pas d’analyse exploratoires FD « classique » Batterie de méthodes exploratoires Pas de raisonnement spatial Fouille de données spatiales Intègre les techniques de BDS et de FD Explore les données et les relations spatiales d ’une BDS 15 K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de données spatiales Définition Découverte de connaissances implicites depuis une BDS toute propriété, règle ou régularité impliquant les objets de la BD spatiales et/ou les objets avoisinants et leurs relations spatiales 16 Principales méthodes : Statistiques spatiales Clustering Règles d’association Classification K. Zeitouni Cours M2 COSY - Fouille de données complexes Statistiques spatiales Analyse globale - Mesure d’auto-corrélation spatiale d’une variable Indice global (par carte) de Moran et Geary (en 1945 et 54) Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90] Particularités au niveau local => met en évidence les données atypiques utilise une matrice de voisinage binaire ou pondérée (wij) quantifie la contribution individuelle de chaque lieu à l’indice global X X w X i M Local ij X j i 17 j X X 2 i N K. Zeitouni Cours M2 COSY - Fouille de données complexes Application aux sections LISA(2) -32.929 - -2.76 -2.76 - -0.341 -0.341 - 2.832 2.832 - 8.673 8.673 - 171.983 Res_roub.shp Lim_roub.shp Vert : moins corrélé que la moyenne globale Rouge : plus corrélé que l’indice global Jaune: comme l’indice global Blanc : tronçons sans calcul (pas d’accidents) 18 K. Zeitouni Cours M2 COSY - Fouille de données complexes Application aux régions Autocorrélation locale du nombre de blessés 19 K. Zeitouni Cours M2 COSY - Fouille de données complexes Problèmes engendrés Problème 1: Les données spatiales sont liées 20 Les méthodes de FD supposent les données indépendantes Problème 2: Les relations spatiales sont implicites Non stockées dans la BD Leur calcul nécessite des jointures coûteuses Leur intégration dans l’analyse est coûteuse Problème 3: Les relations spatiales sont multiples Topologiques (adjacence, intersection, …) ou métriques (distance) Le choix de la bonne relation spatiale est difficile K. Zeitouni Cours M2 COSY - Fouille de données complexes Clustering Groupage d’objets similaires / séparation dissimilaires Similarité en spatial = distance euclidienne Utilisé moins pour classer que pour découvrir des concentrations ou des points chauds ex: criminologie, épidémiologie, accidents Méthodes en spatial : 21 orientés perf. : CLARANS, DBSCAN, ... sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] évitement obstacle : COE-CLARANS [Han] Concentration atypiques : machine GAM [Openshaw] K. Zeitouni Cours M2 COSY - Fouille de données complexes Clustering spatial sous contraintes Problème : Trouver des regroupements qui respectent des contraintes et des obstacles physiques Contraintes physiques « COE-CLARANS » [Tung ICDT’01] Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques (rivière, pont, etc.) Solution: calculer la distance entre p et q en considérant les obstacles Rivière Pont 22 K. Zeitouni Cours M2 COSY - Fouille de données complexes Exemple avec la machine GAM : caractériser les accidents de nuit/ WE # # # ## # ### # # # ## # ## # # # ## # # # # # # # # # # # # ## # # ## # ###### # #### # # # ## # # ## # ## ## # ### # # # ## # ###### #### ## # ## # # # ##### # # # # ######### # # # # # # #### # # ### ### # ### # ## # ## # # # ### # # # ## # # # # # # # ## # # # # # # # # # # # # ## ## # # # # #### ### # #### ## # # # # # # # # # # # # ## ###### # #### # ## # ## ## #### ## # # # # # # # # # # ### # # ## # # #### # ## ## ## ### ##### ### ## ## # ### ### ## ## # ### # # ## ####### ###### # # ## # # ### # # # ##### ### # ## ### ## ## ##################### ## # ## # # #### # # # ### ### # ############# #### ## # ### # # # # ##### # # # # # # # # # # # # # # # ###### ## # ######## # ## ##### ### # ### # # # # ## # # # ## ## ##### # # # # # # # # # # # ###### # # # ## # #### # # # # # # # # # # ## ## # ## ## ## # #### ## ## # # # # # # # # # # # # # # # # # # # # # # # # # # ## # ## # ## # #### ### ## # ## # # # # # ## # # # ## # # # # # ## ## # # # # # # ## # # # ## ## # #### ######## # ## # # ### # ## ## ### # # # # # # ##### ## # # # # # # #### ## # ## ## ### # # # # # # # # # # ### ### # # # ## #### # # # ### ### #### # # ### ## ## # ## # # # # #### # # ############ ## # # ### # ## #### #### # # # # # #### ## # # # ########### # ### ### #### ### # #### # ## # ## ###### ################### ##### ####### ## # # # # # ##### ## ####### # ##### # # # ## ### # # # ### ###### # # ## # ## # # ### ##### #### ###### # ## # ## ## ## ## # ### ######### # ### # ###### ## ## ##### #### ## # ## # # # #### ### # # ## # ### # ## ### ### ########## ## # # ### # #### # ## ## ## ## # # ## # # ### # ## ## # ## ## # ### ### # ### ### # # # #### # ##### # # # ## # # # # # # # ## # # # # # # # # # # # # # # ## # # # # # # # # # # ### # # # # ### # # # # # # # # # # # # # # # # # # # # # # # ### # # # # # # # # # ## # # # # # # # # # # # # # ## # # # # # # # ## # # ## # # # # ### # ### ## # # ## # # ## # ## # # ## # Localisations des accidents de nuit WE en rouge 23 K. Zeitouni Recherche de concentrations spatiales locales atypiques Cours M2 COSY - Fouille de données complexes Clustering sous Oracle 10g But: Trouver les zones de concentration de criminologie. Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes 1. Définir high_crimes>150 Create Table USBG_high_crimes As Select* From USBG_data Where CrimeIndex>150 2. Appliquer la méthode de clustering (k=4) Select geometry From Table(sdo_sam.spatial_cluster(‘USBG_high_crimes’,’geom’,4)) 24 K. Zeitouni Cours M2 COSY - Fouille de données complexes Clustering sous Oracle 10g Visualiser les clusters par Oracle MapViewer USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en bleu transparent 25 K. Zeitouni Cours M2 COSY - Fouille de données complexes Règles d’associations spatiales 1. Règle d’association multi-dimensionnelle Sur une table (attributs x Valeurs) en remplaçant les valeurs d ’"articles" d'une transaction par les valeurs d’attributs "A1^A2...^Am => B1^...^Bn" avec support et confiance où Ai et Bj sont des valeurs d'attributs 2. Sur des données spatiales idem + Rel° spatiales => idem + Rel° spatiales ce qui revient à trouver des associations entre des propriétés des objets et celles de leurs "voisins" 26 K. Zeitouni Cours M2 COSY - Fouille de données complexes Exemple station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%) exprime que les stations service en zone rurales sont près des autoroutes, à 80% (confiance) et que ces stations forment 25% (support) des stations inventoriées. Variantes Thème Règle 27 de référence [Koperski] de co-localisation quelconque [Shashi] K. Zeitouni Cours M2 COSY - Fouille de données complexes Co-localisation 28 Sous ensemble d’objets spatiaux fréquemment situés ensemble K. Zeitouni Cours M2 COSY - Fouille de données complexes Arbre de décision spatial Rappel Règles de classement pour expliquer une variable « classe » par des variables explicatives. En FDS Les propriétés du voisinage peuvent être explicatives Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte. 29 K. Zeitouni Cours M2 COSY - Fouille de données complexes Exemple – Spatial CART 30 K. Zeitouni Cours M2 COSY - Fouille de données complexes Approches proposées Etape 1 FD spatiales Index de Jointure Spatial FD multi-tables Adapter les données aux algos existants Etape 2 Etendre les algorithmes au multi-tables Prendre en compte la duplication des objets Algos ILP Programme logique CROISEMENT algorithme classique Connaissances 31 K. Zeitouni Connaissances Cours M2 COSY - Fouille de données complexes Approche préconisée par Oracle 10g 32 K. Zeitouni Cours M2 COSY - Fouille de données complexes Index de jointure spatiale? Structure secondaire qui matérialise et codifie les relations spatiales Id ….. An ID1 Relation spatiale ID2 Id …. 01 ….. …. 01 60 12 01 ….. …. 02 …. …. 02 45 43 02 …. …. ….. … … ….. ……. …… ….. … … ….. … … ….. ……. …… ….. … … ….. …. ….. ……. ….. ….. …. 99 … 99 53 75 99 … Thème 1 33 … Index de jointure spatiale K. Zeitouni Bn … Thème 2 Cours M2 COSY - Fouille de données complexes La FD classique est mono-table Représentation des données en FD classique 1 table unique Valeurs atomiques 1 exemple d’apprentissage par ligne 34 K. Zeitouni Cours M2 COSY - Fouille de données complexes Transformation préalable Bâtiment IndexJS Accident ID1 Date Impliqué … An ID1 ID2 Dist ID Libelle 01 12/03/03 Piéton … an1 01 01 10 01 Ecole 02 10/04/03 2 roues … An2 01 02 55 02 Ecole 02 01 75 03 Marché 02 03 20 Opérateur CROISEMENT 35 ID1 Date Impliqué … An 01 12/03/03 Piéton … an1 10 Null 02 10/04/03 2 roues … An2 75 20 K. Zeitouni Dist_ école Dist_ marché Cours M2 COSY - Fouille de données complexes Conclusion sur la FDS La fouille de données spatiales = prolongement de la fouille de données La préparation des données peut changer la donne ? 36 Tient compte des interactions dans l’espace FD spatiale FD multi-tables grâce aux index de jointures spatiales FD classique grâce à l’opérateur C’est souvent le cas d’autres objets complexes : Fouille de texte FD par transformation en vecteur de termes Fouille d’images FD sur descripteurs K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de données textuelles Fouille de textes Croissance phénoménale de données textuelles Comment faire supporter à la machine le traitement rapide du langage naturel ? Techniques d’Analyse du Langage Naturel (TALN): Extraction d’éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus (synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes) 38 Documents sur Internet, mail, rapports, … Besoin d’automatiser leur recherche et leur classement Clustering de texte Classification (catégorisation) Associations de termes K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de texte versus fouille de données 39 Data Mining Text Mining Objet numérique & catégorique textuel Structure structuré non-structuré Représentation simple complexe Dimension dizaines milliers Maturité Implémentation vaste dès 1994 Implémentation vaste dès 2000 K. Zeitouni Cours M2 COSY - Fouille de données complexes Classification de documents textes Principe Relier une description de produit en texte libre à une classe de produits. Application web: 40 Classification (par apprentissage) de textes dans 1 ou plusieurs catégories Application en e-commerce : Moteur de Catégorisation sport culture santé politic economic vacances les sites tels que Yahoo constituent une exellente base d’apprentissage, car les catégories y ont été générées manuellement. Sert à générer un classifieur pour classer les prochains documents. Ces classes peuvent servir comme balises sémantiques K. Zeitouni Cours M2 COSY - Fouille de données complexes Site organisé par catégorie 41 K. Zeitouni Cours M2 COSY - Fouille de données complexes Processus global de catégorisation Documents d’apprentissage pré-traitement Termes uniques présents dans les documents Termes uniques document Dictionnaire Représentation Vecteur des documents catégories affectées 42 Sélection des termes Calcul des scores des catégories K. Zeitouni Calcul des similarités k proches voisins Vecteurs des documents Apprentissage Catégorisation Cours M2 COSY - Fouille de données complexes Prétraitement des documents Document: doc Tokenizing Removing stop words Stemming words* Génère des données de type: (docID, (term, term frequency)*) Calculating term frequency stoppedTermsTF 43 K. Zeitouni StemmedTermsTF* Cours M2 COSY - Fouille de données complexes Ex: Stop-words (mots chevilles) Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants : a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, audessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, audessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton. Cours M2 COSY - Fouille de données 44 K. Zeitouni complexes Représentation des documents et Mesure de similarité Représentation des documents t1 t2 Vecteurs de document ou matrice Document x terme Pondération (ex: tf-idf) + Réduction de dimension d1 d2 dN w11 w21 wN1 tT w12 w1T w22 w2T wN2 wNT Similarité : Par le cosinus : Plus il est élevé (angle obtus) plus les documents sont similaires Simil(di,d j)cosdi,d j 45 K. Zeitouni Cours M2 COSY - Fouille de données complexes Pondération TF-IDF TF-IDF signifie Term Frequency x Inverse Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un terme dans un document relativement à l’ensemble des documents. Avec: tf i,j = fréquence du terme i dans le document j df i = nombre de documents du corpus contenant le terme i N = nombre de documents du corpus 46 K. Zeitouni Cours M2 COSY - Fouille de données complexes Évaluation de Performances Ex. pour la catégorisation binaire (Y/N): pré-étiqueté Y pré-étiquetéN Affecté à Y a b a+b Affecté à N c d c+d a+c b+d a+b+c+d 47 Mesures basés sur la table de contingences : Rappel mesure la largeur de la catégorisation : ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c) Précision mesure la qualité de la catégorisation et correspond à la fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b) F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p) K. Zeitouni Cours M2 COSY - Fouille de données complexes Fouille de données séquentielles Utilisations Panier de la ménagère en considérant l’historique des transactions des clients. Le Web Usage Mining en considérant les succession des pages accédées par un même internaute. Analyse de séquences ADN Analyse de séquences d’événements quelconques : Différences avec les séries temporelles 49 Ex: Séquence d’activités de l’enquête «MénagesDéplacements» Séries qualitatives et non numériques Parfois série d’ensembles, série de données multi-variées, … K. Zeitouni Cours M2 COSY - Fouille de données complexes Ex : Le Web Usage Mining Le Weblog contient des informations riches sur la dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels La recherche de régularités (séquences fréquentes de pages) permet : Les associations de pages côté client permet d’optimiser le cache du navigateur, d’effectuer du « prefetching » L’analyse de tendance (temporelle): 50 D’ajuster la conception des pages et des liens et d’améliorer les performances des sites Indique les changements et la dynamique du web pour s’y adapter K. Zeitouni Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes Algorithme GSP [Skirant 95]: Extension d’Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé abbc abb aa ab abcb ba a 51 bbb abc ac bbcb bb b K. Zeitouni cbbc bbc cbb bc ca c cbcb cbc cb cc Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes (Suite) Algorithme PrefixSpan [Pei 2001]: 52 Inspiré de FP-tree et FP-growth de J. Han Code les données dans une structure d’arbre Plus performant que GSP si la structure tient en mémoire Problème : compacité moyenne => peut dépasser la taille de la mémoire K. Zeitouni Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes (Suite) Algorithme TBI [Savary 2005]: Méthode en 2 phases : 53 Un seul parcours de la base Codage compact au fur et à mesure dans un tableau binaire Maintien des fréquences des séquences lues et d’un index pour l’accès rapide par longueur. Plus performant que PrefixSpan Phase de codage dans la structure de donnée (Lit 1 fois la BD) Phase de génération de fréquents en mémoire K. Zeitouni Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes (Suite) Structure de données Index 1 4 6 8 Pointe sur le début de séquences de taille 3 Pointe sur le début de séquences de taille 1. VS 9 M T E S M R T M 0 1 1 0 1 0 1 1 1 0 1 0 0 1 0 1 1 5 0 1 0 0 1 0 0 1 .. .. .. .. .. .. .. .. 0 1 0 0 0 0 1 0 0 0 TB 54 K. Zeitouni 0 0 240 ... 0 0 389 0 0 500 Fréquence de la séquence entière NB Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes (Suite) Algo TBI (Seuil-support, Tmax) Pour s dans la BD Gen-vecteur-séquences (VS, s) //génère le vecteur de séquences Coder et Insérer séquence dans le TBI Décalage éventuel pour séquences déjà codées Mettre à jour NB et Index Fin pour Pour k = 1 à Tmax //taille maximale des séquences de la base - Générer Ck - Gen-séquences-fréquentes (Seuil-support, k) Fin Pour 55 K. Zeitouni Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes (Suite) Algo. Gen-vecteur-séquences (VS, s) indice=1 --s : nouvelle séquence -- Position courante dans VS Pour chaque article a de s Si a (VS à partir de indice) Si b s tel que b VS et position(b) > indice Insérer a avant b dans VS indice = indice + 1 Sinon insérer a à la fin de VS indice = Longueur VS+1 Fin Pour Fin 56 K. Zeitouni Cours M2 COSY - Fouille de données complexes Sous-séquences fréquentes (Suite) Algo. Gen-séquences-fréquentes (Seuil-support, k) : Lk = // ensemble des séquences fréquentes de tailles k Pour toutes les sous-séquences candidates s de taille k - Pour toutes les lignes l du TBI à partir de la ligne index[k] - Si s l - s.count = s.count + NB[k] - Fin Pour - Si s.count >= Seuil-support - Lk= Lk s // fréquence de s Fin Pour 57 K. Zeitouni Cours M2 COSY - Fouille de données complexes Conclusion La recherche d’information a dominé la recherche au cours du demi-siècle passé. La découverte d’informations dominera la recherche au cours du siècle à venir. Directions de recherche Vers les outils intégrés de data mining Vers les méthodes intelligentes, efficaces et passant à l’échelle 58 “Vertical” (spécifique par application) data mining invisible (systèmes intelligents) Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données complexes. K. Zeitouni Cours M2 COSY - Fouille de données complexes Références Miller H.J., Han J., Geographic Data Mining and Knowledge Discovery, Research monographs in geographic information systems, 2001. Ester M., Kriegel H.-P., Sander J., Xu X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD-96), Portland, 1996, pp. 226-231. Ester M., Kriegel H.P., Sander J., "Spatial Data Mining: A Database Approach", Proc. of 5th Symposium on Spatial Databases, Berlin, Germany, 1997. K. Koperski, G. B. Marchisio, « Multi-level Indexing and GIS Enhanced Learning for Satellite Imageries », In proceedings of Workshop on Multimedia Data Mining, August 20, 2000, Boston, MA, USA, pages 8-13. In conjunctions with the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2000. Lu, W., Han, J. and Ooi, B.: Discovery of General Knowledge in Large Spatial Databases, in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993 59 K. Zeitouni Cours M2 COSY - Fouille de données complexes Références (suite) R. Ng and J.Han, "Efficient and Effective Clustering Method for Spatial Data Mining'', in Proc. of Int. Conf. on Very Large Data Bases (VLDB'94), Santiago, Chile, September 1994, pp. 144-155. Tung A.KH, Ng R T., Lakshmanan L VS, Han J., Constraint-based clustering in large databases. ICDT 2001. Zeitouni K., "Data Mining Spatial" - Numéro spécial, Revue internationale de géomatique, Editions Hermès, Vol. 9, 4 (99). Zeitouni K.,Yeh L., Aufaure M-A., "Join indices as a tool for spatial data mining", Int. Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, LNAI n° 2007, Springer, Lyon, September 2000. 60 Sites web : http://www.kdnuggets.com/ http://www.cs.bham.ac.uk/~anp/TheDataMine.html Site de DBMiner/GeoMiner : http://db.cs.sfu.ca/DBMiner/index.html K. Zeitouni Cours M2 COSY - Fouille de données complexes Références (suite) Agrawal R., Srikant R.: Mining sequential patterns. In Proc. of the 11th Int'l Conference on Data Engineering, Taipei, Taiwan, March 1995. Han, J., Jamil, H. M., Lu, Y., Chen, L., Liao, Y. and Pei, J. DNA Miner: A system prototype for mining DNA sequences. In the proc. of the ACM SIGMOD International Conference on the management of data, Day 21-24, 2001, Santa Barbara, CA, USA. M. J. Zaki. 2001. SPADE: an efficient algorithm for mining frequent sequences. Machine Learning Journal, 42 (1/2): 31-60. R. Srikant and R. Agrawal. 1996. Mining sequential patterns: generalization and performance improvements. Proceedings of the 15th International Conference on Extending Database Technology, 3-17. J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M-C. Hsu. 2001. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference on Data Engineering (ICDE), 215-224. F.Masseglia, P.Poncelet, M.Teisseire: Incremental mining of sequential patterns in large databases. Data Knowledge Engineering 46(1): 97-121 (2003). Savary L., Zeitouni K., “Indexed Bit Map (IBM) for Mining Frequent Sequences”, 9th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3-7, 2005. Lecture Notes in Computer Science n° 3721 / 2005, Springer-Verlag Ed, pp. 659 – 666. Vesrion en Français ”Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes », Actes de la conférenceExtraction et Cours M2 COSY - Fouille de données Gestion de connaissances (EGC) 2005. 61 K. Zeitouni complexes