Fouille de données complexes

publicité
Fouille de données complexes
Karine Zeitouni
Master COSY – Université de Versailles Saint-Quentin
Edition 2005-2006
En ligne sur :
http://www.prism.uvsq.fr/users/karima/DM
Introduction

De plus en plus d’entrepôts de données sont ou seront
créés

Raisons principales :




Explosion des données multimédias






2
Le tout numérique dans l’entreprise génère des données à entreposer
échange et recherche de données facilités (via Internet)
capteurs et numérisations de toute sorte (librairies digitales)
SIG / Télédétection (données cartographiques, données satellitales)
agence de photo de presses
CAO, Bio-informatique, imagerie médicales (données techniques)
finance (cours des actions= séries temporelles)
GED (documents, emails)
vidéo, …
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Plan

Fouille de données spatiales

Les Bases de données spatiales

Méthodes de la FDS

Fouille de données textuelles

Fouille de données séquentielles
3
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Bases de données spatiales
Définition d’une BD spatiale

Ensemble organisé d’objets géographiques :

Chaque objet est une association d'une description
qualitative ou quantitative et d’une localisation spatiale

Gérée au sein d’un SIG

Organisée en couches thématiques

Ex : découpage administratif, Réseaux routier, Cadastre,
POS, Topographie (courbes de niveau)...
5
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Interface graphique
6
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Parallèle relationnel –
Spatial (1)

Parallèle entre Thème et table:

Un thème peut être vu comme une table avec un attribut de
localisation
Table
7
Id_route
Nom_route
TypeSurface
Nb_voies
1
Av. Morane
Saulnier
Goudronnée
4
2
Rue
Dewoitine
Goudronnée
3
3
Av. Europe
Goudronnée
1
K. Zeitouni
Localisation
Cours M2 COSY - Fouille de données
complexes
Parallèle relationnel – Spatial (2)

select c.nom, c.loc
from commune c
where c.population > 10000
Requêtes spatiales

Sélection


Sélection spatiale


select c.nom, c.loc
from commune c
where Intersecte (c.loc,
Rectangle(xmin,ymin,xmax,ymax))
select c.*
from commune c, route r
where r.nom = 'N10' and adjacent(c.loc, r.loc)
Zones d’intersection des communes select c.nom, f.nom, Intersection (c.loc, f.loc)
from commune c, foret f
et des forêts (map overlay)
Agrégation

8
Communes au bord de le N10
Jointure spatiale


Accès aux objets situés dans une
fenêtre donnée
Accès par relation à un objet


Ville de plus de 10 000
Fusion des communes par
département
where Intersecte (c.loc, f.loc)
select
departement, fusion (loc)
Cours M2 COSY - Fouille de données
from
commune
K. Zeitouni
complexes
group by departement
Parallèle relationnel – Spatial (3)

Cette comparaison montre que :


les SGBD Géographiques sont spécifiques,
mais ils peuvent être vus comme une extension des SGBD relationnels
RELATIONNEL
Données
Prédicats et
calculs
Manipulation
Liens entre
objets
Méthodes
d'accès
9
SPATIAL
Entier, Réel, Texte, …
Plus complexes: Point, Ligne, Région …
Tests : =, >,…
Calculs : +, /,…
et fonctions simples
Opérateurs de l'algèbre :
Sélection, Projection, Jointure…
Agrégats : Count, Sum, Avg…
Par clés de jointures
Prédicats et calculs géom. et topologiques:
Tests : intersecte, adjacent à,…
Fonctions géom. : intersection, surface…
Manipulation par thème ou inter-thèmes
Sélection et jointure sur critère spatial
Agrégats : fusion d'objets adjacents
Liens spatiaux (souvent) implicites
Index B-tree, hachage
Index R-tree, quad-tree, etc.
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Exemple d’Oracle spatial

Niveau de fiabilité supérieur à celui des simples fichiers (sécurité
d’accès, intégrité transactionnelle…)

Intégration des données géo-spatiales dans un SGBD:
=>utilisation beaucoup plus efficace des données
=>garantie de l’universalité et de l’interopérabilité - conforme aux normes
(OpenGIS, ISO, …)
=>requêtes combinées aux informations géo-spatiales et classiques -
dans un langage SQL (familier aux développeurs)
10
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de données spatiales
Problème type
Dr. John Snow découvre la cause probable des cas de choléra
12
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Autre application - Analyse de
l’accidentologie routière

Vise à décrire et expliquer le risque routier par :
la description des accidents inventoriés
 leur contexte géographique

Accidents
inventoriés
Fouille de
Données
Spatiales
Voirie
Cartes et
connaissances
extraites
Activités
...
13
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de données spatiales versus
Analyse spatiale
Applications décisionnelles :


Analyse spatiale de phénomènes localisés :

risque routier, épidémiologie, criminologie, pollution, …
FDS versus Analyse spatiale

Fouille de données spatiales
Analyse spatiale (Dr J. Snow)
Découverte automatique de
connaissances
Découverte visuelle de connaissances
Exploratoire (génère des hypothèses)
Confirmatoire
Opère sur des gros volumes de données
Inapplicable sur des BD volumineuses
14
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de données spatiales versus
Fouille de données classique

BD spatiales



Requêtes avec critères spatiaux
Pas d’analyse exploratoires
FD « classique »


Batterie de méthodes exploratoires
Pas de raisonnement spatial
 Fouille de données spatiales
 Intègre les techniques de BDS et de FD
 Explore les données et les relations spatiales d ’une BDS
15
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de données spatiales Définition

Découverte de connaissances implicites depuis une BDS

toute propriété, règle ou régularité

impliquant les objets de la BD spatiales et/ou les objets avoisinants
et leurs relations spatiales

16
Principales méthodes :

Statistiques spatiales

Clustering

Règles d’association

Classification
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Statistiques spatiales

Analyse globale - Mesure d’auto-corrélation spatiale d’une variable


Indice global (par carte) de Moran et Geary (en 1945 et 54)
Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90]

Particularités au niveau local => met en évidence les données atypiques

utilise une matrice de voisinage binaire ou pondérée (wij)

quantifie la contribution individuelle de chaque lieu à l’indice global
 X  X   w  X
i
M Local 
ij
 X
j

i
17
j
X  X 
2
i
N
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Application aux sections
LISA(2)
-32.929 - -2.76
-2.76 - -0.341
-0.341 - 2.832
2.832 - 8.673
8.673 - 171.983
Res_roub.shp
Lim_roub.shp
 Vert : moins corrélé que la
moyenne globale
 Rouge : plus corrélé que
l’indice global
 Jaune: comme l’indice
global
 Blanc : tronçons sans
calcul (pas d’accidents)
18
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Application aux régions
Autocorrélation locale du nombre de blessés
19
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Problèmes engendrés

Problème 1: Les données spatiales sont liées



20
Les méthodes de FD supposent les données indépendantes
Problème 2: Les relations spatiales sont implicites

Non stockées dans la BD

Leur calcul nécessite des jointures coûteuses

Leur intégration dans l’analyse est coûteuse
Problème 3: Les relations spatiales sont multiples

Topologiques (adjacence, intersection, …) ou métriques (distance)

Le choix de la bonne relation spatiale est difficile
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Clustering

Groupage d’objets similaires / séparation
dissimilaires



Similarité en spatial = distance euclidienne
Utilisé moins pour classer que pour découvrir des concentrations ou
des points chauds
 ex: criminologie, épidémiologie, accidents
Méthodes en spatial :




21
orientés perf. : CLARANS, DBSCAN, ...
sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert]
évitement obstacle : COE-CLARANS [Han]
Concentration atypiques : machine GAM [Openshaw]
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Clustering spatial sous contraintes

Problème :


Trouver des regroupements qui respectent des contraintes et des obstacles
physiques
Contraintes physiques « COE-CLARANS » [Tung ICDT’01]

Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques
(rivière, pont, etc.)

Solution: calculer la distance entre p et q en considérant les obstacles
Rivière
Pont
22
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Exemple avec la machine GAM :
caractériser les accidents de nuit/ WE
# #
# ##
#
###
#
#
#
##
#
##
#
#
#
## #
# #
#
#
#
#
# #
# #
#
## #
# ## # ######
# ####
#
#
#
## # # ##
# ## ##
# ###
#
#
#
## # ###### #### ##
# ##
#
# # #####
#
#
#
# #########
#
#
# # # # #### # # ### ###
# ###
#
## #
## # #
#
### # # # ##
# #
#
#
#
# # ## #
# # # # #
#
#
#
#
#
# ## ## # #
#
#
#### ###
#
#### ##
#
#
#
#
#
#
#
#
#
#
#
# ##
###### # #### # ## #
## ##
####
## #
#
#
#
#
#
#
#
#
#
###
# #
## #
# #### # ##
##
## ### ##### ###
##
## #
###
###
##
##
#
###
# #
## ####### ###### #
#
##
# #
###
#
#
# ##### ###
# ##
### ##
## #####################
## #
##
#
#
#### # #
# ###
###
# #############
#### ##
# ### #
#
#
#
#####
#
#
#
#
#
#
#
#
#
#
# #
#
#
# ###### ## # ######## # ## ##### ### # ### # #
#
#
##
# # #
## ## #####
# #
# # #
# #
#
#
#
# ###### #
#
# ## # ####
#
#
#
#
#
#
#
#
#
#
##
##
#
##
##
## # #### ##
## #
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
# # #
# #
# # ## #
##
# ##
#
#### ### ## # ##
#
#
#
#
#
## # # #
## #
#
#
# #
## ## # # # #
#
# ##
#
#
# ##
##
# #### ########
#
##
#
#
###
#
## ##
###
#
#
#
#
#
#
##### ##
#
# #
#
# # #### ## #
## ##
###
#
#
#
#
#
#
#
#
#
#
### ###
# #
# ## ####
# # # ###
### #### # # ### ## ## # ##
#
#
# #
#### #
#
############
## # #
### # ##
#### ####
# #
#
# #
#### ##
#
# # ###########
# ###
### ####
### # #### #
## # ## ###### ###################
##### ####### ## # # #
# # ##### ##
####### # ##### #
# #
## ###
#
#
#
###
###### #
#
##
#
## #
# ###
##### #### ######
# ## # ##
##
##
## #
###
#########
# ### #
######
## ## #####
#### ##
#
## #
#
# #### ###
#
#
##
# ###
# ## ### ###
##########
##
#
# ### # ####
#
## ## ##
## #
#
##
#
#
###
# ## ## # ## ##
# ### ### # ### ###
#
#
#
#### #
##### #
# #
##
#
# #
#
#
#
#
##
#
#
# #
#
#
#
# #
#
#
#
#
#
## #
#
#
#
#
#
#
#
#
#
### #
#
# #
###
# #
#
#
#
#
#
#
#
#
# # #
#
#
#
#
# # #
#
#
#
### #
#
#
#
#
# #
#
# ##
#
#
#
#
#
#
#
#
#
#
#
#
# ##
#
#
#
#
#
#
#
##
#
# ## #
#
#
#
###
#
###
##
#
#
##
#
#
##
#
##
# #
##
#
Localisations des accidents de
nuit WE en rouge
23
K. Zeitouni
Recherche de concentrations
spatiales locales atypiques
Cours M2 COSY - Fouille de données
complexes
Clustering sous Oracle 10g
But: Trouver les zones de concentration de
criminologie.
Moyen: Grouper les données spatiales dans une table
spécifiée USBG_high_crimes
1. Définir high_crimes>150
Create Table USBG_high_crimes As
Select* From USBG_data Where CrimeIndex>150
2. Appliquer la méthode de clustering (k=4)
Select geometry From
Table(sdo_sam.spatial_cluster(‘USBG_high_crimes’,’geom’,4))
24
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Clustering sous Oracle 10g
Visualiser les clusters par Oracle MapViewer
USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en
bleu transparent
25
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Règles d’associations spatiales
1. Règle d’association multi-dimensionnelle

Sur une table (attributs x Valeurs) en remplaçant les valeurs
d ’"articles" d'une transaction par les valeurs d’attributs
"A1^A2...^Am => B1^...^Bn" avec support et confiance
où Ai et Bj sont des valeurs d'attributs
2. Sur des données spatiales
idem + Rel° spatiales => idem + Rel° spatiales
ce qui revient à trouver des associations entre des propriétés des
objets et celles de leurs "voisins"
26
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Exemple
station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%)
exprime que les stations service en zone rurales sont près des autoroutes,
 à 80% (confiance)
 et que ces stations forment 25% (support) des stations inventoriées.

Variantes
Thème
Règle
27
de référence [Koperski]
de co-localisation quelconque [Shashi]
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Co-localisation

28
Sous ensemble d’objets spatiaux fréquemment situés ensemble
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Arbre de décision spatial

Rappel


Règles de classement pour expliquer une variable « classe » par
des variables explicatives.
En FDS
Les propriétés du voisinage peuvent être explicatives

Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2
roues, véhicules) selon les propriétés des accidents et des objets
voisins
 Découvre des liens cachés avec certains types de voisins et les
illustrer sur la carte.
29
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Exemple – Spatial CART
30
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Approches proposées
Etape 1
FD spatiales
Index de Jointure Spatial
FD multi-tables
Adapter les données aux
algos existants
Etape 2
Etendre les algorithmes
au multi-tables
Prendre en compte
la duplication des
objets
Algos
ILP
Programme
logique
CROISEMENT
algorithme
classique
Connaissances
31
K. Zeitouni
Connaissances
Cours M2 COSY - Fouille de données
complexes
Approche préconisée par Oracle 10g
32
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Index de jointure spatiale?

Structure secondaire qui matérialise et codifie les
relations spatiales
Id
…..
An
ID1
Relation spatiale
ID2
Id
….
01
…..
….
01
60
12
01
…..
….
02
….
….
02
45
43
02
….
….
…..
…
…
…..
…….
……
…..
…
…
…..
…
…
…..
…….
……
…..
…
…
…..
….
…..
…….
…..
…..
….
99
…
99
53
75
99
…
Thème 1
33
…
Index de jointure spatiale
K. Zeitouni
Bn
…
Thème 2
Cours M2 COSY - Fouille de données
complexes
La FD classique est mono-table

Représentation des données en FD classique
1 table unique
Valeurs atomiques
1 exemple d’apprentissage
par ligne
34
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Transformation préalable
Bâtiment
IndexJS
Accident
ID1
Date
Impliqué
…
An
ID1
ID2
Dist
ID
Libelle
01
12/03/03
Piéton
…
an1
01
01
10
01
Ecole
02
10/04/03
2 roues
…
An2
01
02
55
02
Ecole
02
01
75
03
Marché
02
03
20
Opérateur CROISEMENT
35
ID1
Date
Impliqué
…
An
01
12/03/03
Piéton
…
an1
10
Null
02
10/04/03
2 roues
…
An2
75
20
K. Zeitouni
Dist_ école
Dist_ marché
Cours M2 COSY - Fouille de données
complexes
Conclusion sur la FDS

La fouille de données spatiales = prolongement de la
fouille de données


La préparation des données peut changer la donne ?


36
Tient compte des interactions dans l’espace
FD spatiale  FD multi-tables grâce aux index de jointures
spatiales  FD classique grâce à l’opérateur
C’est souvent le cas d’autres objets complexes :

Fouille de texte  FD par transformation en vecteur de termes

Fouille d’images  FD sur descripteurs
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de données textuelles
Fouille de textes

Croissance phénoménale de données textuelles




Comment faire supporter à la machine le traitement rapide du langage
naturel ?
Techniques d’Analyse du Langage Naturel (TALN):



Extraction d’éléments du langage : nom propres (personne, lieu, société)
Utilise les règles de grammaire et des patrons linguistiques, des thésaurus
(synonymes et hiérarchies de termes) ou des ontologies (règles en plus)
Fouille de textes (si grand nombre de textes)



38
Documents sur Internet, mail, rapports, …
Besoin d’automatiser leur recherche et leur classement
Clustering de texte
Classification (catégorisation)
Associations de termes
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de texte versus fouille de données
39
Data Mining
Text Mining
Objet
numérique &
catégorique
textuel
Structure
structuré
non-structuré
Représentation
simple
complexe
Dimension
dizaines
milliers
Maturité
Implémentation vaste
dès 1994
Implémentation vaste
dès 2000
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Classification de documents
textes

Principe


Relier une description de produit en texte libre à une classe de produits.
Application web:


40
Classification (par apprentissage) de textes dans 1 ou plusieurs
catégories
Application en e-commerce :


Moteur de
Catégorisation
sport
culture
santé
politic
economic
vacances
les sites tels que Yahoo constituent une exellente base d’apprentissage,
car les catégories y ont été générées manuellement. Sert à générer un
classifieur pour classer les prochains documents.
Ces classes peuvent servir comme balises sémantiques
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Site organisé par catégorie
41
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Processus global de catégorisation
Documents
d’apprentissage
pré-traitement
Termes uniques
présents dans
les documents
Termes uniques
document
Dictionnaire
Représentation
Vecteur des
documents
catégories
affectées
42
Sélection des
termes
Calcul des
scores des
catégories
K. Zeitouni
Calcul des
similarités
k proches
voisins
Vecteurs des
documents
Apprentissage
Catégorisation
Cours M2 COSY - Fouille de données
complexes
Prétraitement des documents
Document: doc
Tokenizing
Removing stop words
Stemming words*
Génère des données de type:
(docID, (term, term frequency)*)
Calculating term frequency
stoppedTermsTF
43
K. Zeitouni
StemmedTermsTF*
Cours M2 COSY - Fouille de données
complexes
Ex: Stop-words (mots chevilles)

Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants :
a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin,
ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et,
lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non,
quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très,
après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles,
déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres,
quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont,
une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, audessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, audessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre,
auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel,
ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui,
te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux,
dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce,
quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne,
auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez,
elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment,
pour, se, toi, à, comme, en, le, mon, pourquoi, selon,
ton.
Cours
M2 COSY - Fouille de données
44
K. Zeitouni
complexes
Représentation des documents et
Mesure de similarité

Représentation des documents

t1 t2
Vecteurs de document

ou matrice Document x terme

Pondération (ex: tf-idf)

+ Réduction de dimension
d1
d2



dN
w11
w21



wN1
   tT
w12    w1T
w22    w2T






wN2    wNT
Similarité :

Par le cosinus : Plus il est élevé (angle obtus) plus les
documents sont similaires
Simil(di,d j)cosdi,d j
45
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Pondération TF-IDF

TF-IDF signifie Term Frequency x Inverse
Document Frequency :

Proposée par [Salton 1989], mesure l'importance d’un terme
dans un document relativement à l’ensemble des documents.
Avec:
 tf i,j = fréquence du terme i dans le document j
df i = nombre de documents du corpus contenant le terme i
N = nombre de documents du corpus
46
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Évaluation de Performances

Ex. pour la catégorisation binaire (Y/N):

pré-étiqueté Y
pré-étiquetéN
Affecté à Y
a
b
a+b
Affecté à N
c
d
c+d
a+c
b+d
a+b+c+d



47
Mesures basés sur la table de contingences :
Rappel mesure la largeur de la catégorisation : ratio des documents
bien classés par rapport à l’ensemble des documents appartenant
réellement à la catégorie. r=a/(a+c)
Précision mesure la qualité de la catégorisation et correspond à la
fraction des documents bien classés sur tous les documents
affectés à la catégorie. p=a/(a+b)
F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p)
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Fouille de données séquentielles
Utilisations




Panier de la ménagère en considérant l’historique des
transactions des clients.
Le Web Usage Mining en considérant les succession des
pages accédées par un même internaute.
Analyse de séquences ADN
Analyse de séquences d’événements quelconques :


Différences avec les séries temporelles


49
Ex: Séquence d’activités de l’enquête «MénagesDéplacements»
Séries qualitatives et non numériques
Parfois série d’ensembles, série de données multi-variées, …
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Ex : Le Web Usage Mining

Le Weblog contient des informations riches sur la
dynamique du Web => Son analyse permet de cibler les
utilisateurs (clients, marchés) potentiels

La recherche de régularités (séquences fréquentes de
pages) permet :



Les associations de pages côté client permet d’optimiser le cache du
navigateur, d’effectuer du « prefetching »
L’analyse de tendance (temporelle):

50
D’ajuster la conception des pages et des liens et d’améliorer les
performances des sites
Indique les changements et la dynamique du web pour s’y adapter
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes

Algorithme GSP [Skirant 95]:



Extension d’Apriori
Génération de candidats modifiée
Inconvénient : plusieurs parcours de la base => coût élevé
abbc
abb
aa
ab
abcb
ba
a
51
bbb
abc
ac
bbcb
bb
b
K. Zeitouni
cbbc
bbc
cbb
bc
ca
c
cbcb
cbc
cb
cc
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes (Suite)

Algorithme PrefixSpan [Pei 2001]:




52
Inspiré de FP-tree et FP-growth de J. Han
Code les données dans une structure d’arbre
Plus performant que GSP si la structure tient en mémoire
Problème : compacité moyenne => peut dépasser la taille de
la mémoire
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes (Suite)

Algorithme TBI [Savary 2005]:





Méthode en 2 phases :


53
Un seul parcours de la base
Codage compact au fur et à mesure dans un tableau binaire
Maintien des fréquences des séquences lues et d’un index
pour l’accès rapide par longueur.
Plus performant que PrefixSpan
Phase de codage dans la structure de donnée (Lit 1 fois la BD)
Phase de génération de fréquents en mémoire
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes (Suite)

Structure de données
Index
1
4 6 8
Pointe sur le début
de séquences de
taille 3
Pointe sur le début
de séquences de
taille 1.
VS
9
M T E
S M R T M
0
1
1 0 1
0
1 1
1
0
1
0 0 1
0
1 1
5
0 1 0 0 1 0 0 1
.. .. .. .. .. .. .. ..
0
1
0 0 0 0
1
0 0 0
TB
54
K. Zeitouni
0 0
240
...
0 0
389
0 0
500
Fréquence de la séquence
entière
NB
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes (Suite)

Algo TBI (Seuil-support, Tmax)
Pour s dans la BD
Gen-vecteur-séquences (VS, s)
//génère le vecteur de séquences
Coder et Insérer séquence dans le TBI
Décalage éventuel pour séquences déjà codées
Mettre à jour NB et Index
Fin pour
Pour k = 1 à Tmax
//taille maximale des séquences de la base
-
Générer Ck
-
Gen-séquences-fréquentes (Seuil-support, k)
Fin Pour
55
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes (Suite)

Algo. Gen-vecteur-séquences (VS, s)
indice=1
--s : nouvelle séquence
-- Position courante dans VS
Pour chaque article a de s
Si a  (VS à partir de indice)
Si  b  s tel que b  VS et position(b) > indice
Insérer a avant b dans VS
indice = indice + 1
Sinon insérer a à la fin de VS
indice = Longueur VS+1
Fin Pour
Fin
56
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Sous-séquences fréquentes (Suite)

Algo. Gen-séquences-fréquentes (Seuil-support, k) :
Lk =  // ensemble des séquences fréquentes de tailles k
Pour toutes les sous-séquences candidates s de taille k
-
Pour toutes les lignes l du TBI à partir de la ligne index[k]
-
Si s  l
-
s.count = s.count + NB[k]
-
Fin Pour
-
Si s.count >= Seuil-support
-
Lk= Lk  s
// fréquence de s
Fin Pour
57
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Conclusion



La recherche d’information a dominé la recherche au cours
du demi-siècle passé.
La découverte d’informations dominera la recherche au
cours du siècle à venir.
Directions de recherche

Vers les outils intégrés de data mining



Vers les méthodes intelligentes, efficaces et passant à l’échelle


58
“Vertical” (spécifique par application)
data mining invisible (systèmes intelligents)
Réduire les accès disque
Surtout réduire les calculs tels que les similarités sur des données
complexes.
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Références
Miller H.J., Han J., Geographic Data Mining and Knowledge Discovery, Research
monographs in geographic information systems, 2001.
 Ester M., Kriegel H.-P., Sander J., Xu X.: A Density-Based Algorithm for Discovering
Clusters in Large Spatial Databases with Noise, Proc. 2nd Int. Conf. on Knowledge
Discovery and Data Mining (KDD-96), Portland, 1996, pp. 226-231.
 Ester M., Kriegel H.P., Sander J., "Spatial Data Mining: A Database Approach", Proc. of
5th Symposium on Spatial Databases, Berlin, Germany, 1997.
 K. Koperski, G. B. Marchisio, « Multi-level Indexing and GIS Enhanced Learning for
Satellite Imageries », In proceedings of Workshop on Multimedia Data Mining, August 20,
2000, Boston, MA, USA, pages 8-13. In conjunctions with the 6th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining 2000.
 Lu, W., Han, J. and Ooi, B.: Discovery of General Knowledge in Large Spatial Databases,
in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93),
Singapore, June 1993

59
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Références (suite)
R. Ng and J.Han, "Efficient and Effective Clustering Method for Spatial Data Mining'', in
Proc. of Int. Conf. on Very Large Data Bases (VLDB'94), Santiago, Chile, September 1994, pp.
144-155.
 Tung A.KH, Ng R T., Lakshmanan L VS, Han J., Constraint-based clustering in large
databases. ICDT 2001.
 Zeitouni K., "Data Mining Spatial" - Numéro spécial, Revue internationale de géomatique,
Editions Hermès, Vol. 9, 4 (99).
 Zeitouni K.,Yeh L., Aufaure
M-A., "Join indices as a tool for spatial data mining", Int.
Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, LNAI n° 2007, Springer,
Lyon, September 2000.


60
Sites web :
http://www.kdnuggets.com/
http://www.cs.bham.ac.uk/~anp/TheDataMine.html
Site de DBMiner/GeoMiner : http://db.cs.sfu.ca/DBMiner/index.html
K. Zeitouni
Cours M2 COSY - Fouille de données
complexes
Références (suite)
Agrawal R., Srikant R.: Mining sequential patterns. In Proc. of the 11th Int'l Conference on Data Engineering,
Taipei, Taiwan, March 1995.

Han, J., Jamil, H. M., Lu, Y., Chen, L., Liao, Y. and Pei, J. DNA Miner: A system prototype for mining DNA
sequences. In the proc. of the ACM SIGMOD International Conference on the management of data, Day 21-24,
2001, Santa Barbara, CA, USA.

M. J. Zaki. 2001. SPADE: an efficient algorithm for mining frequent sequences. Machine Learning Journal, 42
(1/2): 31-60.

R. Srikant and R. Agrawal. 1996. Mining sequential patterns: generalization and performance improvements.
Proceedings of the 15th International Conference on Extending Database Technology, 3-17.

J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M-C. Hsu. 2001. PrefixSpan: mining
sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference
on Data Engineering (ICDE), 215-224.

F.Masseglia, P.Poncelet, M.Teisseire: Incremental mining of sequential patterns in large databases. Data
Knowledge Engineering 46(1): 97-121 (2003).

Savary L., Zeitouni K., “Indexed Bit Map (IBM) for Mining Frequent Sequences”, 9th European Conference on
Principles and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3-7, 2005.
Lecture Notes in Computer Science n° 3721 / 2005, Springer-Verlag Ed, pp. 659 – 666. Vesrion en Français
”Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes », Actes de la conférenceExtraction et
Cours M2 COSY - Fouille de données
Gestion de connaissances (EGC) 2005.
61
K. Zeitouni
complexes

Téléchargement