Extraction d`informations synthétiques à partir de données

publicité
Extraction d'informations synthétiques à
partir de données séquentielles
Application à l'évaluation de la qualité des
rivières
Mickaël FABRÈGUE
Le 23 mars 2015
AMIA
Présentation
2011 stage Master 2
1
Plan
Motivations
Méthodes
Extraction de motifs partiellement ordonnés
Filtrer les motifs d'intérêt
Extraction de consensus
Application aux données hydrobiologiques
Pré-traitement
Résultats
Bilan
2
Contexte thématique
Question des experts
Besoins des hydrobiologistes posés sous la forme de questions
Question thématique étudiée dans cette thèse :
Peut-on trouver des liens dans le temps entre des ensembles de
valeurs de paramètres physico-chimiques et les valeurs de
paramètres biologiques ?
Faune
Flore
Caractéristiques
temporelles
Physico-chimie
3
Contexte thématique
Question des experts
Besoins des hydrobiologistes posés sous la forme de questions
Question thématique étudiée dans cette thèse :
Peut-on trouver des liens dans le temps entre des ensembles de
valeurs de paramètres physico-chimiques et les valeurs de
paramètres biologiques ?
Faune
Flore
Méthodes de fouille de
données temporelles
Caractéristiques
temporelles
Méthodes de fouille de
motifs discriminants
Physico-chimie
4
Contexte méthodologique
Processus d'extraction de connaissances
Base de
données
Données
préparées
Algorithmes
Informations
Utilisateur
5
Contexte méthodologique
Processus d'extraction de connaissances
Base de
données
Données
préparées
Algorithmes
Connaissance
experte
Algorithme de
motifs temporels
Informations
Motifs filtrés
Utilisateur
Hydrobiologistes
6
Contexte méthodologique
Jeu de données temporelles
Du jeu de données temporelles à un jeu de séquences
Station 1
Janvier
Février
c,d
a
Station 2
Station 3
g
Mars
Avril
Mai
g
d
a,e,g
g
c,d,e
f
d
e
f
Item : g
Alphabet : {a,b,c,d,e,f,g}
Itemset : (c,d,e)
7
Contexte méthodologique
Séquences
Du jeu de données temporelles à un jeu de séquences
Station 1
Janvier
Février
c,d
a
Station 2
Station 3
g
Mars
Avril
Mai
g
d
a,e,g
g
c,d,e
f
d
e
f
Séquences
Séquence 1
< (c,d) (a) (g) (d)>
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
8
Contexte méthodologique
Motifs séquentiels
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
9
Contexte méthodologique
Motifs séquentiels
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Exemple :
< (g) (d) > : 3/3
10
Contexte méthodologique
Motifs séquentiels
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
< (g) (d) (e) (f) >
Séquence 3
Exemple :
< (g) (d) > : 3/3
< (c,d) (a) > : 2/3
Un motif M est fréquent si Fréquence(M) ≥ θ, une valeur de fréquence
minimale fixée par l'utilisateur
11
Contexte méthodologique
Motifs séquentiels
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Ensemble de motifs supportés par S1 et S2 :
< (g) (d) > : 3/3
< (c,d) (a) > : 2/3
< (c,d) (g) > : 2/3
Un même ensemble de séquences peut supporter
plusieurs motifs séquentiels
12
Contexte méthodologique
Motifs partiellement ordonnés clos
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Ensemble de motifs supportés par S1 et S2 :
< (g) (d) > : 3/3
< (c,d) (a) > : 2/3
< (c,d) (g) > : 2/3
Motifs partiellement ordonnés
clos
13
Contexte méthodologique
Motifs partiellement ordonnés clos
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Ensemble de motifs supportés par S1 et S2 :
< (g) (d) > : 3/3
g
d
< (c,d) (a) > : 2/3
< (c,d) (g) > : 2/3
Motifs partiellement ordonnés
clos
14
Contexte méthodologique
Motifs partiellement ordonnés clos
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
< (g) (d) (e) (f) >
Séquence 3
Ensemble de motifs supportés par S1 et S2 :
< (g) (d) > : 3/3
< (c,d) (a) > : 2/3
< (c,d) (g) > : 2/3
Motifs partiellement ordonnés
clos
c,d
a
15
Contexte méthodologique
Motifs partiellement ordonnés clos
Extraction de motifs séquentiels fréquents (sous-séquences fréquentes)
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
< (g) (d) (e) (f) >
Séquence 3
Ensemble de motifs supportés par S1 et S2 :
< (g) (d) > : 3/3
< (c,d) (a) > : 2/3
< (c,d) (g) > : 2/3
g
c,d
Motifs partiellement ordonnés
clos
16
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
17
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
Algorithme d'extraction de
motifs partiellement ordonnés clos
18
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
Algorithme d'extraction de
Filtrer des motifs
motifs partiellement ordonnés clos
d'intérêt
19
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
Algorithme d'extraction de
Filtrer des motifs
motifs partiellement ordonnés clos
d'intérêt
Extraire un résumé de
l'information
20
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
Algorithme d'extraction de
Filtrer des motifs
motifs partiellement ordonnés clos
d'intérêt
Extraire un résumé de
l'information
21
Méthodes
Extraction de motifs partiellement ordonnés clos
Synthèse des motifs séquentiels et représentation
sous la forme d'un graphe
a
c
d
b
Proposition : algorithme OrderSpan
Extrait tous les motifs partiellement ordonnés clos sans les limites des
approches existantes
22
Méthodes
Extraction de motifs partiellement ordonnés clos
Se baser sur l'existant
Adapter les approches d'extraction de motifs séquentiels
SPAM (2002)
FreeSpan (2000)
C.Garriga (2005)
OrderSpan (2013)
CloSpan (2003)
2014
SPADE (2001)
GSP (1996)
PrefixSpan (2001)
Frecpo (2005)
BIDE (2004)
23
Méthodes
Algorithme
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Motifs partiellement ordonnés clos avec θ=2/3
{S1, S2, S3}
{S2, S3}
{S1, S2}
24
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
Algorithme d'extraction de
Filtrer des motifs
motifs partiellement ordonnés clos
d'intérêt
Extraire un résumé de
l'information
25
Méthodes
Filtrer k motifs d'intérêt
Sélection des motifs
Parmi des milliers de motifs extraits, sélectionner quelques motifs
d'intérêt
Trois critères d'intérêt identifiés pour les utilisateurs :
- la fréquence
- la discrimance
- la redondance
Proposition
Un algorithme qui permet de sélectionner k motifs en pondérant
les trois critères
26
Méthodes
Discriminance
Jeu de données découpé en plusieurs classes
Classe 1
Classe 1 - 80 %
Motifs extraits
27
Méthodes
Discriminance
Jeu de données découpé en plusieurs classes
Classe 1
Classe 2
Classe 3
Chaque motif a une fréquence différente dans
chacune des classes
Motifs extraits
Classe 1 - 80 %
Classe 2 - 40 %
Classe 3 - 26 %
28
Méthodes
Discriminance
Jeu de données découpé en plusieurs classes
Classe 1
Classe 2
Classe 3
Chaque motif a une fréquence différente dans
chacune des classes
Motifs extraits
Classe 1 - 80 %
Classe 2 - 40 %
Classe 3 - 26 %
Valeur de Growth Rate
de 2 dans la classe 1
29
Méthodes
Redondance
Distance de Hamming entre les codes de support des motifs
S1
Motif 1
Motif 2
S2
X
X
S3
S4
S5
S6
X
X
X
X
X
X
Plus deux motifs sont supportés par les mêmes séquences, plus
ils sont proches
30
Méthodes
Filtrer k motifs d'intérêt
Sélection des motifs
Parmi des milliers de motifs extraits, sélectionner quelques motifs
d'intérêt
Méthode pour extraire les k motifs en pondérant également
redondance, fréquence et discriminance
Ensemble de motifs
extraits
Distance de Hamming
aux motifs sélectionnés
(redondance)
Fréquence
Discriminance
Motifs
sélectionnés
31
Propositions
Utiliser la notion de structure partiellement ordonnée pour
extraire, synthétiser et résumer l'information
Jeu de séquences
Algorithme d'extraction de
Filtrer des motifs
motifs partiellement ordonnés clos
d'intérêt
Extraire un résumé de
l'information
32
Méthodes
Extraction de consensus
Plutôt que l'extraction de motifs, il peut être intéressant
de chercher à résumer l'information
Jeu de données
de séquences
Extraire un résumé de
l'information
Proposition
Algorithme pour extraire une seule structure partiellement
ordonnée à partir d'une base de données de séquences
33
Méthodes
Extraction de consensus
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Motifs partiellement ordonnés clos
{S1, S2, S3}
{S2, S3}
{S1, S2}
34
Méthodes
Extraction de consensus
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Motifs partiellement ordonnés clos
Fusionner tous les motifs
{S1, S2, S3}
{S2, S3}
{S1, S2}
35
Méthodes
Extraction de consensus
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Motifs partiellement ordonnés clos
Fusionner tous les motifs
{S1, S2, S3}
{S2, S3}
{S1, S2}
36
Méthodes
Extraction de consensus
Séquences
Séquence 1
< (c,d) (a) (g) (d) >
Séquence 2
< (g) (c,d,e) (f) (a,e,g) >
Séquence 3
< (g) (d) (e) (f) >
Motifs partiellement ordonnés clos
Fusionner tous les motifs
{S1, S2, S3}
{S2, S3}
{S1, S2}
37
Plan
Motivations
Méthodes
Extraction de motifs partiellement ordonnés
Filtrer les motifs d'intérêt
Extraction de consensus
Application aux données hydrobiologiques
Pré-traitement
Résultats
Bilan
38
Application
Question des experts
Besoins des hydrobiologistes posés sous la forme de questions
Question thématique étudiée dans cette thèse :
Peut-on trouver des liens dans le temps entre des ensembles de
valeurs de paramètres physico-chimiques et les valeurs de
paramètres biologiques ?
Faune
Flore
Caractéristiques
temporelles
Physico-chimie
39
Application
Question des experts
Besoins des hydrobiologistes posés sous la forme de questions
Question thématique étudiée dans cette thèse :
Peut-on trouver des liens dans le temps entre des ensembles de
valeurs de paramètres physico-chimiques et les valeurs de
paramètres biologiques ?
Poissons
Macroinvertébrés
Diatomées
IPR
(Indice Poisson Rivière)
IBGN
(Indice Biologique
Global Normalisé)
IBD
(Indice Biologique
Diatomées)
40
Application
Pré-traitement
Jeu de données initial
Paramètres physico-chimiques
Indice biologiques
41
Application
Pré-traitement
Connaissance experte
Utilisation des classes de qualité
Biologie
Physico-chimie
Macro-paramètres physico-chimiques basés sur le SEQ-eau
42
Application
Pré-traitement
Jeu de données discrétisé
Regroupement de la
physico-chimie
AZOT – Matières azotées hors
+
nitrates (NH4, NKJ, NO2)
PHOS – Matières phosphorées
3(PO4, P)
43
Application
Pré-traitement
Découpage des séquences selon la biologie
Récupération de l'ensemble des variables entre 0 et 6 mois avant
une variable représentant une note d'indice biologique
Séquence
station <(
… … ... )( … … ... )( … …
)( … … ... )( …
... )>
Possibilité d'obtenir plusieurs intervalles par séquence si plusieurs
prélèvements biologiques ont été effectués
<( … … ... )( … … ... )( … …
)( … … ... )( …
... )>
44
Application
Pré-traitement
Découpage des séquences selon la biologie
Ensemble de séquences d'intervalles pour chaque classe de qualité
de chaque indice biologique
IBGN
IBD
IPR
89
17
62
556
108
76
1282
532
126
2405
1375
162
1056
1076
52
45
Application
Pré-traitement
Extraction des motifs par qualité biologique
=42%
=33%
=15%
=29%
=6%
Ainsi nous pouvons identifier les événements spécifiques à
un indice de qualité entre 0 et 6 mois avant la mesure de l'indice
46
Application
Pré-traitement
Extraction des motifs par qualité biologique
=42%
=33%
=15%
=29%
=6%
Ainsi nous pouvons identifier les événements spécifiques à
un indice de qualité entre 0 et 6 mois avant la mesure de l'indice
On ne conserve que les motifs discriminants
Fréquence
> Fréquence
47
Plan
Contexte et motivations
Méthodologies
Extraction de motifs partiellement ordonnés
Filtrer les motifs d'intérêt
Extraction de consensus
Application aux données hydrobiologiques
Pré-traitement
Résultats
Bilan
48
Application
Résultats
Motifs obtenus
Sélection des 15 motifs pondérés dans chaque classe
de qualité pour chaque indice
Quelques exemples IBGN bleu
IBGN jaune
IBGN rouge
La classe de qualité de certains
paramètres physico-chimiques décroit
avec la qualité biologique
49
Application
Résultats
Exemple de consensus discriminants obtenus
Fréquence minimale de 10 %
IBD jaune
IBD orange-rouge
50
Application
Résultats
Méthodes implantées dans un logiciel de visualisation
Filtre sur les données
Sélection des stations à
analyser
Extraction des
motifs
Visualisation des motifs
51
Plan
Motivations
Méthodes
Extraction de motifs partiellement ordonnés
Filtrer les motifs d'intérêt
Extraction de consensus
Application aux données hydrobiologiques
Pré-traitement
Résultats
Bilan
52
Bilan
Motifs partiellement ordonnés clos
Algorithme pour l'extraction des motifs partiellement ordonnés
clos
Filtrer les motifs d'intérêt
Algorithme pour filtrer k motifs partiellement ordonnés clos
d'intérêt selon plusieurs critères
Consensus partiellement ordonné
Utilisation des séquences partiellement ordonnées comme un
résumé global
Méthodes adaptées aux jeux de données découpés en
plusieurs classes
Application aux données hydrobiologiques du projet Fresqueau
53
Merci pour votre attention
[email protected]
Thèse financée par :
Téléchargement