Extraction d'informations synthétiques à partir de données séquentielles Application à l'évaluation de la qualité des rivières Mickaël FABRÈGUE Le 23 mars 2015 AMIA Présentation 2011 stage Master 2 1 Plan Motivations Méthodes Extraction de motifs partiellement ordonnés Filtrer les motifs d'intérêt Extraction de consensus Application aux données hydrobiologiques Pré-traitement Résultats Bilan 2 Contexte thématique Question des experts Besoins des hydrobiologistes posés sous la forme de questions Question thématique étudiée dans cette thèse : Peut-on trouver des liens dans le temps entre des ensembles de valeurs de paramètres physico-chimiques et les valeurs de paramètres biologiques ? Faune Flore Caractéristiques temporelles Physico-chimie 3 Contexte thématique Question des experts Besoins des hydrobiologistes posés sous la forme de questions Question thématique étudiée dans cette thèse : Peut-on trouver des liens dans le temps entre des ensembles de valeurs de paramètres physico-chimiques et les valeurs de paramètres biologiques ? Faune Flore Méthodes de fouille de données temporelles Caractéristiques temporelles Méthodes de fouille de motifs discriminants Physico-chimie 4 Contexte méthodologique Processus d'extraction de connaissances Base de données Données préparées Algorithmes Informations Utilisateur 5 Contexte méthodologique Processus d'extraction de connaissances Base de données Données préparées Algorithmes Connaissance experte Algorithme de motifs temporels Informations Motifs filtrés Utilisateur Hydrobiologistes 6 Contexte méthodologique Jeu de données temporelles Du jeu de données temporelles à un jeu de séquences Station 1 Janvier Février c,d a Station 2 Station 3 g Mars Avril Mai g d a,e,g g c,d,e f d e f Item : g Alphabet : {a,b,c,d,e,f,g} Itemset : (c,d,e) 7 Contexte méthodologique Séquences Du jeu de données temporelles à un jeu de séquences Station 1 Janvier Février c,d a Station 2 Station 3 g Mars Avril Mai g d a,e,g g c,d,e f d e f Séquences Séquence 1 < (c,d) (a) (g) (d)> Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > 8 Contexte méthodologique Motifs séquentiels Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > 9 Contexte méthodologique Motifs séquentiels Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Exemple : < (g) (d) > : 3/3 10 Contexte méthodologique Motifs séquentiels Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > < (g) (d) (e) (f) > Séquence 3 Exemple : < (g) (d) > : 3/3 < (c,d) (a) > : 2/3 Un motif M est fréquent si Fréquence(M) ≥ θ, une valeur de fréquence minimale fixée par l'utilisateur 11 Contexte méthodologique Motifs séquentiels Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Ensemble de motifs supportés par S1 et S2 : < (g) (d) > : 3/3 < (c,d) (a) > : 2/3 < (c,d) (g) > : 2/3 Un même ensemble de séquences peut supporter plusieurs motifs séquentiels 12 Contexte méthodologique Motifs partiellement ordonnés clos Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Ensemble de motifs supportés par S1 et S2 : < (g) (d) > : 3/3 < (c,d) (a) > : 2/3 < (c,d) (g) > : 2/3 Motifs partiellement ordonnés clos 13 Contexte méthodologique Motifs partiellement ordonnés clos Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Ensemble de motifs supportés par S1 et S2 : < (g) (d) > : 3/3 g d < (c,d) (a) > : 2/3 < (c,d) (g) > : 2/3 Motifs partiellement ordonnés clos 14 Contexte méthodologique Motifs partiellement ordonnés clos Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > < (g) (d) (e) (f) > Séquence 3 Ensemble de motifs supportés par S1 et S2 : < (g) (d) > : 3/3 < (c,d) (a) > : 2/3 < (c,d) (g) > : 2/3 Motifs partiellement ordonnés clos c,d a 15 Contexte méthodologique Motifs partiellement ordonnés clos Extraction de motifs séquentiels fréquents (sous-séquences fréquentes) Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > < (g) (d) (e) (f) > Séquence 3 Ensemble de motifs supportés par S1 et S2 : < (g) (d) > : 3/3 < (c,d) (a) > : 2/3 < (c,d) (g) > : 2/3 g c,d Motifs partiellement ordonnés clos 16 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences 17 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences Algorithme d'extraction de motifs partiellement ordonnés clos 18 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences Algorithme d'extraction de Filtrer des motifs motifs partiellement ordonnés clos d'intérêt 19 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences Algorithme d'extraction de Filtrer des motifs motifs partiellement ordonnés clos d'intérêt Extraire un résumé de l'information 20 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences Algorithme d'extraction de Filtrer des motifs motifs partiellement ordonnés clos d'intérêt Extraire un résumé de l'information 21 Méthodes Extraction de motifs partiellement ordonnés clos Synthèse des motifs séquentiels et représentation sous la forme d'un graphe a c d b Proposition : algorithme OrderSpan Extrait tous les motifs partiellement ordonnés clos sans les limites des approches existantes 22 Méthodes Extraction de motifs partiellement ordonnés clos Se baser sur l'existant Adapter les approches d'extraction de motifs séquentiels SPAM (2002) FreeSpan (2000) C.Garriga (2005) OrderSpan (2013) CloSpan (2003) 2014 SPADE (2001) GSP (1996) PrefixSpan (2001) Frecpo (2005) BIDE (2004) 23 Méthodes Algorithme Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Motifs partiellement ordonnés clos avec θ=2/3 {S1, S2, S3} {S2, S3} {S1, S2} 24 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences Algorithme d'extraction de Filtrer des motifs motifs partiellement ordonnés clos d'intérêt Extraire un résumé de l'information 25 Méthodes Filtrer k motifs d'intérêt Sélection des motifs Parmi des milliers de motifs extraits, sélectionner quelques motifs d'intérêt Trois critères d'intérêt identifiés pour les utilisateurs : - la fréquence - la discrimance - la redondance Proposition Un algorithme qui permet de sélectionner k motifs en pondérant les trois critères 26 Méthodes Discriminance Jeu de données découpé en plusieurs classes Classe 1 Classe 1 - 80 % Motifs extraits 27 Méthodes Discriminance Jeu de données découpé en plusieurs classes Classe 1 Classe 2 Classe 3 Chaque motif a une fréquence différente dans chacune des classes Motifs extraits Classe 1 - 80 % Classe 2 - 40 % Classe 3 - 26 % 28 Méthodes Discriminance Jeu de données découpé en plusieurs classes Classe 1 Classe 2 Classe 3 Chaque motif a une fréquence différente dans chacune des classes Motifs extraits Classe 1 - 80 % Classe 2 - 40 % Classe 3 - 26 % Valeur de Growth Rate de 2 dans la classe 1 29 Méthodes Redondance Distance de Hamming entre les codes de support des motifs S1 Motif 1 Motif 2 S2 X X S3 S4 S5 S6 X X X X X X Plus deux motifs sont supportés par les mêmes séquences, plus ils sont proches 30 Méthodes Filtrer k motifs d'intérêt Sélection des motifs Parmi des milliers de motifs extraits, sélectionner quelques motifs d'intérêt Méthode pour extraire les k motifs en pondérant également redondance, fréquence et discriminance Ensemble de motifs extraits Distance de Hamming aux motifs sélectionnés (redondance) Fréquence Discriminance Motifs sélectionnés 31 Propositions Utiliser la notion de structure partiellement ordonnée pour extraire, synthétiser et résumer l'information Jeu de séquences Algorithme d'extraction de Filtrer des motifs motifs partiellement ordonnés clos d'intérêt Extraire un résumé de l'information 32 Méthodes Extraction de consensus Plutôt que l'extraction de motifs, il peut être intéressant de chercher à résumer l'information Jeu de données de séquences Extraire un résumé de l'information Proposition Algorithme pour extraire une seule structure partiellement ordonnée à partir d'une base de données de séquences 33 Méthodes Extraction de consensus Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Motifs partiellement ordonnés clos {S1, S2, S3} {S2, S3} {S1, S2} 34 Méthodes Extraction de consensus Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Motifs partiellement ordonnés clos Fusionner tous les motifs {S1, S2, S3} {S2, S3} {S1, S2} 35 Méthodes Extraction de consensus Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Motifs partiellement ordonnés clos Fusionner tous les motifs {S1, S2, S3} {S2, S3} {S1, S2} 36 Méthodes Extraction de consensus Séquences Séquence 1 < (c,d) (a) (g) (d) > Séquence 2 < (g) (c,d,e) (f) (a,e,g) > Séquence 3 < (g) (d) (e) (f) > Motifs partiellement ordonnés clos Fusionner tous les motifs {S1, S2, S3} {S2, S3} {S1, S2} 37 Plan Motivations Méthodes Extraction de motifs partiellement ordonnés Filtrer les motifs d'intérêt Extraction de consensus Application aux données hydrobiologiques Pré-traitement Résultats Bilan 38 Application Question des experts Besoins des hydrobiologistes posés sous la forme de questions Question thématique étudiée dans cette thèse : Peut-on trouver des liens dans le temps entre des ensembles de valeurs de paramètres physico-chimiques et les valeurs de paramètres biologiques ? Faune Flore Caractéristiques temporelles Physico-chimie 39 Application Question des experts Besoins des hydrobiologistes posés sous la forme de questions Question thématique étudiée dans cette thèse : Peut-on trouver des liens dans le temps entre des ensembles de valeurs de paramètres physico-chimiques et les valeurs de paramètres biologiques ? Poissons Macroinvertébrés Diatomées IPR (Indice Poisson Rivière) IBGN (Indice Biologique Global Normalisé) IBD (Indice Biologique Diatomées) 40 Application Pré-traitement Jeu de données initial Paramètres physico-chimiques Indice biologiques 41 Application Pré-traitement Connaissance experte Utilisation des classes de qualité Biologie Physico-chimie Macro-paramètres physico-chimiques basés sur le SEQ-eau 42 Application Pré-traitement Jeu de données discrétisé Regroupement de la physico-chimie AZOT – Matières azotées hors + nitrates (NH4, NKJ, NO2) PHOS – Matières phosphorées 3(PO4, P) 43 Application Pré-traitement Découpage des séquences selon la biologie Récupération de l'ensemble des variables entre 0 et 6 mois avant une variable représentant une note d'indice biologique Séquence station <( … … ... )( … … ... )( … … )( … … ... )( … ... )> Possibilité d'obtenir plusieurs intervalles par séquence si plusieurs prélèvements biologiques ont été effectués <( … … ... )( … … ... )( … … )( … … ... )( … ... )> 44 Application Pré-traitement Découpage des séquences selon la biologie Ensemble de séquences d'intervalles pour chaque classe de qualité de chaque indice biologique IBGN IBD IPR 89 17 62 556 108 76 1282 532 126 2405 1375 162 1056 1076 52 45 Application Pré-traitement Extraction des motifs par qualité biologique =42% =33% =15% =29% =6% Ainsi nous pouvons identifier les événements spécifiques à un indice de qualité entre 0 et 6 mois avant la mesure de l'indice 46 Application Pré-traitement Extraction des motifs par qualité biologique =42% =33% =15% =29% =6% Ainsi nous pouvons identifier les événements spécifiques à un indice de qualité entre 0 et 6 mois avant la mesure de l'indice On ne conserve que les motifs discriminants Fréquence > Fréquence 47 Plan Contexte et motivations Méthodologies Extraction de motifs partiellement ordonnés Filtrer les motifs d'intérêt Extraction de consensus Application aux données hydrobiologiques Pré-traitement Résultats Bilan 48 Application Résultats Motifs obtenus Sélection des 15 motifs pondérés dans chaque classe de qualité pour chaque indice Quelques exemples IBGN bleu IBGN jaune IBGN rouge La classe de qualité de certains paramètres physico-chimiques décroit avec la qualité biologique 49 Application Résultats Exemple de consensus discriminants obtenus Fréquence minimale de 10 % IBD jaune IBD orange-rouge 50 Application Résultats Méthodes implantées dans un logiciel de visualisation Filtre sur les données Sélection des stations à analyser Extraction des motifs Visualisation des motifs 51 Plan Motivations Méthodes Extraction de motifs partiellement ordonnés Filtrer les motifs d'intérêt Extraction de consensus Application aux données hydrobiologiques Pré-traitement Résultats Bilan 52 Bilan Motifs partiellement ordonnés clos Algorithme pour l'extraction des motifs partiellement ordonnés clos Filtrer les motifs d'intérêt Algorithme pour filtrer k motifs partiellement ordonnés clos d'intérêt selon plusieurs critères Consensus partiellement ordonné Utilisation des séquences partiellement ordonnées comme un résumé global Méthodes adaptées aux jeux de données découpés en plusieurs classes Application aux données hydrobiologiques du projet Fresqueau 53 Merci pour votre attention [email protected] Thèse financée par :