L`extraction automatique de connaissances à partir de données

publicité
Nom : Thomas Guyet1, René Quiniou2
Équipe :
1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM
2. INRIA – IRISA Équipe DREAM
Mail : [email protected],
Lien : http://www.irisa.fr/dream/Pages_Pros/Thomas.Guyet/Stages/
Contacts : Thomas Guyet et René Quiniou
Titre : Séparer ou regrouper : quelle stratégie pour optimiser la fouille de motifs séquentiels avec
intervalles ?
Mots clés : fouille de données, algorithmique, données séquentielles, intelligence artificielle,
clustering (regroupement)
Description :
L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à
identifier des motifs « intéressants » présents dans les données. La mesure d'intérêt généralement
utilisée est basée sur le nombre d’occurrences ou instances des motifs dans les données. Les grands
volumes des données enregistrées et stockées actuellement motivent particulièrement l'intérêt des
recherches dans ce domaine.
Beaucoup de ces données contiennent des informations où la dimension temporelle revêt une
importance particulière. La simple adaptation des méthodes de fouille de données classiques ne
suffit pas, en général, pour extraire les relations temporelles efficacement ou avec suffisamment de
précision. C'est le champ de recherche de la fouille de données temporelles.
Dans les travaux récents menés dans l'équipe DREAM, nous avons proposé l'algorithme
QTIPrefixSpan qui fonctionne sur le principe du regroupement d'instances pour construire des
motifs intéressants. Cette approche, bien qu'opérationnelle, souffre d'un problème de complétude et
il est difficile d'en améliorer les performances en temps de calcul.
Dans ce stage, nous proposons de reprendre la même problématique en nous intéressant à la
construction de motifs par séparation progressive des instances. On espère que l'extraction de motifs
basée sur la séparation des ensembles d'instances présentera de meilleures propriétés, en particulier
au niveau de la complétude et de l'efficacité du calcul, que la méthode basée sur leur regroupement.
Durant ce stage, nous proposons de travailler sur des données séquentielles avec intervalles
temporels. Dans ce cadre, les séquences sont constituées de symboles datés, représentant des types
d'événements auquel est associé un intervalle temporel décrivant l'occurrence de l'événement dans
le temps. Un motif est une séquence d'objets associant un symbole et la caractérisation de
l'intervalle temporel durant lequel l'événement lié au symbole se produit. Les travaux pourront être
poursuivis par une généralisation de l'approche à des données séquentielles avec attributs
quantitatifs quelconques.
Références :
[1] M.-O Cordier, E. Fromont et R. Quiniou, Learning rules from multisource data for cardiac
monitoring, International Journal of Biomedical Engineering and Technology (IJBET), Vol 3
(1/2), pp. 133-155, 2010.
[2] R. Chiky, L. Decreusefond, G. Hébrail: Aggregation of asynchronous electric power
consumption time series knowing the integral. EDBT, pp. 663-668, 2010.
[3] A. Marascu, F. Masseglia: Extraction de motifs séquentiels dans les flots de données d'usage
du Web. Actes de EGC, pp. 627-638, 2006.
[4] T. Guyet et R. Quiniou, Mining temporal patterns with quantitative intervals, in 4th
International Workshop on Mining Complex Data (ICDMW), 2008.
[5] T. Guyet et R. Quiniou, Extracting temporal patterns from interval-based sequences,
International Joint Conference on Artificial Intelligence (IJCAI), 2011.
[6] http://www.irisa.fr/dream/QTempIntMiner/
Téléchargement