Nom : Thomas Guyet1, René Quiniou2 Équipe : 1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM 2. INRIA – IRISA Équipe DREAM Mail : [email protected], Lien : http://www.irisa.fr/dream/Pages_Pros/Thomas.Guyet/Stages/ Contacts : Thomas Guyet et René Quiniou Titre : Séparer ou regrouper : quelle stratégie pour optimiser la fouille de motifs séquentiels avec intervalles ? Mots clés : fouille de données, algorithmique, données séquentielles, intelligence artificielle, clustering (regroupement) Description : L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à identifier des motifs « intéressants » présents dans les données. La mesure d'intérêt généralement utilisée est basée sur le nombre d’occurrences ou instances des motifs dans les données. Les grands volumes des données enregistrées et stockées actuellement motivent particulièrement l'intérêt des recherches dans ce domaine. Beaucoup de ces données contiennent des informations où la dimension temporelle revêt une importance particulière. La simple adaptation des méthodes de fouille de données classiques ne suffit pas, en général, pour extraire les relations temporelles efficacement ou avec suffisamment de précision. C'est le champ de recherche de la fouille de données temporelles. Dans les travaux récents menés dans l'équipe DREAM, nous avons proposé l'algorithme QTIPrefixSpan qui fonctionne sur le principe du regroupement d'instances pour construire des motifs intéressants. Cette approche, bien qu'opérationnelle, souffre d'un problème de complétude et il est difficile d'en améliorer les performances en temps de calcul. Dans ce stage, nous proposons de reprendre la même problématique en nous intéressant à la construction de motifs par séparation progressive des instances. On espère que l'extraction de motifs basée sur la séparation des ensembles d'instances présentera de meilleures propriétés, en particulier au niveau de la complétude et de l'efficacité du calcul, que la méthode basée sur leur regroupement. Durant ce stage, nous proposons de travailler sur des données séquentielles avec intervalles temporels. Dans ce cadre, les séquences sont constituées de symboles datés, représentant des types d'événements auquel est associé un intervalle temporel décrivant l'occurrence de l'événement dans le temps. Un motif est une séquence d'objets associant un symbole et la caractérisation de l'intervalle temporel durant lequel l'événement lié au symbole se produit. Les travaux pourront être poursuivis par une généralisation de l'approche à des données séquentielles avec attributs quantitatifs quelconques. Références : [1] M.-O Cordier, E. Fromont et R. Quiniou, Learning rules from multisource data for cardiac monitoring, International Journal of Biomedical Engineering and Technology (IJBET), Vol 3 (1/2), pp. 133-155, 2010. [2] R. Chiky, L. Decreusefond, G. Hébrail: Aggregation of asynchronous electric power consumption time series knowing the integral. EDBT, pp. 663-668, 2010. [3] A. Marascu, F. Masseglia: Extraction de motifs séquentiels dans les flots de données d'usage du Web. Actes de EGC, pp. 627-638, 2006. [4] T. Guyet et R. Quiniou, Mining temporal patterns with quantitative intervals, in 4th International Workshop on Mining Complex Data (ICDMW), 2008. [5] T. Guyet et R. Quiniou, Extracting temporal patterns from interval-based sequences, International Joint Conference on Artificial Intelligence (IJCAI), 2011. [6] http://www.irisa.fr/dream/QTempIntMiner/