L`extraction automatique de connaissances à partir de données

Téléchargement

Nom : Thomas Guyet1, René Quiniou2

Équipe :

1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM

2. INRIA – IRISA Équipe DREAM

Mail : [email protected],

Lien : http://www.irisa.fr/dream/Pages_Pros/Thomas.Guyet/Stages/

Contacts : Thomas Guyet et René Quiniou

Titre : Séparer ou regrouper : quelle stratégie pour optimiser la fouille de motifs séquentiels avec

intervalles ?

Mots clés : fouille de données, algorithmique, données séquentielles, intelligence artificielle,

clustering (regroupement)

Description :

L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à

identifier des motifs « intéressants » présents dans les données. La mesure d'intérêt généralement

utilisée est basée sur le nombre d’occurrences ou instances des motifs dans les données. Les grands

volumes des données enregistrées et stockées actuellement motivent particulièrement l'intérêt des

recherches dans ce domaine.

Beaucoup de ces données contiennent des informations où la dimension temporelle revêt une

importance particulière. La simple adaptation des méthodes de fouille de données classiques ne

suffit pas, en général, pour extraire les relations temporelles efficacement ou avec suffisamment de

précision. C'est le champ de recherche de la fouille de données temporelles.

Dans les travaux récents menés dans l'équipe DREAM, nous avons proposé l'algorithme

QTIPrefixSpan qui fonctionne sur le principe du regroupement d'instances pour construire des

motifs intéressants. Cette approche, bien qu'opérationnelle, souffre d'un problème de complétude et

il est difficile d'en améliorer les performances en temps de calcul.

Dans ce stage, nous proposons de reprendre la même problématique en nous intéressant à la

construction de motifs par séparation progressive des instances. On espère que l'extraction de motifs

basée sur la séparation des ensembles d'instances présentera de meilleures propriétés, en particulier

au niveau de la complétude et de l'efficacité du calcul, que la méthode basée sur leur regroupement.

Durant ce stage, nous proposons de travailler sur des données séquentielles avec intervalles

temporels. Dans ce cadre, les séquences sont constituées de symboles datés, représentant des types

d'événements auquel est associé un intervalle temporel décrivant l'occurrence de l'événement dans

le temps. Un motif est une séquence d'objets associant un symbole et la caractérisation de

l'intervalle temporel durant lequel l'événement lié au symbole se produit. Les travaux pourront être

poursuivis par une généralisation de l'approche à des données séquentielles avec attributs

quantitatifs quelconques.

Références :

[1] M.-O Cordier, E. Fromont et R. Quiniou, Learning rules from multisource data for cardiac

monitoring, International Journal of Biomedical Engineering and Technology (IJBET), Vol 3

(1/2), pp. 133-155, 2010.

[2] R. Chiky, L. Decreusefond, G. Hébrail: Aggregation of asynchronous electric power

consumption time series knowing the integral. EDBT, pp. 663-668, 2010.

[3] A. Marascu, F. Masseglia: Extraction de motifs séquentiels dans les flots de données d'usage

du Web. Actes de EGC, pp. 627-638, 2006.

[4] T. Guyet et R. Quiniou, Mining temporal patterns with quantitative intervals, in 4th

International Workshop on Mining Complex Data (ICDMW), 2008.

[5] T. Guyet et R. Quiniou, Extracting temporal patterns from interval-based sequences,

International Joint Conference on Artificial Intelligence (IJCAI), 2011.

[6] http://www.irisa.fr/dream/QTempIntMiner/

1 / 2 100%

L`extraction automatique de connaissances à partir de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

L`extraction automatique de connaissances à partir de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib