Résumé
Ce manuscrit décrit dans les détails, les travaux de recherche effectués durant le stage
de fin d’étude de 6 mois, au sein du Laboratoire d’Informatique et de Mathématiques
de l’Université de la Réunion. Ce dernier s’oriente sur des aspects fondamentaux de
la fouille de données et sur des aspects directement appliqués. L’objectif du stage est
de construire des descripteurs pour la classification supervisée de données de type
graphe. Nous considérons trois mesures d’intérêt classiques et évaluons la robustesse
de ces dernières. Deux extracteurs de graphes fréquents ont été testés (gSpan et
Gaston). Une librairie capable de traiter les tests d’isomorphisme de sous-graphe
a été sélectionnée (Graph-tool). Nos contributions pour ce projet, ont été le dé-
veloppement d’un script Python multi-processus, permettant de lancer de manière
automatique, des expériences sur plusieurs bases de données de graphes. Ce script va
permettre à travers un protocole expérimental, d’évaluer la stabilité et la robustesse
de l’approche, à l’aide de trois mesures d’intérêt : le growth rate, la confiance et le
lift. Enfin, une interface graphique a été développée afin de faciliter la démonstration
d’une expérience sur une base de données de graphes.
Abstract
This manuscript describes in details the research works that I performed during 6
months, in the research Laboratory in computer sciences and mathematics, at the
University of Réunion Island. This internship is oriented on fundamental aspects
of data mining. The aim of this internship is to build descriptors for supervised
classification of complex data. Through this work, we studied three interestingness
measures, and we tested two frequent graph-based pattern mining named gSpan and
Gaston. Moreover, we had the opportunity to test two Python libraries, having the
ability to handle subgraph isomorphism testing, and we chose Graph-tool. Among
our contributions, we can mention an automatic multi-process python script, that
allows you to perform automatically experiments in graph datasets. This script
uses an experimental protocol for evaluating the approach stability and robustness,
using three measures of interest : the confidence, the growth rate and the lift. Fi-
nally, a graphical user interface was developed to facilitate the demonstration of an
experiment on a graph database.