Fouille de données relationnelles avec clowdflows
sert à partager des données, des expériences et des résultats, mais il ne permet pas d’exécuter,
ni même de télécharger les programmes.
La situation est encore plus difficile en fouille de données relationnelles. Pour mémoire, la
plupart des logiciels de fouille de données s’appliquent à des données attributs-valeurs, c’est-à-
dire qui peuvent naturellement être disponible dans un tableur, ou une seule table d’une base de
données relationnelle. La fouille de données relationnelles, comme son nom l’indique, consi-
dère le cas de données qui seraient naturellement représentées par plusieurs tables dans une
base de données relationnelle, par exemple des clients et leurs achats, des patients et leurs exa-
mens médicaux, etc. Ces données ne sont pas forcément stockées dans un Système de Gestion
de Bases de Données (SGBD). Elles peuvent être présentées sous la forme de faits prolog,
en logique des prédicats du premier ordre. D’ailleurs les techniques de fouille de données re-
lationnelles se rattachent en général à la programmation logique inductive. Nous constatons
malheureusement que la plupart des algorithmes proposés par les chercheurs de ce domaine
sont difficiles à se procurer et à mettre en oeuvre.
Ainsi nous constatons le manque de services web pour faciliter la fouille de données, en
particulier relationnelles. Dans cet article, nous considérons la plateforme clowdflows.org.
Nous passerons en revue ses caractéristiques principales dans la prochaine section. Dans la
section suivante, nous présenterons trois familles d’algorithmes de fouille de données rela-
tionnelles que nous avons ajoutés à cette plateforme. Nous conclurons en proposant quelques
perspectives pour rendre la fouille de données plus facile à mettre en oeuvre grâce à des plate-
formes web telles que clowdflows.
2 Clowdflows
Clowdflows est un logiciel de fouille de données proposé et développé par l’équipe de Nada
lavrac au Jozef Stefan Institute à Ljubljana, en Slovénie (Kranjc et al., 2012). Le site original
est clowdflows.org. Un miroir est disponible au laboratoire ICube à Strasbourg, clowdflows.u-
strasbg.fr La mise à disposition de miroirs permet de répartir la charge, mais surtout de rappro-
cher les algorithmes des données. En effet à l’ère des données massives, il semble préférable
d’éviter de déplacer de telles données et de permettre aux algorithmes de fouille de travailler
avec les données où elles sont stockées. Le nom de la plateforme, clowdflows, indique qu’elle
concerne les flux de traitement, par le terme flows, d’une part. D’autre part, le terme clowd,
est l’ancienne orthographe de cloud et met l’accent sur le fait que la fouille s’exécute dans
le nuage, et rappelle aussi par sa proximité avec le terme crowd, que clowdflows permet à
une foule, au moins une communauté d’utilisateurs ou contributeurs, de partager des flux de
traitements.
Clowdflows nécessite un accès au réseau internet. Son interface graphique s’exécute sur un
navigateur disposant de javascript. Il n’y a rien à installer. Il suffit de se créer un compte sur le
site 1. On peut ainsi travailler depuis n’importe où. Tout est sauvegardé sur le serveur, à part les
données si elles viennent d’un SGBD. Les données peuvent être chargées depuis des fichiers
ou depuis un SGBD. Les SGBD MySQL et PostgreSQL sont déjà pris en charge. D’autres
pourront facilement être ajoutés. Les traitements s’exécutent sur le serveur. En fait, clowdflows
1. Dans un premier temps, les données ne sont pas partagées entre les miroirs clowdflows. Il faut donc créer un
compte sur chaque miroir que l’on utilise et les flux ne sont accessibles que sur ce miroir. Cependant il est possible
d’exporter des flux d’un miroir pour les importer sur un autre.
- 500 -