4
Introduction
L’apparition du modèle relationnel de données, (Codd, 1970), a constitué une avancée
méthodologique décisive pour les informaticiens dans leur métier de conception et de
réalisation d’applications, à tel point qu’il est pratiquement le seul à être utilisé de nos jours.
Ce modèle fournit, pour la première fois, grâce à ses fondements mathématiques solides, la
possibilité de dissocier nettement et de façon sûre leur effort de représentation des données de
celui d’écriture des programmes de traitements car il offre simultanément le moyen de
représentation des données, la relation, et le moyen de leur manipulation, l’algèbre
relationnelle, assurant ainsi ce qui était recherché à l’époque: l’indépendance entre données et
traitements.
Dès lors, l’effort de représentation des données constitua la part prépondérante dans la
construction d’une base de données et la recherche s’orienta alors vers l’enrichissement du
modèle de représentation, lui exigeant d’être de plus en plus fidèle à la réalité représentée ; en
quelque sorte d’être plus «sémantique». C’est ainsi que les années 1970 et 1980 virent la
proposition de plusieurs modèles sémantiques (Codd, 1979) (Hammer, 1978) (Peckham,
1988) (Smith, 1977) etc.
Dans ce mémoire on s’intéressera au premier niveau de sémantique, capté à travers les
contraintes entre les valeurs des attributs, donnant naissance à la notion de dépendances entre
données.
CODD, lui-même, énonça les premières associations sémantiques de son modèle en
établissant les dépendances fonctionnelles et la notion de normalisation de relations (Codd,
1972). D’autres dépendances furent ensuite proposées : dépendances multivaluées
dépendances de jointure, etc. (Fagin, 1977) (Fagin, 1979).
Typiquement, la construction d’une base de données commence par l’élaboration de
son schéma conceptuel. Cette activité, intuitive au départ, puis plus ou moins formalisée
dans ses étapes suivantes, consiste à déduire de la réalité à modéliser des attributs à
regrouper sous forme de relations. Ce regroupement est effectué en se fondant sur
certaines propriétés générales concernant les valeurs des attributs ; ce sont les énoncés de
dépendance (fonctionnelle, multivaluée, de jointure, etc.).
Les données factuelles sont alors progressivement ajoutées, modifiées ou supprimées dans
la base de données répondant à ce schéma par le biais d’un système de gestion de bases de
données.
La qualité et la durée de vie d’une base de données obtenue grâce à cette démarche sont
tributaires, non seulement de la sagacité de son concepteur mais aussi de l’évolution de
la réalité qui est difficile à maîtriser. Le concepteur a-t-il oublié une dépendance ? A-t-il
utilisé une dépendance démentie par la réalité des données ?
C’est lorsque l’on constate des anomalies d’insertion, de mise à jour, de suppression,
que l’on est amené à se poser ces questions.
Un moyen d’y répondre est de « fouiller » dans les données factuelles de la base de
données afin de découvrir ces dépendances.
C’est pour cela que ce travail entre dans le cadre général de ce qui est désigné par
« découverte de connaissances dans les données ».
L’intitulé de ce domaine suggère, qu’à partir de données de plus en plus nombreuses et
faciles d’accès, on peut extraire quelques «pépites» précieuses que sont les
connaissances.