Master Extraction de Connaissances à
partir des Données
Mémoire rédigé dans le cadre du master ECD
Sélection dynamique d'index dans les entrepôts
de données
Stage réalisé au sein du Laboratoire ERIC
5 Avenue Pierre Mendès-France
69676 BRON Cedex - France
http://eric.univ-lyon2.fr
Stephane-gaston AZEFACK
Master Recherche ECD
Encadrée par :
Jérôme DARMONT
Laboratoire ERIC - Université Lyon 2
2
Remerciements
Ce stage de master recherche a été réalisé au laboratoire ERIC (Equipe de
Recherche en Ingénierie des Connaissances), au sein de l'équipe BDD (Base de
Données Décisionnelles). Je tiens à remercier tous les membres de l’équipe,
professeurs et doctorants qui ont contribué de près ou de loin à la réussite de ce travail.
Plus particulièrement, j’aimerais remercier mon directeur de mémoire Jérôme
Darmont, sans qui ce stage n’aurait pas vu le jour, pour ses conseils à chaque fois que
je me suis incrusté dans son bureau sans rendez-vous.
Mes remerciements vont également aux membres du jury, messieurs
H. Briand, Y. Kodratoff et D.A Zighed.
3
Résumé
Les entrepôts de données connaissent un très vif développement. Il devient
important de réduire la charge de travail qu’un administrateur doit effectuer
manuellement. Le but des systèmes auto-administratifs est de s'administrer et de
s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de
performance.
L’idée d’utiliser les techniques de fouilles de données pour extraire de ces
mêmes données des connaissances intervenant dans le processus de sélection
automatique d’index dans les entrepôts de données est une approche très prometteuse.
Une première approche utilisant les motifs fréquents fermés a été proposée dans
[Aou05] mais cette approche est statique et ne garantie pas l’aspect un dynamique, la
charge pouvant évolue dans le temps.
Dans ce mémoire, nous proposons une amélioration de l’approche proposée
dans [Aou05] afin que le processus de sélection d’index soit dynamique en l’adaptant
cette fois à une recherche incrémentale des motifs fréquents maximaux.
Nous avons développé un outil, qui extrait de manière incrémental, les motifs
fréquents maximaux à partir d’une charge de requête et à partir de ceux-ci,
recommande une configuration d’index afin d'optimiser le temps d'accès aux Données.
Mots clés : Bases de données, Entrepôts de données, Indexation, Fouille de données,
Recherche de motifs fréquents incrémentale,Modèles de coût, Performance.
Abstract
With the wide development of databases in general and data warehouses in
particular, it is important to reduce the tasks that a database administrator must perform
manually. The aim of auto-administrative systems is to administrate and adapt
themselves automatically without loss or even with a gain in performance. The idea of
using data mining techniques to extract useful knowledge for administration from the
data themselves is very important. First static approach was proposed in [Aou05].
In this paper, we propose an improvement of the approach suggested in [Aou05]
in mean that the process of index selection been dynamic by adapting it this time to an
incremental research of the maximum frequent item.
4
Tables des matières
Remerciements ............................................................................................................... 2
Résumé ........................................................................................................................... 3
Chapitre 1 Introduction ................................................................................................ 5
1.1 Contexte et problématique ................................................................................ 5
1.2 Objectifs et contributions ................................................................................... 5
1.3 Organisation du mémoire .................................................................................. 6
Chapitre 2 Etat de l’art................................................................................................. 7
2.1 Problème de sélection d'index........................................................................... 7
2.1.1 Travaux de Frank et al. .............................................................................. 8
2.1.2 Travaux de Choenni et al. .......................................................................... 9
2.1.3 Travaux de Whang - Algorithmes ADD and DROP .................................. 10
2.1.4 Travaux de Gündem ................................................................................ 10
2.1.5 Travaux de Chaudhuri et al...................................................................... 10
2.1.6 Travaux de Feldman et al......................................................................... 11
2.1.8 Travaux de Valentin et al. ........................................................................ 12
2.2 Recherche incrémentale des motifs fréquents ................................................ 13
2.2.1 Algorithme incrémental recherche de motifs fréquents fermes ............... 13
2.2.2 Algorithme incrémental de recherche de motifs fréquents maximaux ..... 14
Chapitre 3 Approche proposé.................................................................................... 15
3.1 Recherche de motifs fréquents ....................................................................... 15
3.1.1 Contexte et motivations............................................................................ 15
3.1.2 Algorithme Zigzag .................................................................................... 17
3.2 Démarche de sélection automatique d'index................................................... 19
3.2.1 Extraction de la charge ............................................................................ 20
3.2.2 Analyse de la charge................................................................................ 21
3.2.3 Construction du contexte d'extraction ...................................................... 22
3.3 Modèles de coût.............................................................................................. 23
3.4 Stratégie de sélection d'index bitmap de jointure ............................................ 23
3.4.1 Construction de l'ensemble d'index candidats.......................................... 23
3.4.2 Enregistrement et suppression des index candidat.................................. 24
3.4.3 Construction de la configuration d'index........................................................ 25
Chapitre 4 Implémentation et Expérimentations ........................................................ 26
4.1 Implémentation................................................................................................ 26
4.1.1 Génération des motifs fréquents .............................................................. 26
4.2 Expérimentations............................................................................................. 29
Chapitre 5 Conclusion et perspectives ...................................................................... 31
Annexe A : Fichier de sauvegarde : base de connaissance .......................................... 32
Bibliographie.................................................................................................................. 33
5
Chapitre 1 Introduction
1.1 Contexte et problématique
Aujourd’hui, l’information joue un rôle crucial dans le quotidien des entreprises.
L’acquisition et l’analyse de cette information sont devenues des choix stratégiques
incontournables dans les entreprises avec de plus en plus de grands volumes de
données à manipuler. Ce développement a contribué au développement des entrepôts
de données. Un administrateur en plus de la gestion de l’espace de stockage et de la
gestion des performances, a également à sa charge la conception logique ou physique
des bases de données. Il devient donc important de réduire la fonction d’administration
[WMHZ02].
Pour améliorer les performances du système en minimisant les temps d'accès
aux données l’administrateur peut mettre en œuvre la sélection des structures
physiques tels que les index [FST88]. L'optimisation automatique de ces tâches donne
lieu à des systèmes dits auto-administratifs avec comme objectif de s'administrer et de
s'adapter eux-mêmes, automatiquement, sans perte de performance.
Depuis quelques années, l'idée d'utiliser les techniques de fouille de données
(data mining) pour extraire des connaissances utiles des données elles-mêmes, pour
leur administration est exploité [Cha98]. Dans [Aou05] une approche basée sur la
recherche des motifs fréquents fermés pour la sélection des index bitmap de jointure à
été proposée. Cependant, cette recherche de motifs fréquents fermés reste statique et
ne garantie pas encore l’aspect dynamique du processus de sélection d’index. C'est
pourquoi nous étudions dans ce mémoire l'utilisation des techniques de fouille de
données (recherche des motifs fréquents incrémentale) pour la sélection d’index.
1.2 Objectifs et contributions
Notre objectif principal consiste à fournir des stratégies qui permettent de
sélectionner une structure d’index efficace afin d'optimiser les performances des
entrepôts de données en se basant sur la recherche incrémentale des motifs fréquents.
Plusieurs travaux de recherche ont traité le problème de sélection d'index.
Cependant, ces travaux ne prennent pas en compte les connaissances (mé-tadonnées,
statistiques, charge de requêtes appliquée au système, usage des attributs de l'entrepôt
de données dans ces requêtes, etc.) qui peuvent être extraites de la charge afin de
réduire la complexité du problème de sélection et de cibler les index candidats les plus
intéressants. La stratégie de sélection d'index que nous proposons intègre donc cette
1 / 35 100%