Master Extraction de Connaissances à partir des

Master Extraction de Connaissances à

partir des Données

Mémoire rédigé dans le cadre du master ECD

Sélection dynamique d'index dans les entrepôts

de données

Stage réalisé au sein du Laboratoire ERIC

5 Avenue Pierre Mendès-France

69676 BRON Cedex - France

http://eric.univ-lyon2.fr

Stephane-gaston AZEFACK

Master Recherche ECD

[email protected]

Encadrée par :

Jérôme DARMONT

Laboratoire ERIC - Université Lyon 2

[email protected]

2

Remerciements

Ce stage de master recherche a été réalisé au laboratoire ERIC (Equipe de

Recherche en Ingénierie des Connaissances), au sein de l'équipe BDD (Base de

Données Décisionnelles). Je tiens à remercier tous les membres de l’équipe,

professeurs et doctorants qui ont contribué de près ou de loin à la réussite de ce travail.

Plus particulièrement, j’aimerais remercier mon directeur de mémoire Jérôme

Darmont, sans qui ce stage n’aurait pas vu le jour, pour ses conseils à chaque fois que

je me suis incrusté dans son bureau sans rendez-vous.

Mes remerciements vont également aux membres du jury, messieurs

H. Briand, Y. Kodratoff et D.A Zighed.

3

Résumé

Les entrepôts de données connaissent un très vif développement. Il devient

important de réduire la charge de travail qu’un administrateur doit effectuer

manuellement. Le but des systèmes auto-administratifs est de s'administrer et de

s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de

performance.

L’idée d’utiliser les techniques de fouilles de données pour extraire de ces

mêmes données des connaissances intervenant dans le processus de sélection

automatique d’index dans les entrepôts de données est une approche très prometteuse.

Une première approche utilisant les motifs fréquents fermés a été proposée dans

[Aou05] mais cette approche est statique et ne garantie pas l’aspect un dynamique, la

charge pouvant évolue dans le temps.

Dans ce mémoire, nous proposons une amélioration de l’approche proposée

dans [Aou05] afin que le processus de sélection d’index soit dynamique en l’adaptant

cette fois à une recherche incrémentale des motifs fréquents maximaux.

Nous avons développé un outil, qui extrait de manière incrémental, les motifs

fréquents maximaux à partir d’une charge de requête et à partir de ceux-ci,

recommande une configuration d’index afin d'optimiser le temps d'accès aux Données.

Mots clés : Bases de données, Entrepôts de données, Indexation, Fouille de données,

Recherche de motifs fréquents incrémentale,Modèles de coût, Performance.

Abstract

With the wide development of databases in general and data warehouses in

particular, it is important to reduce the tasks that a database administrator must perform

manually. The aim of auto-administrative systems is to administrate and adapt

themselves automatically without loss or even with a gain in performance. The idea of

using data mining techniques to extract useful knowledge for administration from the

data themselves is very important. First static approach was proposed in [Aou05].

In this paper, we propose an improvement of the approach suggested in [Aou05]

in mean that the process of index selection been dynamic by adapting it this time to an

incremental research of the maximum frequent item.

4

Tables des matières

Remerciements ............................................................................................................... 2

Résumé ........................................................................................................................... 3

Chapitre 1 Introduction ................................................................................................ 5

1.1 Contexte et problématique ................................................................................ 5

1.2 Objectifs et contributions ................................................................................... 5

1.3 Organisation du mémoire .................................................................................. 6

Chapitre 2 Etat de l’art................................................................................................. 7

2.1 Problème de sélection d'index........................................................................... 7

2.1.1 Travaux de Frank et al. .............................................................................. 8

2.1.2 Travaux de Choenni et al. .......................................................................... 9

2.1.3 Travaux de Whang - Algorithmes ADD and DROP .................................. 10

2.1.4 Travaux de Gündem ................................................................................ 10

2.1.5 Travaux de Chaudhuri et al...................................................................... 10

2.1.6 Travaux de Feldman et al......................................................................... 11

2.1.8 Travaux de Valentin et al. ........................................................................ 12

2.2 Recherche incrémentale des motifs fréquents ................................................ 13

2.2.1 Algorithme incrémental recherche de motifs fréquents fermes ............... 13

2.2.2 Algorithme incrémental de recherche de motifs fréquents maximaux ..... 14

Chapitre 3 Approche proposé.................................................................................... 15

3.1 Recherche de motifs fréquents ....................................................................... 15

3.1.1 Contexte et motivations............................................................................ 15

3.1.2 Algorithme Zigzag .................................................................................... 17

3.2 Démarche de sélection automatique d'index................................................... 19

3.2.1 Extraction de la charge ............................................................................ 20

3.2.2 Analyse de la charge................................................................................ 21

3.2.3 Construction du contexte d'extraction ...................................................... 22

3.3 Modèles de coût.............................................................................................. 23

3.4 Stratégie de sélection d'index bitmap de jointure ............................................ 23

3.4.1 Construction de l'ensemble d'index candidats.......................................... 23

3.4.2 Enregistrement et suppression des index candidat.................................. 24

3.4.3 Construction de la configuration d'index........................................................ 25

Chapitre 4 Implémentation et Expérimentations ........................................................ 26

4.1 Implémentation................................................................................................ 26

4.1.1 Génération des motifs fréquents .............................................................. 26

4.2 Expérimentations............................................................................................. 29

Chapitre 5 Conclusion et perspectives ...................................................................... 31

Annexe A : Fichier de sauvegarde : base de connaissance .......................................... 32

Bibliographie.................................................................................................................. 33

5

Chapitre 1 Introduction

1.1 Contexte et problématique

Aujourd’hui, l’information joue un rôle crucial dans le quotidien des entreprises.

L’acquisition et l’analyse de cette information sont devenues des choix stratégiques

incontournables dans les entreprises avec de plus en plus de grands volumes de

données à manipuler. Ce développement a contribué au développement des entrepôts

de données. Un administrateur en plus de la gestion de l’espace de stockage et de la

gestion des performances, a également à sa charge la conception logique ou physique

des bases de données. Il devient donc important de réduire la fonction d’administration

[WMHZ02].

Pour améliorer les performances du système en minimisant les temps d'accès

aux données l’administrateur peut mettre en œuvre la sélection des structures

physiques tels que les index [FST88]. L'optimisation automatique de ces tâches donne

lieu à des systèmes dits auto-administratifs avec comme objectif de s'administrer et de

s'adapter eux-mêmes, automatiquement, sans perte de performance.

Depuis quelques années, l'idée d'utiliser les techniques de fouille de données

(data mining) pour extraire des connaissances utiles des données elles-mêmes, pour

leur administration est exploité [Cha98]. Dans [Aou05] une approche basée sur la

recherche des motifs fréquents fermés pour la sélection des index bitmap de jointure à

été proposée. Cependant, cette recherche de motifs fréquents fermés reste statique et

ne garantie pas encore l’aspect dynamique du processus de sélection d’index. C'est

pourquoi nous étudions dans ce mémoire l'utilisation des techniques de fouille de

données (recherche des motifs fréquents incrémentale) pour la sélection d’index.

1.2 Objectifs et contributions

Notre objectif principal consiste à fournir des stratégies qui permettent de

sélectionner une structure d’index efficace afin d'optimiser les performances des

entrepôts de données en se basant sur la recherche incrémentale des motifs fréquents.

Plusieurs travaux de recherche ont traité le problème de sélection d'index.

Cependant, ces travaux ne prennent pas en compte les connaissances (mé-tadonnées,

statistiques, charge de requêtes appliquée au système, usage des attributs de l'entrepôt

de données dans ces requêtes, etc.) qui peuvent être extraites de la charge afin de

réduire la complexité du problème de sélection et de cibler les index candidats les plus

intéressants. La stratégie de sélection d'index que nous proposons intègre donc cette

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

Master Extraction de Connaissances à partir des

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Master Extraction de Connaissances à partir des

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib