Combinaison des algorithmes génétique et de

publicité
Combinaison des algorithmes génétiques
et de recuit simulé pour la conception
physique des entrepôts de données
Présenté par :
Aymane Boutayeb
Mahmoud Zyate
Encadré par :
L. Lamrini
Plan
▪ Introduction
▪ Problème de sélection d’un schéma de fragmentation horizontale
▪ Algorithme génétique
▪ Algorithme de recuit simulé
▪ Conclusion
Introduction
Conception physique des entrepôts de données
Introduction
▪ Un entrepôt de données stocke de grosses quantités de données
modélisée par un schéma en étoile qui est caractérisé par une table des
faits de taille importante et un certain nombre de tables de dimension plus
petites.
▪ Des requêtes décisionnels complexes sont exécutées sur ce schéma.
▪ Ces requêtes imposent des restrictions pour sélectionner des faits
spécifiques ce qui implique des jointures entre les tables de faits et les
tables de dimensions.
▪ Plusieurs techniques ont été proposées pour optimiser ces requêtes :
 Les vues matérialisées.
 Les index avancés.
 La fragmentation horizontale.
 le traitement parallèle.
Fragmentation horizontale
▪ Aspect important dans la conception physique des bases de donnée.
▪ Facilite l’exécution des requête OLAP et la gestion de l’entrepôt de
données en partitionnant les tables, les index et les vues matérialisées
en plusieurs ensembles de lignes disjoints, physiquement stockés et
séparément consultés.
▪ Réduction du coût de mise à jour.
Technique de fragmentation proposée
▪ La procédure utilisée consiste à :
▪ Sélectionner la (les) table(s) de dimension participant dans le processus
de fragmentation de la table de faits.
▪ Partitionner ces tables de dimension en utilisant leurs prédicats de
sélections simple.
▪ Utiliser leurs schémas pour fragmenter la table de faits.
Difficulté de la fragmentation horizontale
dans les entrepôts de données
▪ Le nombre de fragments horizontaux de la table de faits (noté N) généré
𝑔
par cette procédure de fragmentation est donné par : 𝑁 = 𝑖=1 𝑚𝑖
▪ Au lieu de gérer un seul schéma, l’administrateur est confronté à N
sous-schéma en étoile chose difficile à maintenir.
▪ Pour répondre à ce problème on propose une approche combinant
l’algorithme génétique et l’algorithme du recuit simulé.
Problème de sélection d’un schéma
de fragmentation horizontale
Formalisation en problème d’optimisation
Problème de sélection d’un schéma de
fragmentation horizontale
▪ Problème de fragmentation :
▪ Tables de dimensions D={D1,D2,D3……….,Dd}
▪ Table de fait F
▪ Requêtes OLAP fréquentés Q={Q1,Q2,……Qq}
Une fréquence d’accès
un seuil
Problème de sélection d’un schéma de
fragmentation horizontale
▪ Etapes de la résolution du problème :
▪ Déterminer les tables de dimension à fragmenter
▪ Utiliser les schémas de fragmentation pour fragmenter la table de fait.
▪ Techniques utilisées :
▪ Algorithme génétique
▪ Le recuit simulé
Algorithme génétique
Comment résoudre le problème de fragmentation
L’algorithme à implémenter
▪ Génération de la population initiale
▪ Sélection
▪ Tant que condition d’arrêt non atteinte
▪ Croisement
▪ Mutation
▪ Sélection
▪ Fin Tant que
Algorithme génétique
▪ Mécanisme de codage
▪ Dom(Age)=d11 U d12 U d13
▪ d11=[0,18]
▪ d12=[18,60]
▪ d13=[60,120]
Algorithme génétique
▪ Dom(Sexe)=d21 U d22
▪ d21={Masculin}
▪ d21={Féminin}
▪ Dom(Saison)=d31 U d32 U d33 U d34
▪ d31={Hiver}
▪ d32={Printemps}
▪ d33={Eté}
▪ d31={Automne}
Algorithme génétique
P1 : Saison =’Eté’, P2 : Saison = ’Printemps’ , P3 : (Saison=
’Automne’ ∪ Saison= ’Hiver’), P4 : (Age ≤ 18) ∨ (Age ≥ 60) et P5 : (18
< Age < 60)
Algorithme génétique
▪ L’entrepôt est fragmenté en 6 fragments :
▪ Cl1 : (P1 ∧ P4)
▪ Cl2 : (P1 ∧ P5)
▪ Cl3 : (P2 ∧ P4)
▪ Cl4 : (P2 ∧ P5)
▪ Cl5 : (P3 ∧ P4)
▪ Cl6 : (P3 ∧ P5).
▪ le nombre de tous les schémas possibles est 2^(3+2+4) = 2^9
Algorithme génétique
▪ La fonction pénalité
▪ Variable booléenne V(Q_k,S_i) valant 1 si le sous schémas Si est
utilisé par la requête Qk et 0 sinon.
▪ Le cout d’exécution est :
Expérimentation de l’algorithme génétique
Algorithme
du recuit simulé
Seconde couche d’optimisation
Concept de la méthode
▪ La méthode du recuit simulé tire son nom et son inspiration de la
physique des matériaux et plus spécialement des métallurgies. Le
recuit est une opération consistant à laisser refroidir lentement un
métal pour améliorer ses qualités. L'idée physique est qu'un
refroidissement trop brutal peut bloquer le métal dans un état peu
favorable (alors qu'un refroidissement lent permettra aux molécules de
s'agencer au mieux dans une configuration stable). C'est cette même
idée qui est à la base du recuit simulé.
▪ Pour éviter que l'algorithme ne reste piégé dans des minima locaux, on
fait en sorte que la température T=T(n) décroisse lentement en
fonction du temps.
Le rôle du recuit simulé
▪ Le recuit simulé est appliqué sur le schéma de fragmentation généré
par l’algorithme génétique afin d’éviter le problème de convergence
prématurée inhérente aux algorithmes génétiques en permettant des
déplacements aux solutions de mauvaises fitness.
L’algorithme
implémenté
Expérimentation
▪ Le coût global d’exécution des requêtes est réduit de 44% après
l’application du RS.
Conclusion
▪ Les résultats expérimentaux sont encourageants et montrent la
faisabilité de notre approche.
▪ Pour les travaux futurs, il serait intéressant d’adapter les algorithmes
que nous avons proposés dans ce travail afin de sélectionner des
index de jointure compte tenu de la similitude entre les deux structures
d’optimisation
Téléchargement