MÉMOIRE Vers l`intégration de la prédiction dans

publicité
Université Lumière Lyon 2
Master Recherche d'informatique ECD
2006 2007
MÉMOIRE
Vers l'intégration de la prédiction dans les
cubes OLAP
réalisé par
Anouck BODIN NIEMCZUK
soutenu le
22 Juin 2007
sous la direction de
M. Omar BOUSSAID
Maître de conférences, habilité à diriger des recherches
et
Mme Sabine LOUDCHER RABASÉDA
Maître de conférences
avec la participation de
M. Riadh BEN MESSAOUD
Docteur en informatique
Laboratoire ERIC
Remerciements
Je souhaite exprimer mes sincères remerciements aux personnes qui se sont associées à mon
travail, m'apportant leur savoir et leur soutient.
Ma gratitude s'adresse plus particulièrement à mes encadrants : M. Omar BOUSSAID et
Mme Sabine LOUDCHER RABASEDA. Leur conance, leur rigueur de travail et le temps
qu'ils m'ont consacré m'a permis d'appendre plus qu'il ne m'était espéré.
Je remercie chaleureusement Riadh BEN MESSAOUD pour son investissement dans ce
projet, sa disponibilité et le partage de son expérience passée en tant que doctorant.
Mes meilleurs sentiments vont aux membres du laboratoire ERIC (Equipe de Recherche en
Ingénierie des Connaissances) que j'ai côtoyés et qui ont toujours répondu à mes sollicitations
et plus particulièrement à Ricco Rakotomalala.
Enn, j'adresse toute ma reconnaissance à ma mère, mon frère et à mes amis, qui m'ont
soutenue et encouragée tout au long de cette année.
Résumé
Les entrepôts de données présentent aujourd'hui une solution reconnue pour la gestion des
grands volumes de données. De plus, l'analyse en ligne OLAP ore des outils qui sont au
service de la visualisation, de la structuration et de l'exploration des données d'un entrepôt.
D'un autre côté, la fouille de données est un outil d'extraction des connaissances proposant des
techniques de description, de classication, d'explication et de prédiction. Les deux domaines
s'avèrent donc complémentaires pour mieux appréhender les données.
Il est donc possible de rendre plus performant le processus d'aide à la décision moyennant
le couplage de l'analyse en ligne et la fouille de données. L'extension des capacités de l'OLAP
à celle de la fouille de données permet de proposer une large palette d'outils avancés pour
l'aide à la décision. En orant à l'utilisateur OLAP une meilleure analyse des données par le
biais de l'extraction des connaissances, c'est l'ensemble de son environnement de travail qui se
voit enrichi. Dans la continuité des travaux de [Mes06], où la fouille de données est exploitée
pour étendre l'OLAP à la description, la classication et l'explication, nous mettons en place
une nouvelle extension de l'analyse en ligne à la prédiction. Nous proposons une approche,
basée sur les arbres de régression, qui consiste à prédire la valeur de la mesure de nouveaux
agrégats de données. Nous proposons ainsi la création d'un opérateur de fouille de donnée en
ligne dédié à la prédiction.
Dans ce mémoire, nous présentons une étude de l'état de l'art selon une typologie des
travaux traitant de la prédiction dans les entrepôts de données. A travers un exemple
simplié, nous démontrons la faisabilité de notre approche. Nous présentons en parallèle une
formalisation théorique qui dénit le cadre formel du couplage de l'analyse en ligne et des
arbres de régression. Enn, nous validons notre approche à travers une étude de cas sur des
données réelles.
Mots clés : entrepôt de données, analyse en ligne, fouille de données, arbres de régression.
Chapitre 1
Introduction générale
Les entrepôts de données (data warehouses ) sont des bases d'informations dédiées à l'analyse
et à la prise de décision [Kim96]. Les données y sont orientées sujet, intégrées, non volatiles,
historisées et organisées de manière multidimensionnelle [Inm96]. Les modèles en étoile ou en
ocons de neige permettent dans un premier temps de produire des cubes de données adaptés
à l'analyse. Dans un second temps, c'est à l'utilisateur de naviguer, explorer et analyser les
données d'un cube an d'en extraire des informations pertinentes pour la prise de décision. Il
s'agit alors d'une analyse en ligne, réalisée grâce à la technologie OLAP (On Line Analytical
Processing ).
Un cube de données est une représentation multidimensionnelle des données. Chaque cellule
d'un cube de données représente un fait agrégé décrit par des axes d'analyse. Ces derniers
correspondent aux dimensions du cube. Le fait est observé par une mesure à laquelle est
associée une fonction d'agrégation (SUM, AVG, MAX, MIN). Une dimension peut être
organisée en hiérarchie, par exemple : Jour→Mois→Année pour une dimension temporelle.
Les faits peuvent donc être observés selon diérents niveaux de granularité. La construction
d'un agrégat sur les mois, par exemple, permet d'exprimer les faits plus nement que sur les
années. Les informations sont donc agrégées dans le cube selon les besoins de l'utilisateur.
Sur la gure 1.1, les dimensions sont le Statut, la Profession et le Produit. Les mesures
employées correspondent aux salaires et au nombre de personnes observés. Les fonctions
d'agrégation correspondent respectivement à la moyenne (AVG) et à la somme (SUM).
Les données peuvent alors être manipulées et observées sur les diérentes dimensions. Les
opérateurs OLAP classiques permettent la permutation, la division, le forage vers le haut
(passage à un niveau hiérarchique supérieur par agrégation), le forage vers le bas (passage à
un niveau hiérarchique plus détaillé), la projection et la sélection. Ces opérateurs sont utiles
pour la visualisation, la structuration et l'exploration du cube.
Ben Messaoud insiste sur le fait que les opérateurs classiques ne présentent pas d'outils
permettant de guider l'utilisateur vers les faits les plus intéressants du cube [Mes06]. C'est
à l'utilisateur de manipuler au mieux le cube de données an de découvrir ces zones
d'informations pertinentes. La gure 1.1 représente un cube à trois dimensions, or les cubes
peuvent être structurés par plus de trois dimensions. Dans un cube de données volumineux,
la navigation selon les diérents axes d'analyse est encore moins aisée. Des opérateurs pour
4
CHAPITRE 1. INTRODUCTION GÉNÉRALE
Profession
Ouvrier
I
Employé
Montant moyen des salaires
Effectif des personnes
“Statut = femme mariée”,
“Profession = employé” et
“Produit = terrain”
Cadre
Agriculture
Femme célibataire
Femme mariée
Homme célibataire
Homme marié
Statut
Terrain
Véhicule
Résidence
Libéral
Produit
Fig. 1.1 Exemple de cube de données à trois dimensions
détecter automatiquement des zones sensibles augmenteraient signicativement l'ecacité de
l'OLAP.
De plus, les opérateurs OLAP ne permettent pas l'explication et la prédiction dans un
cube de données. L'OLAP requiert donc de nouveaux outils automatiques, pour extraire
la connaissance potentiellement existente au sein d'un cube de données. Le manque de
profondeur dans l'explication de certains phénomènes relevés grâce à l'exploration des cubes
de données a motivé les travaux de Ben Messaoud [Mes06]. Il a proposé une première extension
des capacités de l'OLAP à la description, à la visualisation, à la classication et à l'explication.
Notre approche s'insère dans la même démarche de couplage entre l'analyse en ligne est la
fouille de données.
Nous ciblons particulièrement l'extension de l'OLAP à de nouvelles capacités de prédiction.
Dans un processus décisionnel, un utilisateur observe les faits OLAP dans un cube an
d'extraire des informations intéressantes. Ceci permet aussi à l'utilisateur d'anticiper,
intuitivement, la réalisation d'événements futurs. Il est possible d'assister l'utilisateur dans
cette tâche. Nous nous orientons vers une nouvelle approche de fouille de données en ligne qui
intègre un opérateur OLAP de prédiction. Pour l'utilisateur l'exploration lors de l'analyse en
ligne prend une nouvelle dimension, en complétant le réel, en l'anticipant, une nouvelle source
d'information devient disponible et l'analyse prend de la profondeur.
Les techniques de fouille de données se présentent comme des approches ecaces pour
guider l'analyste et extraire de nouvelles connaissances. Le principal eort consiste à combiner
les techniques de fouille avec les cubes multidimensionnels OLAP, tout en proposant des
solutions interactives à l'utilisateur.
Plusieurs approches de couplage de l'analyse en ligne et de la fouille de données sont
déjà venues enrichir le terrain [PK01, IKA02, SAM98, CCLR05]. Toutes orientées vers
l'analyse, elles ne partagent pas les mêmes motivations : de l'aide à la navigation, à l'analyse
5
CHAPITRE 1. INTRODUCTION GÉNÉRALE
approfondie des données en passant par la prédiction. Une autre distinction entre ces
approches est indiquée dans [Mes06]. Les propositions de couplage divergent selon trois types,
caractérisés par les techniques qu'elles déploient. Il est à noter aussi que certaines approches
instrumentalisent les cubes de données et s'insèrent dans des domaines plus éloignés de l'OLAP
et du couplage avec la fouille de données.
Notre objectif est d'intégrer de nouvelles capacités d'analyse dans l'OLAP. Nous proposons
une approche basée sur les fondements de l'OLAP et de la fouille de données. Ce couplage
permet à l'utilisateur de prédire la valeur de la mesure de faits inexistants, dans un cube de
données avec une technique de type "arbre de régression". En s'appuyant sur un processus
complet d'apprentissage, nous répondons aux besoins de l'utilisateur. Nous proposons un outil
adapté et des résultats ables et compréhensibles.
Dans ce mémoire, nous présentons, dans le chapitre 2, un état de l'art axé sur une
comparaison des travaux existants. Tout d'abord, les types de couplage entre l'analyse en ligne
et la fouille de données sont précisés. Ensuite nous dénissons des critères retenus pour réaliser
une typologie des travaux. Ces critères concernent les objectifs de la prédiction ainsi que la
méthodologie employée pour le couplage entre l'OLAP et la fouille de donnée. Avec le cadre
précédent, nous positionnons notre approche de couplage pour la prédiction dans les cubes
de données. Dans le chapitre 3, nous rappelons nos objectifs et nous étudions les techniques
de fouille de données par les arbres de régression. Nous y développons notre proposition
d'intégration de la prédiction dans les cubes de données via une formalisation et montrons
la faisabilité de notre approche. Le chapitre 4 vient présenter une étude de cas sur un jeu de
données. Enn, nous réalisons un bilan de nos contributions et présentons nos perspectives
de recherche.
6
Chapitre 2
Etat de l'art
Dans ce chapitre, nous fournissons une étude comparative des travaux traitant du couplage
entre les techniques de prédiction et l'analyse en ligne. Nous avons réalisé une typologie selon
des critères orientés OLAP et fouille de données. Les travaux étudiés se distinguent selon leurs
motivations et la méthodologie employée.
Cependant, l'enjeu du couplage se saisit d'abord par la divergence des espaces de
représentation des données considérées, entre l'analyse en ligne et la fouille de données. Les
techniques de fouilles de données sont dénies sur un autre type de données que celles des
cubes OLAP. Il s'agit de données structurées sous forme de tableau attributs-valeurs, ou
encore individus-variables. Les cubes de données utilisés dans le cadre de l'analyse en ligne
ont une structure multidimensionnelle. En plus de la multidimensionnalité des cubes, chaque
dimension peut faire l'objet d'une hiérarchie (Pays>Régions>Villes ). Ensuite, la divergence
des objectifs est un second enjeu ; alors que l'OLAP a pour but la navigation et l'exploration,
la fouille de donnée sert aussi bien à l'exploration, l'explication qu'à la prédiction.
Trois démarches de couplage se distinguent alors, celles-ci ont été dénies par Ben
Messaoud [Mes06]. Une démarche consiste à transformer les données multidimensionnelles
en données bidimensionnelles, une seconde s'interroge sur l'exploitation possible des outils
oerts par les systèmes de gestion de base de données multidimensionnelles (SGBDMs). La
troisième démarche consiste à faire évoluer les algorithmes de fouille de données pour les
adapter aux types de données manipulés par les cubes.
Nous allons préciser les approches existantes dans le couplage de l'OLAP avec les méthodes
de prédiction. Nous dénissons les critères utilisés avant de comparer dans une première
section les travaux abordant l'utilisation de la prédiction dans les cubes de données. Dans la
seconde section nous positionnons notre approche pour l'intégration de la prédiction dans les
cubes de données.
2.1 La prédiction dans les cubes de données OLAP
Les opérations supportées dans le cadre de l'OLAP permettent l'exploration des cubes
de données et la navigation. Les tâches exploratoires de l'analyse en ligne ne proposent pas
7
CHAPITRE 2. ETAT DE L'ART
d'outils permettant de guider l'utilisateur, ni de lui indiquer des éléments d'analyse et de
compréhension des résultats lors de l'exploration. C'est principalement dans cet objectif que
le couplage de l'analyse en ligne avec la fouille de données s'est développé. De la recherche
d'association entre les faits à leurs explications, de nombreuses possibilités supplémentaires
peuvent venir enrichir les outils actuellement proposés.
Dans le cadre du couplage, de nouvelles propositions sont en train d'émerger. Elles
consistent à utiliser des méthodes statistiques et d'apprentissage automatique pour la
prédiction an d'enrichir les capacités de l'analyse en ligne. Dans une première partie nous
abordons les diérents objectifs et apports de la prédiction dans l'environnement OLAP. Nous
dénissons dans une deuxième partie, les critères retenus pour la comparaison des travaux
existants. A celà, suit une comparaison des méthodologies déployées, aussi bien du point de
vue des techniques de prédiction que du couplage.
2.1.1 Objectifs et apports de la prédiction
Certaines approches s'insèrent moins dans une problématique de couplage entre l'OLAP et
la fouille de données. Il s'agit d'une utilisation momentané de l'OLAP et des cubes de données
pour faciliter une analyse des données. Les travaux de Yang et al. [YHN03], de Huang et al.
[HNC+ 02] et de Fu [Fu05], utilisent ainsi les cubes de données pour structurer leurs données
originales et faciliter l'analyse.
Ainsi, dans les travaux de Yang et al., et de Huang et al., le cube de données est composé de
trois dimensions permettant de caractériser les données servant à la recherche dans le Web
(Web Prefetching ), améliorant la prédiction des pages Web à mettre en cache pour leur future
consultation par l'utilisateur. Des méthodes de classication non supervisée et d'analyse de
corrélation sont alors exécutées sur le cube.
Fu [Fu05], utilise le cube pour stocker les tables de contingence (sommets) d'un arbre de
décision. Ainsi, les données du cube correspondent au tableau individus-variables d'origine et
les agrégats aux tables de contingence.
Dans ces deux propositions, les auteurs ne s'engagent pas dans une réexion sur le couplage
mais donnent des solutions qui pourraient s'insérer dans un tel cadre.
L'apport de la prédiction dans l'analyse en ligne des cubes de données revêtit diverses
facettes (cf. tableau 2.1). Une première possibilité, dans la continuité de son utilisation
statistique courante, est de pouvoir prédire, pour un nouveau fait, sa mesure. Les travaux
de Chen et al. [CRST06], proposent de prédire la mesure d'un nouveau fait, par exemple, les
ventes mondiales d'un article à la n de l'année en cours, en se basant sur un sous ensemble
de données correspondant aux ventes de l'article lors de périodes passées et en ciblant une
région "leader" de pays ou de villes comme ensemble d'apprentissage. La recherche de région
"leader" apparaît dans une phase de sélection d'observations, préalable à la construction du
modèle de prédiction. Certaines données sont donc considérées comme caractéristiques et sont
de bons indicateurs prédictifs. L'erreur d'un modèle de prédiction en est réduite car le modèle
n'est pas basé sur un ensemble d'apprentissage trop étendu.
Des approches similaires à celle de la prédiction d'une valeur de mesure d'un nouveau
fait existent. Une proposition permet de générer un nouveau cube où la mesure indique
8
CHAPITRE 2. ETAT DE L'ART
Tab. 2.1 Propositions de prédiction dans les cubes de données
un score ou une distribution de probabilités associée à la valeur de la mesure qui aurait
pu être attendue dans le cube originel [CCLR05]. Le cube obtenu correspond au modèle
à utiliser pour prédire la valeur de la mesure de tout nouveau fait. La prédiction se base
sur l'utilisation de méthodes distributivement ou algébriquement décomposables, an de
maximiser la probabilité conditionnelle pour attribuer une valeur de mesure. Chaque cellule
du cube de prévision contient une valeur et la granularité des cellules peut être changée avec
les opérations OLAP classiques. Cheng [Che98], avait déjà établi ce type de proposition en
construisant un cube de prédiction basé sur le modèles linéaire généralisé. Sarawagi et al.
[SAM98], utilisent la prédiction pour d'autres ns. Une première étape re-calcule le cube de
données initial en prédisant la valeur de la mesures des faits qui aurait pu être escomptée.
La base d'apprentissage est le cube original et le modèle se base sur une modélisation loglinéaire. Les déviations entre les deux cubes permettent alors d'indiquer à l'utilisateur des
valeurs exceptionnelles. Les cellules exceptionnelles sont alors signalées à l'utilisateur lors de
sa navigation dans le cube de données grâce à trois indicateurs qui permettent aussi de lui
indiquer les chemins intéressants à explorer.
Un autre type de problématique auquel répondent les modèles de prédiction a été traité par
Palpanas et al. [PKM05, Pal03, PK01]. L'utilisation de la prédiction consiste ici à reconstituer
les faits originels d'un cube à partir des faits agrégés. Pour ce faire, le principe de l'entropie
maximum de l'information est utilisé. Ce type de possibilité à un intérêt lorsque les utilisateurs
ne disposent pas de l'intégralité des données, comme c'est le cas avec les magasins de données
mis à leurs dispositions. Dans le cas contraire, il est alors possible de comparer les résultats
obtenus avec les données originales. Les écarts sont alors porteurs d'information concernant
le degré d'exceptionnalité d'une valeur de cellule.
9
CHAPITRE 2. ETAT DE L'ART
Enn, une proposition plus récente de Chen et Pei [CP06] consiste à construire des cubes
basés sur une régression linéaire. A partir du cube de donnée initial un cube de mesure
compressible est généré. Chacune des valeurs du cube indique alors la tendance générale
des données. Les mesures sont agrégées par une technique de compression non linéaire (NCR)
permettant de diminuer le risque de perte d'informations. Les cubes de mesures compressibles
permettent de prévoir les tendances grâce au modèle de données et à la recherche de zones
exceptionnelles tout en permettant la matérialisation partielle des données.
De nombreux autres objectifs peuvent ainsi être dénis et les méthodes d'apprentissage
automatique ne répondent pas toutes aussi bien à chacun d'eux. Cependant chacune de ces
propositions s'insérant dans le cadre de l'analyse en ligne, on attend d'elles des solutions
conformes aux objectifs de navigation et d'exploration des cubes de données.
Après avoir vu les principales contributions sur le terrain de la prédiction et de l'OLAP, nous
dénissons maintenant des critères permettant d'étudier leurs caractéristiques.
2.1.2 Comparaison des propositions
Critères de comparaison
Ramakrishnan[Ram06], voit dans le couplage entre la fouille de données et l'OLAP un
paradigme appelé à se dénir plus précisément. Ce besoin est valable aussi bien vis à vis
des processus de manipulation des données que pour les paramétrages ou l'optimisation des
algorithmes issus de l'apprentissage automatique.
Les propositions précédentes permettent de voir en quelle mesure il est possible de répondre
aux challenges du couplage entre la fouille de données et de l'analyse en ligne. Le principal
dé est lié à la taille des données, due à la dimensionnalité du cube et aux hiérarchies. Une
réduction des données est donc souvent envisagée. Ensuite le modèle doit pouvoir être obtenu
pour diérents niveaux de granularités selon les besoins de l'utilisateur. Il doit donc être adapté
à la navigation à diérents niveaux hiérarchiques. L'utilisateur enn doit pouvoir rester dans
l'environnement qu'il connaît et disposer de la même souplesse oerte que lorsqu'il navigue à
l'intérieur des données. De même, il est souvent préférable d'éviter des modèles nécessitant le
renseignement de certains paramètres par l'utilisateur. La complexité des résultats pouvant
être produit par un algorithme d'apprentissage doit, de même, être adaptée aux utilisateurs
OLAP. L'association d'une sémantique est alors garante de résultats lisibles et exploitables.
Ceci présente un dernier enjeu dans le cadre du couplage.
Nous avons vu précédemment qu'une première diérence dans les travaux existe selon les
objectifs. Les critères que nous allons ici dénir concerne davantage le couplage en lui même.
Ils nous permettent de comparer les propositions existantes et de nous positionner parmi elles.
Les approches proposées se déclinent selon diérents aspects. Nous en avons retenu huit dont
trois ciblées sur les processus de fouille de données.
Dans un premier temps, la prise en compte de la structure multidimensionnelle des données
est apparue comme un élément permettant d'apprécier la rigueur du couplage de la fouille
de données avec les cubes OLAP. Dans le même esprit, un point supplémentaire consiste à
s'assurer que les hiérarchies des cubes sont considérées lors de l'élaboration du modèle de
prédiction. Notre intérêt porte aussi sur les optimisations réalisées au niveau des algorithmes
10
CHAPITRE 2. ETAT DE L'ART
de fouille. Celles-ci permettent de proposer un modèle pour chaque niveau hiérarchique d'un
cube. Toujours au sujet de la production du modèle, la possibilité oerte à l'utilisateur,
de paramétrer l'apprentissage et la méthode de fouille de données semble nécessaire. De
nombreux paramètres peuvent être manipulés pour améliorer la précision de la prédiction.
L'exploitation des résultats et plus précisément du modèle de prédiction est apparue comme un
élément marquant une bonne intégration de la fouille à l'analyse en ligne. En eet, pour parler
d'intégration de la prédiction dans l'OLAP, il faut pouvoir proposer un modèle, l'interpréter et
l'associer à la sémantique OLAP. Ainsi l'utilisateur dispose de nouveaux outils tout en restant
dans une manipulation et une compréhension habituelle de son environnement d'analyse.
An d'approfondir la qualité du couplage proposé, nous avons dénis trois critères internes au
processus classique de fouille de données, correspondant chacun à une phase du processus : le
pré-traitements des données, la sélection des variables explicatives et la validation du modèle.
Ces derniers éléments permettent de proposer à l'utilisateur des résultats précis et ables.
Ainsi, un couplage basé sur les fondements des deux domaines peut être apprécié.
Synthèse comparative
Tout d'abord nous regarderons avec les cinq premiers critères le processus de couplage
pour les diérents travaux proposés. Nous reviendrons ensuite sur l'élaboration du modèle
selon les trois critères orientés vers la fouille de données.
Tab. 2.2 Comparaison des propositions de couplage
D'après le tableau 2.2, on note que les travaux ici recensés prennent tous en compte la
structure multidimensionnelle des cubes.
Palpanas et al. [PKM05], en partant du postulat que l'utilisateur ne dispose pas du
cube intégral de données se confrontent à un objectif particulier. Les données de base
correspondent aux faits agrégés d'un cube. L'objectif est alors de prédire le résultat d'un
forage vers le bas du cube, an d'obtenir les mesures des faits à un niveau plus détaillé.
En utilisant le principe de l'entropie maximale et un algorithmique basé sur la technique de
l'ajustement itératif proportionnel (IPF) les résultats de la requête sont estimés et présentés
11
CHAPITRE 2. ETAT DE L'ART
à l'utilisateur. L'algorithme n'identie pas simplement des phénomènes globaux, rapportant
la valeur maximale le long d'une dimension. Il tient compte du voisinage local dans lequel
une valeur particulière apparaît et rapporte toutes les anomalies ou exceptions. Ainsi les
niveaux hiérarchiques sont sur ce point considérés dans la construction du modèle. Dans le
cas où ces données originelles seraient disponibles, en employant une formule qui normalise
l'erreur d'évaluation d'une valeur avec l'écart type, Palpanas propose d'indiquer les déviations
dans les données originales. Un seuil permet alors de diérencier les perturbations normales
dans l'ensemble de données et les grandes déviations. La complexité est liée aux niveaux
d'agrégation utilisés et la précision du modèle augmente lorsque le niveau d'agrégation est
faible. Dans cette proposition, l'utilisateur n'a pas besoin de choisir des fonctions et des
paramètres et aucune connaissance particulière n'est exigée.
Chen et al. [CCLR05], proposent une méthode générique qui permet à l'utilisateur de choisir
diérents modèles. Un certains nombre de paramètres sont donc cette fois-ci à renseigner :
le modèle d'apprentissage, la condition pour celui-ci est qu'il soit algébriquement ou
distributivement décomposable, l'échantillon test et éventuellement une fonction d'évaluation
du modèle. Certains modèles peuvent être approximativement décomposables, un certain
nombre de traitements sont alors réalisés. Dans tous les cas, le principe consiste à dériver des
fonctions de scoring. Les modèles de classieur bayésien (algébriquement décomposable) et
de classieur estimant la densité par le noyau (Kernel Density Estimation, distributivement
décomposable) font l'objet d'une démonstration dans leur article. An de pouvoir proposer
un modèle pour les diérents niveaux d'agrégation selon les hiérarchies des dimensions, une
optimisation algorithmique est indiquée. Elle reprend le principe énoncé dans les travaux
de Sarawagi [SAM98]. Au lieu de construire exhaustivement à partir du point zéro chaque
modèle associé à chaque niveau d'agrégation, les modèles de bas niveaux sont réutilisés pour
constituer les modèles des niveaux d'agrégation plus élevés. Ainsi le modèle produit pour le
niveau de cellules le plus haut est réalisé en combinant les modèles de niveau inférieur et
permettant d'accéder aux cellules de plus haut niveau. Une première proposition de cube de
prédiction, établissant un modèle pour chaque niveau de la hiérarchie des dimensions a été
proposée par Cheng [Che98], en utilisant un modèle linéaire généralisé. Contrairement aux
travaux de Sarawagi, Chen et al. et Cheng n'exploitent pas le cube de prédiction ainsi obtenu.
Le modèle est laissé à l'exploration de l'utilisateur pour la prédiction.
Dans [SAM98], le cube de prédiction est obtenu suite à une modélisation log linéaire. Ils
utilisent des coecients correspondant à des ajustements à la moyenne pour proposer un
modèle basé sur les tendances générales des données originelles. Le cube de mesures prédites
est ensuite comparé au cube de données courant et les déviations entre les deux cubes
constituent le résidu du modèle. Ces résidus sont alors exploités pour proposer trois indicateurs
à l'utilisateur. L'exploitation des résultats consiste à indiquer dans le cube de données de
base, les cellules présentant une valeur exceptionnelle, les dimensions à forer qui présentent
des valeurs exceptionnelles ainsi que les cellules à forer vers le bas présentant des valeurs,
à un niveau plus détaillé, exceptionnelles elles aussi. De plus, la proposition de Sarawagi ne
nécessite aucune connaissance particulière de la part de l'utilisateur et lui permet de saisir le
contexte d'une valeur exceptionnelle.
12
CHAPITRE 2. ETAT DE L'ART
Ces deux approches ont été approfondies par leurs auteurs respectifs par la suite
[Sar01, SS01]. lls proposent alors un cadre complet et interactif d'aide à l'exploration dans
les cubes de données OLAP. En plus de la méthode précédemment exposée, identiant les
régions dans lesquelles les cellules évaluées sont sensiblement diérentes des valeurs prévues
par le modèle prédictif, un opérateur iDi vient aider les analystes à explorer pourquoi des
baisses ou des augmentations sont observées entre les régions relatives. A cela vient s'ajouter
un mécanisme permettant d'identier les régions les plus instructives n'ayant pas encore été
visitées par l'utilisateur. Enn une de leur dernière contribution est un opérateur RELAX
qui récapitule les généralisations et les exceptions le long de divers chemins dans un cube de
données. Ainsi avec l'opérateur iDi, l'utilisateur commence l'exploration au niveau global
et l'opérateur creuse dans les données détaillées pour les résumer tandis qu'avec l'opérateur
RELAX l'utilisateur commence au niveau détaillé.
L'extension des travaux de Chen et al.[CCLR05], proposée par la suite dans [CRST06] prend
une toute autre direction, tout aussi importante dans le cadre d'un couplage ecace entre
l'OLAP et la fouille de données. La concentration de leur eort se situe en amont de la
construction du modèle de prédiction et consiste à rechercher l'ensemble de données le
plus pertinent pour l'apprentissage selon le nouveau fait que l'utilisateur souhaite prédire.
L'objectif étant d'être le plus exact possible par la suite pour la prédiction en sortie. Les
régions ainsi déterminées sont appelées des régions leader.
Une autre proposition de Chen et Pei [CP06], établissant un modèle de prédiction basé sur
la régression linéaire à partir du cube de données courant tente d'améliorer l'exploitation des
résultats par l'utilisateur avec la notion de mesure compressible. Ce choix de mesure permet
ainsi de baser l'apprentissage sur une quantité réduite de données.
An d'ancrer le couplage entre l'analyse en ligne et la fouille de donnée comme un ensemble
de traitements amenant à des connaissances valides, il est primordial de respecter un certain
nombre d'aspects du processus de fouille de données. Nous allons donc regarder les travaux
précédemment présentés avec un nouveau regard, qui se positionne plutôt du côté de la fouille
de données.
Dans une première phase, les données ont souvent besoin d'être préparées, échantillonnées et
les variables explicatives à utiliser, sélectionnées. Une fois une méthode de fouille déployée,
celle-ci doit être évaluée et validée. De nombreuses techniques existent pour réaliser ces étapes.
Il apparaît donc nécessaire de les intégrer au processus de couplage ici proposé, an de faire
reposer les modèles produits de prédiction sur des bases solides. Le tableau 2.3 présente ces
phases et leur prisent en compte dans les travaux existants.
La première phase de prétraitements des données doit, dans notre cas, être évitée. On
considère que les cubes de données sont prêts pour la fouille et que la phase de prétraitements
a été réalisée en préalable via la construction du cube. Ainsi, on est certain que les
prétraitements qui aurait pu être appliqués ne viennent pas dénaturer les données gérées
par les cubes. Les travaux de Chen et al. [CCLR05, CRST06] déploient les deux dernières
étapes citées comme inhérentes à la construction d'un modèle de prédiction. Leur recherche de
région "leader" s'apparente à une sélection des données et de variables explicatives à utiliser
pour la phase d'apprentissage. Dès leur proposition de 2005, leur eort s'est orienté vers la
recherche d'attributs prédictifs (explicatifs) pertinents. C'est par la suite qu'ils ont étendu
13
CHAPITRE 2. ETAT DE L'ART
Tab. 2.3 Comparaison des processus de fouilles de données appliqués
leur démarche à une sélection de données dans le cube. Lors de leur première proposition,
le modèle était validé avec un échantillon test et une fonction d'évaluation déterminée par
l'utilisateur. Dans [CRST06], ils utilisent la validation croisée pour évaluer et valider leur
modèle.
Les autres travaux présentés se concentrent davantage sur l'ensemble de données utilisé pour
l'apprentissage que pour la validation du modèle. Ainsi, Cheng [Che98] propose de généraliser
les données pour réduire le volume d'informations utilisées. Il rassemble les modalités des
variables explicatives en classes. Le cube n'est pas exploité dans sa forme initiale. Dans
un deuxième temps des coecients de pertinence (Coecient V de Cramer, Coecient
d'incertitude U et de Sommers) sont utilisés pour repérer les variables explicatives les plus
pertinentes.
Comme nous l'avons déjà vu dans [CP06], les auteurs utilisent une mesure compressible
pour réduire la quantité de données à utiliser pour l'apprentissage, avec le moins de perte
d'information possible.
Ces deux étapes du processus de fouille de données, la sélection de variable et la validation,
sont à déployer lors de l'apprentissage pour les diérents niveaux hiérarchiques pour lesquel
un modèle est renvoyé à l'utilisateur.
On discerne une dichotomie entre les travaux selon la méthodologie qu'ils mettent en place.
D'un coté, la proposition de Chen et al.[CCLR05], qui intègre un processus de fouille de
donnée. De l'autre coté, les solutions proposées par Sarawagi [SAM98] s'intègrent parfaitement
dans l'environnement OLAP en exploitant le modèle de prédiction. L'ensemble des autres
approches se répartit entre ces deux pôles. La combinaison des deux approches permettrait
d'approfondir les propositions précédentes et de proposer une réelle intégration de la prédiction
à l'analyse en ligne.
Avec les critères dénis, nous pouvons orienter le couplage vers des techniques ecaces et
réellement adaptées aux besoins de l'utilisateur. Dans l'article de Ramakrishnan [Ram06],
il est d'ailleurs rappelé qu'il existe plusieurs possibilités pour traiter chacun des aspects
précédemment analysés. Cependant chacune de ces étapes et propositions, en amont et aval
de la construction d'un modèle de prédiction, est dépendante des caractéristiques du modèle
choisi. Nous allons voir dans la section suivante notre positionnement pour l'intégration de la
14
CHAPITRE 2. ETAT DE L'ART
prédiction en environnement OLAP.
2.2 Positionnement de notre approche
Notre proposition consiste à intégrer la prédiction dans l'environnement OLAP pour l'aide
à la décision. Nous souhaitons :
permettre à l'analyste de prédire la valeur d'une mesure pour un nouveau fait selon un
contexte d'analyse déni ;
placer l'utilisateur OLAP au c÷ur du processus pour la prédiction ;
intégrer le processus d'apprentissage ;
exploiter les résultats obtenus dans la philosophie de l'analyse en ligne ;
proposer un cadre formel pour la prédiction au sein de l'analyse en ligne.
Ces diérents points ancrent notre proposition d'intégration de la prédiction dans l'OLAP
dans une démarche rigoureuse. Elle respecte à la fois les besoins de l'utilisateur et répond aux
enjeux du couplage entre la fouille de données et l'analyse en ligne.
Nous nous intéressons aux démarches prospectives en intégrant la prédiction dans une
analyse en ligne an de prédire la valeur de la mesure d'un nouveau fait. Nous utilisons
les arbres de régression car ils permettent d'avoir une variable à prédire de type quantitatif
continu, ce qui est généralement le cas des mesures dans les cubes de données. De plus, ils
ne supposent pas d'hypothèse sur les données (homoscédasticité,...) à l'inverse de méthodes
comme le modèle linéaire. Les arbres de régression ont aussi retenu notre attention dans la
mesure où ils représentent une méthode accessible à un utilisateur non expert. Ils proposent
en eet des résultats compréhensibles et se fondent sur des techniques ne s'apparentant pas
à une boite noire pour l'utilisateur. Ces caractéristiques permettent de répondre aux besoins
de l'utilisateur souhaitant des outils intelligibles et une bonne lisibilité des résultats. Les
arbres de régression fournissent par la même occasion un modèle explicatif des agrégats de
faits existants, avec le schéma de l'arbre représentant les diérentes règles de prédiction.
On se place alors dans la continuité des travaux de Sarawagi [SAM98, SS01, Sar01], qui se
concentrent sur l'aide à la navigation mais aussi sur l'explication des faits. Cependant, il reste
important pour une bonne utilisation, d'associer la sémantique OLAP à la méthode, pour
l'utilisateur. Nous repoussons donc les limites de la navigation exploratoire en injectant les
techniques de prédiction au c÷ur des processus OLAP.
Ainsi, un utilisateur peut mesurer, par exemple, quel serait le chire d'aaires d'un
nouveau magasin pour une ville donnée. En lisant l'ensemble du modèle de prédiction,
l'utilisateur peut expliquer un chire d'aaires au regard des valeurs des variables explicatives
retenues par le modèle. Il peut aussi réaliser une partition des magasins selon ces mêmes
variables. Nous nous plaçons donc dans le cas d'un cube de données volumineux, où
l'utilisateur doit être à même de dénir un contexte dans le cube permettant de cibler les
niveaux hiérarchiques et les dimensions d'analyse du nouveau fait sur lequel son intérêt porte.
L'ensemble des niveaux hiérarchiques auquels appartient le nouveau fait est utilisé pour le
processus de prédiction. Dans un premier temps, notre proposition considère que le cube
dispose que d'une seule mesure.
15
CHAPITRE 2. ETAT DE L'ART
De plus nous souhaitons faire reposer notre approche sur l'intégration d'un processus
complet d'apprentissage dans OLAP pour la fouille de données en ligne. En respectant les
étapes de base des procédés d'apprentissage, nous nous assurons de fournir à l'utilisateur
des résultats plus précis et de bons indicateurs pour mesurer les performances obtenues. Un
processus complet comporte alors une phase de sélection des variables explicatives, une phase
de partage des faits en échantillon d'apprentissage et en échantillon test. Ensuite, une phase
d'apprentissage et une phase de validation sont exécutées. La subdivision des données sert
pour ces deux dernières phases, où l'on construit le modèle sur un ensemble de données et
où on l'évalue sur un autre ensemble de données. Nous souhaitons préserver la philosophie
de l'analyse en ligne telle que Sarawagi et al. [SAM98] le proposent lorsqu'ils y intègrent la
prédiction dans un cube. Ainsi en exploitant le modèle fourni à l'utilisateur au sein des cubes
de données, l'analyste n'a pas besoin d'avoir des connaissances approfondies sur l'utilisation
d'un arbre de régression. Enn, à travers une première formalisation nous souhaitons montrer
la faisabilité et l'exploitation possible de la prédiction dans l'analyse en ligne.
Notre objectif est donc de proposer un cadre de prédiction OLAP fondé à la fois sur le
contexte OLAP et sur la fouille de données. En respectant les points forts des deux domaines,
notre démarche répond à la problématique du couplage et propose un outil able et accessible
à l'utilisateur OLAP. Nous considérons deux axes méthodologiques forts, pensant que loin
d'être incompatibles, ils doivent tous deux être intégrés au processus de la fouille de données
en ligne.
16
Chapitre 3
La prédiction dans l'OLAP
Notre approche de couplage entre l'analyse en ligne et la fouille de donnée pour intégrer la
prédiction au c÷ur des cubes s'oriente vers l'utilisation des méthodes d'arbres de régression.
Nous souhaitons obtenir les valeurs de la mesure pour des cellules ne comportant pas de faits.
Nous avons vu que les cubes de données permettent de représenter des faits selon diérents
axes d'analyse. Les dimensions sont constituées de variables qualitatives et les faits sont
généralement mesurés par une variable quantitative continue. Ceci nous place dans un cadre
particulier pour appliquer des méthodes d'apprentissage supervisé aux cubes de donnée. Nous
proposons d'employer les arbres de régression car ils répondent à nos besoins tout en apportant
à l'utilisateur un outil connu pour la lisibilité des résultats qu'il propose. A la diérence des
arbres de décision, ils traitent le cas d'une variable à prédire de type continu. Les arbres de
régression se présentent aussi comme une solution de rechange vis à vis de la régression et
de l'analyse disciminante car ils ne nécessient pas d'hypothèses préalables sur les données.
Les arbres de régression nous permettent, suite à une discrimination des variables les plus
explicatives, de proposer une valeur pour les cellules vides selon les modalités des dimensions
qui les caractérisent et les règles de décision obtenues.
Nous allons, dans ce chapitre, présenter les diérents algorithmes d'arbre de régression
en mettant en avant leurs singularités. Nous détaillons ensuite notre proposition avec
une formalisation qui s'appuie sur un exemple illustratif. L'ensemble des étapes de notre
proposition est ainsi détaillé ; du contexte dans lequel s'applique la prédiction à l'exploitation
de l'arbre de régression obtenu dans l'OLAP, en passant par le modèle de prédiction en lui
même et le processus de fouille de données nécessaire à son obtention et à sa validation.
3.1 Arbres de régression
Diérents types d'arbre de régression sont proposés dans la littérature. Une des premières
approches est AID (Automatic Interaction Detection ) [MS63]. Cette approche a été reprise
dans [Kas80] où l'algorithme CHAID (Chi-Squared Automatic Interaction Detection ) est
proposé. Breiman et al. [BFOS84], proposent des arbres binaires avec CART (Classication
and Regression Tree ). Récemment d'autres types d'arbre ont vu le jour, notamment Arbogodaï
de Zighed et al.[ZRES03]. Nous détaillons les particularités de chacune de ses approches dans
cette section.
17
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
3.1.1 AID - CHAID
L'algorithme AID, proposé par Morgan et Sonquist [MS63], recherche parmi l'ensemble des
variables candidates celles les plus prédictives pour segmenter un n÷ud de l'arbre. Basé sur
le principe de partitionnement récursif, AID dégage ainsi par ordre d'importance les variables
explicatives. Le développement de l'arbre s'arrête en un niveau optimum. Pour cela, AID
utilise un test de Fisher (basé sur l'ANOVA) comme règle d'arrêt. Morgan et Sonquist ont
appelé leur algorithme AID (Automatic Interaction Detection ) car il incorpore naturellement
l'interaction entre les variables explicatives. L'interaction est représentée par des branches
d'un même n÷ud qui ont diérentes variables explicatives se dédoublant plus loin dans l'arbre.
Kass [Kas80], a proposé une amélioration de AID et a appelé la méthode obtenue CHAID.
L'algorithme incorpore une phase de fusion séquentielle et le procédé de division est basé sur
le test statistique du Chi-deux pour l'indépendance. Trois phases sont donc réitérées pour
chaque variables prédictives : une phase de fusion, de division et d'arrêt. Si la statistique du
test du Chi-deux n'est pas signicative pour une paire de modalités de la variable prédictive,
la fusion est réalisée. Comme pour AID, là où la statistique du test du Chi-deux est la plus
signicative pour une variable prédictive, la division est réalisée.
3.1.2 CART
Breman et al.[BFOS84] proposent un arbre de régression binaire, appelé CART (Classication and Regression Tree ), permettant de prédire aussi bien une variable qualitative que
quantitative selon des variables explicatives qualitatives, quantitatives ou les deux. CART est
basé sur le principe du partitionnement récursif. A chaque étape, les variables explicatives
discriminées sont segmentées en deux nouveaux regroupements de modalités ou en deux
intervalles. Lorsque la variable à prédire est quantitative continue, la prévision obtenue est la
moyenne des observations appartenant au regroupement ou à l'intervalle (feuille de l'arbre).
Le procédé d'un arbre binaire consiste donc à diviser l'échantillon d'apprentissage en deux sous
ensembles à l'aide d'une des variables explicatives. L'opération est réitérée séparément dans
chaque sous-ensemble ainsi constitué. L'homogénéité des deux regroupements ou intervalles
est optimisée par un critère de partitionnement. Dans le cas d'une variable à prédire
quantitative continue, la variance du regroupement ou de l'intervalle est employée comme
mesure d'homogénéité. Au moment de la division en deux sous-groupes on cherche alors à
minimiser la variance intra-groupe ou à maximiser la variance inter-groupe. La qualité de la
régression peut être évaluée à l'aide d'indicateurs classiques tels que l'erreur quadratique.
L'apprentissage est réalisé en deux phases : une première phase, appelée "en expansion",
maximise l'homogénéité des groupes sur l'ensemble de données appelé "growing set". La
seconde phase concerne "l'élagage" de l'arbre et consiste à minimiser l'erreur de prédiction
sur un autre ensemble de données, appelé "pruning set". Pour établir le nombre de n÷uds
terminaux avec l'algorithme CART, on laisse donc croître l'arbre avec comme critère d'arrêt
un eectif minimal par n÷ud. Ensuite, l'élagage de l'arbre est réalisé en utilisant les données
de l'échantillon "pruning set", ce qui permet d'obtenir un sous arbre minimisant au mieux
l'erreur de prédiction.
La principale diérence entre AID et CART se situe dans le procédé d'accroissement de
l'arbre. AID ne présente pas de phase de post-élagage.
Nous avons vu qu'il est possible d'utiliser des arbres non binaires qui découpent en
18
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
n sous ensembles. La diculté est alors de conserver lors des subdivisions susamment
d'observations pertinentes.
3.1.3 Arbogodaï
Récemment une extension des méthodes précédentes a été proposée par Zighed et al.
[ZRES03, ZRES05]. Arbogodaï est un graphe d'induction pour la classication et la régression
(CRIG : Classication and Regression Induction Graph ). Il permet de grouper les modalités
des variables explicatives en un nombre optimal comme AID ou CHAID et non pas
systématiquement en deux regroupements ou intervalles. Il fait de même pour la variable
à prédire de type qualitatif ou quantitatif continu. Arbogodaï repose donc sur le principe
d'un partitionnement simultané des lignes et des colonnes de la table initiale [RZ03].
Les phases correspondantes à ce processus sont des phases de fusion et de discrimination qui
sont réalisées dynamiquement à chaque n÷ud de l'arbre. Le nombre de points de discrétisation
potentiel à tester étant énorme, une heuristique est employée pour les variables continues an
de réduire la complexité du problème. Une mesure d'association de type T de Tschuprow ouV
de Cramer pour la fusion est utilisée comme mesure de qualité.
La gure 3.1, présente un arbre obtenu avec Arbogodaï pour une variable à prédire de type
quantitatif continu et des variables explicatives de diérents types.
Xk
xk 1 X k d xk 2
X k d xk 1
C” c1
C” c1 c1 <C” c2 C>c2
1
45
2
c1 <C” c2 C>c2
2
1
X k ! xk 2
C” c1 c1 <C” c2
30
3
X t  ^a , c , d `
X t  ^b`
C” b1 C>b1
8
1
X t  ^e, g`
C” b1 C>b1
3
6
Xv
c1<C” d1 d1 <C” d2 d2 <C” d3 d3<C ” c2
3
15
1
17
Xt
C” b1 C>b1
15
30
X v  ^ x, y, z`
C>c2
3
X v  ^u`
c1<C” d1 d1 <C” d2 d2 <C” d3 d3<C ” c2
1
20
1
3
1
!
Fig. 3.1 Arbre obtenu avec Arbogodai
L'utilisateur à la possibilité de choisir des règles simples ou multi-classes. Dans le second
cas, ce sont des intervalles ou des regroupements de modalités qui lui sont renvoyés. Cette
possibilité évite les règles non pertinentes en palliant le problème du manque d'eectif
signicatif lors de règles simples. Rappelons cependant qu'il est toujours important d'avoir
des échantillons de tailles signicatives pour produire des modèles pertinents.
Dans un premier temps, nous avons choisi d'utiliser CART et AID. Ce choix peut paraitre
arbitraire mais il nous permet de tester la faisabilité de notre proposition. Dans le futur, nous
comptons réaliser des tests sur l'ensemble des méthodes à partir d'un cas pratique.
19
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
Dans la section suivante, nous développons notre proposition et démontrons sa faisabilité à
travers une formalisation illustrée par un exemple.
3.2 Dénitions et formalisation
Nous proposons dans cette section une formalisation relative aux cubes de données et à
notre approche de prédiction. Pour faciliter la compréhension du formalisme, nous utilisons
un exemple simplié d'un cube de données à trois dimensions : Sexe (f, m), Filières (S, ES, L),
Matières (a, b, c, d, e). Les mesures correspondent aux notes moyennes d'élèves de Terminale
et à leurs eectifs. Le cube de données est composé de 30 cellules (produit des cardinalités
des dimensions). On considère que, sur les 30 cellules du cube, 6 cellules sont vides et dont
les valeurs sont à prédire.
3.2.1 Notations générales
Les dénitions d'un cube de données et d'un sous-cube de données sont extraites de [? ].
Soit C un cube de données :
C est constitué d'un ensemble non vide de d dimensions D = {Di }(1≤i≤d) ;
C contient un ensemble non vide de m mesures M = {Mq }(1≤q≤m) ;
chaque dimension Di ∈ D contient un ensemble non vide de ni niveaux hiérarchiques.
Nous considérons que Hji est le j ième niveau hiérarchique de la dimension Di . Nous
avons par exemple, la dimension Filière (D1 ) contenant deux niveaux (n1 = 2) : le
Code lière et le Sous-Code de la lière selon l'enseignement de spécialité. Le niveau
Code lière est noté H11 et le niveau Sous-Code est noté H21 ;
le niveau d'agrégation totale All dans une dimension correspond au niveau hiérarchique
zéro. Par exemple, dans la dimension D1 ce niveau est noté H01 ;
Hi = {Hji }(0≤j≤ni ) représente l'ensemble des niveaux hiérarchiques de la dimension Di ,
Par exemple, l'ensemble des niveaux hiérarchiques de D1 est H1 = {H01 , H11 , H21 } =
{All, Code lière, Sous-code} ;
chaque niveau hiérarchique Hji ∈ Hi consiste en un ensemble non vide de lij modalités.
ième modalité du niveau H i . Par exemple, dans notre
Nous considérons que aij
t est la t
j
cube illustratif, le niveau Code lière (H11 ) de la dimension Filière (D1 ) contient trois
11
11
modalités (l11 = 3) : S, notée a11
1 , ES, notée a2 et L, notée a3 ;
i
Aij = {aij
t }(1≤t≤lij ) représente l'ensemble des modalités du niveau hiérarchique Hj de
la dimension Di . Par exemple, l'ensemble des modalités du niveau Code lière de D1
est A11 ={S, ES, L} ;
pour le niveau d'agrégation total d'une dimension, nous considérons que All est la
seule modalité de ce niveau. Ainsi, pour une dimension Di , on note que ai0
1 = All et
Ai0 = {All}.
20
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
Sous-cube de données
Dénition (Sous-cube de données) Soit D0 ⊆ D un sous-ensemble non vide de p dimensions
{D1 , . . . , Dp } du cube de données C (p ≤ d). Le p-uplet (Θ1 , . . . , Θp ) est un sous-cube de
données dans C selon D0 si ∀i ∈ {1, . . . , p}, Θi =
6 ∅ et il existe un indice unique j ≥ 0 tels que
Θi ⊆ Aij .
Un sous-cube de données selon un ensemble de dimensions D0 correspond à une portion
du cube de données original C . Il s'agit de xer un niveau hiérarchique Hji dans chaque
dimension de Di ∈ D0 et de sélectionner dans ce niveau un sous-ensemble Θi non vide de
modalités appartenant à l'ensemble de toutes les modalités Aij de Hji .
Par exemple, considérons le sous-ensemble de la dimension D0 = {D1 } du cube C de notre
exemple illustratif. Soient le sous-ensemble des modalités Θ1 ={S } du niveau H11 (Code lière )
de la dimension D1 (Filière ). Dans ce cas, (Θ1 , A21 )=(S,{ m, f }) correspond à un sous-cube
dans notre cube initial C selon les dimensions D0 = {D1 , D2 }.
On note aussi qu'une cellule d'un cube de données C correspond au cas particulier d'un
sous-cube de données déni selon l'ensemble entier des dimensions D = {D1 , . . . , Dd } et tel
que ∀i ∈ {1, . . . , d}, Θi est un singleton contenant une seule modalité appartenant au niveau
hiérarchique le plus n de la dimension Di .
3.2.2 Formalisation et illustration de notre approche
Notre approche s'applique dans un contexte d'analyse (Θ1 , . . . , Θp ) dénit par l'utilisateur
au sein d'un cube de données C . L'utilisateur est donc libre de choisir les dimensions qui
l'intéressent, de xer un niveau hiérarchique dans chacune de ces dimensions, de dénir la
mesure Mq qu'il souhaite analyser et un type de fonction d'agrégation. Notre approche permet
à l'utilisateur d'employer la Somme (SUM) ou la Moyenne (AVG) pour agréger les faits.
L'utilisateur peut alors appliquer notre approche pour la prédiction des valeurs de mesures
de nouveaux agrégats (cellules vides).
Le point de départ de notre méthode est un contexte d'analyse (Θ1 , . . . , Θp ) avec n faits
OLAP observés selon la mesure quantitative Mq .
Nous considérons qu'une cellule A est pleine (respectivement, vide) si elle contient la
valeur d'une mesure d'un agrégat existant (respectivement, ne contient pas de valeur).
Tableau individus-variables
An d'appliquer une méthode d'arbre de régression sur le contexte d'analyse (Θ1 , . . . , Θp ),
nous transformons ce dernier en un tableau individus-variables.
Nous générons une matrice Z à n lignes et (p + 1) colonnes. Z est telle que les colonnes
de 1 à p correspondent aux dimensions du contexte d'analyse et que la (p + 1)ème colonne
correspond à la mesure Mq sélectionnée. Chaque ligne représente un fait agrégé du contexte
d'analyse et contient les modalités qui le décrivent, suivies de la valeur de la mesure. Selon
la terminologie statistique, un fait représente un individu et une dimension représente une
21
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
variable explicative (variable exogène). La mesure est la variable à prédire (variable endogène).
Dans notre exemple, nous choisissons comme contexte d'analyse les trois dimensions Sexe,
Filières, avec pour niveau d'agrégation le Code-Filière, et Matières. Nous choisissons aussi les
notes comme mesure et AVG comme fonction d'agrégation. Nous obtenons le tableau 3.1.
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Sexe (D1 )
Code-Filière (D2 )
Matières (D3 )
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
m
m
m
m
m
m
m
m
m
m
m
m
m
m
m
S
S
S
S
S
ES
ES
ES
ES
ES
L
L
L
L
L
S
S
S
S
S
ES
ES
ES
ES
ES
L
L
L
L
L
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
Note Moyenne (M1 )
14,5
14
13,5
13
13
12,5
11,5
11
12,5
12
11,5
10,5
11,5
11
10
9,5
10
9,5
9
8
9,5
9
8,5
7,5
Tab. 3.1 Tableau individus variables des faits agrégés
Le tableau 3.1 représente volontairement l'ensemble des cellules et non les faits agrégés.
Ceci nous permet de visualiser les faits sans mesures que nous souhaitons prédire. C'est-à-dire,
les lignes pour lesquelles aucune valeur pour la mesure n'est indiquée.
Construction et validation du modèle de prédiction
Selon la méthodologie appliquée couramment en apprentissage automatique, le tableau
individus-variables est segmenter en deux échantillons de manière aléatoire. Ceci permet de
tester le modèle obtenu sur des individus n'ayant pas servit à la construction du modèle.
Soit Z le tableau individus-variables. Les n lignes sont divisées en deux parties. 70% des
individus servent à l'apprentissage et à la construction du modèle et 30% sont reservés pour
évaluer le modèle obtenu.
22
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
Pour les méthodes d'arbre de régression utilisant le post-élagage, comme CART, le chier
d'apprentissage est lui-même subdivisé en deux, une partie dite "growing set" qui sert à
développer l'arbre, et une partie "pruning set" qui sert à élaguer l'arbre. Notre exemple
illustratif se place dans le cas précédent. La méthode utilisée est CART, le chier initial est
donc segmenté en trois.
Une seconde méthode utilisée couramment pour évaluer un modèle est la validation croisée.
Soit Z le tableau individus-variables. Les n lignes sont divisées en m parties égales et
disjointes. m − 1 parties du jeu de données sont utilisées pour l'apprentissage. Le test du
modèle est réalisé sur la partie restante. L'opération est itérée m fois. Chaque segment est
utilisé une fois pour l'évaluation du modèle.
Classiquement les critères d'évaluation d'un modèle d'arbre de régression sont le taux
d'erreur moyen et la réduction de l'erreur. La validation croisée permet d'évaluer la stabilité
du modèle en indiquant m taux d'erreur correspondant chacun au test sur un segment du
chier de données.
La moyenne de l'erreur indique la moyenne de l'écart entre la valeur observée et la vraie
valeur de la variable à prédire. Plus la moyenne de l'erreur se rapproche de 0, plus le modèle
de prédiction est précis. Pour notre exemple illustratif, la moyenne de l'erreur est de 0,243.
La réduction de l'erreur correspond au rapport entre : la somme des carrés des écarts
entre la prédiction et la valeur de la variable à prédire, et la somme des carrés des écarts à la
moyenne. La prédiction est parfaite si cet indicateur est égal à 0. S'il est égal à 1, cela signie
que l'arbre de régression ne fait pas mieux que la prédiction basée sur la moyenne observée
de la variable à prédire.
Interprétation du modèle prédictif
Suite à la construction du modèle, l'arbre de régression renvoie λ règles de décision (λ > 0)
. L'ensemble des règles générées à partir du modèle est noté R = {R1 , R2 , ..., Rλ }
Dénition (Règle de décision) Soit R(X ⇒ Y ; S; σ) une règle de décision ∈ R. Le prédicat
X est une conjonction et/ou disjonction de modalités ⊆ {Θ1 , . . . , Θp } correspondant aux
antécédents de la règle. Y est la valeur moyenne prédite pour la mesure Mq sachant X . S est
l'eectif des individus et σ est l'écart type de Mq , dans l'ensemble d'apprentissage vériant X .
Deux critères permettent donc d'évaluer la qualité d'une règle. Le premier est l'eectif
des individus qui supporte la règle. Plus l'eectif est important, plus la règle est able. Le
deuxième critére est l'écart type de Mq dans l'ensemble d'apprentissage vériant X . L'écart
type indique l'homogénéité des individus supportant la règle.
Dans notre exemple illustratif, nous obtenons les règles suivantes :
R1 (m ∧ (ES ∨ L) ⇒ 9, 1; 41, 66%; 0, 83)
R2 (m ∧ S ⇒ 11; 8, 33%; 0, 91)
R3 (f ∧ (ES ∨ L) ⇒ 11, 62; 33, 33%; 0, 84)
23
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
R4 (f ∧ S ⇒ 14; 16, 66%; 0, 64)
La règle 1 indique que si l'étudiant est de sexe masculin et qu'il est en lière ES ou L
alors sa moyenne sera de 9,1. 41,66% des étudiants présents dans le chier d'apprentissage
appartiennent à cette catégorie. L'écart type est de 0,83.
Utilisation du modèle prédictif dans l'environnement OLAP
L'utilisation des règles pour la prédiction au sein du contexte d'analyse (Θ1 , . . . , Θp )
permet de prédire, pour tous les agrégats vériant X et n'ayant pas de valeur pour la mesure
Mq , la valeur pouvant être attendue. Les règles permettent donc de cibler les cellules vides
pour lesquelles l'utilisateur attend une prédiction.
Soit une règle R ∈ R avec R(X ⇒ Y, S, σ) .
Soit CX le sous-cube de données dont les cellules vérient le prédicat X .
On note c une cellule du cube C et Mq (c) désigne la valeur de la mesure Mq que prend
la cellule c.
Pour intégrer le résultat de la règle R(X ⇒ Y, S, σ) dans le sous-cube (Θ1 , . . . , Θp )
(contexte d'analyse), on applique le processus suivant :
∀c ∈ CX tel que Mq (c) = N ull, c'est-à-dire que la cellule c est vide, on aecte à la cellule
c la valeur prédite Y . On note Mq (c) ←− Y (cf. algorithme 1.).
Algorithme 1 Intégration de la prédiction dans un cube de données (R, (Θ1 , . . . , Θp ))
1: pour R ∈ R faire
2:
pour c ∈ CX faire
3:
si Mq (c) = N ull alors
4:
Mq (c) ←− Y
5:
nsi
6:
n pour
7: n pour
En reprenant notre exemple illustratif, nous obtenons sur le tableau 3.2 les prédictions
obtenues (cellules grisées).
Ainsi, les étudiants de sexe masculin en lière S auront en moyenne 11/20 à la matière c.
Cette intégration de la prédiction permet aussi à l'utilisateur d'appréhender les valeurs
prévues des agrégats pour un niveau hiérarchique supérieur. Les agrégats sont calculés en
considérant les nouvelles valeurs prédites. Par exemple en choisisant le niveau All pour les
matières, la moyenne des notes peut être calculée uniquement selon le sexe et la lière. Nous
obtenons le tableau 3.3.
Ainsi, la moyenne prévue pour l'ensemble des matières du tronc commun, pour les lles
de lières L, est de 11,62/20.
24
CHAPITRE 3. LA PRÉDICTION DANS L'OLAP
Tab. 3.2 Valeurs prédites au sein d'un cube de données
Tab. 3.3 Agrégats prévus au sein d'un cube de données
Vers une visualisation du modèle prédictif dans OLAP
Une extension envisagée pour la valorisation du modèle prédictif dans les cubes de
données consiste à utiliser des indicateurs visuels pour l'utilisateur. Dans les deux exemples de
représentations précédemment proposées, nous avons pris soin de griser les cellules indiquant
une valeur prédite ou prévue lorsqu'il s'agit d'un agrégat calculé à partir des valeurs prédites.
Un code de couleur plus explicite peut ainsi être intégrer dans l'OLAP. De même, nous pensons
que selon les critères de qualité (eectif et écart type) d'une règle, nous pouvons nuancer ce
code de couleur. Ainsi l'utilisateur peut directement interpréter les prédictions au sein du
cube de données. Cette proposition nous semble donc à développer plus précisément dans le
cadre de l'implémentation d'un opérateur OLAP de prédiction.
25
Chapitre 4
Etude de cas
Dans cette section, nous montrons comment les techniques présentées dans ce travail
peuvent être appliquées dans une étude de cas sur un jeu de données.
Nous utilisons pour cette étude, le jeu de données des ventes de 1997 de Foodmart 2000. 86 831
faits sont présents dans le cube de données. Les axes d'analyse de l'entrepôt concernent les
produits, le temps, les clients, les promotions et les magasins. Les mesures utilisables sont les
ventes (le chire d'aaires), les coûts et les unités de produits vendus lors d'une transaction
pour un produit.
4.1 Contexte d'analyse
Nous dénissons le contexte d'analyse suivant : comme dimensions, nous retenons le lieu
de résidence du client (Etat), son niveau d'éducation, son sexe, son statut marital et son
revenu, l'Etat où est implanté un magasin et le type de magasin, le mois et le type du produit
acheté. La mesure choisie correspond au prot, c'est-à-dire au chire d'aaires duquel on
déduit le coût. Au total nous avons 13 296 faits agrégés dans les 259 200 cellules présentes
dans le contexte d'analyse déni. Nous souhaitons prédire les prots obtenus pour les cellules
correspondant aux ventes de produits alimentaires dans les "Small Grocery" au mois d'avril
en Californie.
4.2 Application de l'algorithme AID d'arbre de régression
Nous utilisons l'algorithme d'apprentissage AID pour construire un modèle de prédiction
dans le contexte d'analyse précédemment déni. Rappelons qu'AID n'eectue pas de postélagage et utilise un test de Fisher (basé sur l'ANOVA) comme règle d'arrêt. Nous avons tout
d'abord utilisé un échantillon d'apprentissage correspondant à 70% des données du contexte
d'analyse, soit 9 307 faits agrégés, et un échantillon test correspondant à 30% des données,
soit 3 989 faits agrégés. Dans un deuxième temps, nous avons utilisé la validation croisée an
d'avoir plus d'indications concernant le modèle de prédiction obtenu. Le nombre de divisions
réalisées sur le jeu de données est égal à 10. Nous avons paramétré la méthode de sorte à ce
que l'eectif minimal pour segmenter soit de 10 faits agrégés et que le nombre maximal de
niveaux dans l'arbre soit de 15.
26
CHAPITRE 4. ETUDE DE CAS
4.3 Résultats
L'arbre de régression ainsi construit comporte 35 sommets et 27 feuilles. Sur l'échantillon
test correspondant à 30% des données, l'erreur moyenne de l'arbre est de 0,0479 et la réduction
de l'erreur est de 0,3665. La réduction de l'erreur sur l'échantillon d'apprentissage est de
0,3893. Le modèle est donc exploitable. Au regard de la réduction de l'erreur pour les 10
segments de données réalisés lors de la validation croisée nous avons vérié la stabilité du
modèle :
Essai
1
2
3
4
5
6
7
8
9
10
Réduc. erreur
0,3404
0,4412
0,3430
0,4735
0,3922
0,4958
0,4314
0,3271
0,4449
0,3328
Tab. 4.1 Réduction de l'erreur obtenue lors de la validation croisée
Les variables explicatives discriminantes (dimensions) sont, dans l'ordre de leur apparition
dans l'arbre : le type de produit, le revenu des clients, le niveau d'éducation des clients et le
type de magasin. L'arbre obtenu est représenté dans la gure 4.1. Sur les 27 règles obtenues
nous présentons celles nous permettant de prédire les valeurs de 4 cellules décrivant les faits
à prédire pour les ventes de produits alimentaires en Californie au mois d'Avril :
R1 (F ood ∧ 30K − 50K ∧ (BachelorsDegree ∨ GraduateDegree) ⇒ 21, 05; 1%; 18, 53)
R2 (F ood ∧ 30K − 50K ∧ HighSchoolDegree ∧ SmallGrocery ⇒ 16, 20; 1%; 11, 31)
R3 (F ood ∧ 50K − 70K ∧ BachelorsDegree ⇒ 79, 76; 3%; 62, 55)
R4 (F ood ∧ 70K − 90K ⇒ 33; 16%; 33, 13)
On note pour les règles 3 et 4 un écart type particulièrement élevé, respectivement, 62,55
et 33,13. De même les eectifs supportant les règles sont faibles, 1% pour les deux premières
et 3% pour la troisième règle. Les prédictions pouvant être obtenues sont donc à prendre avec
précaution. Nous retrouvons dans le tableau 4.2 l'intégration des résultats obtenus à partir de
l'arbre de régression pour 4 cellules. A titre d'exemple, la règle 4 est utilisé pour la première
ligne du tableau. La condition vériée est : si le type de produit est produit alimentaire et
que le revenu du client est compris entre 70K et 90K $, alors le prot sera de 33$.
De la même manière, en utilisant l'ensemble des règles les 160 cellules vides décrites par
les modalités Produits alimentaire, Californie et Avril peuvent être estimées.
27
CHAPITRE 4. ETUDE DE CAS
Tab. 4.2 Valeurs prédites pour les prots
4.4 Discussion
Nous pensons qu'il serait intéressant, pour une meilleure précision sur les prédictions
indiquées à l'utilisateur, d'y associer le nombre de faits sur lesquels elles reposent.
En eet, les valeurs de mesure prédites sont indiquées pour des agrégats de faits. La prise en
compte du nombre de faits comme nouvelle mesure à prédire est un élément garantissant une
approche plus rigoureuse et permettant à l'utilisateur d'aller encore plus loin dans l'analyse.
Nous avions tout d'abord pensé à pondérer les agrégats utilisés pour l'apprentissage, mais
aucune raison ne justiait de renvoyer une prédiction pour un seul fait alors que nous sommes
parfois dans un contexte d'analyse où l'on a aaire à des agrégats de faits.
Deux modèles de prédictions, un pour la valeur de la mesure et un pour estimer le nombre
de faits contenus dans l'agrégat nous semblent donc être une piste à développer.
Notre approche de couplage de l'OLAP et des méthodes de prédiction montre déjà une
grande partie de son potentiel. En apportant à l'utilisateur un modèle de prédiction exploité
dans l'environnement OLAP, l'utilisateur se voit orir de nombreuses possibilités. Il peut, pour
un contexte d'analyse déni, estimer l'ensemble des faits inextistants. Au delà de l'obtention
de nouvelles valeurs pour la mesure de faits inexistants, il a à sa dispostion des indicateurs
de abilité des règles de décision et plus généralement de l'arbre de régression. Il peut ensuite
analyser comment ces faits sont susceptibles de se comporter selon les dimensions qui les
décrivent.
28
Fig. 4.1 Arbre de régression AID obtenu
Chapitre 5
Conclusion et perspectives
Dans le cadre de ce mémoire, nous apportons de nouvelles pistes pour améliorer les
approches existantes dans le processus d'aide à la décision. Nous nous plaçons dans la
continuité de travaux émergents sur le couplage entre l'analyse en ligne et la fouille de données
et nous utilisons ce principe pour étendre les capacités de l'analyse en ligne (OLAP). A partir
des possibilités de visualisation, de structuration et d'exploration des cubes de données, nous
nous orientons vers un nouveau type d'analyse. En appliquant au c÷ur du processus OLAP
une technique de prédiction avec les arbres de régression, nous proposons à l'analyste de se
placer dans une démarche à la fois prédictive et explicative.
Notre première contribution consiste en la réalisation d'une typologie des travaux ayant
proposé l'utilisation de la prédiction dans les cubes de données. Ceci nous a permis de dénir
les principaux enjeux du couplage entre l'OLAP et la fouille de données. Nous avons relevé
une dichotomie entre les travaux ayant un axe méthodologique orienté OLAP et ceux plutôt
fouille de données. Notre avis est que les deux types d'approches doivent se rejoindre pour
proposer à l'utilisateur de nouveaux outils adaptés à ses besoins et à la philosophie OLAP
tout en s'appuyant sur les points forts de la fouille de données. Ceci nous permet d'avoir une
analyse approfondie des cubes de données et d'obtenir des résultats ables statistiquement.
Notre deuxième contribution permet de prédire la valeur de la mesure de nouveaux
agrégats de données. Dans cette proposition, nous utilisons les arbres de régression en tant
que technique de prédiction. Le modèle obtenu permet aussi de renforcer la connaissance qu'a
l'utilisateur de ses données avec un point de vue explicatif. L'utilisateur dispose de nouveaux
éléments pour comprendre les relations ou les phénomènes existants dans les données et
peut anticiper la réalisation d'événements selon un certain nombre de conditions. Nous avons
développé cette proposition à travers une formalisation qui s'appuie sur un exemple illustratif
simple. Enn un cas d'étude sur un jeu de données démontre la faisabilité et l'intérêt de notre
proposition.
Nous suggérons également un élargissement à des paramètres visuels indiquant à
l'utilisateur les valeurs prédites des nouveaux agrégats, les valeurs des cellules pouvant être
prévues à un niveau d'agrégation supérieur et la qualité de chacune de ces prédictions au sein
du cube de données.
Nous avons exploité le couplage de l'analyse en ligne et de la fouille de données an
d'étendre les capacités de l'OLAP à la prédiction. Nos travaux ouvrent diverses perspectives
30
CHAPITRE 5. CONCLUSION ET PERSPECTIVES
de recherche, à la fois pour le terrain de la prédiction que pour le couplage en général.
Tout d'abord nous souhaitons revenir à une phase de test an d'appréhender l'ensemble
des méthodes d'arbres de régression. Nous voulons ainsi réaliser un comparatif des résultats
obtenus sur un jeu de données conséquent en volumétrie. Nous pensons notamment que les
possibilités présentées par Arbogodaï dans [ZRES03] méritent d'être étudiées. Rappelons en
eet que cette méthode permet, entre autre, à l'utilisateur de choisir entre deux types de
règles : les règles simples, comme celles que nous avons utilisées et les règles renvoyant des
intervalles ou des regroupements de modalités pour ses antécédents et ses conséquents.
Nous souhaitons aussi aller plus loin dans la formalisation du modèle de prédiction au sujet
de son exploitation dans l'OLAP. Nous pensons notamment au cas où l'arbre de régression
n'est pas de bonne qualité ou lorsque la phase d'apprentissage n'aboutit pas à un modèle
de prédiction renvoyant plus de précision pour la prédiction que la moyenne globale de la
variable à prédire sur l'échantillon d'apprentissage.
Toujours au sujet du modèle de prédiction construit, nous souhaitons étendre la
méthodologie an de prendre en compte le nombre de faits sur lequel repose la prédiction.
Lorsque la valeur de la mesure d'un agrégat est prédite celle-ci est en eet liée au nombre de
faits contenus dans les cellules décrites par les mêmes modalités des dimensions que la cellule
prédite.
De plus, nos perspectives de recherche concernent la prise en compte des hiérarchies.
Nous avons déjà montré qu'il est possible à partir des prédictions réalisées sur un niveau
d'agrégation, de prévoir pour un niveau d'agrégation supérieur les valeurs de la mesure
des faits agrégés comprenant les prédictions. Notre intérêt porte maintenant sur le cas où
l'utilisateur souhaite explorer un niveau d'agréation plus n.
En ce qui concerne l'utilisation de la prédiction, nous pensons qu'il est possible de l'intégrer
à d'autres niveaux d'un système d'information. Une première intuition s'oriente vers les phases
d'alimentation des entrepôts de données, dans le cas où un fait est incomplet pour une ou
plusieurs dimensions d'analyse.
Enn, pour étendre notre proposition au cadre général du couplage, nous souhaitons
l'intégrer à la plateforme Web de fouille de données en ligne Mining Cube développée par
Ben Messaoud [MBR06] via un opérateur OLAP de prédiction, et l'intégrer au cadre formel
général proposant une algèbre pour le couplage, proposé dans ces mêmes travaux.
31
Bibliographie
[BFOS84] Leo Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone. Classication and
Regression Trees. 1984.
[CCLR05] Bee-Chung Chen, Lei Chen, Yi Lin, and Raghu Ramakrishnan. Prediction Cubes.
In Proceedings of the 31st International Conference on Very Large Data Bases
(VLDB'05), pages 982993, Trondheim, Norway, August - September 2005. ACM
Press.
[Che98] Shan Cheng. Statistical Approaches to Predictive Modeling in Large Databases.
Master's thesis, Simon Fraser University, British Columbia, Canada, February
1998.
[CP06] Yixin Chen and Jian Pei.
Regression cubes with lossless compression
and aggregation. IEEE Transactions on Knowledge and Data Engineering,
18(12) :15851599, 2006. Senior Member-Guozhu Dong and Senior MemberJiawei Han and Fellow-Benjamin W. Wah and Member-Jianyong Wang.
[CRST06] Bee-Chung Chen, Raghu Ramakrishnan, Jude W. Shavlik, and Pradeep Tamma.
Bellwether Analysis : Predicting Global Aggregates from Local Regions. In
Proceedings of the 32nd International Conference on Very Large Data Bases
(VLDB'06), pages 655666, Seoul, Korea, September 2006. ACM Press.
[Fu05] Lixin Fu. Novel Ecient Classiers Based on Data Cube. International Journal
of Data Warehousing and Mining, 1(3) :1527, 2005.
[GC98a] Sanjay Goil and Alok Choudhary. High Performance Data Mining Using Data
Cubes on Parallel Computers. In Proceedings of the 12th International Parallel
Processing Symposium (IPPS'1998), pages 548555, Orlando, Florida, USA, April
1998.
[GC98b] Sanjay Goil and Alok Choudhary. High Performance Multidimensional Analysis
and Data Mining. In Proceedings of the 10th High Performance Networking and
Computing Conference (SC'1998), Orlando, Florida, USA, Novembre 1998.
[GC99] Sanjay Goil and Alok N. Choudhary. A parallel Scalable Infrastructure for OLAP
and Data Mining. In Proceedings of the 3rd International Database Engineering
and Applications Symposium (IDEAS'1999), pages 178186, Montreal, Canada,
August 1999. IEEE Computer Society.
32
BIBLIOGRAPHIE
[GC01] Sanjay Goil and Alok N. Choudhary. PARSIMONY : An Infrastructure for
Parallel Multidimensional Analysis and Data Mining. Journal of Parallel and
Distributed Computing, 61(3) :285321, March 2001.
[Han97] Jiawei Han. OLAP Mining : An Integration of OLAP with Data Mining. In
Proceedings of the 7th IFIP Conference on Data Semantics, Leysin, Switzerland,
October 1997.
[HNC+ 02] Joshua Zhexue Huang, Michael Ng, Wai-Ki Ching, Joe Ng, and David Cheung. A
Cube Model and Cluster Analysis for Web Access Sessions. In Revised Papers from
the 3rd International Workshop on Mining Web Log Data Across All Customers
Touch Points (WEBKDD '01), pages 4867, San Francisco, CA, USA, August
2002. Springer-Verlag.
[HWD+ 02] Jiawei Han, Jianyong Wang, Guozhu Dong, Jian Pei, and Ke Wang.
Cubeexplorer : online exploration of data cubes. In SIGMOD '02 : Proceedings of
the 2002 ACM SIGMOD international conference on Management of data, pages
626626, New York, NY, USA, 2002. ACM Press.
[IKA02] Tomasz Imieli«ski, Leonid Khachiyan, and Amin Abdulghani. Cubegrades :
Generalizing association rules. Data Mining and Knowledge Discovery, 6(3) :219
257, 2002.
[Inm96] W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, 1996.
[Kas80] G. V. Kass. An exploratory technique for investigatin large quantities of
categorical data. Applied Statistics, 29(2) :119127, 1980.
[Kim96] Ralph Kimball. The Data Warehouse Toolkit. John Wiley & Sons, 1996.
[MBR06] Riadh Ben Messaoud, Omar Boussaid, and Sabine Loudcher Rabaséda. Using
a Factorial Approach for Ecient Representation of Relevant OLAP Facts.
In Proceedings of the 7th International Baltic Conference on Databases and
Information Systems (DB&IS'2006), pages 98105, Vilnius, Lithuania, July 2006.
IEEE Communications Society.
[Mes06] Riadh Ben Messaoud. Couplage de l'analyse en ligne et de la fouille de données
pour l'exploration, l'agrégation et l'explication des données complexes. PhD thesis,
Université Lumière Lyon 2, Lyon, France, Novembre 2006.
[MHW00] Alexander Maedche, Andreas Hotho, and Markus Wiese.
Enhancing
Preprocessing in Data-Intensive Domains using Online-Analytical Processing.
In Proceedings of the 2nd International Conference on Data Warehousing and
Knowledge Discovery (DaWaK'2000), pages 258264, London, UK, September
2000. Springer.
[MJBN06] Rokia Missaoui, Ganaël Jatteau, Ameur Boujenoui, and Sami Naouali. Data
Warehouses and OLAP : Concepts, Architectures and Solutions, chapter Towards
Integrating Data Warehousing with Data Mining Techniques. Idea Group Inc.,
February 2006.
33
BIBLIOGRAPHIE
[MS63] J. N. Morgan and J. A. Sonquist. Problems in the analysis of survey data, and
a proposal. Journal of the American Statistical Association, 58(302) :415434,
1963.
[Pal03] Themistoklis Palpanas. Data Reduction in Data Warehouses. Technical Report
CSRG-476, Department of Computer Science, University of Toronto, Toronto,
Canada, 2003.
[PK01] Themistoklis Palpanas and Nick Koudas. Entropy Based Approximate Querying
and Exploration of Datacubes. In Proceedings of the 13th International Conference
on Scientic and Statistical Database Management (SSDBM'01), pages 8190,
Fairfax, Virginia, USA, July 2001. IEEE Computer Society.
[PKM05] Themistoklis Palpanas, Nick Koudas, and Alberto Mendelzon. Using Datacube
Aggregates for Approximate Querying and Deviation Detection.
IEEE
Transactions on Knowledge and Data Engineering, 17(11) :14651477, November
2005.
[Ram06] Raghu Ramakrishnan. Exploratory Mining in Cube Space. In Proceedings of the
6th IEEE International Conference on Data Mining (ICDM'06), page 6, Hong
Kong, China, December 2006. IEEE Computer Society.
[RZ03] Gilbert Ritschard and Djamel A. Zighed. Simultaneous row and column
partitionning : Evaluation of a heuristic. In 14th International Symposium on
Methodologies for Intelligent Systems (ISMIS 03), Maebashi, Japan, volume 2871
of LNAI, pages 468472, Heidelberg, Germany, October 2003. Springer.
[SAM98] Sunita Sarawagi, Rakesh Agrawal, and Nimrod Megiddo. Discovery-driven
Exploration of OLAP Data Cubes. In Proceedings of the 6th International
Conference on Extending Database Technology (EDBT'98), pages 168182,
Valencia, Spain, Mars 1998. Springer.
[Sar01] Sunita Sarawagi.
iDi : Informative Summarization of Dierences in
Multidimensional Aggregates. Data Mining and Knowledge Discovery, 5(4) :255
276(22), October 2001.
[SS01] Gayatri Sathe and Sunita Sarawagi. Intelligent rollups in multidimensional
olap data. In VLDB '01 : Proceedings of the 27th International Conference on
Very Large Data Bases, pages 531540, San Francisco, CA, USA, 2001. Morgan
Kaufmann Publishers Inc.
[YHN03] Qiang Yang, Joshua Zhexue Huang, and Michael Ng. A Data Cube Model for
Prediction-Based Web Prefetching. Journal of Intelligent Information Systems,
20(1) :1130, 2003.
[ZRES03] Djamel A. Zighed, Gilbert Ritschard, Walid Erray, and Vasil M. Scuturici.
Abogodaï, a new approach for decision trees. In 7th European Conference
on Principles and Practice of Knowledge Discovery in Databases (PKDD 03),
Dubrovnik, Croatia, volume 2838 of LNAI, pages 495506, Heidelberg, Germany,
September 2003. Springer.
34
BIBLIOGRAPHIE
[ZRES05] Djamel A. Zighed, Gilbert Ritschard, Walid Erray, and Vasil M. Scuturici.
Decision tree with optimal join partitioning. Journal of Intelligent Information
Systems, 20 :126, 2005.
35
Table des gures
1.1
Exemple de cube de données à trois dimensions . . . . . . . . . . . . . . . . .
5
3.1
Arbre obtenu avec Arbogodai . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
4.1
Arbre de régression AID obtenu . . . . . . . . . . . . . . . . . . . . . . . . . .
29
36
Liste des tableaux
2.1
2.2
2.3
Propositions de prédiction dans les cubes de données . . . . . . . . . . . . . .
Comparaison des propositions de couplage . . . . . . . . . . . . . . . . . . . .
Comparaison des processus de fouilles de données appliqués . . . . . . . . . .
9
11
14
3.1
3.2
3.3
Tableau individus variables des faits agrégés . . . . . . . . . . . . . . . . . . .
Valeurs prédites au sein d'un cube de données . . . . . . . . . . . . . . . . . .
Agrégats prévus au sein d'un cube de données . . . . . . . . . . . . . . . . . .
22
25
25
4.1
4.2
Réduction de l'erreur obtenue lors de la validation croisée . . . . . . . . . . .
Valeurs prédites pour les prots . . . . . . . . . . . . . . . . . . . . . . . . . .
27
28
37
Table des matières
1 Introduction générale
4
2 Etat de l'art
2.1
2.2
La prédiction dans les cubes de données OLAP
2.1.1 Objectifs et apports de la prédiction . .
2.1.2 Comparaison des propositions . . . . . .
Positionnement de notre approche . . . . . . .
3 La prédiction dans l'OLAP
3.1
3.2
Arbres de régression . . . . . . . .
3.1.1 AID - CHAID . . . . . . . .
3.1.2 CART . . . . . . . . . . . .
3.1.3 Arbogodaï . . . . . . . . . .
Dénitions et formalisation . . . .
3.2.1 Notations générales . . . . .
3.2.2 Formalisation et illustration
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
de notre
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
approche
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Contexte d'analyse . . . . . . . . . . . . . . . . . . . .
Application de l'algorithme AID d'arbre de régression
Résultats . . . . . . . . . . . . . . . . . . . . . . . . .
Discussion . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Etude de cas
4.1
4.2
4.3
4.4
.
.
.
.
5 Conclusion et perspectives
7
7
8
10
15
17
17
18
18
19
20
20
21
26
26
26
27
28
30
38
Téléchargement