Université Lumière Lyon 2 Master Recherche d'informatique ECD 2006 2007 MÉMOIRE Vers l'intégration de la prédiction dans les cubes OLAP réalisé par Anouck BODIN NIEMCZUK soutenu le 22 Juin 2007 sous la direction de M. Omar BOUSSAID Maître de conférences, habilité à diriger des recherches et Mme Sabine LOUDCHER RABASÉDA Maître de conférences avec la participation de M. Riadh BEN MESSAOUD Docteur en informatique Laboratoire ERIC Remerciements Je souhaite exprimer mes sincères remerciements aux personnes qui se sont associées à mon travail, m'apportant leur savoir et leur soutient. Ma gratitude s'adresse plus particulièrement à mes encadrants : M. Omar BOUSSAID et Mme Sabine LOUDCHER RABASEDA. Leur conance, leur rigueur de travail et le temps qu'ils m'ont consacré m'a permis d'appendre plus qu'il ne m'était espéré. Je remercie chaleureusement Riadh BEN MESSAOUD pour son investissement dans ce projet, sa disponibilité et le partage de son expérience passée en tant que doctorant. Mes meilleurs sentiments vont aux membres du laboratoire ERIC (Equipe de Recherche en Ingénierie des Connaissances) que j'ai côtoyés et qui ont toujours répondu à mes sollicitations et plus particulièrement à Ricco Rakotomalala. Enn, j'adresse toute ma reconnaissance à ma mère, mon frère et à mes amis, qui m'ont soutenue et encouragée tout au long de cette année. Résumé Les entrepôts de données présentent aujourd'hui une solution reconnue pour la gestion des grands volumes de données. De plus, l'analyse en ligne OLAP ore des outils qui sont au service de la visualisation, de la structuration et de l'exploration des données d'un entrepôt. D'un autre côté, la fouille de données est un outil d'extraction des connaissances proposant des techniques de description, de classication, d'explication et de prédiction. Les deux domaines s'avèrent donc complémentaires pour mieux appréhender les données. Il est donc possible de rendre plus performant le processus d'aide à la décision moyennant le couplage de l'analyse en ligne et la fouille de données. L'extension des capacités de l'OLAP à celle de la fouille de données permet de proposer une large palette d'outils avancés pour l'aide à la décision. En orant à l'utilisateur OLAP une meilleure analyse des données par le biais de l'extraction des connaissances, c'est l'ensemble de son environnement de travail qui se voit enrichi. Dans la continuité des travaux de [Mes06], où la fouille de données est exploitée pour étendre l'OLAP à la description, la classication et l'explication, nous mettons en place une nouvelle extension de l'analyse en ligne à la prédiction. Nous proposons une approche, basée sur les arbres de régression, qui consiste à prédire la valeur de la mesure de nouveaux agrégats de données. Nous proposons ainsi la création d'un opérateur de fouille de donnée en ligne dédié à la prédiction. Dans ce mémoire, nous présentons une étude de l'état de l'art selon une typologie des travaux traitant de la prédiction dans les entrepôts de données. A travers un exemple simplié, nous démontrons la faisabilité de notre approche. Nous présentons en parallèle une formalisation théorique qui dénit le cadre formel du couplage de l'analyse en ligne et des arbres de régression. Enn, nous validons notre approche à travers une étude de cas sur des données réelles. Mots clés : entrepôt de données, analyse en ligne, fouille de données, arbres de régression. Chapitre 1 Introduction générale Les entrepôts de données (data warehouses ) sont des bases d'informations dédiées à l'analyse et à la prise de décision [Kim96]. Les données y sont orientées sujet, intégrées, non volatiles, historisées et organisées de manière multidimensionnelle [Inm96]. Les modèles en étoile ou en ocons de neige permettent dans un premier temps de produire des cubes de données adaptés à l'analyse. Dans un second temps, c'est à l'utilisateur de naviguer, explorer et analyser les données d'un cube an d'en extraire des informations pertinentes pour la prise de décision. Il s'agit alors d'une analyse en ligne, réalisée grâce à la technologie OLAP (On Line Analytical Processing ). Un cube de données est une représentation multidimensionnelle des données. Chaque cellule d'un cube de données représente un fait agrégé décrit par des axes d'analyse. Ces derniers correspondent aux dimensions du cube. Le fait est observé par une mesure à laquelle est associée une fonction d'agrégation (SUM, AVG, MAX, MIN). Une dimension peut être organisée en hiérarchie, par exemple : Jour→Mois→Année pour une dimension temporelle. Les faits peuvent donc être observés selon diérents niveaux de granularité. La construction d'un agrégat sur les mois, par exemple, permet d'exprimer les faits plus nement que sur les années. Les informations sont donc agrégées dans le cube selon les besoins de l'utilisateur. Sur la gure 1.1, les dimensions sont le Statut, la Profession et le Produit. Les mesures employées correspondent aux salaires et au nombre de personnes observés. Les fonctions d'agrégation correspondent respectivement à la moyenne (AVG) et à la somme (SUM). Les données peuvent alors être manipulées et observées sur les diérentes dimensions. Les opérateurs OLAP classiques permettent la permutation, la division, le forage vers le haut (passage à un niveau hiérarchique supérieur par agrégation), le forage vers le bas (passage à un niveau hiérarchique plus détaillé), la projection et la sélection. Ces opérateurs sont utiles pour la visualisation, la structuration et l'exploration du cube. Ben Messaoud insiste sur le fait que les opérateurs classiques ne présentent pas d'outils permettant de guider l'utilisateur vers les faits les plus intéressants du cube [Mes06]. C'est à l'utilisateur de manipuler au mieux le cube de données an de découvrir ces zones d'informations pertinentes. La gure 1.1 représente un cube à trois dimensions, or les cubes peuvent être structurés par plus de trois dimensions. Dans un cube de données volumineux, la navigation selon les diérents axes d'analyse est encore moins aisée. Des opérateurs pour 4 CHAPITRE 1. INTRODUCTION GÉNÉRALE Profession Ouvrier I Employé Montant moyen des salaires Effectif des personnes “Statut = femme mariée”, “Profession = employé” et “Produit = terrain” Cadre Agriculture Femme célibataire Femme mariée Homme célibataire Homme marié Statut Terrain Véhicule Résidence Libéral Produit Fig. 1.1 Exemple de cube de données à trois dimensions détecter automatiquement des zones sensibles augmenteraient signicativement l'ecacité de l'OLAP. De plus, les opérateurs OLAP ne permettent pas l'explication et la prédiction dans un cube de données. L'OLAP requiert donc de nouveaux outils automatiques, pour extraire la connaissance potentiellement existente au sein d'un cube de données. Le manque de profondeur dans l'explication de certains phénomènes relevés grâce à l'exploration des cubes de données a motivé les travaux de Ben Messaoud [Mes06]. Il a proposé une première extension des capacités de l'OLAP à la description, à la visualisation, à la classication et à l'explication. Notre approche s'insère dans la même démarche de couplage entre l'analyse en ligne est la fouille de données. Nous ciblons particulièrement l'extension de l'OLAP à de nouvelles capacités de prédiction. Dans un processus décisionnel, un utilisateur observe les faits OLAP dans un cube an d'extraire des informations intéressantes. Ceci permet aussi à l'utilisateur d'anticiper, intuitivement, la réalisation d'événements futurs. Il est possible d'assister l'utilisateur dans cette tâche. Nous nous orientons vers une nouvelle approche de fouille de données en ligne qui intègre un opérateur OLAP de prédiction. Pour l'utilisateur l'exploration lors de l'analyse en ligne prend une nouvelle dimension, en complétant le réel, en l'anticipant, une nouvelle source d'information devient disponible et l'analyse prend de la profondeur. Les techniques de fouille de données se présentent comme des approches ecaces pour guider l'analyste et extraire de nouvelles connaissances. Le principal eort consiste à combiner les techniques de fouille avec les cubes multidimensionnels OLAP, tout en proposant des solutions interactives à l'utilisateur. Plusieurs approches de couplage de l'analyse en ligne et de la fouille de données sont déjà venues enrichir le terrain [PK01, IKA02, SAM98, CCLR05]. Toutes orientées vers l'analyse, elles ne partagent pas les mêmes motivations : de l'aide à la navigation, à l'analyse 5 CHAPITRE 1. INTRODUCTION GÉNÉRALE approfondie des données en passant par la prédiction. Une autre distinction entre ces approches est indiquée dans [Mes06]. Les propositions de couplage divergent selon trois types, caractérisés par les techniques qu'elles déploient. Il est à noter aussi que certaines approches instrumentalisent les cubes de données et s'insèrent dans des domaines plus éloignés de l'OLAP et du couplage avec la fouille de données. Notre objectif est d'intégrer de nouvelles capacités d'analyse dans l'OLAP. Nous proposons une approche basée sur les fondements de l'OLAP et de la fouille de données. Ce couplage permet à l'utilisateur de prédire la valeur de la mesure de faits inexistants, dans un cube de données avec une technique de type "arbre de régression". En s'appuyant sur un processus complet d'apprentissage, nous répondons aux besoins de l'utilisateur. Nous proposons un outil adapté et des résultats ables et compréhensibles. Dans ce mémoire, nous présentons, dans le chapitre 2, un état de l'art axé sur une comparaison des travaux existants. Tout d'abord, les types de couplage entre l'analyse en ligne et la fouille de données sont précisés. Ensuite nous dénissons des critères retenus pour réaliser une typologie des travaux. Ces critères concernent les objectifs de la prédiction ainsi que la méthodologie employée pour le couplage entre l'OLAP et la fouille de donnée. Avec le cadre précédent, nous positionnons notre approche de couplage pour la prédiction dans les cubes de données. Dans le chapitre 3, nous rappelons nos objectifs et nous étudions les techniques de fouille de données par les arbres de régression. Nous y développons notre proposition d'intégration de la prédiction dans les cubes de données via une formalisation et montrons la faisabilité de notre approche. Le chapitre 4 vient présenter une étude de cas sur un jeu de données. Enn, nous réalisons un bilan de nos contributions et présentons nos perspectives de recherche. 6 Chapitre 2 Etat de l'art Dans ce chapitre, nous fournissons une étude comparative des travaux traitant du couplage entre les techniques de prédiction et l'analyse en ligne. Nous avons réalisé une typologie selon des critères orientés OLAP et fouille de données. Les travaux étudiés se distinguent selon leurs motivations et la méthodologie employée. Cependant, l'enjeu du couplage se saisit d'abord par la divergence des espaces de représentation des données considérées, entre l'analyse en ligne et la fouille de données. Les techniques de fouilles de données sont dénies sur un autre type de données que celles des cubes OLAP. Il s'agit de données structurées sous forme de tableau attributs-valeurs, ou encore individus-variables. Les cubes de données utilisés dans le cadre de l'analyse en ligne ont une structure multidimensionnelle. En plus de la multidimensionnalité des cubes, chaque dimension peut faire l'objet d'une hiérarchie (Pays>Régions>Villes ). Ensuite, la divergence des objectifs est un second enjeu ; alors que l'OLAP a pour but la navigation et l'exploration, la fouille de donnée sert aussi bien à l'exploration, l'explication qu'à la prédiction. Trois démarches de couplage se distinguent alors, celles-ci ont été dénies par Ben Messaoud [Mes06]. Une démarche consiste à transformer les données multidimensionnelles en données bidimensionnelles, une seconde s'interroge sur l'exploitation possible des outils oerts par les systèmes de gestion de base de données multidimensionnelles (SGBDMs). La troisième démarche consiste à faire évoluer les algorithmes de fouille de données pour les adapter aux types de données manipulés par les cubes. Nous allons préciser les approches existantes dans le couplage de l'OLAP avec les méthodes de prédiction. Nous dénissons les critères utilisés avant de comparer dans une première section les travaux abordant l'utilisation de la prédiction dans les cubes de données. Dans la seconde section nous positionnons notre approche pour l'intégration de la prédiction dans les cubes de données. 2.1 La prédiction dans les cubes de données OLAP Les opérations supportées dans le cadre de l'OLAP permettent l'exploration des cubes de données et la navigation. Les tâches exploratoires de l'analyse en ligne ne proposent pas 7 CHAPITRE 2. ETAT DE L'ART d'outils permettant de guider l'utilisateur, ni de lui indiquer des éléments d'analyse et de compréhension des résultats lors de l'exploration. C'est principalement dans cet objectif que le couplage de l'analyse en ligne avec la fouille de données s'est développé. De la recherche d'association entre les faits à leurs explications, de nombreuses possibilités supplémentaires peuvent venir enrichir les outils actuellement proposés. Dans le cadre du couplage, de nouvelles propositions sont en train d'émerger. Elles consistent à utiliser des méthodes statistiques et d'apprentissage automatique pour la prédiction an d'enrichir les capacités de l'analyse en ligne. Dans une première partie nous abordons les diérents objectifs et apports de la prédiction dans l'environnement OLAP. Nous dénissons dans une deuxième partie, les critères retenus pour la comparaison des travaux existants. A celà, suit une comparaison des méthodologies déployées, aussi bien du point de vue des techniques de prédiction que du couplage. 2.1.1 Objectifs et apports de la prédiction Certaines approches s'insèrent moins dans une problématique de couplage entre l'OLAP et la fouille de données. Il s'agit d'une utilisation momentané de l'OLAP et des cubes de données pour faciliter une analyse des données. Les travaux de Yang et al. [YHN03], de Huang et al. [HNC+ 02] et de Fu [Fu05], utilisent ainsi les cubes de données pour structurer leurs données originales et faciliter l'analyse. Ainsi, dans les travaux de Yang et al., et de Huang et al., le cube de données est composé de trois dimensions permettant de caractériser les données servant à la recherche dans le Web (Web Prefetching ), améliorant la prédiction des pages Web à mettre en cache pour leur future consultation par l'utilisateur. Des méthodes de classication non supervisée et d'analyse de corrélation sont alors exécutées sur le cube. Fu [Fu05], utilise le cube pour stocker les tables de contingence (sommets) d'un arbre de décision. Ainsi, les données du cube correspondent au tableau individus-variables d'origine et les agrégats aux tables de contingence. Dans ces deux propositions, les auteurs ne s'engagent pas dans une réexion sur le couplage mais donnent des solutions qui pourraient s'insérer dans un tel cadre. L'apport de la prédiction dans l'analyse en ligne des cubes de données revêtit diverses facettes (cf. tableau 2.1). Une première possibilité, dans la continuité de son utilisation statistique courante, est de pouvoir prédire, pour un nouveau fait, sa mesure. Les travaux de Chen et al. [CRST06], proposent de prédire la mesure d'un nouveau fait, par exemple, les ventes mondiales d'un article à la n de l'année en cours, en se basant sur un sous ensemble de données correspondant aux ventes de l'article lors de périodes passées et en ciblant une région "leader" de pays ou de villes comme ensemble d'apprentissage. La recherche de région "leader" apparaît dans une phase de sélection d'observations, préalable à la construction du modèle de prédiction. Certaines données sont donc considérées comme caractéristiques et sont de bons indicateurs prédictifs. L'erreur d'un modèle de prédiction en est réduite car le modèle n'est pas basé sur un ensemble d'apprentissage trop étendu. Des approches similaires à celle de la prédiction d'une valeur de mesure d'un nouveau fait existent. Une proposition permet de générer un nouveau cube où la mesure indique 8 CHAPITRE 2. ETAT DE L'ART Tab. 2.1 Propositions de prédiction dans les cubes de données un score ou une distribution de probabilités associée à la valeur de la mesure qui aurait pu être attendue dans le cube originel [CCLR05]. Le cube obtenu correspond au modèle à utiliser pour prédire la valeur de la mesure de tout nouveau fait. La prédiction se base sur l'utilisation de méthodes distributivement ou algébriquement décomposables, an de maximiser la probabilité conditionnelle pour attribuer une valeur de mesure. Chaque cellule du cube de prévision contient une valeur et la granularité des cellules peut être changée avec les opérations OLAP classiques. Cheng [Che98], avait déjà établi ce type de proposition en construisant un cube de prédiction basé sur le modèles linéaire généralisé. Sarawagi et al. [SAM98], utilisent la prédiction pour d'autres ns. Une première étape re-calcule le cube de données initial en prédisant la valeur de la mesures des faits qui aurait pu être escomptée. La base d'apprentissage est le cube original et le modèle se base sur une modélisation loglinéaire. Les déviations entre les deux cubes permettent alors d'indiquer à l'utilisateur des valeurs exceptionnelles. Les cellules exceptionnelles sont alors signalées à l'utilisateur lors de sa navigation dans le cube de données grâce à trois indicateurs qui permettent aussi de lui indiquer les chemins intéressants à explorer. Un autre type de problématique auquel répondent les modèles de prédiction a été traité par Palpanas et al. [PKM05, Pal03, PK01]. L'utilisation de la prédiction consiste ici à reconstituer les faits originels d'un cube à partir des faits agrégés. Pour ce faire, le principe de l'entropie maximum de l'information est utilisé. Ce type de possibilité à un intérêt lorsque les utilisateurs ne disposent pas de l'intégralité des données, comme c'est le cas avec les magasins de données mis à leurs dispositions. Dans le cas contraire, il est alors possible de comparer les résultats obtenus avec les données originales. Les écarts sont alors porteurs d'information concernant le degré d'exceptionnalité d'une valeur de cellule. 9 CHAPITRE 2. ETAT DE L'ART Enn, une proposition plus récente de Chen et Pei [CP06] consiste à construire des cubes basés sur une régression linéaire. A partir du cube de donnée initial un cube de mesure compressible est généré. Chacune des valeurs du cube indique alors la tendance générale des données. Les mesures sont agrégées par une technique de compression non linéaire (NCR) permettant de diminuer le risque de perte d'informations. Les cubes de mesures compressibles permettent de prévoir les tendances grâce au modèle de données et à la recherche de zones exceptionnelles tout en permettant la matérialisation partielle des données. De nombreux autres objectifs peuvent ainsi être dénis et les méthodes d'apprentissage automatique ne répondent pas toutes aussi bien à chacun d'eux. Cependant chacune de ces propositions s'insérant dans le cadre de l'analyse en ligne, on attend d'elles des solutions conformes aux objectifs de navigation et d'exploration des cubes de données. Après avoir vu les principales contributions sur le terrain de la prédiction et de l'OLAP, nous dénissons maintenant des critères permettant d'étudier leurs caractéristiques. 2.1.2 Comparaison des propositions Critères de comparaison Ramakrishnan[Ram06], voit dans le couplage entre la fouille de données et l'OLAP un paradigme appelé à se dénir plus précisément. Ce besoin est valable aussi bien vis à vis des processus de manipulation des données que pour les paramétrages ou l'optimisation des algorithmes issus de l'apprentissage automatique. Les propositions précédentes permettent de voir en quelle mesure il est possible de répondre aux challenges du couplage entre la fouille de données et de l'analyse en ligne. Le principal dé est lié à la taille des données, due à la dimensionnalité du cube et aux hiérarchies. Une réduction des données est donc souvent envisagée. Ensuite le modèle doit pouvoir être obtenu pour diérents niveaux de granularités selon les besoins de l'utilisateur. Il doit donc être adapté à la navigation à diérents niveaux hiérarchiques. L'utilisateur enn doit pouvoir rester dans l'environnement qu'il connaît et disposer de la même souplesse oerte que lorsqu'il navigue à l'intérieur des données. De même, il est souvent préférable d'éviter des modèles nécessitant le renseignement de certains paramètres par l'utilisateur. La complexité des résultats pouvant être produit par un algorithme d'apprentissage doit, de même, être adaptée aux utilisateurs OLAP. L'association d'une sémantique est alors garante de résultats lisibles et exploitables. Ceci présente un dernier enjeu dans le cadre du couplage. Nous avons vu précédemment qu'une première diérence dans les travaux existe selon les objectifs. Les critères que nous allons ici dénir concerne davantage le couplage en lui même. Ils nous permettent de comparer les propositions existantes et de nous positionner parmi elles. Les approches proposées se déclinent selon diérents aspects. Nous en avons retenu huit dont trois ciblées sur les processus de fouille de données. Dans un premier temps, la prise en compte de la structure multidimensionnelle des données est apparue comme un élément permettant d'apprécier la rigueur du couplage de la fouille de données avec les cubes OLAP. Dans le même esprit, un point supplémentaire consiste à s'assurer que les hiérarchies des cubes sont considérées lors de l'élaboration du modèle de prédiction. Notre intérêt porte aussi sur les optimisations réalisées au niveau des algorithmes 10 CHAPITRE 2. ETAT DE L'ART de fouille. Celles-ci permettent de proposer un modèle pour chaque niveau hiérarchique d'un cube. Toujours au sujet de la production du modèle, la possibilité oerte à l'utilisateur, de paramétrer l'apprentissage et la méthode de fouille de données semble nécessaire. De nombreux paramètres peuvent être manipulés pour améliorer la précision de la prédiction. L'exploitation des résultats et plus précisément du modèle de prédiction est apparue comme un élément marquant une bonne intégration de la fouille à l'analyse en ligne. En eet, pour parler d'intégration de la prédiction dans l'OLAP, il faut pouvoir proposer un modèle, l'interpréter et l'associer à la sémantique OLAP. Ainsi l'utilisateur dispose de nouveaux outils tout en restant dans une manipulation et une compréhension habituelle de son environnement d'analyse. An d'approfondir la qualité du couplage proposé, nous avons dénis trois critères internes au processus classique de fouille de données, correspondant chacun à une phase du processus : le pré-traitements des données, la sélection des variables explicatives et la validation du modèle. Ces derniers éléments permettent de proposer à l'utilisateur des résultats précis et ables. Ainsi, un couplage basé sur les fondements des deux domaines peut être apprécié. Synthèse comparative Tout d'abord nous regarderons avec les cinq premiers critères le processus de couplage pour les diérents travaux proposés. Nous reviendrons ensuite sur l'élaboration du modèle selon les trois critères orientés vers la fouille de données. Tab. 2.2 Comparaison des propositions de couplage D'après le tableau 2.2, on note que les travaux ici recensés prennent tous en compte la structure multidimensionnelle des cubes. Palpanas et al. [PKM05], en partant du postulat que l'utilisateur ne dispose pas du cube intégral de données se confrontent à un objectif particulier. Les données de base correspondent aux faits agrégés d'un cube. L'objectif est alors de prédire le résultat d'un forage vers le bas du cube, an d'obtenir les mesures des faits à un niveau plus détaillé. En utilisant le principe de l'entropie maximale et un algorithmique basé sur la technique de l'ajustement itératif proportionnel (IPF) les résultats de la requête sont estimés et présentés 11 CHAPITRE 2. ETAT DE L'ART à l'utilisateur. L'algorithme n'identie pas simplement des phénomènes globaux, rapportant la valeur maximale le long d'une dimension. Il tient compte du voisinage local dans lequel une valeur particulière apparaît et rapporte toutes les anomalies ou exceptions. Ainsi les niveaux hiérarchiques sont sur ce point considérés dans la construction du modèle. Dans le cas où ces données originelles seraient disponibles, en employant une formule qui normalise l'erreur d'évaluation d'une valeur avec l'écart type, Palpanas propose d'indiquer les déviations dans les données originales. Un seuil permet alors de diérencier les perturbations normales dans l'ensemble de données et les grandes déviations. La complexité est liée aux niveaux d'agrégation utilisés et la précision du modèle augmente lorsque le niveau d'agrégation est faible. Dans cette proposition, l'utilisateur n'a pas besoin de choisir des fonctions et des paramètres et aucune connaissance particulière n'est exigée. Chen et al. [CCLR05], proposent une méthode générique qui permet à l'utilisateur de choisir diérents modèles. Un certains nombre de paramètres sont donc cette fois-ci à renseigner : le modèle d'apprentissage, la condition pour celui-ci est qu'il soit algébriquement ou distributivement décomposable, l'échantillon test et éventuellement une fonction d'évaluation du modèle. Certains modèles peuvent être approximativement décomposables, un certain nombre de traitements sont alors réalisés. Dans tous les cas, le principe consiste à dériver des fonctions de scoring. Les modèles de classieur bayésien (algébriquement décomposable) et de classieur estimant la densité par le noyau (Kernel Density Estimation, distributivement décomposable) font l'objet d'une démonstration dans leur article. An de pouvoir proposer un modèle pour les diérents niveaux d'agrégation selon les hiérarchies des dimensions, une optimisation algorithmique est indiquée. Elle reprend le principe énoncé dans les travaux de Sarawagi [SAM98]. Au lieu de construire exhaustivement à partir du point zéro chaque modèle associé à chaque niveau d'agrégation, les modèles de bas niveaux sont réutilisés pour constituer les modèles des niveaux d'agrégation plus élevés. Ainsi le modèle produit pour le niveau de cellules le plus haut est réalisé en combinant les modèles de niveau inférieur et permettant d'accéder aux cellules de plus haut niveau. Une première proposition de cube de prédiction, établissant un modèle pour chaque niveau de la hiérarchie des dimensions a été proposée par Cheng [Che98], en utilisant un modèle linéaire généralisé. Contrairement aux travaux de Sarawagi, Chen et al. et Cheng n'exploitent pas le cube de prédiction ainsi obtenu. Le modèle est laissé à l'exploration de l'utilisateur pour la prédiction. Dans [SAM98], le cube de prédiction est obtenu suite à une modélisation log linéaire. Ils utilisent des coecients correspondant à des ajustements à la moyenne pour proposer un modèle basé sur les tendances générales des données originelles. Le cube de mesures prédites est ensuite comparé au cube de données courant et les déviations entre les deux cubes constituent le résidu du modèle. Ces résidus sont alors exploités pour proposer trois indicateurs à l'utilisateur. L'exploitation des résultats consiste à indiquer dans le cube de données de base, les cellules présentant une valeur exceptionnelle, les dimensions à forer qui présentent des valeurs exceptionnelles ainsi que les cellules à forer vers le bas présentant des valeurs, à un niveau plus détaillé, exceptionnelles elles aussi. De plus, la proposition de Sarawagi ne nécessite aucune connaissance particulière de la part de l'utilisateur et lui permet de saisir le contexte d'une valeur exceptionnelle. 12 CHAPITRE 2. ETAT DE L'ART Ces deux approches ont été approfondies par leurs auteurs respectifs par la suite [Sar01, SS01]. lls proposent alors un cadre complet et interactif d'aide à l'exploration dans les cubes de données OLAP. En plus de la méthode précédemment exposée, identiant les régions dans lesquelles les cellules évaluées sont sensiblement diérentes des valeurs prévues par le modèle prédictif, un opérateur iDi vient aider les analystes à explorer pourquoi des baisses ou des augmentations sont observées entre les régions relatives. A cela vient s'ajouter un mécanisme permettant d'identier les régions les plus instructives n'ayant pas encore été visitées par l'utilisateur. Enn une de leur dernière contribution est un opérateur RELAX qui récapitule les généralisations et les exceptions le long de divers chemins dans un cube de données. Ainsi avec l'opérateur iDi, l'utilisateur commence l'exploration au niveau global et l'opérateur creuse dans les données détaillées pour les résumer tandis qu'avec l'opérateur RELAX l'utilisateur commence au niveau détaillé. L'extension des travaux de Chen et al.[CCLR05], proposée par la suite dans [CRST06] prend une toute autre direction, tout aussi importante dans le cadre d'un couplage ecace entre l'OLAP et la fouille de données. La concentration de leur eort se situe en amont de la construction du modèle de prédiction et consiste à rechercher l'ensemble de données le plus pertinent pour l'apprentissage selon le nouveau fait que l'utilisateur souhaite prédire. L'objectif étant d'être le plus exact possible par la suite pour la prédiction en sortie. Les régions ainsi déterminées sont appelées des régions leader. Une autre proposition de Chen et Pei [CP06], établissant un modèle de prédiction basé sur la régression linéaire à partir du cube de données courant tente d'améliorer l'exploitation des résultats par l'utilisateur avec la notion de mesure compressible. Ce choix de mesure permet ainsi de baser l'apprentissage sur une quantité réduite de données. An d'ancrer le couplage entre l'analyse en ligne et la fouille de donnée comme un ensemble de traitements amenant à des connaissances valides, il est primordial de respecter un certain nombre d'aspects du processus de fouille de données. Nous allons donc regarder les travaux précédemment présentés avec un nouveau regard, qui se positionne plutôt du côté de la fouille de données. Dans une première phase, les données ont souvent besoin d'être préparées, échantillonnées et les variables explicatives à utiliser, sélectionnées. Une fois une méthode de fouille déployée, celle-ci doit être évaluée et validée. De nombreuses techniques existent pour réaliser ces étapes. Il apparaît donc nécessaire de les intégrer au processus de couplage ici proposé, an de faire reposer les modèles produits de prédiction sur des bases solides. Le tableau 2.3 présente ces phases et leur prisent en compte dans les travaux existants. La première phase de prétraitements des données doit, dans notre cas, être évitée. On considère que les cubes de données sont prêts pour la fouille et que la phase de prétraitements a été réalisée en préalable via la construction du cube. Ainsi, on est certain que les prétraitements qui aurait pu être appliqués ne viennent pas dénaturer les données gérées par les cubes. Les travaux de Chen et al. [CCLR05, CRST06] déploient les deux dernières étapes citées comme inhérentes à la construction d'un modèle de prédiction. Leur recherche de région "leader" s'apparente à une sélection des données et de variables explicatives à utiliser pour la phase d'apprentissage. Dès leur proposition de 2005, leur eort s'est orienté vers la recherche d'attributs prédictifs (explicatifs) pertinents. C'est par la suite qu'ils ont étendu 13 CHAPITRE 2. ETAT DE L'ART Tab. 2.3 Comparaison des processus de fouilles de données appliqués leur démarche à une sélection de données dans le cube. Lors de leur première proposition, le modèle était validé avec un échantillon test et une fonction d'évaluation déterminée par l'utilisateur. Dans [CRST06], ils utilisent la validation croisée pour évaluer et valider leur modèle. Les autres travaux présentés se concentrent davantage sur l'ensemble de données utilisé pour l'apprentissage que pour la validation du modèle. Ainsi, Cheng [Che98] propose de généraliser les données pour réduire le volume d'informations utilisées. Il rassemble les modalités des variables explicatives en classes. Le cube n'est pas exploité dans sa forme initiale. Dans un deuxième temps des coecients de pertinence (Coecient V de Cramer, Coecient d'incertitude U et de Sommers) sont utilisés pour repérer les variables explicatives les plus pertinentes. Comme nous l'avons déjà vu dans [CP06], les auteurs utilisent une mesure compressible pour réduire la quantité de données à utiliser pour l'apprentissage, avec le moins de perte d'information possible. Ces deux étapes du processus de fouille de données, la sélection de variable et la validation, sont à déployer lors de l'apprentissage pour les diérents niveaux hiérarchiques pour lesquel un modèle est renvoyé à l'utilisateur. On discerne une dichotomie entre les travaux selon la méthodologie qu'ils mettent en place. D'un coté, la proposition de Chen et al.[CCLR05], qui intègre un processus de fouille de donnée. De l'autre coté, les solutions proposées par Sarawagi [SAM98] s'intègrent parfaitement dans l'environnement OLAP en exploitant le modèle de prédiction. L'ensemble des autres approches se répartit entre ces deux pôles. La combinaison des deux approches permettrait d'approfondir les propositions précédentes et de proposer une réelle intégration de la prédiction à l'analyse en ligne. Avec les critères dénis, nous pouvons orienter le couplage vers des techniques ecaces et réellement adaptées aux besoins de l'utilisateur. Dans l'article de Ramakrishnan [Ram06], il est d'ailleurs rappelé qu'il existe plusieurs possibilités pour traiter chacun des aspects précédemment analysés. Cependant chacune de ces étapes et propositions, en amont et aval de la construction d'un modèle de prédiction, est dépendante des caractéristiques du modèle choisi. Nous allons voir dans la section suivante notre positionnement pour l'intégration de la 14 CHAPITRE 2. ETAT DE L'ART prédiction en environnement OLAP. 2.2 Positionnement de notre approche Notre proposition consiste à intégrer la prédiction dans l'environnement OLAP pour l'aide à la décision. Nous souhaitons : permettre à l'analyste de prédire la valeur d'une mesure pour un nouveau fait selon un contexte d'analyse déni ; placer l'utilisateur OLAP au c÷ur du processus pour la prédiction ; intégrer le processus d'apprentissage ; exploiter les résultats obtenus dans la philosophie de l'analyse en ligne ; proposer un cadre formel pour la prédiction au sein de l'analyse en ligne. Ces diérents points ancrent notre proposition d'intégration de la prédiction dans l'OLAP dans une démarche rigoureuse. Elle respecte à la fois les besoins de l'utilisateur et répond aux enjeux du couplage entre la fouille de données et l'analyse en ligne. Nous nous intéressons aux démarches prospectives en intégrant la prédiction dans une analyse en ligne an de prédire la valeur de la mesure d'un nouveau fait. Nous utilisons les arbres de régression car ils permettent d'avoir une variable à prédire de type quantitatif continu, ce qui est généralement le cas des mesures dans les cubes de données. De plus, ils ne supposent pas d'hypothèse sur les données (homoscédasticité,...) à l'inverse de méthodes comme le modèle linéaire. Les arbres de régression ont aussi retenu notre attention dans la mesure où ils représentent une méthode accessible à un utilisateur non expert. Ils proposent en eet des résultats compréhensibles et se fondent sur des techniques ne s'apparentant pas à une boite noire pour l'utilisateur. Ces caractéristiques permettent de répondre aux besoins de l'utilisateur souhaitant des outils intelligibles et une bonne lisibilité des résultats. Les arbres de régression fournissent par la même occasion un modèle explicatif des agrégats de faits existants, avec le schéma de l'arbre représentant les diérentes règles de prédiction. On se place alors dans la continuité des travaux de Sarawagi [SAM98, SS01, Sar01], qui se concentrent sur l'aide à la navigation mais aussi sur l'explication des faits. Cependant, il reste important pour une bonne utilisation, d'associer la sémantique OLAP à la méthode, pour l'utilisateur. Nous repoussons donc les limites de la navigation exploratoire en injectant les techniques de prédiction au c÷ur des processus OLAP. Ainsi, un utilisateur peut mesurer, par exemple, quel serait le chire d'aaires d'un nouveau magasin pour une ville donnée. En lisant l'ensemble du modèle de prédiction, l'utilisateur peut expliquer un chire d'aaires au regard des valeurs des variables explicatives retenues par le modèle. Il peut aussi réaliser une partition des magasins selon ces mêmes variables. Nous nous plaçons donc dans le cas d'un cube de données volumineux, où l'utilisateur doit être à même de dénir un contexte dans le cube permettant de cibler les niveaux hiérarchiques et les dimensions d'analyse du nouveau fait sur lequel son intérêt porte. L'ensemble des niveaux hiérarchiques auquels appartient le nouveau fait est utilisé pour le processus de prédiction. Dans un premier temps, notre proposition considère que le cube dispose que d'une seule mesure. 15 CHAPITRE 2. ETAT DE L'ART De plus nous souhaitons faire reposer notre approche sur l'intégration d'un processus complet d'apprentissage dans OLAP pour la fouille de données en ligne. En respectant les étapes de base des procédés d'apprentissage, nous nous assurons de fournir à l'utilisateur des résultats plus précis et de bons indicateurs pour mesurer les performances obtenues. Un processus complet comporte alors une phase de sélection des variables explicatives, une phase de partage des faits en échantillon d'apprentissage et en échantillon test. Ensuite, une phase d'apprentissage et une phase de validation sont exécutées. La subdivision des données sert pour ces deux dernières phases, où l'on construit le modèle sur un ensemble de données et où on l'évalue sur un autre ensemble de données. Nous souhaitons préserver la philosophie de l'analyse en ligne telle que Sarawagi et al. [SAM98] le proposent lorsqu'ils y intègrent la prédiction dans un cube. Ainsi en exploitant le modèle fourni à l'utilisateur au sein des cubes de données, l'analyste n'a pas besoin d'avoir des connaissances approfondies sur l'utilisation d'un arbre de régression. Enn, à travers une première formalisation nous souhaitons montrer la faisabilité et l'exploitation possible de la prédiction dans l'analyse en ligne. Notre objectif est donc de proposer un cadre de prédiction OLAP fondé à la fois sur le contexte OLAP et sur la fouille de données. En respectant les points forts des deux domaines, notre démarche répond à la problématique du couplage et propose un outil able et accessible à l'utilisateur OLAP. Nous considérons deux axes méthodologiques forts, pensant que loin d'être incompatibles, ils doivent tous deux être intégrés au processus de la fouille de données en ligne. 16 Chapitre 3 La prédiction dans l'OLAP Notre approche de couplage entre l'analyse en ligne et la fouille de donnée pour intégrer la prédiction au c÷ur des cubes s'oriente vers l'utilisation des méthodes d'arbres de régression. Nous souhaitons obtenir les valeurs de la mesure pour des cellules ne comportant pas de faits. Nous avons vu que les cubes de données permettent de représenter des faits selon diérents axes d'analyse. Les dimensions sont constituées de variables qualitatives et les faits sont généralement mesurés par une variable quantitative continue. Ceci nous place dans un cadre particulier pour appliquer des méthodes d'apprentissage supervisé aux cubes de donnée. Nous proposons d'employer les arbres de régression car ils répondent à nos besoins tout en apportant à l'utilisateur un outil connu pour la lisibilité des résultats qu'il propose. A la diérence des arbres de décision, ils traitent le cas d'une variable à prédire de type continu. Les arbres de régression se présentent aussi comme une solution de rechange vis à vis de la régression et de l'analyse disciminante car ils ne nécessient pas d'hypothèses préalables sur les données. Les arbres de régression nous permettent, suite à une discrimination des variables les plus explicatives, de proposer une valeur pour les cellules vides selon les modalités des dimensions qui les caractérisent et les règles de décision obtenues. Nous allons, dans ce chapitre, présenter les diérents algorithmes d'arbre de régression en mettant en avant leurs singularités. Nous détaillons ensuite notre proposition avec une formalisation qui s'appuie sur un exemple illustratif. L'ensemble des étapes de notre proposition est ainsi détaillé ; du contexte dans lequel s'applique la prédiction à l'exploitation de l'arbre de régression obtenu dans l'OLAP, en passant par le modèle de prédiction en lui même et le processus de fouille de données nécessaire à son obtention et à sa validation. 3.1 Arbres de régression Diérents types d'arbre de régression sont proposés dans la littérature. Une des premières approches est AID (Automatic Interaction Detection ) [MS63]. Cette approche a été reprise dans [Kas80] où l'algorithme CHAID (Chi-Squared Automatic Interaction Detection ) est proposé. Breiman et al. [BFOS84], proposent des arbres binaires avec CART (Classication and Regression Tree ). Récemment d'autres types d'arbre ont vu le jour, notamment Arbogodaï de Zighed et al.[ZRES03]. Nous détaillons les particularités de chacune de ses approches dans cette section. 17 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP 3.1.1 AID - CHAID L'algorithme AID, proposé par Morgan et Sonquist [MS63], recherche parmi l'ensemble des variables candidates celles les plus prédictives pour segmenter un n÷ud de l'arbre. Basé sur le principe de partitionnement récursif, AID dégage ainsi par ordre d'importance les variables explicatives. Le développement de l'arbre s'arrête en un niveau optimum. Pour cela, AID utilise un test de Fisher (basé sur l'ANOVA) comme règle d'arrêt. Morgan et Sonquist ont appelé leur algorithme AID (Automatic Interaction Detection ) car il incorpore naturellement l'interaction entre les variables explicatives. L'interaction est représentée par des branches d'un même n÷ud qui ont diérentes variables explicatives se dédoublant plus loin dans l'arbre. Kass [Kas80], a proposé une amélioration de AID et a appelé la méthode obtenue CHAID. L'algorithme incorpore une phase de fusion séquentielle et le procédé de division est basé sur le test statistique du Chi-deux pour l'indépendance. Trois phases sont donc réitérées pour chaque variables prédictives : une phase de fusion, de division et d'arrêt. Si la statistique du test du Chi-deux n'est pas signicative pour une paire de modalités de la variable prédictive, la fusion est réalisée. Comme pour AID, là où la statistique du test du Chi-deux est la plus signicative pour une variable prédictive, la division est réalisée. 3.1.2 CART Breman et al.[BFOS84] proposent un arbre de régression binaire, appelé CART (Classication and Regression Tree ), permettant de prédire aussi bien une variable qualitative que quantitative selon des variables explicatives qualitatives, quantitatives ou les deux. CART est basé sur le principe du partitionnement récursif. A chaque étape, les variables explicatives discriminées sont segmentées en deux nouveaux regroupements de modalités ou en deux intervalles. Lorsque la variable à prédire est quantitative continue, la prévision obtenue est la moyenne des observations appartenant au regroupement ou à l'intervalle (feuille de l'arbre). Le procédé d'un arbre binaire consiste donc à diviser l'échantillon d'apprentissage en deux sous ensembles à l'aide d'une des variables explicatives. L'opération est réitérée séparément dans chaque sous-ensemble ainsi constitué. L'homogénéité des deux regroupements ou intervalles est optimisée par un critère de partitionnement. Dans le cas d'une variable à prédire quantitative continue, la variance du regroupement ou de l'intervalle est employée comme mesure d'homogénéité. Au moment de la division en deux sous-groupes on cherche alors à minimiser la variance intra-groupe ou à maximiser la variance inter-groupe. La qualité de la régression peut être évaluée à l'aide d'indicateurs classiques tels que l'erreur quadratique. L'apprentissage est réalisé en deux phases : une première phase, appelée "en expansion", maximise l'homogénéité des groupes sur l'ensemble de données appelé "growing set". La seconde phase concerne "l'élagage" de l'arbre et consiste à minimiser l'erreur de prédiction sur un autre ensemble de données, appelé "pruning set". Pour établir le nombre de n÷uds terminaux avec l'algorithme CART, on laisse donc croître l'arbre avec comme critère d'arrêt un eectif minimal par n÷ud. Ensuite, l'élagage de l'arbre est réalisé en utilisant les données de l'échantillon "pruning set", ce qui permet d'obtenir un sous arbre minimisant au mieux l'erreur de prédiction. La principale diérence entre AID et CART se situe dans le procédé d'accroissement de l'arbre. AID ne présente pas de phase de post-élagage. Nous avons vu qu'il est possible d'utiliser des arbres non binaires qui découpent en 18 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP n sous ensembles. La diculté est alors de conserver lors des subdivisions susamment d'observations pertinentes. 3.1.3 Arbogodaï Récemment une extension des méthodes précédentes a été proposée par Zighed et al. [ZRES03, ZRES05]. Arbogodaï est un graphe d'induction pour la classication et la régression (CRIG : Classication and Regression Induction Graph ). Il permet de grouper les modalités des variables explicatives en un nombre optimal comme AID ou CHAID et non pas systématiquement en deux regroupements ou intervalles. Il fait de même pour la variable à prédire de type qualitatif ou quantitatif continu. Arbogodaï repose donc sur le principe d'un partitionnement simultané des lignes et des colonnes de la table initiale [RZ03]. Les phases correspondantes à ce processus sont des phases de fusion et de discrimination qui sont réalisées dynamiquement à chaque n÷ud de l'arbre. Le nombre de points de discrétisation potentiel à tester étant énorme, une heuristique est employée pour les variables continues an de réduire la complexité du problème. Une mesure d'association de type T de Tschuprow ouV de Cramer pour la fusion est utilisée comme mesure de qualité. La gure 3.1, présente un arbre obtenu avec Arbogodaï pour une variable à prédire de type quantitatif continu et des variables explicatives de diérents types. Xk xk 1 X k d xk 2 X k d xk 1 C c1 C c1 c1 <C c2 C>c2 1 45 2 c1 <C c2 C>c2 2 1 X k ! xk 2 C c1 c1 <C c2 30 3 X t ^a , c , d ` X t ^b` C b1 C>b1 8 1 X t ^e, g` C b1 C>b1 3 6 Xv c1<C d1 d1 <C d2 d2 <C d3 d3<C c2 3 15 1 17 Xt C b1 C>b1 15 30 X v ^ x, y, z` C>c2 3 X v ^u` c1<C d1 d1 <C d2 d2 <C d3 d3<C c2 1 20 1 3 1 ! Fig. 3.1 Arbre obtenu avec Arbogodai L'utilisateur à la possibilité de choisir des règles simples ou multi-classes. Dans le second cas, ce sont des intervalles ou des regroupements de modalités qui lui sont renvoyés. Cette possibilité évite les règles non pertinentes en palliant le problème du manque d'eectif signicatif lors de règles simples. Rappelons cependant qu'il est toujours important d'avoir des échantillons de tailles signicatives pour produire des modèles pertinents. Dans un premier temps, nous avons choisi d'utiliser CART et AID. Ce choix peut paraitre arbitraire mais il nous permet de tester la faisabilité de notre proposition. Dans le futur, nous comptons réaliser des tests sur l'ensemble des méthodes à partir d'un cas pratique. 19 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP Dans la section suivante, nous développons notre proposition et démontrons sa faisabilité à travers une formalisation illustrée par un exemple. 3.2 Dénitions et formalisation Nous proposons dans cette section une formalisation relative aux cubes de données et à notre approche de prédiction. Pour faciliter la compréhension du formalisme, nous utilisons un exemple simplié d'un cube de données à trois dimensions : Sexe (f, m), Filières (S, ES, L), Matières (a, b, c, d, e). Les mesures correspondent aux notes moyennes d'élèves de Terminale et à leurs eectifs. Le cube de données est composé de 30 cellules (produit des cardinalités des dimensions). On considère que, sur les 30 cellules du cube, 6 cellules sont vides et dont les valeurs sont à prédire. 3.2.1 Notations générales Les dénitions d'un cube de données et d'un sous-cube de données sont extraites de [? ]. Soit C un cube de données : C est constitué d'un ensemble non vide de d dimensions D = {Di }(1≤i≤d) ; C contient un ensemble non vide de m mesures M = {Mq }(1≤q≤m) ; chaque dimension Di ∈ D contient un ensemble non vide de ni niveaux hiérarchiques. Nous considérons que Hji est le j ième niveau hiérarchique de la dimension Di . Nous avons par exemple, la dimension Filière (D1 ) contenant deux niveaux (n1 = 2) : le Code lière et le Sous-Code de la lière selon l'enseignement de spécialité. Le niveau Code lière est noté H11 et le niveau Sous-Code est noté H21 ; le niveau d'agrégation totale All dans une dimension correspond au niveau hiérarchique zéro. Par exemple, dans la dimension D1 ce niveau est noté H01 ; Hi = {Hji }(0≤j≤ni ) représente l'ensemble des niveaux hiérarchiques de la dimension Di , Par exemple, l'ensemble des niveaux hiérarchiques de D1 est H1 = {H01 , H11 , H21 } = {All, Code lière, Sous-code} ; chaque niveau hiérarchique Hji ∈ Hi consiste en un ensemble non vide de lij modalités. ième modalité du niveau H i . Par exemple, dans notre Nous considérons que aij t est la t j cube illustratif, le niveau Code lière (H11 ) de la dimension Filière (D1 ) contient trois 11 11 modalités (l11 = 3) : S, notée a11 1 , ES, notée a2 et L, notée a3 ; i Aij = {aij t }(1≤t≤lij ) représente l'ensemble des modalités du niveau hiérarchique Hj de la dimension Di . Par exemple, l'ensemble des modalités du niveau Code lière de D1 est A11 ={S, ES, L} ; pour le niveau d'agrégation total d'une dimension, nous considérons que All est la seule modalité de ce niveau. Ainsi, pour une dimension Di , on note que ai0 1 = All et Ai0 = {All}. 20 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP Sous-cube de données Dénition (Sous-cube de données) Soit D0 ⊆ D un sous-ensemble non vide de p dimensions {D1 , . . . , Dp } du cube de données C (p ≤ d). Le p-uplet (Θ1 , . . . , Θp ) est un sous-cube de données dans C selon D0 si ∀i ∈ {1, . . . , p}, Θi = 6 ∅ et il existe un indice unique j ≥ 0 tels que Θi ⊆ Aij . Un sous-cube de données selon un ensemble de dimensions D0 correspond à une portion du cube de données original C . Il s'agit de xer un niveau hiérarchique Hji dans chaque dimension de Di ∈ D0 et de sélectionner dans ce niveau un sous-ensemble Θi non vide de modalités appartenant à l'ensemble de toutes les modalités Aij de Hji . Par exemple, considérons le sous-ensemble de la dimension D0 = {D1 } du cube C de notre exemple illustratif. Soient le sous-ensemble des modalités Θ1 ={S } du niveau H11 (Code lière ) de la dimension D1 (Filière ). Dans ce cas, (Θ1 , A21 )=(S,{ m, f }) correspond à un sous-cube dans notre cube initial C selon les dimensions D0 = {D1 , D2 }. On note aussi qu'une cellule d'un cube de données C correspond au cas particulier d'un sous-cube de données déni selon l'ensemble entier des dimensions D = {D1 , . . . , Dd } et tel que ∀i ∈ {1, . . . , d}, Θi est un singleton contenant une seule modalité appartenant au niveau hiérarchique le plus n de la dimension Di . 3.2.2 Formalisation et illustration de notre approche Notre approche s'applique dans un contexte d'analyse (Θ1 , . . . , Θp ) dénit par l'utilisateur au sein d'un cube de données C . L'utilisateur est donc libre de choisir les dimensions qui l'intéressent, de xer un niveau hiérarchique dans chacune de ces dimensions, de dénir la mesure Mq qu'il souhaite analyser et un type de fonction d'agrégation. Notre approche permet à l'utilisateur d'employer la Somme (SUM) ou la Moyenne (AVG) pour agréger les faits. L'utilisateur peut alors appliquer notre approche pour la prédiction des valeurs de mesures de nouveaux agrégats (cellules vides). Le point de départ de notre méthode est un contexte d'analyse (Θ1 , . . . , Θp ) avec n faits OLAP observés selon la mesure quantitative Mq . Nous considérons qu'une cellule A est pleine (respectivement, vide) si elle contient la valeur d'une mesure d'un agrégat existant (respectivement, ne contient pas de valeur). Tableau individus-variables An d'appliquer une méthode d'arbre de régression sur le contexte d'analyse (Θ1 , . . . , Θp ), nous transformons ce dernier en un tableau individus-variables. Nous générons une matrice Z à n lignes et (p + 1) colonnes. Z est telle que les colonnes de 1 à p correspondent aux dimensions du contexte d'analyse et que la (p + 1)ème colonne correspond à la mesure Mq sélectionnée. Chaque ligne représente un fait agrégé du contexte d'analyse et contient les modalités qui le décrivent, suivies de la valeur de la mesure. Selon la terminologie statistique, un fait représente un individu et une dimension représente une 21 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP variable explicative (variable exogène). La mesure est la variable à prédire (variable endogène). Dans notre exemple, nous choisissons comme contexte d'analyse les trois dimensions Sexe, Filières, avec pour niveau d'agrégation le Code-Filière, et Matières. Nous choisissons aussi les notes comme mesure et AVG comme fonction d'agrégation. Nous obtenons le tableau 3.1. Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Sexe (D1 ) Code-Filière (D2 ) Matières (D3 ) f f f f f f f f f f f f f f f m m m m m m m m m m m m m m m S S S S S ES ES ES ES ES L L L L L S S S S S ES ES ES ES ES L L L L L a b c d e a b c d e a b c d e a b c d e a b c d e a b c d e Note Moyenne (M1 ) 14,5 14 13,5 13 13 12,5 11,5 11 12,5 12 11,5 10,5 11,5 11 10 9,5 10 9,5 9 8 9,5 9 8,5 7,5 Tab. 3.1 Tableau individus variables des faits agrégés Le tableau 3.1 représente volontairement l'ensemble des cellules et non les faits agrégés. Ceci nous permet de visualiser les faits sans mesures que nous souhaitons prédire. C'est-à-dire, les lignes pour lesquelles aucune valeur pour la mesure n'est indiquée. Construction et validation du modèle de prédiction Selon la méthodologie appliquée couramment en apprentissage automatique, le tableau individus-variables est segmenter en deux échantillons de manière aléatoire. Ceci permet de tester le modèle obtenu sur des individus n'ayant pas servit à la construction du modèle. Soit Z le tableau individus-variables. Les n lignes sont divisées en deux parties. 70% des individus servent à l'apprentissage et à la construction du modèle et 30% sont reservés pour évaluer le modèle obtenu. 22 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP Pour les méthodes d'arbre de régression utilisant le post-élagage, comme CART, le chier d'apprentissage est lui-même subdivisé en deux, une partie dite "growing set" qui sert à développer l'arbre, et une partie "pruning set" qui sert à élaguer l'arbre. Notre exemple illustratif se place dans le cas précédent. La méthode utilisée est CART, le chier initial est donc segmenté en trois. Une seconde méthode utilisée couramment pour évaluer un modèle est la validation croisée. Soit Z le tableau individus-variables. Les n lignes sont divisées en m parties égales et disjointes. m − 1 parties du jeu de données sont utilisées pour l'apprentissage. Le test du modèle est réalisé sur la partie restante. L'opération est itérée m fois. Chaque segment est utilisé une fois pour l'évaluation du modèle. Classiquement les critères d'évaluation d'un modèle d'arbre de régression sont le taux d'erreur moyen et la réduction de l'erreur. La validation croisée permet d'évaluer la stabilité du modèle en indiquant m taux d'erreur correspondant chacun au test sur un segment du chier de données. La moyenne de l'erreur indique la moyenne de l'écart entre la valeur observée et la vraie valeur de la variable à prédire. Plus la moyenne de l'erreur se rapproche de 0, plus le modèle de prédiction est précis. Pour notre exemple illustratif, la moyenne de l'erreur est de 0,243. La réduction de l'erreur correspond au rapport entre : la somme des carrés des écarts entre la prédiction et la valeur de la variable à prédire, et la somme des carrés des écarts à la moyenne. La prédiction est parfaite si cet indicateur est égal à 0. S'il est égal à 1, cela signie que l'arbre de régression ne fait pas mieux que la prédiction basée sur la moyenne observée de la variable à prédire. Interprétation du modèle prédictif Suite à la construction du modèle, l'arbre de régression renvoie λ règles de décision (λ > 0) . L'ensemble des règles générées à partir du modèle est noté R = {R1 , R2 , ..., Rλ } Dénition (Règle de décision) Soit R(X ⇒ Y ; S; σ) une règle de décision ∈ R. Le prédicat X est une conjonction et/ou disjonction de modalités ⊆ {Θ1 , . . . , Θp } correspondant aux antécédents de la règle. Y est la valeur moyenne prédite pour la mesure Mq sachant X . S est l'eectif des individus et σ est l'écart type de Mq , dans l'ensemble d'apprentissage vériant X . Deux critères permettent donc d'évaluer la qualité d'une règle. Le premier est l'eectif des individus qui supporte la règle. Plus l'eectif est important, plus la règle est able. Le deuxième critére est l'écart type de Mq dans l'ensemble d'apprentissage vériant X . L'écart type indique l'homogénéité des individus supportant la règle. Dans notre exemple illustratif, nous obtenons les règles suivantes : R1 (m ∧ (ES ∨ L) ⇒ 9, 1; 41, 66%; 0, 83) R2 (m ∧ S ⇒ 11; 8, 33%; 0, 91) R3 (f ∧ (ES ∨ L) ⇒ 11, 62; 33, 33%; 0, 84) 23 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP R4 (f ∧ S ⇒ 14; 16, 66%; 0, 64) La règle 1 indique que si l'étudiant est de sexe masculin et qu'il est en lière ES ou L alors sa moyenne sera de 9,1. 41,66% des étudiants présents dans le chier d'apprentissage appartiennent à cette catégorie. L'écart type est de 0,83. Utilisation du modèle prédictif dans l'environnement OLAP L'utilisation des règles pour la prédiction au sein du contexte d'analyse (Θ1 , . . . , Θp ) permet de prédire, pour tous les agrégats vériant X et n'ayant pas de valeur pour la mesure Mq , la valeur pouvant être attendue. Les règles permettent donc de cibler les cellules vides pour lesquelles l'utilisateur attend une prédiction. Soit une règle R ∈ R avec R(X ⇒ Y, S, σ) . Soit CX le sous-cube de données dont les cellules vérient le prédicat X . On note c une cellule du cube C et Mq (c) désigne la valeur de la mesure Mq que prend la cellule c. Pour intégrer le résultat de la règle R(X ⇒ Y, S, σ) dans le sous-cube (Θ1 , . . . , Θp ) (contexte d'analyse), on applique le processus suivant : ∀c ∈ CX tel que Mq (c) = N ull, c'est-à-dire que la cellule c est vide, on aecte à la cellule c la valeur prédite Y . On note Mq (c) ←− Y (cf. algorithme 1.). Algorithme 1 Intégration de la prédiction dans un cube de données (R, (Θ1 , . . . , Θp )) 1: pour R ∈ R faire 2: pour c ∈ CX faire 3: si Mq (c) = N ull alors 4: Mq (c) ←− Y 5: nsi 6: n pour 7: n pour En reprenant notre exemple illustratif, nous obtenons sur le tableau 3.2 les prédictions obtenues (cellules grisées). Ainsi, les étudiants de sexe masculin en lière S auront en moyenne 11/20 à la matière c. Cette intégration de la prédiction permet aussi à l'utilisateur d'appréhender les valeurs prévues des agrégats pour un niveau hiérarchique supérieur. Les agrégats sont calculés en considérant les nouvelles valeurs prédites. Par exemple en choisisant le niveau All pour les matières, la moyenne des notes peut être calculée uniquement selon le sexe et la lière. Nous obtenons le tableau 3.3. Ainsi, la moyenne prévue pour l'ensemble des matières du tronc commun, pour les lles de lières L, est de 11,62/20. 24 CHAPITRE 3. LA PRÉDICTION DANS L'OLAP Tab. 3.2 Valeurs prédites au sein d'un cube de données Tab. 3.3 Agrégats prévus au sein d'un cube de données Vers une visualisation du modèle prédictif dans OLAP Une extension envisagée pour la valorisation du modèle prédictif dans les cubes de données consiste à utiliser des indicateurs visuels pour l'utilisateur. Dans les deux exemples de représentations précédemment proposées, nous avons pris soin de griser les cellules indiquant une valeur prédite ou prévue lorsqu'il s'agit d'un agrégat calculé à partir des valeurs prédites. Un code de couleur plus explicite peut ainsi être intégrer dans l'OLAP. De même, nous pensons que selon les critères de qualité (eectif et écart type) d'une règle, nous pouvons nuancer ce code de couleur. Ainsi l'utilisateur peut directement interpréter les prédictions au sein du cube de données. Cette proposition nous semble donc à développer plus précisément dans le cadre de l'implémentation d'un opérateur OLAP de prédiction. 25 Chapitre 4 Etude de cas Dans cette section, nous montrons comment les techniques présentées dans ce travail peuvent être appliquées dans une étude de cas sur un jeu de données. Nous utilisons pour cette étude, le jeu de données des ventes de 1997 de Foodmart 2000. 86 831 faits sont présents dans le cube de données. Les axes d'analyse de l'entrepôt concernent les produits, le temps, les clients, les promotions et les magasins. Les mesures utilisables sont les ventes (le chire d'aaires), les coûts et les unités de produits vendus lors d'une transaction pour un produit. 4.1 Contexte d'analyse Nous dénissons le contexte d'analyse suivant : comme dimensions, nous retenons le lieu de résidence du client (Etat), son niveau d'éducation, son sexe, son statut marital et son revenu, l'Etat où est implanté un magasin et le type de magasin, le mois et le type du produit acheté. La mesure choisie correspond au prot, c'est-à-dire au chire d'aaires duquel on déduit le coût. Au total nous avons 13 296 faits agrégés dans les 259 200 cellules présentes dans le contexte d'analyse déni. Nous souhaitons prédire les prots obtenus pour les cellules correspondant aux ventes de produits alimentaires dans les "Small Grocery" au mois d'avril en Californie. 4.2 Application de l'algorithme AID d'arbre de régression Nous utilisons l'algorithme d'apprentissage AID pour construire un modèle de prédiction dans le contexte d'analyse précédemment déni. Rappelons qu'AID n'eectue pas de postélagage et utilise un test de Fisher (basé sur l'ANOVA) comme règle d'arrêt. Nous avons tout d'abord utilisé un échantillon d'apprentissage correspondant à 70% des données du contexte d'analyse, soit 9 307 faits agrégés, et un échantillon test correspondant à 30% des données, soit 3 989 faits agrégés. Dans un deuxième temps, nous avons utilisé la validation croisée an d'avoir plus d'indications concernant le modèle de prédiction obtenu. Le nombre de divisions réalisées sur le jeu de données est égal à 10. Nous avons paramétré la méthode de sorte à ce que l'eectif minimal pour segmenter soit de 10 faits agrégés et que le nombre maximal de niveaux dans l'arbre soit de 15. 26 CHAPITRE 4. ETUDE DE CAS 4.3 Résultats L'arbre de régression ainsi construit comporte 35 sommets et 27 feuilles. Sur l'échantillon test correspondant à 30% des données, l'erreur moyenne de l'arbre est de 0,0479 et la réduction de l'erreur est de 0,3665. La réduction de l'erreur sur l'échantillon d'apprentissage est de 0,3893. Le modèle est donc exploitable. Au regard de la réduction de l'erreur pour les 10 segments de données réalisés lors de la validation croisée nous avons vérié la stabilité du modèle : Essai 1 2 3 4 5 6 7 8 9 10 Réduc. erreur 0,3404 0,4412 0,3430 0,4735 0,3922 0,4958 0,4314 0,3271 0,4449 0,3328 Tab. 4.1 Réduction de l'erreur obtenue lors de la validation croisée Les variables explicatives discriminantes (dimensions) sont, dans l'ordre de leur apparition dans l'arbre : le type de produit, le revenu des clients, le niveau d'éducation des clients et le type de magasin. L'arbre obtenu est représenté dans la gure 4.1. Sur les 27 règles obtenues nous présentons celles nous permettant de prédire les valeurs de 4 cellules décrivant les faits à prédire pour les ventes de produits alimentaires en Californie au mois d'Avril : R1 (F ood ∧ 30K − 50K ∧ (BachelorsDegree ∨ GraduateDegree) ⇒ 21, 05; 1%; 18, 53) R2 (F ood ∧ 30K − 50K ∧ HighSchoolDegree ∧ SmallGrocery ⇒ 16, 20; 1%; 11, 31) R3 (F ood ∧ 50K − 70K ∧ BachelorsDegree ⇒ 79, 76; 3%; 62, 55) R4 (F ood ∧ 70K − 90K ⇒ 33; 16%; 33, 13) On note pour les règles 3 et 4 un écart type particulièrement élevé, respectivement, 62,55 et 33,13. De même les eectifs supportant les règles sont faibles, 1% pour les deux premières et 3% pour la troisième règle. Les prédictions pouvant être obtenues sont donc à prendre avec précaution. Nous retrouvons dans le tableau 4.2 l'intégration des résultats obtenus à partir de l'arbre de régression pour 4 cellules. A titre d'exemple, la règle 4 est utilisé pour la première ligne du tableau. La condition vériée est : si le type de produit est produit alimentaire et que le revenu du client est compris entre 70K et 90K $, alors le prot sera de 33$. De la même manière, en utilisant l'ensemble des règles les 160 cellules vides décrites par les modalités Produits alimentaire, Californie et Avril peuvent être estimées. 27 CHAPITRE 4. ETUDE DE CAS Tab. 4.2 Valeurs prédites pour les prots 4.4 Discussion Nous pensons qu'il serait intéressant, pour une meilleure précision sur les prédictions indiquées à l'utilisateur, d'y associer le nombre de faits sur lesquels elles reposent. En eet, les valeurs de mesure prédites sont indiquées pour des agrégats de faits. La prise en compte du nombre de faits comme nouvelle mesure à prédire est un élément garantissant une approche plus rigoureuse et permettant à l'utilisateur d'aller encore plus loin dans l'analyse. Nous avions tout d'abord pensé à pondérer les agrégats utilisés pour l'apprentissage, mais aucune raison ne justiait de renvoyer une prédiction pour un seul fait alors que nous sommes parfois dans un contexte d'analyse où l'on a aaire à des agrégats de faits. Deux modèles de prédictions, un pour la valeur de la mesure et un pour estimer le nombre de faits contenus dans l'agrégat nous semblent donc être une piste à développer. Notre approche de couplage de l'OLAP et des méthodes de prédiction montre déjà une grande partie de son potentiel. En apportant à l'utilisateur un modèle de prédiction exploité dans l'environnement OLAP, l'utilisateur se voit orir de nombreuses possibilités. Il peut, pour un contexte d'analyse déni, estimer l'ensemble des faits inextistants. Au delà de l'obtention de nouvelles valeurs pour la mesure de faits inexistants, il a à sa dispostion des indicateurs de abilité des règles de décision et plus généralement de l'arbre de régression. Il peut ensuite analyser comment ces faits sont susceptibles de se comporter selon les dimensions qui les décrivent. 28 Fig. 4.1 Arbre de régression AID obtenu Chapitre 5 Conclusion et perspectives Dans le cadre de ce mémoire, nous apportons de nouvelles pistes pour améliorer les approches existantes dans le processus d'aide à la décision. Nous nous plaçons dans la continuité de travaux émergents sur le couplage entre l'analyse en ligne et la fouille de données et nous utilisons ce principe pour étendre les capacités de l'analyse en ligne (OLAP). A partir des possibilités de visualisation, de structuration et d'exploration des cubes de données, nous nous orientons vers un nouveau type d'analyse. En appliquant au c÷ur du processus OLAP une technique de prédiction avec les arbres de régression, nous proposons à l'analyste de se placer dans une démarche à la fois prédictive et explicative. Notre première contribution consiste en la réalisation d'une typologie des travaux ayant proposé l'utilisation de la prédiction dans les cubes de données. Ceci nous a permis de dénir les principaux enjeux du couplage entre l'OLAP et la fouille de données. Nous avons relevé une dichotomie entre les travaux ayant un axe méthodologique orienté OLAP et ceux plutôt fouille de données. Notre avis est que les deux types d'approches doivent se rejoindre pour proposer à l'utilisateur de nouveaux outils adaptés à ses besoins et à la philosophie OLAP tout en s'appuyant sur les points forts de la fouille de données. Ceci nous permet d'avoir une analyse approfondie des cubes de données et d'obtenir des résultats ables statistiquement. Notre deuxième contribution permet de prédire la valeur de la mesure de nouveaux agrégats de données. Dans cette proposition, nous utilisons les arbres de régression en tant que technique de prédiction. Le modèle obtenu permet aussi de renforcer la connaissance qu'a l'utilisateur de ses données avec un point de vue explicatif. L'utilisateur dispose de nouveaux éléments pour comprendre les relations ou les phénomènes existants dans les données et peut anticiper la réalisation d'événements selon un certain nombre de conditions. Nous avons développé cette proposition à travers une formalisation qui s'appuie sur un exemple illustratif simple. Enn un cas d'étude sur un jeu de données démontre la faisabilité et l'intérêt de notre proposition. Nous suggérons également un élargissement à des paramètres visuels indiquant à l'utilisateur les valeurs prédites des nouveaux agrégats, les valeurs des cellules pouvant être prévues à un niveau d'agrégation supérieur et la qualité de chacune de ces prédictions au sein du cube de données. Nous avons exploité le couplage de l'analyse en ligne et de la fouille de données an d'étendre les capacités de l'OLAP à la prédiction. Nos travaux ouvrent diverses perspectives 30 CHAPITRE 5. CONCLUSION ET PERSPECTIVES de recherche, à la fois pour le terrain de la prédiction que pour le couplage en général. Tout d'abord nous souhaitons revenir à une phase de test an d'appréhender l'ensemble des méthodes d'arbres de régression. Nous voulons ainsi réaliser un comparatif des résultats obtenus sur un jeu de données conséquent en volumétrie. Nous pensons notamment que les possibilités présentées par Arbogodaï dans [ZRES03] méritent d'être étudiées. Rappelons en eet que cette méthode permet, entre autre, à l'utilisateur de choisir entre deux types de règles : les règles simples, comme celles que nous avons utilisées et les règles renvoyant des intervalles ou des regroupements de modalités pour ses antécédents et ses conséquents. Nous souhaitons aussi aller plus loin dans la formalisation du modèle de prédiction au sujet de son exploitation dans l'OLAP. Nous pensons notamment au cas où l'arbre de régression n'est pas de bonne qualité ou lorsque la phase d'apprentissage n'aboutit pas à un modèle de prédiction renvoyant plus de précision pour la prédiction que la moyenne globale de la variable à prédire sur l'échantillon d'apprentissage. Toujours au sujet du modèle de prédiction construit, nous souhaitons étendre la méthodologie an de prendre en compte le nombre de faits sur lequel repose la prédiction. Lorsque la valeur de la mesure d'un agrégat est prédite celle-ci est en eet liée au nombre de faits contenus dans les cellules décrites par les mêmes modalités des dimensions que la cellule prédite. De plus, nos perspectives de recherche concernent la prise en compte des hiérarchies. Nous avons déjà montré qu'il est possible à partir des prédictions réalisées sur un niveau d'agrégation, de prévoir pour un niveau d'agrégation supérieur les valeurs de la mesure des faits agrégés comprenant les prédictions. Notre intérêt porte maintenant sur le cas où l'utilisateur souhaite explorer un niveau d'agréation plus n. En ce qui concerne l'utilisation de la prédiction, nous pensons qu'il est possible de l'intégrer à d'autres niveaux d'un système d'information. Une première intuition s'oriente vers les phases d'alimentation des entrepôts de données, dans le cas où un fait est incomplet pour une ou plusieurs dimensions d'analyse. Enn, pour étendre notre proposition au cadre général du couplage, nous souhaitons l'intégrer à la plateforme Web de fouille de données en ligne Mining Cube développée par Ben Messaoud [MBR06] via un opérateur OLAP de prédiction, et l'intégrer au cadre formel général proposant une algèbre pour le couplage, proposé dans ces mêmes travaux. 31 Bibliographie [BFOS84] Leo Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone. Classication and Regression Trees. 1984. [CCLR05] Bee-Chung Chen, Lei Chen, Yi Lin, and Raghu Ramakrishnan. Prediction Cubes. In Proceedings of the 31st International Conference on Very Large Data Bases (VLDB'05), pages 982993, Trondheim, Norway, August - September 2005. ACM Press. [Che98] Shan Cheng. Statistical Approaches to Predictive Modeling in Large Databases. Master's thesis, Simon Fraser University, British Columbia, Canada, February 1998. [CP06] Yixin Chen and Jian Pei. Regression cubes with lossless compression and aggregation. IEEE Transactions on Knowledge and Data Engineering, 18(12) :15851599, 2006. Senior Member-Guozhu Dong and Senior MemberJiawei Han and Fellow-Benjamin W. Wah and Member-Jianyong Wang. [CRST06] Bee-Chung Chen, Raghu Ramakrishnan, Jude W. Shavlik, and Pradeep Tamma. Bellwether Analysis : Predicting Global Aggregates from Local Regions. In Proceedings of the 32nd International Conference on Very Large Data Bases (VLDB'06), pages 655666, Seoul, Korea, September 2006. ACM Press. [Fu05] Lixin Fu. Novel Ecient Classiers Based on Data Cube. International Journal of Data Warehousing and Mining, 1(3) :1527, 2005. [GC98a] Sanjay Goil and Alok Choudhary. High Performance Data Mining Using Data Cubes on Parallel Computers. In Proceedings of the 12th International Parallel Processing Symposium (IPPS'1998), pages 548555, Orlando, Florida, USA, April 1998. [GC98b] Sanjay Goil and Alok Choudhary. High Performance Multidimensional Analysis and Data Mining. In Proceedings of the 10th High Performance Networking and Computing Conference (SC'1998), Orlando, Florida, USA, Novembre 1998. [GC99] Sanjay Goil and Alok N. Choudhary. A parallel Scalable Infrastructure for OLAP and Data Mining. In Proceedings of the 3rd International Database Engineering and Applications Symposium (IDEAS'1999), pages 178186, Montreal, Canada, August 1999. IEEE Computer Society. 32 BIBLIOGRAPHIE [GC01] Sanjay Goil and Alok N. Choudhary. PARSIMONY : An Infrastructure for Parallel Multidimensional Analysis and Data Mining. Journal of Parallel and Distributed Computing, 61(3) :285321, March 2001. [Han97] Jiawei Han. OLAP Mining : An Integration of OLAP with Data Mining. In Proceedings of the 7th IFIP Conference on Data Semantics, Leysin, Switzerland, October 1997. [HNC+ 02] Joshua Zhexue Huang, Michael Ng, Wai-Ki Ching, Joe Ng, and David Cheung. A Cube Model and Cluster Analysis for Web Access Sessions. In Revised Papers from the 3rd International Workshop on Mining Web Log Data Across All Customers Touch Points (WEBKDD '01), pages 4867, San Francisco, CA, USA, August 2002. Springer-Verlag. [HWD+ 02] Jiawei Han, Jianyong Wang, Guozhu Dong, Jian Pei, and Ke Wang. Cubeexplorer : online exploration of data cubes. In SIGMOD '02 : Proceedings of the 2002 ACM SIGMOD international conference on Management of data, pages 626626, New York, NY, USA, 2002. ACM Press. [IKA02] Tomasz Imieli«ski, Leonid Khachiyan, and Amin Abdulghani. Cubegrades : Generalizing association rules. Data Mining and Knowledge Discovery, 6(3) :219 257, 2002. [Inm96] W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, 1996. [Kas80] G. V. Kass. An exploratory technique for investigatin large quantities of categorical data. Applied Statistics, 29(2) :119127, 1980. [Kim96] Ralph Kimball. The Data Warehouse Toolkit. John Wiley & Sons, 1996. [MBR06] Riadh Ben Messaoud, Omar Boussaid, and Sabine Loudcher Rabaséda. Using a Factorial Approach for Ecient Representation of Relevant OLAP Facts. In Proceedings of the 7th International Baltic Conference on Databases and Information Systems (DB&IS'2006), pages 98105, Vilnius, Lithuania, July 2006. IEEE Communications Society. [Mes06] Riadh Ben Messaoud. Couplage de l'analyse en ligne et de la fouille de données pour l'exploration, l'agrégation et l'explication des données complexes. PhD thesis, Université Lumière Lyon 2, Lyon, France, Novembre 2006. [MHW00] Alexander Maedche, Andreas Hotho, and Markus Wiese. Enhancing Preprocessing in Data-Intensive Domains using Online-Analytical Processing. In Proceedings of the 2nd International Conference on Data Warehousing and Knowledge Discovery (DaWaK'2000), pages 258264, London, UK, September 2000. Springer. [MJBN06] Rokia Missaoui, Ganaël Jatteau, Ameur Boujenoui, and Sami Naouali. Data Warehouses and OLAP : Concepts, Architectures and Solutions, chapter Towards Integrating Data Warehousing with Data Mining Techniques. Idea Group Inc., February 2006. 33 BIBLIOGRAPHIE [MS63] J. N. Morgan and J. A. Sonquist. Problems in the analysis of survey data, and a proposal. Journal of the American Statistical Association, 58(302) :415434, 1963. [Pal03] Themistoklis Palpanas. Data Reduction in Data Warehouses. Technical Report CSRG-476, Department of Computer Science, University of Toronto, Toronto, Canada, 2003. [PK01] Themistoklis Palpanas and Nick Koudas. Entropy Based Approximate Querying and Exploration of Datacubes. In Proceedings of the 13th International Conference on Scientic and Statistical Database Management (SSDBM'01), pages 8190, Fairfax, Virginia, USA, July 2001. IEEE Computer Society. [PKM05] Themistoklis Palpanas, Nick Koudas, and Alberto Mendelzon. Using Datacube Aggregates for Approximate Querying and Deviation Detection. IEEE Transactions on Knowledge and Data Engineering, 17(11) :14651477, November 2005. [Ram06] Raghu Ramakrishnan. Exploratory Mining in Cube Space. In Proceedings of the 6th IEEE International Conference on Data Mining (ICDM'06), page 6, Hong Kong, China, December 2006. IEEE Computer Society. [RZ03] Gilbert Ritschard and Djamel A. Zighed. Simultaneous row and column partitionning : Evaluation of a heuristic. In 14th International Symposium on Methodologies for Intelligent Systems (ISMIS 03), Maebashi, Japan, volume 2871 of LNAI, pages 468472, Heidelberg, Germany, October 2003. Springer. [SAM98] Sunita Sarawagi, Rakesh Agrawal, and Nimrod Megiddo. Discovery-driven Exploration of OLAP Data Cubes. In Proceedings of the 6th International Conference on Extending Database Technology (EDBT'98), pages 168182, Valencia, Spain, Mars 1998. Springer. [Sar01] Sunita Sarawagi. iDi : Informative Summarization of Dierences in Multidimensional Aggregates. Data Mining and Knowledge Discovery, 5(4) :255 276(22), October 2001. [SS01] Gayatri Sathe and Sunita Sarawagi. Intelligent rollups in multidimensional olap data. In VLDB '01 : Proceedings of the 27th International Conference on Very Large Data Bases, pages 531540, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc. [YHN03] Qiang Yang, Joshua Zhexue Huang, and Michael Ng. A Data Cube Model for Prediction-Based Web Prefetching. Journal of Intelligent Information Systems, 20(1) :1130, 2003. [ZRES03] Djamel A. Zighed, Gilbert Ritschard, Walid Erray, and Vasil M. Scuturici. Abogodaï, a new approach for decision trees. In 7th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 03), Dubrovnik, Croatia, volume 2838 of LNAI, pages 495506, Heidelberg, Germany, September 2003. Springer. 34 BIBLIOGRAPHIE [ZRES05] Djamel A. Zighed, Gilbert Ritschard, Walid Erray, and Vasil M. Scuturici. Decision tree with optimal join partitioning. Journal of Intelligent Information Systems, 20 :126, 2005. 35 Table des gures 1.1 Exemple de cube de données à trois dimensions . . . . . . . . . . . . . . . . . 5 3.1 Arbre obtenu avec Arbogodai . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.1 Arbre de régression AID obtenu . . . . . . . . . . . . . . . . . . . . . . . . . . 29 36 Liste des tableaux 2.1 2.2 2.3 Propositions de prédiction dans les cubes de données . . . . . . . . . . . . . . Comparaison des propositions de couplage . . . . . . . . . . . . . . . . . . . . Comparaison des processus de fouilles de données appliqués . . . . . . . . . . 9 11 14 3.1 3.2 3.3 Tableau individus variables des faits agrégés . . . . . . . . . . . . . . . . . . . Valeurs prédites au sein d'un cube de données . . . . . . . . . . . . . . . . . . Agrégats prévus au sein d'un cube de données . . . . . . . . . . . . . . . . . . 22 25 25 4.1 4.2 Réduction de l'erreur obtenue lors de la validation croisée . . . . . . . . . . . Valeurs prédites pour les prots . . . . . . . . . . . . . . . . . . . . . . . . . . 27 28 37 Table des matières 1 Introduction générale 4 2 Etat de l'art 2.1 2.2 La prédiction dans les cubes de données OLAP 2.1.1 Objectifs et apports de la prédiction . . 2.1.2 Comparaison des propositions . . . . . . Positionnement de notre approche . . . . . . . 3 La prédiction dans l'OLAP 3.1 3.2 Arbres de régression . . . . . . . . 3.1.1 AID - CHAID . . . . . . . . 3.1.2 CART . . . . . . . . . . . . 3.1.3 Arbogodaï . . . . . . . . . . Dénitions et formalisation . . . . 3.2.1 Notations générales . . . . . 3.2.2 Formalisation et illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de notre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Contexte d'analyse . . . . . . . . . . . . . . . . . . . . Application de l'algorithme AID d'arbre de régression Résultats . . . . . . . . . . . . . . . . . . . . . . . . . Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Etude de cas 4.1 4.2 4.3 4.4 . . . . 5 Conclusion et perspectives 7 7 8 10 15 17 17 18 18 19 20 20 21 26 26 26 27 28 30 38