UNIVERSITE MOHAMMED PREMIER FACULTE DES SCIENCES OUJDA DEPARTEMENT DE MATHEMATIQUE & INFORMATIQUE UFR : ANITS Mémoire Réalisé par: Najlae KORIKACHE En vue de l‟obtention de Diplôme des Etudes Supérieures Approfondies (DESA) Discipline : Analyse Numérique, Informatique et Traitement du Signal (ANITS) Spécialité : INFORMATIQUE - Bases de données Création d’un opérateur OLAP de prédiction basé sur une technique de fouille de données Soutenue le Novembre 2007 devant le jury : Mr. Mostafa AZIZI : Président du jury Mme Amina YAHIA : Encadrant Mr. El Miloud JAARA : Membre du jury Année Universitaire : 2007/2008 Remerciements Déjà deux ans depuis le tout début de ce DESA… Tout d‟abord, je remercie Mr. Idriss SBIBIH, responsable de l‟UFR ANITS ainsi que tous les enseignants qui ont été présent pendant ces deux années. Avec eux, j‟ai apprécié une démarche organisée, une rigueur de travail et surtout un support scientifique inconditionné. Je tiens à exprimer ma gratitude à mon encadrant de mémoire: Mme Amina YAHIA. Je la remercie également pour la précieuse confiance qu‟elle m‟a donnée, pour la grande liberté d‟idées et de travail qu‟elle m‟a accordée et pour le temps qu‟elle m‟a consacré. En dehors de son apport scientifique, je n‟oublierai pas aussi de la remercier pour ses qualités humaines et son soutien qui m‟a permis de mener à bien ce mémoire. Je remercie les collègues du DESA ANITS. Je remercie aussi ceux que j‟ai côtoyés et qui, de loin ou de près, ont apporté une plus-value à la qualité de mon travail par leurs conseils, leurs remarques et leurs observations. Je tiens spécialement à remercier, en particulier, Mounir GRARI, entant que frère, qui m‟a dirigé et m‟a encouragé pour s‟orienter à l‟informatique. Merci à mes parents, je leur suis reconnaissante pour les sacrifices qu‟ils ont dû faire pendant mes années d‟études. À mon frère et ma sœur qui, malgré l‟éloignement, m‟ont soutenu. Merci à mes amis de toujours -i- Résumé L‟analyse en ligne OLAP (On Line Analytical Processing) est une solution qui a largement fait ses preuves pour le résumé, l‟exploration et la navigation dans un entrepôt de données numériques (Data Warehouse). Malheureusement, les opérateurs OLAP classiques présentent un certain nombre de limites quand il s‟agit de les appliquer dans un entrepôt de données complexes telles que des images, des documents XML ou des vidéos. Nous cherchons à concevoir un cadre élargi d‟analyse pour pouvoir explorer, expliquer et prédire les données complexes entreposées. Dans ce cadre nous proposons de combiner les techniques d‟analyse en ligne (OLAP) et de fouille de données (DataMining). Déjà de nouveaux opérateurs OLAP sont proposé, pour ; l‟agrégation des données complexes basé sur une technique de classification automatique, opérateur OPAC, le réarrangement d‟un cube par analyse factorielle (ACM), opérateur ORCA et l‟explication par recherche guidée de règles d‟association dans un cube, opérateur AROX. A l‟heure actuelle, nous souhaitons mettre en place un opérateur OLAP de prédiction pour les données complexes. Mots clés : entrepôt de données, cubes de données, analyse en ligne, fouille de données, analyse des correspondances multiples, classification ascendante hiérarchique, extraction des règles d‟association, données complexes, cadre formel général. -ii- Chapitre1 Introduction générale « On commence à vieillir quand on finit d'apprendre.. » 1.1 Contexte et problématique Actuellement, les systèmes d'information sont principalement constitués par les bases de données utilisées par les services de production tels que le processus de fabrication, la gestion des approvisionnements, la gestion des ventes. L'exploitation directe des données des bases de production s'avèrent souvent inadaptés à leurs besoins décisionnels en raison de temps d'accès importants, de structures de données ésotériques, d'informations réparties dans plusieurs sites. Face à ce problème, les industriels ont progressivement mis en place des entrepôts de données, véritables interfaces entre les bases de données et les décideurs. L'informatique décisionnelle a pour objectif d'élaborer des systèmes d'analyse de données dédiés au soutien et à l'amélioration des processus décisionnels des organisations. Ces systèmes OLAP (On- Line Analytic Processing) sont généralement constitués de bases de données multidimensionnelles, communément appelées entrepôts (data warehouses) et/ou magasins (data marts) de données. Ces dernières connaissent un important essor en raison de leur adéquation dans la manipulation et l'exploitation rapide, efficace et performante des données à des fins décisionnelles. En effet, les bases multidimensionnelles sont l'un des nouveaux développements remarquables de la conception des bases de données qui étend de faon considérable les possibilités d'analyse de grands ensembles de données multidimensionnels. Beaucoup sont les techniques liées à l'informatique décisionnelle, de l'entrepôt de données qui définit un support au système d'information décisionnel, aux outils de fouille de données permettant d'extraire de nouvelles connaissances, de nombreux moyens informatiques sont aujourd'hui mis en œuvre pour aider les organes de décision des entreprises. -1- Chapitre 1 : Introduction générale Les volumes de données à traiter dans le cadre de l'apprentissage automatique et de la fouille de données sont de plus en plus importants. L'étude des interactions possibles entre les domaines des bases de données et de l'apprentissage est donc nécessaire pour pallier les problèmes liés à la gestion de ces gros volumes de données. Apparus pour gérer de tels volumes de données issues de sources hétérogènes, les entrepôts de données constituent l'outil essentiel de collecte et de mise à disposition des données en vue de leur analyse. De ces entrepôts de données peuvent être extraits des magasins de données, contenant des sousensembles de données dédiés à une analyse particulière. L'objectif est de collecter des données décrites de manière multidimensionnelle afin de les mettre à disposition des décideurs à des fins d'analyse. Cette analyse fait appel à des traitements OLAP (On-Line Analytical Processing), tâche majeure des systèmes de data warehouse, analyse de données et décision, qui se distinguent des processus OLTP (On-Line Transactional Processing), tâche majeure des BD relationnelles traditionnelles, opérations quotidiennes enregistrées., principalement par leur complexité et par le nombre de données. Il est apparu que le modèle relationnel, jusque là tout à fait adapté aux traitements OLTP, était inadapté aux traitements OLAP. Le modèle multidimensionnel a donc été proposé afin de permettre la mise en œuvre de solutions OLAP. Ce modèle a été récemment étendu au traitement de données imparfaites et de requêtes exibles. Il a également été utilisé dans le cadre de la fouille de données, dans des systèmes visant à appliquer des méthodes de fouille de données à partir de bases de données multidimensionnelles. On parle alors d'OLAP Mining. L'utilisation des entrepôts de données et du modèle multidimensionnel a permis le traitement de nombreuses problématiques. De nombreuses perspectives sont associées à ces domaines de recherche, par exemple dans les domaines d'application émergeants tels que la bio-informatique et le multimédia. Système décisionnel OLAP Système OLTP Schémas des sources Schémas de l‟entrepôt Données opérationnelles Sources de données Schémas utilisateurs Données décisionnelles Entrepôt de données Données analysées Magasins de données Fig. 1.1- Du système OLTP au système OLAP -2- Outils d’analyse Chapitre 1 : Introduction générale Le tableau suivant concrétise un test comparatif entre OLTP et OLAP : Caractéristiques OLTP OLAP Opérations typiques Mise à jour Analyse Type d‟accès Lecture et écriture Lecture Niveau d‟analyse Elémentaire Global Ecrans Fixe Interactif Quantité d‟info échangée Faible Importante Orientation Ligne Multi-dimensions Taille BD 100MB-GB 1GB-TB Ancienneté des données Récente Historique Tab.1.1 – OLTP versus OLAP Le Data Mining (Fouille de données) signifie littéralement forage de données. Il s'agit d'un ensemble de techniques qui permettent d'extraire des modèles d'une base de données historisées afin de décrire le comportement actuel et de prédire les comportements futurs. Le Data Mining est Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de données valides, nouveaux, utiles et compréhensibles. – Itératif : nécessite plusieurs passes. – Interactif : l‟utilisateur est dans la boucle du processus. – Valides : valables dans le futur. – Nouveaux : non prévisibles. – Utiles : permettent à l‟utilisateur de prendre des décisions. – Compréhensibles: présentation simple. La fouille de données (exploration de données / data mining) (forage de données), a pour objet l‟extraction d'un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir. -3- Chapitre 1 : Introduction générale Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Certains considèrent cette technique comme "l'art" voire même la "science" de l'extraction d'informations significatives de grandes quantités de données. Le principe du Data Mining est de creuser une mine (le DW) pour rechercher un filon (l‟information) et l‟évolution par rapport aux statistiques « classiques » Ses objectifs sont la prédiction (What-if), la découverte de Règles Cachées (corrélations), la confirmation d‟hypothèses. En peu de mots, le Data Mining présente l'avantage de trouver des corrélations informelles entre les données. Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables. A contrario des méthodes classiques d'analyses statistiques, le Data Mining est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte. Avec le Data Mining, ces "tera-nesque" bases de données sont exploitables. Les outils de data mining proposent différentes techniques à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre. Il existe ainsi des méthodes utilisant les techniques de classification et de segmentation. Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification Les méthodes fondées sur des principes et des règles d'associations ou d'analogies Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones Et pour les études d'évolution de populations, les algorithmes génétiques Processus de découverte des connaissances – Data Mining : Cœur du KDD (Découverte de connaissances dans les données; Knownledge Data Discovery) -4- Chapitre 1 : Introduction générale Evaluation du modèle Connaissance Data Mining Données pertinentes Data Warehouse Sélection Data Cleaning Intégration de données Bases de données Fig. 1.2- processus d‟extraction des connaissances à partir des données Applications du Data Mining : – L'analyse comportementale des consommateurs : o ventes croisées, similarités de comportements, cartes de fidélité, ... – La prédiction de réponse à un mailing ou à une opération de markting direct (pour en optimiser les coûts) – La prédiction de l'attrition des clients : quels sont les indices de comportement permettant de détecter la probabilité qu'un client a de quitter son fournisseur o sa banque, son opérateur de téléphonie mobile, ... – La détection de comportements anormaux ou frauduleux o transactions financières, escroquerie aux assurances, distribution d'énergie, ... – La recherche des critères qui permettront d'établir ensuite un scoring pour repérer les « bons » clients sans facteur de risque et leur proposer peut-être une tarification adaptée o par exemple pour une banque ou une compagnie d„assurance. – La suggestion optimale en temps réel lors d'un appel à un call center. OLAP - Data Mining: OLAP= Le Quoi? Data Mining = Le Pour quoi? -5- Chapitre 1 : Introduction générale 1.2 Objectifs et contributions Dans le cadre de ce mémoire, nous proposons de combiner l‟analyse en ligne et la fouille de données afin de les intégrer dans un même processus d‟aide à la décision. Le but de ce couplage est d‟enrichir les capacités de l‟analyse OLAP et de proposer aussi une solution au problème de l‟analyse des données complexes. L‟objectif de ce mémoire est de proposer une démarche pour intégrer l‟explication et la prédiction de données complexes dans l‟analyse OLAP en s‟inspirant des méthodes utilisées en fouille de données. Il s‟agit de faire une synthèse bibliographique sur les travaux existants en matière d‟analyse des données complexes, du couplage entre fouille de données et analyse en ligne et des méthodes de prédiction en fouille de données. Il s‟agit aussi de proposer une formalisation théorique et une implémentation (sur une plateforme Web déjà existante) d‟un opérateur OLAP de prédiction basé sur une méthode de fouille de données. Une validation par expérimentations est aussi requise afin d‟évaluer l‟opérateur de prédiction sur des cubes de données complexes. 1.3 Organisation du mémoire La suite de ce rapport de mémoire est organisée de la manière suivante : Le chapitre 2 introduit une étude bibliographique basée sur les travaux déjà existant en matière d‟analyse des données complexes, du couplage entre fouille et l‟analyse en ligne et des méthodes de prédiction en fouille de données. Le chapitre 3 présente les nouveaux opérateurs OLAP existant. Le chapitre 3 spécifie une formalisation théorique d‟un opérateur OLAP de prédiction basé sur une méthode de fouille de données en se basant sur les cubes de prédiction. Le chapitre 4 présente quelques recherches en cours ; une plateforme d‟entreposage XML de données. En fin nous conclurons et présentons quelques unes de nombreuses perspectives associées à ce thème de recherche. -6- Etat d‟art Résumé Dans ce premier chapitre, nous présentons un état d‟art à partir d‟une synthèse d‟une étude bibliographique dont nous explorons les travaux existants en matière d‟analyse des données complexes, du couplage entre fouille et analyse en ligne et des méthodes de prédiction en fouille de données. Cette partie est scindée en 4 parties dont nous distinguons, d‟une manière générale le contexte, les références, les travaux réalisés, les expositions scientifiques traitant cette approche. Et on finira cette partie par une conclusion ou nous précisons le positionnement de notre travail par rapport à l‟existant. Sommaire 2.1 Introduction 2.2 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 1ére approche : Adaptation des données multidimensionnelles 2.3 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 2éme approche : Extension de l‟analyse OLAP et des langages de requêtes 2.4 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 3éme approche : Adaptation des techniques de fouille de donnée 2.5 Conclusion -7- Chapitre2 Etat de l‟art « L'histoire humaine est par essence l'histoire des idées.» Herbert George Wells, Extrait de “The outline of history” 2.1 Introduction Le problème de la représentation des données est un enjeu important dans le problème du couplage entre l‟analyse en ligne et la fouille de données. En effet, d‟un côté, les algorithmes de fouille ne peuvent opérer que sur des données présentées sous la forme classique d‟un tableau attributs-valeurs (connu aussi sous le nom de tableau individusvariables). De l‟autre côté, dans le contexte d‟un entrepôt de données, les données sont organisées selon une structure multidimensionnelle adaptée à l‟analyse en ligne. Ainsi, la divergence des espaces de représentation des données propres aux deux domaines fait de la combinaison de l‟analyse en ligne et de la fouille de données une tâche particulièrement délicate qui demande des adaptations préalables d‟un côté comme de l‟autre. Imieliski et Mannila étaient les premiers qui se sont intéressés au problème général de l‟intégration de l‟ECD dans les systèmes de gestion de bases de données (SGBDs). Dans [IM96], les auteurs pensent déjà que la fouille dans les bases de données va aboutir à la création de nouveaux concepts, de nouvelles stratégies d‟interrogation et de nouveaux langages de requêtes. Les auteurs prévoient même la naissance d‟une seconde génération de systèmes de gestion de bases de données. Ils imaginent deux scénarii pour la suite des recherches dans ce domaine. Le sujet de couplage entre la fouille de données et l‟analyse en ligne OLAP est tout récent, peu sont les travaux réalisés dans ce contexte. Cependant trois grandes approches se dégagent, la figure 2.1 s illustre ces approches : -8- Chapitre 2 : Etat de l‟art Technique de fouille de données Opérateur OLAP Extension des opérateurs OLAP SGBD Adaptation des données multidimensionnelles Fig.2.1 - Les trois approches du couplage des techniques de fouille avec l‟analyse en ligne 1. La première approche : Adaptation des structures multidimensionnelles : Ce 1er groupe d‟approche consiste à transformer les données multidimensionnelles en données bidimensionnelles afin de les rendre exploitables par les algorithmes classiques de fouille. 2. La deuxième approche : Extension de l’analyse OLAP et des langages de requêtes : Ce groupe concerne des approches de type instrumental qui tirent partie des spécificités et des outils offerts dans les systèmes de gestion de bases multidimensionnelles (SGBDMs) ces approches consistent à étendre les opérateurs OLAP ou le langage de requêtes SQL et à utiliser ces derniers comme instruments pour extraire et transmettre les données nécessaires pour la construction d‟un modèle d‟apprentissage. 3. La troisième approche : Adaptation des techniques de fouille de données : Ce 3éme groupe comprend les approches qui ont pour but de faire évoluer les algorithmes de fouille de données et de les adapter aux espaces de représentation multidimensionnelles des données. Ainsi, selon ces approches, on peut appliquer des algorithmes évolués directement dans les cubes de données. 9 Chapitre 2 : Etat de l‟art Nous détaillerons dans la suite les différents groupes d‟approches. Certes, s‟agissant d‟un domaine de recherche en plein essor, nous essayons de présenter une liste la plus exhaustive possible des références traitant du couplage de la fouille de données et de l‟analyse en ligne. Néanmoins, nous présentons les travaux les plus intéressants et qui répondent au mieux à la problématique étudiée. Cette synthèse repose sur une organisation thématique qui croise les trois approches, que nous avons détectées, avec les trois familles de techniques de fouille de technique de fouilles de données, à savoir: (i) les techniques de visualisation et de description; (ii) les techniques de structuration et de classification et (iii) les techniques d‟explication et de prédiction. Nous avons fait la différence entre les trois grands groupes d‟approches traitant le problème du couplage de l‟analyse en ligne et de la fouille de données, afin de positionner nos contributions nous exposons une synthèse des travaux existants. 2.2 Comparaison des propositions de couplage de l’OLAP et de la fouille de données selon la 1ére approche : Adaptation des données multidimensionnelles Proposition Type de technique de fouille Visualisation Structuration et Explication et description classification Chen et al. Maedche et al. et prédiction Réseaux Bayésiens k-means Goil et Choudhary Arbres de décision Zaiane et al. Séries temporelles Tjioe et Taniar Règle d‟association Fu Arbres de décision Messaoud,Bouddaid,Rabaséda ACM Tab 2.1 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 1ére approche : Adaptation des données multidimensionnelles Cette approche vise la création d‟un pont reliant les données multidimensionnelles et les algorithmes classiques de fouille. Deux optiques sont envisageables dans ce sens. La première consiste à utiliser les spécificités et les avantages des SGBDM (systèmes de gestion des bases de données multidimensionnelles) pour aider l‟algorithme d‟apprentissage pendant 10 Chapitre 2 : Etat de l‟art la construction de son modèle de connaissances. La deuxième optique agit sur la structure même des données cubiques afin de les transformer et de les rendre exploitables par l‟apprentissage inductif. Adaptation des SGBDM : Dans l‟article [LGM00], ils proposent une coopération entre le SGBDM Oracle Express avec un logiciel d‟arbres de décision flou (Salammbô), leur choix du SGBDM est provoqué par sa capacité de calcul des agrégats complexes et son adaptation à la manipulation des données. Permettant de transférer la gestion de la base d‟apprentissage, les contraintes de stockage et de manipulation des données dans le SGBDM. Cependant pour réussir une telle coopération, l‟algorithme d‟apprentissage et le SGBDM doivent être équipés par des mécanismes de communication leur permettant d‟échanger automatiquement requêtes et réponses (Figure 2.2). SGBDM Module de communication Transfert de résultats Transfert de requêtes Module de communication Algorithme d’apprentissage Fig. 2.2 – Coopération entre SGBDM et Algorithme d‟apprentissage Adaptation des données multidimensionnelles : Ce groupe d‟approches consiste à faire un rapprochement entre les algorithmes classiques de fouille et les données multidimensionnelles moyennant l‟adaptation de ces dernières. Prétraitement des données multidimensionnelles avec l’OLAP : Dans [CZC01], Chen et al. introduisent la plateforme IIMiner (Integrated Interactive Data Miner) pour la fouille des données hétérogènes qui proviennent de sources différentes. D‟une manière générale, avec le développement de la technologie des entrepôts de données, les auteurs pensent qu‟il est naturel de voir une émergence de projets visant l‟intégration de la fouille de données avec les outils OLAP dans les systèmes décisionnels. Dans la plateforme proposée, les auteurs définissent un processus ECD selon lequel les entrepôts de données sont le support des données et la technologie OLAP permet d‟effectuer des pré-traitements sur ces données. Ainsi, un processus ECD est une succession d‟étapes prises en charge par 11 Chapitre 2 : Etat de l‟art l‟entreposage de données, l‟analyse en ligne OLAP et la fouille de données. Dans la plateforme IIMiner, Chen et al. cherchent des corrélations entre les données de l‟entrepôt. Pour cela, ils utilisent des opérations OLAP pour mettre en forme les données, concernées par l‟apprentissage, selon un tableau individus–variables. Les auteurs emploient ensuite la méthode des réseaux bayésiens afin de découvrir et de représenter graphiquement les causalités des données. Fig. 2.3 – Pré-traitement des données avec les outils OLAP [MHW00] Dans [MHW00], Maedche et al. proposent également d‟utiliser l‟OLAP comme outil de pré- traitement pour des données de télécommunication. Leur approche combine les bases de données multidimensionnelles avec les systèmes classiques de fouille de données en utilisant les outils OLAP comme interface (voir figure 3). D‟une manière générale, les auteurs affirment que plus le volume des données est grand, plus leur compréhension et leur prétraitement deviennent difficiles. La vocation de l‟analyse en ligne est de gérer et d‟explorer des grands volumes de données. En plus, l‟OLAP permet une bonne interaction entre l‟utilisateur et la base de données. Dans le cadre de leur application, Maedche et al. proposent donc de créer, à l‟aide d‟outils classiques de l‟analyse en ligne, un processus flexible pour comprendre et nettoyer les grands volumes de données relatifs au domaine des télécommunications. Ces données nettoyées sont mises en forme tabulaire et sont chargées ensuite dans une composante de fouille de données. Dans [MHW00], les auteurs proposent d‟utiliser la méthode des k-means pour classifier les abonnés du service téléphonique selon leurs profils de consommation. 12 Chapitre 2 : Etat de l‟art Mise en forme des données multidimensionnelles avec l’OLAP Dans [GC99], Goil et Choudhary affirment que les techniques de fouille de données peuvent être appliquées en conjonction avec les outils de l‟analyse en ligne. Ils mentionnent également qu‟une structure multidimensionnelle des données peut représenter une base d‟apprentissage plus riche qu‟une structure classique. Dans le cadre d‟une plateforme parallèle PARSIMONY dédiée à l‟analyse OLAP et la fouille de données, les auteurs proposent un classement dans les données multidimensionnelles par arbres de décision [GC99, GC01]. Cette approche consiste à utiliser les outils OLAP pour extraire, à partir d‟un cube de données, une matrices de contingence pour chaque dimension et à chaque étape de la construction de l‟arbre de décision. Ces matrices sont exploitées pour le calcul des indices de Gini afin de déterminer la variable d‟éclatement de la prochaine itération. Aplatissement et préparation des données d’un entrepôt : En 2005, l‟article [TT05] et dans un contexte d‟extraction des règles d‟association à partir des entrepôt de données, Tjioe et Taniar proposent des formalismes de pré-traitement des données multidimensionnelles avant la phase de recherche des motifs fréquents. Ces formalismes préparent les données à fouiller d‟une manière ciblée en vue de faciliter la recherche des motifs les plus intéressants au sens de l‟analyse souhaitée par l‟utilisateur. Les auteurs proposent quatre algorithmes de pré-traitement des données dans un cube : VAvg, HAvg, WMAvg, et ModusFilter. L‟idée générale de ces algorithmes consiste à transformer les données d‟un cube sous forme tabulaire dans un premier temps et d‟élaguer dans un second temps les données inintéressantes ayant des valeurs inférieures à la moyenne par ligne ou par colonne. Les tableaux de données obtenus (initialized tables) sont ensuite utilisés comme entrée d‟un algorithme classique de recherche de motifs fréquents et d‟extraction de règles d‟association. Dans [Fu05], Fu pense que, dans un système d‟aide à la décision, l‟emploi d‟un entrepôt de données et de l‟analyse en ligne est une solution simpliste qui ne répond pas aux besoins de l‟extraction des connaissances. Par conséquent, l‟auteur propose une architecture d‟un système intégré qui combine un SGBD pour les données multidimensionnelles, une composante OLAP et une composante OLAM (Online Analytical Mining). Comme le montre la figure6 ci dessus, selon cette architecture, les utilisateurs peuvent soumettre des requêtes SQL, CQL ou DMQL (Data Mining Query Language) via une interface commune. La requête de l‟utilisateur est ainsi analysée par un parseur qui va l‟acheminer vers les différentes 13 Chapitre 2 : Etat de l‟art composantes du système. En cas d‟une incohérence syntaxique de la requête, le parseur renvoie un message d‟erreur. Dans le cadre de ce système, l‟auteur introduit aussi un classifieur, appelé CubeDT, qui construit des arbres statistiques. Un arbre statistique est une structure multidimensionnelle particulière inspirée des arbres de décision [FH00]. Cependant, l‟algorithme CubeDT travaille sur des données extraites et aplaties par une composante de chargement (Loader) à partir d‟un entrepôt de données via le serveur OLAP du système. Fig. 2.4 – Architecture d‟un système intégrant SGBD, OLAP et MOLAP [Fu05] Réorganisation des cubes de données par une approche factorielle: Dans [MRB05], les auteurs ont couplé l‟analyse en ligne avec une méthode factorielle dédiée à la visualisation et à la description. Concrètement, ils ont utilisé l‟analyse de correspondances multiples [ACM] dans le but d‟améliorer la présentation des faits dans un cube de données [MBR06d, MBR06b]. Dans une phase préparatoire, les données du cube sont transformées en tableau disjonctif complet selon un codage binaire approprié, l‟application de l‟ACM, sur ce dernier, fournit une réorganisation des modalités dans les dimensions cube. Grace à cette réorganisation, ils ont parvenu à fournir des points de vue intéressants qui homogénéisent au mieux le nuage des faits dans le cube de données. Ainsi, cette proposition permet de pallier le problème, souvent rencontré, de la visualisation des données multidimensionnelles engendré par la volumétrie et l‟éparsité des 14 Chapitre 2 : Etat de l‟art ces derniers [MAF05]. De plus, afin de valider l‟apport de la réorganisation du cube, ils proposent un indice d‟homogénéité pour mesurer la qualité de représentation des données multidimensionnelles [MRB05]. 2.3 Comparaison des propositions de couplage de l’OLAP et de la fouille de données selon la 1éme approche : Extension de l’analyse OLAP et des langages de requêtes Proposition Type de technique de fouille Visualisation et Structuration et Explication et prédiction description classification Règles Han et al. d‟associassions. Arbres de décision Chaudhuri et al. Arbres de décision. Réseaux Bayésiens Goil et Choudhary Règles d‟associassions. Laurent et al. Arbres de décision flous Naouali et al. Motifs fréquents Missaoui et al. Motifs fréquents fermés Règles d‟associassions. Règles d‟association Liu et al. Messaoud, Boussaid et CAH Rabaséda Tab.2.2 – Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 1éme approche : Extension de l‟analyse OLAP et des langages de requêtes 15 Chapitre 2 : Etat de l‟art Les origines de ce deuxième groupe d‟approches de couplage entre l‟OLAP et la fouille de données remontent aux propositions d‟implantation de la fouille dans les bases de données relationnelles. En effet, nous estimons que l‟utilisation des outils des SGBDMs pour la fouille des données multidimensionnelles s‟inscrit dans une logique de continuité avec les efforts d‟intégration de la fouille dans les SGBDs relationnels. À titre d‟exemple, selon une approche relationnelle, Meo et al. [MPC96] ont proposé un opérateur SQL pour la recherche de règles d‟association dans les bases de données relationnelles. Cet opérateur consiste en une extension de la syntaxe de SQL en y intégrant une nouvelle close MINE RULE. Dans [STA98], Sarawagi et al. Ont largement étudié, moyennant une extension SQL, l‟intégration de la découverte des règles d‟association dans les SGBDs. Afin d‟éviter des temps de traitements important engendrés par les entrées-sorties dans une base relationnelle, d‟autres travaux ont tenté d‟exploiter les outils propres aux SGBDs pour y intégrer la fouille. Par exemple, Bentayeb et al. [BDU04, UBDB04] ont proposé d‟intégrer la fouille par arbre de décision ID3 [Qui86] à l‟aide de procédures PL/SQL stockés dans Oracle. Fouille de données en ligne En 1997, Han a élaboré les premières recherches concernant le couplage de fouille de données avec la l‟OLAP. Ces travaux ont abouti à la création d‟un système, baptisé DBMiner, doté d‟outils de visualisation spatiale des cubes de données. Ce dernier est doté d‟outils d‟exploration graphique et de visualisation spatiale des cubes de données. L‟objectif de ces travaux est de réaliser de la fouille de données en ligne sur les grandes bases de données. Fig.2.5- Exemple d‟une exploration d‟un cube à trois dimensions dans DBMiner [Han97] 16 Chapitre 2 : Etat de l‟art Dans [Han97] [Han98], Han a défini la notion de l’OLAP Mining comme étant un mécanisme qui intègre des taches de fouille de données dans des requêtes décisionnelles. Ce mécanisme peut s‟appliquer à différents niveaux de granularité des données et à différentes parties d‟un entrepôt de données (intégrer les opérateurs OLAP dans les techniques de fouille de données et qui serait susceptible de s‟appliquer à différents niveaux hiérarchiques d‟une dimension et à différentes portions d‟un entrepôt de données). Dans [HCC98], on parle déjà de la terminologie On-Line Analytical Mining (OLAM) pour un processus d‟analyse où les techniques de fouilles sont utilisées, comme des opérateurs OLAP, pour extraire des connaissances. Une synthèse de la démarche OLAM est largement évoquée dans [HCC98]. Avec le processus OLAM, Han et al. prévoient même que les entrepôts de données feront, dans l‟avenir, une large plateforme pour l‟apprentissage automatique. Les travaux de Han sont motivés par les données multidimensionnelles qui sont déjà nettoyées. Ceci les rend parfaitement appropriées pour une exploitation directe dans le processus d‟extraction des connaissances sans trop avoir besoin de passer par les phases habituelles de prétraitement et de nettoyage. D‟autre part, un entrepôt de données est doté d‟un schéma conceptuel adapté à l‟analyse en ligne et offre de grandes potentialités de navigation dans les données. DBMiner, est fondé sur une instrumentation par les opérateurs OLAP en leur ajoutant des extensions aptes à simuler diverses techniques de fouille de données telles que la détection de règles d‟association, la caractérisation d‟attributs, la classification, la prédiction, etc. Cependant, à nos yeux, les références relatives au système DBMiner, [Han97] [Han98] [HCC98], décrivent plutôt le côté fonctionnel de ce dernier et manquent de précision sur les procédés employés dans la réalisation de ce genre de brassage entre la fouille de données et l‟analyse en ligne. Dans la même optique instrumentale, le laboratoire HP a proposé un prototype, qui génère des règles d‟association via l‟exploitation de la structure cubique par manipulation des opérateurs OLAP [CDH99] [CDM00], de suivi des habitudes des consommateurs sur le web. L‟architecture du prototype fait coopérer des serveurs multidimensionnelles distribuées sur plusieurs sites géographiques. 17 OLAP et des bases Chapitre 2 : Etat de l‟art OLAP Entrepôt de données Station locale OLAP Entrepôt de données OLAP Station globale Cube de profil Cubes de règles d’association Entrepôt de données Station locale Fig. 2.6 – L‟architecture du moteur distribué de génération de règles d‟association Les serveurs OLAP jouent le rôle de moteurs de générations de règles d‟association fonctionnelles à différentes portions et granularités des dimensions d‟un cube. Les règles d‟association générées sont physiquement concrétisées par des cubes qui leur sont spécifiques: Association rule cubes (Figure 2.6). La production de ces cubes se fait périodiquement de façon incrémentale permettant ainsi la détection de l‟évolution des usages de consommation. Ces travaux rejoignent ceux de Han, où les opérateurs typiques de l‟OLAP sont étendus dans leur langage de requête pour générer de nouvelles structures cubiques orientées vers la simulation de la découverte des règles d‟association. Tout de même, il faut signaler la distinction des travaux de [CDH99] [CDH00] qui incorporent cette stratégie dans le contexte distribué des grandes bases de données. Dans le contexte parallèle des bases de données, Goil et Choudhary [GoCh99] [GoCh01], ont mené des recherches sur la question des apports potentiels de la structuration cubique dans la découverte des connaissances, aussi ils signalent, dans [GoCh97] et [GoCh98], que la structuration cubique a fait ses preuves avec les opérateurs OLAP en apportant des solutions d‟interactivité et de performance dans l‟analyse en ligne. Ils suggèrent que ces solutions peuvent être plus compétitives avec la mise en œuvre de la fouille de règles d‟association. Leurs premiers travaux d‟instrumentation OLAP se sont focalisés dans la détection des attributs ad hoc pour la génération des règles à différents niveaux d‟agrégation des dimensions d‟un cube. 18 Chapitre 2 : Etat de l‟art Agrégation par classification dans les cubes de données : Dans le cadre de cette approche instrumentale, Messaoud, Boussaid et Rabaséda ont associé l‟analyse en ligne à une technique de structuration et de classification. En utilisant la classification ascendante hiérarchique (CAH) pour améliorer la qualité d‟agrégation dans les cubes de données. Dans [MBR06], les auteurs exploite des opérateurs OLAP d‟exploration, tels que le forage vers le haut (roll-up) et le forge vers le bas (drill-down), en vue d‟extraire des individus et les variables nécessaires à la classification, ils classifient particulièrement les modalités d‟une dimension d‟un cube selon leur ressemblances. Ensuite, ils agrègent les faits du cube selon les classes de modalités obtenues. Ainsi, être capable de fournir des agrégats de données sémantiquement plus riche que celle de l‟OLAP (classique) qui était le sujet de [MRBB04, MBR04]. Egalement ils proposent une évolution de la séparabilité des classes fournies par les partitions de la CAH afin d‟assister dans le choix de meilleur nombre d‟agrégats [MBR06a] 2.4 Comparaison des propositions de couplage de l’OLAP et de la fouille de données selon la 3éme approche : Adaptation des techniques de fouille de donnée Proposition Type de technique de fouille Visualisation Structuration et Explication et prédiction et description classification Palpanas Parsaye Imielinski et al. Cubegrades Dong et al. Constrained gradients Sarawagi et al. Modèle log-linéaire Robin et Favero Analyses quantitatives Messaoud, Boussaid, Règles d‟associations et Rabaséda Tab.2.3 – Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 3éme approche : Adaptation des techniques de fouille de donnée 19 Chapitre 2 : Etat de l‟art La troisième approche fait appel à un emploi direct des algorithmes d‟apprentissage dans les données multidimensionnelles. Un travail d‟adaptation de ces algorithmes, dans ce cas, est nécessaire pour établir la communication entre l‟algorithme et la nouvelle forme de représentation des données. Peu de travaux ont abordé le couplage de la fouille avec les données multidimensionnelles selon cette approche. Palpanas explique ce fait par la nouveauté relative de la technologie OLAP et par la focalisation des recherches sur le domaine de la fouille des données [Pal00]. Devant la richesse des données multidimensionnelles, leur modélisation pour le domaine décisionnel et l‟impuissance de la solution OLAP à satisfaire des besoins d‟analyses approfondies, une analyse approfondie de ces données, basés sur la fouille de données entrainera des modèles de connaissance plus valorisantes que le cas de la fouille classique [Pal00]. L‟auteur affirme qu‟une analyse complète doit intégrer aussi bien des opérateurs OLAP que les techniques de fouille dans un seul processus de découverte des connaissances. Dans ce processus, l‟OLAP doit constituer un automate qui propose à l‟analyste des pistes pour le guider dans sa tâche d‟exploration des données multidimensionnelles. Tout de même, Palpanas prévoit que la structure multidimensionnelle peut servir de source pour l‟extraction de modèles de connaissances plus riches et qui sont introuvables dans les données tabulaires, habituellement inaccessibles avec la forme bidimensionnelle des données. Palpanas prédit des horizons prometteurs pour la recherche de l‟intégration de la fouille dans l‟environnement multidimensionnel. Il prévoit, également, une évolution des algorithmes d‟apprentissage pour s‟adapter aussi bien aux opérateurs OLAP qu‟à la structure hiérarchique des données. Ceci les rendra capables de produire des connaissances à différents niveaux de granularité de l‟information [Pal00]. D‟une manière semblable, dans [Par97], l‟auteur propose un système théorique, appelé OLAP Data Mining System, évoluant dans un espace hybride formé par des données et agrégats. Ce système comprend trois composantes : une base de données relationnelle pour l‟entreposage des données, un système MOLAP ou ROLAP pour la structuration et l‟accès aux données et une composante de découverte de connaissances dans les données multidimensionnelles (multidimensional discovery engine) Actuellement, nous pensons que les travaux de Sarawagi et al. ([SAM98] [Sar99] et [Sar01]) sont parmi les rares qui ont été concrètement réalisés selon cette approche. Dans [SAM98], Sarawagi et al. proposent un outil d‟identification des régions remarquables dans les cubes de données. Habituellement pour détecter des exceptions ou des 20 Chapitre 2 : Etat de l‟art valeurs aberrantes dans les données multidimensionnelles (cubes), un utilisateur est amené à naviguer dans un grand déluge de valeurs contenues dans un espace de dimensions étendues. Ce qui rend ce travail assez pénible et coûteux en termes de temps et de traitements. Face à ce problème, [SAM98] introduisent un nouveau modèle statistique intégré dans un serveur OLAP (Discovery-driven) pour assister l‟utilisateur dans sa tâche d‟analyse et d‟exploration dans les cubes de données (Figure 7). Le modèle a pour vocation de guider l‟utilisateur à détecter les motifs des données remarquables à différents niveaux des dimensions d‟un cube ; suivant plusieurs dimensions et à différents niveaux de granularité. Interface de visualisation Client Pilote ODBC Réponse tabulée Serveur OLAP Serveur Requête SQL Résultat de la requête Procédure de détection des régions remarquables Fig. 2.7 – Architecture de l‟implémentation « Discovery-driven » Le fondement du modèle se base essentiellement sur la comparaison des valeurs prédites des cellules avec leurs contenus réels. Une combinaison avec les différentes dimensions de ces cellules est envisagée pour la vérification de l‟aberrance du contenu. Statistiquement, la prédiction de la valeur d‟une cellule est assurée par une régression multidimensionnelle qui construit un modèle d‟équation expliquant la valeur prédite en fonction des agrégats de ses dimensions. Cependant, l‟implémentation de cette approche statistique n‟est pas évidente du moment où elle doit tenir compte des différentes dimensions d‟un cube, ainsi que les différents agrégats de chaque dimension et de l‟ensemble des combinaisons possibles de ces dimensions. A ce propos, dans [SAM98], ils ont utilisé des méthodes d‟optimisation qui réduisent les coûts de traitements et améliorent les performances d‟analyse par un facteur de trois. Une amélioration de ces travaux est réalisée par Sarawagi [Sar99] [Sar01], cet approfondissement concerne une meilleure automatisation de l‟analyse par l‟emploi de la programmation dynamique. Cette automatisation est garantie par le nouvel opérateur iDiff qui, à la fois, détecte les régions remarquables et explore les raisons de présence de ces régions dans un cube de données. Ces raisons sont exprimées, sous forme de tableaux sommaires, en 21 Chapitre 2 : Etat de l‟art fonction des valeurs d‟autres cellules du cube appartenant à des niveaux d‟agrégation plus fins et en corrélation logique avec les cellules de départ. Un prototype est implémenté pour cet opérateur sur le serveur DB2/OLAP d‟IBM. Des expérimentations sur ce prototype ont démontré le bon niveau de performance de l‟algorithme en fonction du nombre de tuples, les granularités choisies et la taille des réponses. Donc, Nous sommes en présence d‟une implémentation faisant le lien entre une nouvelle forme de fouille et l‟analyse en ligne. Des travaux similaires, de Favero et Robin qui ont adopté une approche semblable à celle de Sarawagi. Dans [RF01], ils proposent le système HYSSOP (HYpertext Summary System of On-line analytical Processing) pour générer automatiquement des statistiques quantitative extraites à partir des cubes de données (données multidimensionnelles). Ces statistiques sont examinées en langage naturel intégrant des liens hypertextes. Dans [FR00, RF01], les auteurs pensent que l‟association entre la fouille de données et l‟analyse en ligne peut réaliser des analyses quantitatives du contenu d‟un cube, ils proposent, ainsi, une composante de fouille de données (Content Determination) intégrée dans HYSSOP, qui concrétise cette approche en utilisant les hiérarchies du cube pour classifier les données. Les résultats de ce module sont pris en charge par un générateur de langage naturel (Naturel Language Generation) afin de donner des résumés textuels compréhensibles par l‟être humain. Généralisation des règles d’association aux données multidimensionnelles : Imielinski et al. proposent une intégration des règles d‟association aux cubes de donnés. Dans [IKA02], les auteurs introduisent une généralisation des cubes de données et des règles d‟association; le concept des cubes de données différentielles nommé : Cubegrades. Ce dernier est un formalisme qui calcule le différentiel des mesures agrégées d‟un cube de données par passage d‟un cube source à un cube cible. Un tel passage peut correspondre à une opération de spécification (drill-down), de généralisation (roll-up) ou de permutation d‟une modalité dans une dimension (switch). (%Par exemple, un cubegrade permet de voir de combien est la moyenne des âges de consommateurs de pain quand on spécialise la population à celle des consommateurs de pain et de lait%). En d‟autres termes, un cubegrade exprime de combien un agrégat d‟un cube de données peut varier lors de modification de structure sur ce cube. D‟après Imielinski et al. considèrent les cubegrades comme étant une nouvelle formulation des connaissances hybrides combinant à la fois les règles d‟association et 22 Chapitre 2 : Etat de l‟art l‟analyse en ligne, et aussi, sont des atomes de connaissances qui expliquent le comportement des agrégats des différents segments d‟une base de données. Aussi, dans [IKA02], ils ont introduit un langage de requête, appelé CGQL (CubeGrades Query Language), pour interroger les cubegrades dans une base de données multidimensionnelles. Après les travaux de Imielinski et al. , Dong et al. ont introduit un article [DHL+01] dont ils ont proposé des améliorations dans le concept des cubegrades ou ils introduisent la notion des constrained gradients qui respecte une contrainte de significativité. Cette contrainte permet de contourner le problème de volumétrie des cubes de données à fouiller. Ainsi, la recherche des cubegrades de limite à la partie significative du cube qui satisfait la contrainte. Classiquement, la recherche des cubegrades consiste à comparer chaque cellule dans un cube source avec les autres cellules dans le cube cible. Dong et al. mentionnent que, même avec la contrainte de significativité, les cubegrades générés restent toujours nombreux. Par conséquent, les auteurs proposent aussi de prendre en compte une deuxième contrainte probabiliste permettant de restreindre la recherche des constrained gradients. Les auteurs ajoutent que, dans une analyse OLAP, on ne s‟intéresse souvent qu‟à certains niveaux de changements entre la cellule source et la cellule cible. Par exemple, un utilisateur ne s‟intéresse qu‟aux cellules dont la moyenne augmente de plus de 40%. Les auteurs, introduisent un seuil pour les mesures des cellules à choisir. Les paires de cellules dont les mesures varient avec des taux supérieurs au seuil sont appelées cellules gradients (gradient cells) et le seuil est appelé la contrainte du gradient (gradient constraint). L‟algorithme LiveSet-Driven algorithm est également proposé dans [DHL+01] pour la recherche des constrained gradients selon les trois contraintes développées. Explication dans les cubes de données par règles d’association : Messaoud, Boussaid et Rabaséda utilisent une méthode d‟explication dans les cubes de données. Leur proposition consiste à adapter la recherche des règles d‟association aux données multidimensionnelles. De ce fait, ils mettent en place un nouvel algorithme de type Apriori, capable d‟extraire des règles d‟association directement à partir d‟une structure multidimensionnelle sans avoir recours à une transformation tabulaire des données initiales. Cet algorithme repose sur une fouille de données pilotée par les besoins de l‟utilisateur via la définition d‟une méta-règle qui était traité dans [MRBM06]. Il se base sur une nouvelle définition du support et de la confiance des règles d‟association adaptée au contexte de 23 Chapitre 2 : Etat de l‟art l‟analyse en ligne [MBR06c]. Ils proposent aussi une visualisation graphique, basée sur la sémiologie graphique afin de valoriser les connaissances véhiculées par les règles extraites. 2.5 Conclusion Pour conclure, nous avons fait la différence entre les trois grandes groupes d‟approches traitent le problème du couplage de l analyse en ligne et de la fouille de données. Cette synthèse repose sur une organisation thématique qui croise les trois approches, que nous avons détectées, avec les trois familles de techniques de fouille de technique de fouilles de données, à savoir: (i) les techniques de visualisation et de description; (ii) les techniques de structuration et de classification et (iii) les techniques d‟explication et de prédiction. Nous avons fait la différence entre les trois grands groupes d‟approches traitant le problème du couplage de l‟analyse en ligne et de la fouille de données, afin de positionner nos contributions nous exposons une synthèse des travaux existants. La première approche (Adaptation des structures multidimensionnelles) de couplage de l‟analyse en ligne et de la fouille de données regroupe les travaux préconisent la transformation des données multidimensionnelles en données tabulaire. Cette approche bien que simple et intuitive, permet tout de même d‟extraire des connaissances à partir de données provenant de structures multidimensionnelles. Cependant, d‟une manière générale, la transformation des données multidimensionnelles en données tabulaires présente le risque de faire perdre à ces dernières leur aspect hiérarchique. De plus mise à part la proposition de Maedche et al. [MHW00] ou les auteurs font de la classification des consommateurs selon leur profits, toutes les autres propositions utilisent des méthodes d‟explication et de prédiction telles que les réseaux bayésiens, les arbres de décision et les règles d‟association. Compte à Messaoud, Boussaid et Rabaséda, utilisent la méthode de visualisation et de description, leur proposition permet d‟apporter une solution au problème de la visualisation des données engendré par l‟éparsité des données. En se basant sur les résultats d‟une analyse des correspondances multiples (ACM), ils tentent d‟atténuer l‟effet négatif de l‟éparsité en réorganisant différemment les cellules d‟un cube de données. À travers ce couplage entre l‟OLAP et l‟ACM, ils ont construit un espace de représentation se prêtant mieux à l‟analyse et dans lequel les faits du cube sont regroupés le mieux possible. 24 Chapitre 2 : Etat de l‟art La deuxième approche (Extension de l‟analyse OLAP et des langages de requêtes) est instrumentale et consiste à exploiter ou à étendre des outils existants à des taches de fouille de données. Cette extension porter sur les SGBDMs, les langages de requêtes SQL ou les opérateurs OLAP. Cette approche est intéressante car elle permet d‟intégrer la fouille de données dans un SGBDMs [Cha98] Ou dans des modules d‟analyse annexes [CFB97, CFB98]. Elle permet aussi d‟établir une coopération entre un SGBDM et un logiciel externe pour la fouille de données [LGM00, LBMD+00]. Le langage de requêtes SQL est donc utilisé afin d‟assurer la communication entre la source de données et l‟algorithme de fouille. Profitant de sa capacité d‟interroger de grandes bases de données nécessaire à chaque étape de construction des modèles d‟apprentissage. Par exemple, dans [CFB97, CFB98] pour chaque nœud d‟un arbre de décision, une requête SQL est formulée à la volée. Selon cette approche. La technologie OLAP peut être exploité pour extraire de données nécessaires à la recherche des règles d‟association dans les cubes de données [GC98a, GC98b] les opérateurs OLAP peuvent aussi faire l‟objet d‟une extension à une fouille en ligne [Han97, Han 98, HCC98]. De plus, avec ses capacités classiques d‟exploration et de navigation, l‟OLAP peut devenir un instrument utile pour la validation des connaissances extraites à partir des données multidimensionnelles [TNBP00, NNQ04, MJN06, LZBX06]. Tous les travaux qui abordent le problème de couplage selon cette approche, se limitent à des techniques d‟explication et de prédiction tel que les arbres de décision, les réseaux bayésiens, les motifs fréquents ou les règles d‟association. Cependant, dans [MBR06], les auteurs ont associé l analyse en ligne à une technique de structuration et de classification des données multidimensionnelles. Ils ont adopté l‟approche du couplage entre l‟analyse en ligne et la fouille de données qui exploite les outils OLAP afin d‟extraire les données nécessaires à la construction de l‟algorithme de fouille. Cette proposition fait l‟objet d‟une nouvelle agrégation des faits d‟un cube en se basant sur la classification ascendante hiérarchique (CAH). Celle-ci permet d‟obtenir de nouveaux agrégats sémantiquement plus riches que ceux fournis par les opérateurs OLAP classiques. La troisième approche (Adaptation des techniques de fouille de données) se base sur l‟adaptation des algorithmes de fouille aux données multidimensionnelles. Bien que récente et ayant peu d‟application concrètes, cette approche est aussi intéressante car elle permet d‟extraire des connaissances directement à partir des cubes de données, ce qui permet de 25 Chapitre 2 : Etat de l‟art prendre en compte l‟aspect multidimensionnelles et hiérarchiques des données dans la construction d‟un modèle d‟apprentissage. Dans l‟avenir cette approche est capable de créer une nouvelle génération de technique de fouille de données multidimensionnelles. Dans le cadre de cette approche, il n‟y a pas beaucoup de travaux qui ont concrétisé cet aspect de couplage sauf quelques propositions purement théorique de Palpanas [Pal 00] et de Parsaye [Par97] les cubegrades de Imielinski et al. [IKA02], les constrained gradients de Dong et al [DHL+02] et l‟opérateur iDiff de Sarawagi [Sar 99, Sar01] sont les seules qui tentent véritablement d‟adapter la fouille aux données multidimensionnelles. Messaoud, Boussaid et Rabaséda proposent un algorithme de fouille afin d‟extraire des connaissances directement à partir de la structure multidimensionnelle des données. Leur proposition s‟inscrit dans une démarche explicative dans les cubes de données en se basant sur les règles d‟association. Ils mettent en place un nouvel algorithme, de type Apriori, pour une recherche guidée des règles d‟association dans les cubes de données. Une visualisation graphique des règles d‟association extraites est également proposée afin de mieux valoriser les connaissances qu‟elles véhiculent. 26 Opérateurs de couplage entre OLAP et DM Résumé L‟idée de combiner l‟analyse en ligne et la fouille de données est une solution prometteuse pour renforcer le processus d‟aide à la décision, notamment dans le cas des données complexes. En effet, il s‟agit de deux domaines qui peuvent se compléter dans le cadre d‟un processus d‟analyse unifié. L‟objectif de cette partie est de présenter les nouvelles approches d‟aide à la décision qui reposent sur le couplage de l‟analyse en ligne et de la fouille de données. Sommaire 3.1 Introduction 3.2 Réarrangement d‟un cube par analyse factorielle (ACM): Opérateur ORCA 3.3 Agrégation par classification dans les cubes de données (CAH) : Opérateur OPAC 3.4 Explication par recherche guidée de règles d‟association dans un cube: Opérateur AROX 3.5 Conclusion 27 Chapitre 3 Opérateurs de couplage entre OLAP et DM « Savoir ce que tout le monde sait, c’est ne rien savoir. Le savoir commence là ou commence ce que le monde ignore. » Remy de Gourmont, “Promenades philosophiques” 3.1 Introduction Pour l‟analyse des données complexes, un nouveau cadre d‟analyse est nécessaire Double constat : o Opérateurs OLAP classiques pas forcément adaptés aux données complexes o Possibilités d‟analyse du DM beaucoup plus riches que celles de l‟OLAP : extraction de connaissances sous forme de modèles compréhensibles et validés (exploration, structuration ou prédiction) Fig 3.1 – Objectifs du couplage OLAP & DM 28 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Par conséquent : Besoin d‟une analyse en ligne plus élaborée et adaptée aux données complexes. Couplage OLAP et DM pour une analyse plus élaborée des données complexes. Certes, il y a des problèmes posés par le couplage : Couplage analyse en ligne et fouille de données o Utilisation conjointe des techniques d‟analyse OLAP et de fouille sur des mêmes données entreposées ? o Peut-on associer fouille de données et analyse OLAP pour une même analyse ? Vocation o des opérateurs OLAP : navigation et visualisation, agrégation dans le cube o de la fouille : exploration, classification et structuration, explication et prédiction Comment appliquer des algorithmes de fouille Comment appliquer les algorithmes de fouille de données sur des données multidimensionnelles ? Dans l‟analyse multidimensionnelle, comment étendre les opérateurs OLAP à de nouveaux opérateurs basés sur des techniques de fouille de données ? Fusionner les vocations de l‟OLAP et de la fouille de données en proposant des opérateurs d‟exploration, d‟agrégation et d‟explication des données complexes. Différentes approches de couplage : Comme nous avons mentionné dans le second chapitre, il existe trois groupes d‟approche de couplage : Adaptation des structures multidimensionnelles, Extension des opérateurs OLAP et Adaptation des algorithmes de fouille de données Adaptation des structures multidimensionnelles : Adaptation de la structure multidimensionnelle des données pour les rendre exploitables par des techniques de fouille Pinto et al. (Motifs fréquents multidimensionnels) Goil et Choudhary (Arbre de décision à partir d’un cube de données) Chen et al. (IIMiner : OLAP = Outil de prétraitement des données) 29 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Extension des opérateurs OLAP : Techniques d'apprentissage utilisées comme des opérateurs OLAP dans l'analyse en ligne, simulation par les opérateurs OLAP de techniques de fouille (règles d'association, caractérisation d'attributs, classification, prédiction, …) et s'appliquant à différents niveaux hiérarchiques d'une dimension OLAM - OLAP Mining (Han, 1997) et le système DBMiner Règles d‟association à partir des cubes (Goil et Choudhary, 1999) Association rule cubes (Chen, Dayal ) Adaptation des algorithmes de fouille de données : Application de la fouille au cœur des données multidimensionnelles Palpanas (Visions théoriques : processus d‟analyse élaborée) Sarawagi et al. (Discovery-driven : détection des valeurs remarquables) Favero et Robin (HYSSOP : rapports statistiques en langage naturel) Mais aucune des ces trois approches n‟emploie le couplage entre la fouille de données et l‟analyse en ligne en vue d‟étendre les fonctionnalités d‟OLAP pour une analyse plus élaborée des données complexes. Cependant, trois opérateurs de couplage ont été proposés : Réarrangement d‟un cube par analyse factorielle (ACM) o Opérateur ORCA Agrégation par classification (CAH) o Opérateur OPAC Explication par recherche guidée de règles d‟association dans un cube o Opérateur AROX 30 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.2 Réarrangement d’un cube par analyse factorielle (ACM) : o Opérateur ORCA 3.2.1 Introduction : Les opérateurs OLAP classiques permettent de: naviguer, explorer et résumer un cube et détecter des régions intéressantes dans le cube. Mais, dans des cubes épars et de grande taille il aura une navigation et exploration difficile ainsi qu‟un manque d‟outils automatiques. Par exemple, observer les niveaux de ventes en fonction des produits, des périmètres commerciaux (localisation géographique..) et de période d‟achat. De cette visualisation dépend la qualité de l‟exportation des données. Plusieurs facteurs peuvent dégrader cette visualisation ; représentation multidimensionnelle engendre une éparsité car à l‟intersection de différentes modalités de dimension, il n‟existe pas forcement de faits correspondants : l‟éparsité peut être accentuée par la présence d‟un grand nombre de dimensions (et/ou grand nombre) de modalités dans chacune de dimensions. En outres, les modalités des dimensions sont représentées selon un ordonnancement lexical pré-établi qui correspond souvent à un ordre naturel (ordre chronologique pour les dates et alphabétique pour les libellés par exemple.) Par conséquent, les points associés aux faits observés (les cellules pleines) sont éparpillés dans l‟espace des dimensions d‟un cube de données. Pour améliorer la visualisation des données dans les cubes, ils ont proposé une méthode qui consiste à coupler l‟analyse en ligne avec l‟analyse des correspondances multiples (ACM) [Ben 73]. Cette proposition adapte la première approche du coulage basant sur la transformation des données multidimensionnelles en données tabulaire afin de les exploiter par des algorithmes de fouille. 31 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Le Principe du réarrangement par analyse factorielle est illustré dans le schéma suivant : Fig.3.2 – étapes de la réorganisation d‟un cube de données par approche factorielle La 1ére étape consiste à transformer les données initiales d‟un cube en tableau individus- variables selon un codage binaire spécifique à l‟ACM. Dans la 2 éme étape, ils appliquent l‟ACM aux données transformées afin d‟obtenir des axes factoriel représentant aux mieux les faits OLAP et traduisant des relations avec les modalités des dimensions du cube, chaque axe factoriel (ou facteur) est caractérisé par une valeur propre indiquant l‟inertie (dispersion) des individus dans la direction définie par cet axe [LMP00]. D‟où l‟intérêt d‟une méthode de réorganisation des données multidimensionnelles pour réduire l‟effet de leur éparsité, dans cette méthode, ils utilisent l‟ACM comme étant un outil d‟aide à la construction de cubes de données ayant de meilleures caractéristiques pour la visualisation. L‟objectif de cette proposition est d‟atténuer l‟effet négatif de l‟éparsité des cubes sur la visualisation pas de diminuer l‟éparsité des cubes [NNT03]. Pour ce fait, ils regroupent les cellules pleines et les séparent le mieux possible des cellules vides dans l‟espace de représentation d‟un cube de données (arranger l‟ordre des modalités dans chaque dimension 32 Chapitre 3 : Opérateurs de couplage entre OLAP et DM du cube étudié étant donné que leur ordres initiaux n‟engendrent pas forcement une bonne visualisation.) Dans [MRB05], ils ont débuté une réflexion sur l‟usage de l‟analyse factorielle dans un contexte OLAP où ils ont montré que l‟ACM construit des axes factoriels qui offrent de meilleurs points de vue du nuage de points des faits d‟un cube. Dans [MAF05], ils arrangent les modalités selon leur projection sur les axes factoriels mais dans [MBR05, MBR06d, MBR06], ils les arrangent selon leurs valeurs-test. Le but de l‟OLAP est de fournir à l‟utilisateur un outil visuel pour explorer et naviguer dans les données d‟un cube afin d‟y découvrir des informations pertinentes. Certes, dans le cas de données volumineuses, telles que les données bancaires ou les données démographiques considérées dans notre étude, l‟analyse en ligne n‟est pas une tâche facile pour l‟utilisateur. En effet, un cube à forte dimensionnalité comportant un grand nombre de modalités, présente souvent une structure éparse difficile à exploiter visuellement. De plus, l‟éparsité, souvent répartie de façon aléatoire dans le cube, altère davantage la qualité de la visualisation et de la navigation dans les données. 3.2.2 Exemple de représentation d’un cube: P1 P2 L1 32 18 P3 P4 P5 P6 24 81 P7 P8 P9 16 52 L2 P10 18 43 L3 16 L4 74 L5 61 20 28 15 43 22 L6 31 L7 44 65 49 L8 12 14 13 67 21 43 (a) 33 53 Chapitre 3 : Opérateurs de couplage entre OLAP et DM P1 P3 L2 P5 P7 P8 P2 P10 P9 P6 43 L6 31 L3 13 28 15 20 16 L1 32 L7 P4 81 16 52 24 18 18 65 67 21 44 44 L5 14 22 61 53 L4 43 L8 43 74 12 (b) Fig. 3.3- cube de données à deux dimensions Dans cet exemple, les deux tableaux présentent un cube de données à deux dimensions: les localités géographiques d‟agences bancaires (L1, . . ., L8) et les produits de la banque (P1, . . ., P10). Les cellules grisées sur la figure 3.3 sont pleines et représentent la mesure des faits existants (chiffres d‟affaires, par exemple) alors que les cellules blanches sont vides et correspondent à des faits inexistants. La répartition des cellules pleines dans la représentation (a) ne se prête pas facilement à l‟interprétation. En effet, visuellement, l‟information est éparpillée dans l‟espace de représentation des données. En revanche, dans la représentation (b), les cellules pleines sont concentrées dans une zone centrale du cube. Cette représentation offre des possibilités de comparaison et d‟analyse des valeurs des cellules pleines (les mesures des faits) plus aisées et plus rapides pour l‟utilisateur. La représentation (b) est obtenue après une simple permutation de lignes et de colonnes de (a). Cette méthode permet à l‟utilisateur d‟améliorer automatiquement la qualité de la représentation des données (appelé nuage des faits, cellules pleines), cette réorganisation consiste à rassembler les cellules pleines dans l‟espace de représentation des données. En résumé, le but de cette méthode est de réorganiser le cube de manière à atténuer l‟impact négatif sur la visualisation que l‟éparsité engendre. Pour des raisons de complexité de traitements, ils excluent la recherche d‟un optimum global, voire même local, de l‟indice de qualité selon une exploration exhaustive des configurations possibles du cube ; c‟est à dire, toutes les combinaisons des arrangements possibles des modalités des dimensions du cube. 34 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.2.3 Notations générales Considérons les notations générales relatives à la structure d‟un cube de données. Pour faciliter la compréhension des formalismes des différentes propositions. On utilise également le même exemple du cube de données des ventes de la figure 3.4. Fig.3.4- exemple d‟un cube de données de ventes Soit donc C un cube de données ayant les propriétés suivantes : – C est constitué d‟un ensemble non vide de d dimensions D = {Di} (1≤i≤d) ; – C contient un ensemble non vide de m mesures M= {Mq}(1≤q≤m) ; – Chaque dimension Di ∈ D contient un ensemble non vide de ni niveaux hiérarchiques. Nous considérons que Hji est le jième niveau hiérarchique de la dimension Di. Par exemple, dans la figure 3.4, la dimension Lieu (D1) contient deux niveaux (n1 = 2): Continent et Pays. Le niveau Continent est noté H11 et le niveau Pays est noté H12 ; – Le niveau d‟agrégation totale All dans une dimension correspond au niveau hiérarchique zéro. Par exemple, dans la dimension D1 ce niveau est noté H01 ; – Hi = {Hij}(0≤j≤ni) représente l‟ensemble des niveaux hiérarchiques de la dimension Di, Par exemple, dans figure 3.4, l‟ensemble des niveaux hiérarchiques de D2 est: H2 = {H20 ,H21 ,H22} = {All, Famille de produits, Produit} ; – Chaque niveau hiérarchique Hij ∈ Hi consiste en un ensemble non vide de lij modalités. Nous considérons que aijt est la tième modalité du niveau Hij . 35 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Par exemple, dans le cube de figure 3.4, le niveau Famille de produits (H21) de la dimension Produit (D2) contient trois modalités (l21 = 3) : PC, notée a121 , PC por, notée a221 et MP3, notée a321 ; – Aij = {atij }(1≤t≤lij ) représente l‟ensemble des modalités du niveau hiérarchique Hji de la dimension Di. Par exemple, dans la figure 3.4, l‟ensemble des modalités du niveau Produit de D2 est A22 ={iTwin, iPower, DV-400, EN-700, aStar, aDream} ; – Pour le niveau d‟agrégation total d‟une dimension, nous considérons que All est la seule modalité de ce niveau. Ainsi, pour une dimension Di, on note que a1i0 = All et Ai0 = {All}. Dans la suite, considérons un cube C à d dimensions (D1, . . . ,Di, . . . ,Dd) et n faits OLAP observés selon la mesure quantitative Mq. Pour alléger les notations, on associe une dimension Di à son niveau hiérarchique Hji (0 < j ≤ ni) sélectionné par l‟utilisateur. Ainsi, on note que chaque dimension Di contient li modalités catégorielles au lieux de lij . Soit donc {a1i, . . . , ati, . . . , alii} l‟ensemble des modalités de la dimension Dt. On note aussi que 𝑙 = 𝑑 𝑖=1 𝑙𝑖 est le nombre total de toutes les modalités de C. On considère également qu‟une cellule A dans un cube C est pleine (respectivement, vide) si elle contient une mesure d‟un fait existant (respectivement, ne contient pas de faits). 3.2.4 Etape 1 : Construction du tableau disjonctif complet Z Une analyse de correspondance multiple (ACM) ne peut opérer que sur des données catégorielles codées en binaire selon un tableau disjonctif complet. Ainsi, afin d‟appliquer l‟ACM sur un cube C, on est amené à transformer ce dernier et à le représenter sous forme d‟un tableau disjonctif complet. Pour chaque dimension Di (i ∈ {1, . . . , d}), soit une matrice Zi à n lignes et li colonnes. Zi est telle que sa kiéme ligne contenant (li − 1) fois la valeur 0 et une fois la valeur 1 dans la colonne correspondant à la modalité que prend le fait fk (k ∈ {1, . . . , n}). Zi est un sous-tableau disjonctif qui décrit la partition des n faits induite par les modalités de la dimension Di. Le terme général de la matrice Zi s‟écrit : 1 z 0 i kt Si le fait fk prend la modalité ati de la dimension Di Sinon 36 Chapitre 3 : Opérateurs de couplage entre OLAP et DM En juxtaposant les d matrices Zi, nous construisons la matrice Z à n lignes et l colonnes. Z = [Z1, Z2, . . . , Zi, . . . , Zd] est un tableau disjonctif complet qui décrit les d positions des n faits du cube C par un codage binaire. Id 1 2 3 4 D1 L1 L2 L2 L1 D2 T2 T2 T1 T1 D3 P1 P3 P2 P3 M1 9 5 6 7 Z Z1 Id 1 2 3 4 L1 1 0 0 1 Z2 L2 T1 0 0 1 0 1 1 0 1 T2 1 1 0 0 P1 1 0 0 0 Z3 P2 0 0 1 0 P3 0 1 0 1 Tab 3.1. Exemple de transformation d‟un cube de données en tableau disjonctif complet 3.2.5 Etape 2 : Diagonalisation du tableau de Burt B (Tableau de contingence) A partir du tableau disjonctif complet Z, nous construisons le tableau symétrique B = Z′Z, ou Z′ désigne la transposée de Z. B est une matrice d‟ordre (l, l) qui rassemble les croisements deux à deux de toutes les dimensions du cube C. B est appelé tableau de contingence de Burt associé à Z. La matrice B contient en diagonale d sous-matrices diagonales correspondant chacune à une dimension. Chacune de ces sous-matrices contient en diagonale les effectifs marginaux de chaque modalité de la dimension en question. En dehors de ces sous-matrices, la matrice B contient tous les croisements possibles des effectifs des modalités des d dimensions du cube de données C. Par exemple, la figure (b) représente le tableau de contingence de Burt obtenu à partir du tableau disjonctif complet Z de la figure (a). 𝑍= 1 0 0 1 0 1 1 0 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 1 𝐵 = 𝑍𝑡 𝑍 = (a) 2 0 1 1 1 0 1 0 2 1 1 0 1 1 1 1 2 0 0 1 1 1 1 0 2 1 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1 1 1 1 0 0 2 (b) Fig.3.5 – Exemple de transformation d‟un tableau disjonctif complet en tableau de contingence de Burt Cette étape permet : l‟extraction des valeurs propres, la détermination des vecteurs propres associés et la construction des axes factoriels 37 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.2.6 Etape 3 : Tri croissant des modalités de chaque dimension Di selon : Leurs projections : cet arrangement de modalités consiste à associer à chaque dimension initiale Di le meilleur axe factoriel Fα possible donc ; o Nouvelles coordonnées dans l‟axe factoriel Fα o Fα est l‟axe le mieux expliqué par les modalités de Di Leurs valeurs-test o Nombre d‟écart-types entre une modalité ati de Di (le centre de gravité des nti) et le centre de gravité d‟un axe factoriel Fα Ainsi, la position d‟une modalité est intéressante dans la direction d‟un axe factoriel Fα si le sous-nuage qu‟elle constitue occupe une zone étroite dans cette direction et si cette zone est éloignée du centre de l‟axe Fα. La valeur-test est un critère qui permet d‟apprécier si une modalité a une position significative sur un axe factoriel. o Premiers axes factoriels Fα les plus importants Une valeur-test d‟une modalité est plus importante lorsqu‟elle indique la position de cette dernière sur un axe factoriel important (ayant une grande valeur propre). Pour cela, ils proposent de trier les modalités d‟une dimension selon l‟ordre croissant de leurs valeurs-test sur le premier axe factoriel F1, puis sur le deuxième axe factoriel F2, jusqu‟au tri des valeurs-test sur le sième axe factoriel Fs… 3.2.7 Etape 4 : Evaluation de la pertinence de la réorganisation Mesure la qualité d‟une représentation d‟un cube de données : l‟indice d‟homogénéité [MBR05]. Grâce à cet indice, on peut évaluer le gain induit par l‟arrangement des modalités des dimensions. Indice d‟homogénéité basé sur : o Le voisinage géométrique des cellules (plus les cellules pleines (ou bien vides) sont concentrées, plus le cube est dit “homogène”.) o La similarité entre les cellules 38 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Le voisinage géométrique des cellules : Fig.3.6– Exemple en 2 dimensions de la notion de voisinage des cellules d‟un cube de données La similarité entre les cellules A et B : notée δ(A,B), est un scalaire dans IR défini comme suit: Où ||A| − |B|| est la valeur absolue de la différence des mesures contenues dans A et B. max(C) (respectivement, min(C)) est la valeur maximale (respectivement, la valeur minimale) de la mesure dans C, avec min(C) ≠ max(C). Dans le cube de la figure 3.6, où les cellules grises sont pleines et les cellules blanches sont vides, la mesure maximale du cube correspond à la cellule S (max(C) =7) et la mesure minimale correspond à la cellule K (min(C) = 1, 5). Par conséquent, la similarité des cellules A et B de la figure 3.5 est : δ (A, B) = 1 − ( |5,7−4,5|/(7−1,5) ) ≃ 0, 78. En revanche, la similarité des cellules A et Y est nulle vue que la cellule Y est vide. Il est à noter que cette définition de la similarité de deux cellules n‟est pas applicable dans le cas où les cellules du cube C comportent la même valeur de la mesure. Ceci explique la condition min(C) ≠max(C). Similarité au voisinage: Soit une cellule A d‟un cube de données C. La similarité de A à son voisinage, notée ¢(), est un scalaire dans R défini comme suit : ∆ 𝐴 = 𝛿(𝐴, 𝐵) 𝐵∈𝛾(𝐴) 39 Chapitre 3 : Opérateurs de couplage entre OLAP et DM ∆ 𝐴 correspond à la somme des similarités de la cellule A avec toutes ses cellules voisines dans le cube de données. Par exemple, la similarité au voisinage de la cellule A de la figure 3.5 se calcule selon : Soit un cube de données C. L‟indice d‟homogénéité du cube C, noté IH(C), est défini comme suit : L‟indice d‟homogénéité d‟un cube C représente le rapport de l‟indice d‟homogénéité brut de ce dernier par son indice d‟homogénéité maximale 𝐼𝐻𝐵max 𝐶 = 𝐴∈𝐶 𝐵∈𝛾(𝐴) 1 Avec l‟indice d‟homogénéité brut est donnée par : Par exemple, l‟indice d‟homogénéité brut du cube de la figure 3.5 se calcule selon : 𝐼𝐻𝐵 𝐶 = ∆ 𝐹 + ∆ 𝐾 + ∆ 𝐴 + ∆ 𝑆 + ∆ 𝐵 + ∆ 𝐸 ≅ 6,67 sachant que l‟indice d‟homogénéité brut maximum de cube C de la figure 3.5 est IHBmax(C) = 84, l‟indice d‟homogénéité est dans ce cas égal à : IH(C) = 6,67/84 ≃ 0, 08. 40 Chapitre 3 : Opérateurs de couplage entre OLAP et DM L‟indicateur de la qualité d‟une représentation multidimensionnelle est plus important quand les cellules pleines et similaires sont voisines. Avec cet indice, on peut mesurer l‟apport d‟une réorganisation de la même représentation d‟un cube de données en évaluant le gain de la qualité induit par cette réorganisation. Pour mesurer l‟apport de l‟arrangement des modalités sur la représentation d‟un cube de données C, nous calculons le gain d‟homogénéité, noté g, selon la formule : Où IH(Cini) est l‟indice d‟homogénéité de la représentation du cube initial et IH(Carr) est celui de la représentation réorganisée selon la méthode considérée. A noter que, pour le même type d‟arrangement des modalités (selon les projections ou selon les valeurs- test), quelle que soit la représentation initiale du cube, on obtient toujours la même réorganisation par notre méthode. En effet, l‟ACM est une méthode déterministe qui n‟est pas sensible à l‟ordre des variables en entrée. Exemple : Soit l‟étude de cas dédiée à un cube de données démographiques. Ce dernier fait l‟objet d‟une réorganisation selon les valeurs-test de ses modalités [MBR06d, MBR06b]. Soit un cube à 5 dimensions dont les données sont extraites à partir de la base CensusIncome Database1 concernant un recensement sur les revenus de la population des États-Unis d‟Amérique entre 1994 et 1995. Le cube étudié contient n = 199 523 faits OLAP où chaque fait représente un profil d‟une sous-population d‟employés mesuré par le salaire par heure (M1). Le tableau 3.2 détaille la description des cinq dimensions prises en compte pour observer ces faits. Dimension li D1 : niveau d‟éducation l1=17 D2 : catégorie socioprofessionnelle l2=22 D3 : état de résidence l3=51 D4 : situation du ménage l4=38 D5 : pays de naissance l5=42 Tab.3.2. Description des dimensions du cube des données démographique 41 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Selon un codage binaire disjonctif des modalités de chaque dimension du cube, on génère le tableau disjonctif complet Z = [Z1, Z2, Z3, Z4, Z5]. Z contient 199 523 lignes et 𝑙 = 5 𝑖=1 𝑙𝑖 = 170 colonnes. En appliquant l‟ACM sur Z, on obtient l −d =165 axes factoriels Fα. Chaque axe est associé à une valeur propre α. Supposons que, selon l‟histogramme des valeurs propres, l‟utilisateur retient les trois premiers axes factoriels (s = 3). Ces trois premiers axes, expliquent 15.35% de l‟inertie totale du nuage des faits du cube étudié. Cette contribution à l‟inertie totale peut sembler insignifiante dans le cas absolu. Cependant, en prenant en compte le nombre d‟axes construits par l‟ACM, cette contribution devient relativement importante. En effet, dans le cas d‟une distribution uniforme des variables à l‟inertie totale sur tous les axes factoriels, chaque axe devrait avoir une contribution seulement égale à 1 𝑙−𝑑 = 0,6% . En d‟autres termes, dans notre cas d‟application, les trois premiers axes factoriels sont 25 fois plus importants que le cas d‟une distribution uniforme des variables. La figure 3.7 ci-dessous montre le premier plan factoriel obtenu à partir des faits du cube des données démographiques. Fig.3.7 –premier plan factoriel construit par l‟ACM à partir des données démographiques Le cube réorganisé est obtenu en triant les modalités de chacune de ses dimensions. Pour chaque dimension Di, ses modalités sont triées selon l‟ordre croissant de leurs valeurstest V1ti puis selon les valeurs-test V2ti et enfin selon V3ti . 42 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Par exemple, le tableau 3.3 montre le nouvel ordre des modalités de la dimension “catégorie socio- professionnelle” (D2). Notons que, d‟après ce tableau, t est l‟indice de l‟ordre alphabétique des noms des modalités initialement établi. Tab.3.3- Nouvel ordre des modalités de la dimension D2 du cube des données démographiques Les figures 3.8 et 3.9 montre l‟effet visuel que produit l‟arrangement des modalités sur la représentation d‟une vue partielle du cube des données démographiques. Cette vue résulte du croisement de la dimension “catégorie socioprofessionnelle” (D2) en colonnes avec la dimension “pays de naissance” (D5) en lignes. Dans la figure10 : l‟éparsité = 63% et HI(Cini) = 14% et dans la figure 11 : Eparsité = 63% , HI(Carr) = 17% et Gain = 24 % 43 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Fig.3.8- Représentation du cube des données démographiques avant l‟arrangement des modalités. 44 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Fig.3.9- Représentation du cube des données démographiques après l‟arrangement des modalités 45 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Remarquons que plus le cube est éparse, plus on a une meilleure marge de manœuvre pour concentrer les données et les regrouper ensemble autour des axes factoriels de l‟ACM. Notons aussi que le gain en homogénéité, pour les fortes éparsités, peut fléchir localement. Ceci est inhérent à la structure des données. C‟est-à-dire, si les données du cube initial sont déjà dans une représentation homogène, l‟application de notre méthode n‟apportera pas de gain considérable. En effet, dans ce cas, la méthode n‟aura qu‟un effet de translation du nuage des faits vers les zones centrales des axes factoriels. 3.2.8 Conclusion et perspectives : Cette méthode est une approche factorielle apportant une solution au problème de la visualisation des données dans un cube éparse. Sans réduire l‟éparsité, ils cherchent à réorganiser l‟espace multidimensionnel des données en regroupant géométriquement les cellules pleines dans un cube. La recherche d‟un arrangement optimal du cube est un problème complexe et coûteux en temps de calcul. Donc, ils ont choisi d‟utiliser les résultats de l‟ACM comme heuristique pour réduire cette complexité. On pense que plusieurs perspectives sont à prévoir. Tout d‟abord, étudier la complexité de cette méthode. Cette étude doit prendre en compte aussi bien les propriétés du cube (taille, éparsité, cardinalités, etc..) que l‟impact de l‟évolution des données (rafraîchissement de l‟entrepôt de données). Ensuite, à ce stade les travaux existants, pour appliquer l‟ACM, tiennent seulement compte de la présence ou de l‟absence des faits du cube dans la construction des axes factoriels. Alors introduire la valeur de la mesure comme pondération des faits (poids des individus de l‟ACM). Ceci permettra de construire des axes factoriels qui traduisent mieux la représentation des faits du cube selon leur ordre de grandeur. Dans ce cas, il serait également intéressant d‟introduire la notion de distance entre cellules voisines en fonction des valeurs de la mesure qu‟elles contiennent. Dans le même ordre d‟idées, utiliser les résultats de l‟ACM afin de faire émerger des régions intéressantes pour l‟analyse à partir d‟un cube de données initial. En effet, l‟ACM permet de concentrer dans les zones centrales des axes factoriels les individus ayant un comportement moyen, et d‟éloigner ceux ayant des comportements atypiques vers les zones extrêmes. On peut déjà exploiter les résultats de l‟arrangement des modalités du cube dans le cadre de la distinction de régions correspondant à ces comportements caractéristiques. 46 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Cette approche peut être considérée comme une extension d‟une méthode proposée dans [CR98], (L‟objectif de cette méthode est de proposer une visualisation optimisée d‟un tableau de contingence. Cependant, elle se limite à des tableaux à deux dimensions sans données manquantes et ne peut pas s‟appliquer à des cubes de forte dimensionnalité.), concernant la dimensionnalité du cube et l‟éparsité de ses données. Par ailleurs, la matérialisation des cubes de données permet le pré-calcul et le stockage des agrégats multidimensionnels de manière à rendre l‟analyse OLAP plus performante. Cela requiert un temps de calcul important et génère un volume de données élevé lorsque le cube matérialisé est à forte dimensionnalité. Au lieu de calculer la totalité du cube, il serait judicieux de calculer et de matérialiser que les parties intéressantes du cube (fragments contenant l‟information utile). Comme l‟information réside dans les cellules pleines, le cube arrangé obtenu par l‟application de l‟ACM serait un point de départ pour déterminer ces fragments. Ainsi, comme dans [BS97], chaque fragment donnera lieu à un cube local. Les liens entre ces cubes permettront de reconstruire le cube initial. 47 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.3 Agrégation par classification dans les cubes de données (CAH) o Opérateur OpAC 3.3.1 Introduction : Cette approche consiste à créer un opérateur d'analyse en ligne, baptisé OpAC (Opérateur d'Agrégation par Classification). OpAC consiste en l'agrégation sémantique des données complexes en se basant sur la technique de la classification ascendante hiérarchique (CAH) [LaWi67]. est dédiée pour la structuration et la classification des données multidimensionnelles, c‟est une agrégation des faits d‟un cube de données selon leur ordre de proximité et non selon l‟ordre d‟appartenance hiérarchique de leurs modalités dans les dimensions. Dans [MBR04], ils utilisent la classification ascendante hiérarchique (CAH) en vue de construire des classes correspondant à de nouveaux agrégats dans le cube. Ainsi, la classification est perçue comme une technique d‟agrégation sémantique dans les cubes de données. Dans cette approche, la mise en œuvre de la classification dans les données multidimensionnelles se base sur la deuxième approche « la structuration et la classification » de couplage entre l‟analyse en ligne et la fouille de données. Comme le montre la figure 3.10, des opérations OLAP sont utilisés afin d‟extraire les données, notamment les individus et les variables, nécessaires à la classification. Fig.3.10- Etapes de l‟agrégation par classification dans les cubes de données 48 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Dans [MRBB04, MBR04], ils ont introduit une première formalisation de cette approche de classification dans les cubes de données. Dans [MBR06a], ils ont amélioré et appliqué l‟approche à un cas de données complexes. Ce cas d‟application concerne des données de mammographies relatives à des dossiers de patientes atteintes du cancer du sein. 3.3.2 Objectifs de l’opérateur OpAC : La construction d‟un cube de données cible un problème d‟analyse précis. Le choix des dimensions et des mesures dépend des besoins de l‟analyse. D‟une manière générale, une dimension est organisée sur plusieurs hiérarchies traduisant différents niveaux de granularité. Chaque hiérarchie comporte un ensemble de modalités, et chaque modalité d‟une hiérarchie regroupe des modalités de la hiérarchie immédiatement inférieure selon un ordre d‟appartenance logique. Par exemple, une dimension temporelle peut être structurée en quatre niveaux hiérarchiques : jours, mois, trimestres et années. Toutefois, la granularité d‟une dimension est fortement dépendante du niveau de précision exigé par l‟analyse. Par exemple, si l‟analyse exclut les mesures quotidiennes, on peut limiter la dimension temporelle aux niveaux : mois, trimestre et années. En revanche, l‟organisation des modalités d‟une dimension est toujours régie par un ordre d‟appartenance logique dicté par l‟usage naturel des objets ou des concepts du monde réel. Par exemple, il est naturel de dire que la modalité « 1er trimestre » de la dimension temporelle contient les mois « Janvier », « Février » et « Mars ». Le cube de la figure 3.11 est constitué de trois dimensions : Localité géographique, Temps et Produit. La dimension temporelle est organisée selon deux niveaux hiérarchique : celui des mois et celui des trimestres. Fig.3.11 Agrégation (a) classique dans le contexte OLAP et (b) agrégation par classification 49 Chapitre 3 : Opérateurs de couplage entre OLAP et DM L‟idée de base de l‟opérateur OpAC consiste à exploiter les mesures contenues dans un cube de données afin d‟agréger les modalités d‟une de ses dimensions. Si on veut agir sur la dimension Temps, les mois sont vus comme des individus qu‟on peut décrire par des mesures significatives provenant du cube. Comme le montre la figure 3.11, on peut considérer « Les ventes des Parfums » et « Les ventes à Paris » comme des descripteurs des individus. Par exemple, le mois « Juin » est caractérisé par 17unités de ventes de Parfums et 26 unités de ventes à Paris. En adoptons une technique de classification, on agrège les mois les plus proche au sens des deux descripteurs cités ci-dessus. Contrairement à l‟agrégation au sens OLAP classique, basée sur le sens de l‟appartenance logique des modalités, cette approche constitue une forme d‟agrégation sémantique qui tient compte des faits réels contenus dans un cube de données. Le but de l‟opérateur OpAC est de pouvoir agréger les modalités selon leurs liens sémantiques et pas selon leurs liens logiques. Par exemple, dans la figure 3.11, les mois de « Janvier », « février »et « Mars » forment un agrégat puisqu‟ils appartiennent tous au premier trimestre de l‟année. Alors que, dans la 2éme figure, l‟agrégation sémantique permet de constater que « Janvier » et « Juin » forment un agrégat plus significatif du point de vue de l‟utilisateur puisqu‟ils représentent des périodes particulières (niveaux de ventes semblables) concernant les ventes de Parfums à Paris. 3.3.3 Le choix de la classification ascendante hiérarchique : Contrairement aux modalités d‟une dimension, qui sont organisées selon un ordre prédéfini, OpAC fournit des agrégats mettant en évidence les liens sémantiques entre les faits contenus dans les données. Cette forme d‟agrégation permet de véhiculer des informations plus riches que celles fournies par l‟agrégation classique d‟OLAP. En tenant compte ces objectifs, le choix s‟est porté sur la classification ascendante hiérarchique (CAH) et cela est justifié par : Classification ascendante hiérarchique (Lance et William 1967) 1. Aspect hiérarchique : Analogie pertinente entre la CAH, la structuration d‟une dimension et les résultats prévus pour l‟opérateur 2. CAH vs CDH (la Classification Descendante Hiérarchique): a. La CAH inclut la partition la plus fine dans l‟éventail de ses résultats b. La stratégie ascendante est plus rapide que la stratégie descendante 50 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3. Compatibilité avec l‟esprit de l‟analyse en ligne: navigation entre les niveaux de la classification par division ou par agrégation. Fig.3.12- Choix de la technique de classification 3.3.4 Formalisation théorique de l’opérateur OpAC: Fig.3.13- Formalisation théorique de l‟opérateur OpAC Des contraintes sont imposées afin d‟assurer la validité statistique et logique des données extraites. On définit des individus et des variables de la classification à partir d‟un cube de données. Soient Ω l‟ensemble des individus et ′ 𝑙 𝑒𝑛𝑠𝑒𝑚𝑏𝑙𝑒 des variables de la classification à définir. Soit un cube de données C ayant d dimensions et m mesures. Considérons D1,….., Di,….,Dd les dimensions de C et M1,…, Mq,…,Mm ses mesures. 51 Chapitre 3 : Opérateurs de couplage entre OLAP et DM On suppose que : Pour tout 𝑖 ∈ 1, 𝑑 la dimension Di comprend ni niveaux hiérarchiques, hij le niveau hiérarchique j de Di avec 𝑗 ∈ 1, 𝑛𝑖 ; Pour tout 𝑗 ∈ 1, 𝑛𝑖 le niveau hiérarchique hij comprend lij modalités, gijt la modalité t de hij avec 𝑡 ∈ 1, 𝑙𝑖𝑗 ; 𝐺(ℎ𝑖𝑗 ) l‟ensemble des modalités de hij. Supposons que nous cherchons à agir sur la hiérarchie hij. Statistiquement, 𝐺(ℎ𝑖𝑗 ) représente la population des individus du problème de la classification. (Le choix de hij dépend des besoins de l‟analyse et des objectifs de l‟utilisation de l‟opérateur d‟agrégation.) Soit : Ω = 𝐺 ℎ𝑖𝑗 = {𝑔𝑖𝑗 1 , 𝑔𝑖𝑗 2 , … , 𝑔𝑖𝑗𝑡 , … , 𝑔𝑖𝑗 𝑙𝑖𝑗 } On considère les notations suivantes : * Un méta-symbole désignant l‟agrégat total d‟une dimension ; G l‟ensemble des n-uplets des modalités des hiérarchique du cube C y compris les agrégats totaux des dimensions. On définit aussi, pour tout 𝑞 ∈ 1, 𝑚 la mesure Mq en tant qu‟une fonction de l‟ensemble G des réels IR. 𝑀𝑞 : 𝐺 𝐼𝑅 Soit l‟exemple du cube de la figure 3.12 composé de trois dimensions D1 (la dimension temporelle), D2 (la dimension géographique), D3 (la dimension des produits) et d‟une mesure (les niveaux de ventes d‟une chaine de magasins). Dans ce cas : M1 (Février 1999, Lyon, *) désigne la mesure du niveau des ventes de tous les produits au mois de Février de l‟année 1999 dans la ville de Lyon ; M1 (Février 1999, *, Produits laitiers) désigne la mesure du niveau des ventes de Produits laitiers dans toutes les localités géographiques au mois Février de l‟année 1999. 52 Chapitre 3 : Opérateurs de couplage entre OLAP et DM En tenant compte de l‟information contenue dans les données d‟un cube. Ils considèrent les mesures du cube comme des variables quantitatives décrivant la population des individus []. Il faut aussi respecter certaines contraintes logiques et statistiques fondamentales dans le choix de ces variables : Première contrainte: Aucun niveau hiérarchique de la dimension retenue pour les individus ne doit être générateur des variables de la classification. En effet, décrire un individu par une variable exprimant une propriété qui le contient, ou qui l‟agrège, n‟aura aucun sens logique. Il serait insensé de vouloir décrire, par exemple, l‟année 1999 par le niveau des ventes du mois de Janvier 1999 ou le niveau des ventes en France par celui de Lyon. Inversement, une variable qui spécifie des propriétés d‟appartenance à un individu ne peut servir que pour la description de cet individu particulier. Par exemple, le niveau des ventes du mois Janvier 1999 ne peut servir de descripteur que pour l‟année 1999 et sera inutilisé pour la description des niveaux de ventes des autres années. Seconde contrainte: Par dimension, on ne peut choisir qu‟un seul niveau hiérarchique pour générer les variables. Cette contrainte est essentielle pour assurer l‟indépendance des variables de la classification. En effet, la valeur d‟une modalité peut s‟obtenir par combinaison linéaire des valeurs des modalités qui lui appartiennent dans la hiérarchie inférieure. Par exemple, la somme des valeurs des ventes pour chaque mois d‟une année correspond bien à la valeur totale des ventes de l‟année en question. En conclusion, ils supposent queΩ = 𝐺 ℎ𝑖𝑗 , les variables de la classification de l‟opérateur appartiennent à l‟ensemble suivant : ∁ 𝑋 /∀𝑡 ∈ 1, 𝑙𝑖𝑗 , 𝑋 𝑔𝑖𝑗𝑡 = 𝑀𝑞 (∗, … ,∗, 𝑔𝑖𝑗𝑡 ,∗, … , 𝑔𝑠𝑟𝑣 ,∗, … ,∗) 𝑎𝑣𝑒𝑐 𝑠 ≠ 𝑖 , 𝑟 ∈ 1, 𝑛𝑠 𝑒𝑠𝑡 𝑢𝑛𝑖𝑞𝑢𝑒 𝑝𝑜𝑢𝑟 𝑐ℎ𝑎𝑞𝑢𝑒 𝑠, 𝑣 ∈ 1, 𝑙𝑠𝑟 𝑒𝑡 𝑞 ∈ 1, 𝑚 Reprenons l‟exemple de la figure 3.12 du cube, on suppose que, pour des choix d‟analyse, on souhaite classer les mois de l‟année selon les niveaux des ventes par régions et/ou par produit. Dans ce cas, on retient les modalités du niveau des mois de la dimension D1 comme individus statistiques. On aura donc : Ω= {Janvier, Février, Mars, Avril, Mai, Juin} 53 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Pour satisfaire à la première, on ne peut plus réutiliser la dimension D1 pour la génération des variables. Aussi pour la seconde contrainte, on ne peut choisir qu‟un seul niveau hiérarchique de D2 et/ou de D3 comme générateur de variables. Par exemple, si on choisit des villes de la dimension D2 pour générer les variables, on fait des agrégations totales Roll-up sur toutes les autres dimensions du cube outre la dimension D1, retenue pour les individus, et D2 retenue pour les variables. Dans cet exemple, on fait une agrégation totale sur D3 de la figure 3.12. On obtient, un tableau de contingence exprimant les valeurs des ventes pour les modalités de D1 croisées avec celles de D2, c'est-à-dire les valeurs des ventes par ville pour chaque mois. De la même manière, on peut générer des variables à partir de D3 en faisant une agrégation totale sur D2. Comme le montre la figure 3.12, {„Le niveau des ventes à Marseille‟, „Le niveau des ventes à Nantes‟, „Le niveau des ventes à Toulouse‟, „Le niveau des ventes à Paris‟, „Le niveau des ventes à Lorient‟ et „Le niveau des ventes à Lyon‟} est un ensemble de variables possibles pour le problème de classification. 54 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.3.5 Conclusion et perspectives : Cet opérateur est une première réponse à l‟analyse en ligne des données complexes aussi cette démarche a permis de profiter de la validité de la fouille dans les données complexes et la flexibilité de la structuration multidimensionnelle. Le choix de la CAH n‟exclut pas l‟utilisation d‟autres techniques de classification mais l‟utilisation d‟autres techniques de fouille pour établir de nouveaux modèles d‟apprentissage en ligne sur les données complexes. Des améliorations possibles sont à prévoir pour cette approche. En dehors de sa vocation de structuration et de classification, il est possible aussi d‟exploiter cette méthode d‟agrégation en vue d‟améliorer l‟organisation des faits OLAP selon leur ordre de ressemblance dans l‟espace de représentation d‟un cube de données. En effet, en classifiant les modalités de chaque dimension d‟un cube, on réorganise implicitement les faits dans l‟espace de représentation du cube. Ceci permet potentiellement de faire émerger des régions intéressantes dans le cube de données, ou les faits OLAP sont décrits par des modalités qui sont les plus semblables possible au sens de la classification. Dans le cadre d‟une plateforme générale pour l‟analyse et la fouille dans les cubes de données, il est prévu une implémentation qui concrétise cette approche d‟agrégation par classification. Dans cette implémentation, les outils d‟analyse en ligne OLAP sont exploités afin d‟interagir avec l‟algorithme de la CAH et d‟extraire, à partir du cube de données étudié, les données nécessaires pour la construction des agrégats. Une extension de cette agrégation par classification aux données complexes est aussi possible. Cette perspective sous-entend la définition au préalable d‟une méthodologie d‟entreposage et de construction de cubes de données complexes. Elle sous-entend également, sur un plan technique, l‟adaptation d‟une implémentation à ce nouveau modèle de données. 55 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.4 Explication par recherche guidée de règles d’association dans un cube o Opérateur AROX 3.4.1 Introduction Différemment aux deux premiers opérateurs, cette méthode adapte un algorithme de fouille afin d‟extraire des connaissances directement à partir de la structure multidimensionnelle des données. Cette proposition s‟inscrit dans une démarche explicative dans les cubes de données en se basant sur les règles d‟association. Dans [MRBM06, MBR06c], les auteurs mettent en place un nouvel algorithme, de type Apriori, pour une recherche guidée des règles d‟association dans les cubes de données. Une visualisation graphique des règles d‟association extraites est également proposée afin de mieux valoriser les connaissances qu‟elles véhiculent. La technologie OLAP se limite à des tâches exploratoires et ne fournit pas d‟outils automatiques pour expliquer les relations et les associations potentiellement existantes entre les données d‟un cube. Par exemple, un utilisateur peut noter, à partir d‟un cube de données de ventes, que le niveau de vente des sacs de couchage est particulièrement élevé dans une ville donnée. En revanche, cette exploration ne permet par d‟expliquer automatiquement les raisons de ce fait particulier. En effet, pour arriver à expliquer l‟ordre de certains faits OLAP ou des phénomènes particuliers, un utilisateur est habituellement supposé explorer manuellement et observer l‟ensemble des données selon plusieurs axes d‟analyse. Par exemple, le niveau élevé des ventes des sacs de couchage peut s‟expliquer par son association à une saison estivale et à une clientèle relativement jeune. Beaucoup d‟études ont abordé le problème de l‟extraction des règles d‟association à partir des cubes de données. Cette proposition de couplage entre l‟analyse en ligne et la fouille de données se base sur une approche qui adapte plutôt l‟algorithme de la fouille aux données multidimensionnelles. Ainsi, ils introduisent un nouvel algorithme pour la recherche des règles d‟association directement à partir des cubes de données sans transformation préalable de ce dernier. 56 Chapitre 3 : Opérateurs de couplage entre OLAP et DM En effet, comme le montre l‟aperçu de cette méthode dans la figure 3.13, la recherche des règles d‟association se fait directement à partir du cube étudié et ne requiert pas de traitement sur les données de ce dernier. Fig.3.14 - Etapes de l‟explication dans les cubes de données par règle d‟association Dans le cadre général pour la recherche de règles d‟association à partir des cubes de données. Ils utilisent le concept des méta-règles inter dimensionnelles afin d‟offrir à l‟utilisateur la possibilité de guider le processus de fouille vers des contextes d‟analyse ciblés qui répondent à ses besoins d‟explication et à partir desquels seront extraites les règles d‟association. 3.4.2 Historique des règles d’association : Le concept des règles d‟association a été introduit la première fois par Agrawal et al. [AIS93]. Motivés par le problème de l‟analyse du panier de la ménagère, les auteurs ont établi les premières bases d‟un processus d‟extraction de règles d‟association. Ils sont aussi à l‟origine de l‟algorithme Apriori qui se base essentiellement sur la propriété d‟antimonotonie, selon laquelle tout motif comprenant un sous-motif non fréquent est non fréquent. Depuis, les algorithmes d‟extraction des règles d‟association ont connu plusieurs évolutions. Ces évolutions couvrent divers aspects. La première génération des règles d‟association d‟Agrawal et al. [AIS93] concernait des données booléennes de transactions, ou chaque produit (item) est codé selon sa présence ou son absence dans une transaction de vente. L‟idée de base d‟un algorithme d‟extraction de règles, notamment Apriori, consiste à découvrir des relations intéressantes entre les produits qui s‟achètent le plus souvent ensemble. Certaines références dans le domaine de la fouille de données parlent carrément de règles d‟association booléennes. Un grand nombre de variantes de l‟algorithme Apriori, travaillant toujours sur des données booléennes, ont été largement étudiées dans la littérature [AS94, MTV94, PCY95, SON95, Toi96]. 57 Chapitre 3 : Opérateurs de couplage entre OLAP et DM L‟extension des règles aux données quantitatives a été proposée pour la première fois par Srikant et Agrawal dans [SA96]. L‟objectif de cette proposition consistait à extraire une nouvelle génération de règles d‟association quantitatives à partir des tables d‟une base de données relationnelle. Pour cela, les auteurs proposent une phase de pré-traitement qui discrétise les données quantitatives en variables qualitatives et les transforme ensuite en données booléennes selon un codage binaire. Suite à cette extension, beaucoup de travaux se sont basés sur les règles d‟association quantitatives afin de les exploiter et de les étendre davantage pour couvrir des données de différentes natures liées à des domaines d‟application spécifiques. On cite par exemple, l‟étude des effets de causalité dans les données [BMS97, SBMU98], l‟étude de phénomènes cycliques [ORS98, RMS98] ou de périodicités partielles [HDY99] dans des données temporelles. Pour un exposé plus complet sur les différents types de règles d‟association quantitatives, on renvoie le lecteur à [Zhu98]. Toutes ces approches de règles d‟association traitent des données se présentant selon des structures tabulaires. Kamber et al. [KHC97] sont les premiers à faire de la fouille de règles d‟association dans les structures multi- dimensionnelles des cubes de données. 3.4.3 Règles d’association dans les structures multidimensionnelles o Fouille guidée des règles d’association Dans [KHC97], Kamber et al. ont introduit la fouille guidée des règles d‟association dans les bases de données multidimensionnelles (metarule-guided mining). Cette proposition consiste à utiliser une méta-règle qui va piloter le processus d‟extraction pour la découverte de règles intéressantes répondant aux besoins d‟analyse de l‟utilisateur. Une méta-règle est un modèle général qui définit le contenu des règles d‟association recherchées à partir d‟un cube de données. Les auteurs définissent une méta-règle générale selon la forme : P1 ∧ P2 ∧ ・ ・ ・ ∧ Pm ⇒ Q1 ∧ Q2 ∧ ・ ・ ・ ∧ Ql Où Pi (i = 1, . . ., m) et Qj (j = 1, . . ., l) sont des prédicats ou des instances de prédicats définit par l‟utilisateur à partir des modalités du cube de données. Les auteurs affirment que la fouille guidée réduit l‟espace de recherche dans le cube et permet de focaliser le processus d‟extraction sur des régions de données ciblées par l‟utilisateur. Ainsi, les règles d‟association extraites répondent mieux aux attentes d‟analyse de l‟utilisateur. Quant à la structure multidimensionnelle des données, Kamber et al. confirment que la structuration des données dans un entrepôt et les agrégats pré-calculés d‟un cube se prêtent au processus d‟extraction de règles d‟association. 58 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Les auteurs proposent deux familles d‟algorithmes d‟extraction de règles à partir des cubes de données : (1) des algorithmes pour les cubes de données MOLAP matérialisés dont les agrégats sont tous pré-calculés (multi-D-slicing et n-D cube search) ; (2) des algorithmes pour les cubes de données ROLAP non matérialisés et dont les agrégats ne sont pas pré-calculés (abridged n-D cube construction et abridged multi-p-D cube construction). Tous ces algorithmes se basent sur la propriété d‟anti- monotonie d‟Apriori. o Analyse en ligne des règles d’association Zhu distingue dans [Zhu98] trois types de règles d‟association qui peuvent être extraites à partir d‟un cube de données : les règles inter-dimensionnelles, les règles intradimensionnelles et les règles hybrides. À la différence de l‟approche de Kamber et al. [KHC97] – ou les règles sont extraites directement de la structure multidimensionnelle des données – Zhu aplatit le cube et le transforme selon une forme tabulaire appropriée, recherche les motifs fréquents en utilisant Apriori et génère ensuite les règles d‟association. Par exemple, supposons qu‟un utilisateur souhaite découvrir des règles d‟association inter-dimensionnelles dans un cube de ventes selon trois dimensions : Lieu, Produit et Temps. Dans ce cas, les faits du cube sont aplatis en fonction de ces trois dimensions comme le montre l‟exemple du tableau 3.3 ci dessous. Lieu Canada Canada Canada France France France France France USA USA USA USA Produit iTwin iTwin aStar iPower DV-400 DV-400 EN-700 EN-700 DV-400 iTwin iTwin aStar Temps 2002 2003 2002 2005 2005 2004 2006 2003 2002 2005 2002 2004 COUNT 30 10 30 20 85 25 25 20 100 20 40 25 Japon Japon Japon DV-400 iTwin EN-700 2006 2004 2006 10 20 20 Tab.3.4- Aplatissement d‟un cube de données pour l‟extraction de règles inter dimensionnelles [Zhu98] 59 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Un motif inter-dimensionnel consiste en une conjonction de plusieurs modalités ou chaque modalité provient d‟une dimension distincte. Par exemple {USA, DV-400, 2002} est un motif (3-itemset) inter-dimensionnel dans le tableau 3.4. Pour calculer le support de ce motif, Zhu prend en considération le nombre d‟occurrences de ce dernier fourni par l‟agrégation COUNT. Si le motif est fréquent (son support est supérieur au support minimum), il peut ainsi générer les règles d‟association interdimensionnelles suivantes : USA ∧ DV-400 ⇒ 2002 confiance = 1/1 = 100% USA ∧ 2002 ⇒ DV-400 confiance = 1/2 = 50% DV-400 ∧ 2002 ⇒ USA confiance = 1/1 = 100% Un motif intra-dimensionnel est une conjonction de plusieurs modalités provenant d‟une même dimension. Zhu considère qu‟un processus d‟extraction de règles d‟association intra-dimensionnelles fait intervenir deux dimensions du cube : une première pour générer les modalités de la règle et une deuxième de regroupement, appelée dimension de transaction, dont les modalités sont considérées comme des identifiants de transactions. Dans le cube des ventes, on peut considérer par exemple la dimension Produit pour les éléments (items) des transactions regroupés selon les modalités de la dimension Lieu. Ainsi, l‟auteur construit une table de transactions selon l‟exemple du tableau 3.5 et cherche ensuite les motifs fréquents et les règles d‟association intra- dimensionnelles à partir de cette table. ID transaction (Lieu) Produit Canada iTwin, aStar France iPower, DV-400,EN-700 USA DV-400, iTwin, aStar Japon DV-400, iTwin, EN-700 Tab .3.5 – Aplatissement d‟un cube de données pour l‟extraction de règles intra dimensionnelles [Zhu98] Supposons que dans cet exemple, le motif {DV-400, iTwin, aStar} est un 3-itemset fréquent. À partir de ce motif, on peut obtenir les règles d‟association intra-dimensionnelles suivantes : DV-400 ∧ iTwin ⇒ aStar confiance = 2/2 = 100% DV-400 ∧ aStar ⇒ iTwin confiance = 2/2 = 100% iTwin ∧ aStar ⇒ DV-400 confiance = 2/3 = 67% 60 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Les règles d‟association hybrides sont des combinaisons de règles inter et intradimensionnelles. Ainsi, une règle hybride consiste en un ensemble de modalités à la fois répétitives et provenantes de plusieurs dimensions. Dans ce cadre, un motif candidat L peut s‟écrire d‟une manière générale sous la forme d‟une conjonction L = {Linter ∧ Lintra}, ou Linter est un motif inter-dimensionnel et Lintra est un motif intra- dimensionnel. Pour trouver les motifs hybrides fréquents, l‟auteur propose de chercher les motifs fréquents inter et intradimensionnels séparément, puis de fusionner les deux. o Cubes de données différentielles Imielinski et al. proposent, dans un contexte OLAP, une approche de généralisation des règles d‟association appelée Cubegrades [IKA02]. Un cubegrade est un formalisme qui calcule le différentiel d‟une mesure agrégée d‟un cube de données suite à des opérations de spécialisation (drill-down), de généralisation (roll-up) ou de changement de modalité dans une dimension (switch). Les auteurs reprochent aux règles d‟association classiques de n‟exploiter que les comptages – correspondant à la mesure COUNT dans un contexte OLAP – dans l‟évaluation de l‟implication existante entre l‟antécédent et le conséquent d‟une règle. Ils proposent d‟exploiter dans les cubegrades d‟autres agrégations de mesures. Formellement, un cubegrade est défini selon une implication de la forme générale : Cube source ⇒ Cube cible [Mesures, Valeurs, Delta-valeurs] Cube source et le Cube cible représentent deux configurations de données du même cube ou la deuxième configuration est obtenue à partir de la première suite à une des opérations suscitées. Fig.3.15– Opérations possibles dans un cubegrade [IKA02] 61 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Par exemple, comme le montre la figure3.15, à partir d‟une configuration source (A = a1, B = b1, C = c1), le cube peut changer par : (i) généralisation par agrégation de toute la dimension C ; on obtient alors le cube cible (A = a1, B = b1) ; spécialisation par rajout d‟une nouvelle dimension D qui prend une modalité d1 ; (ii) on obtient alors le cube cible (A = a1, B = b1, C = c1, D = d1) ; ou par (iii) mutation par changement de la modalité c1 par c2 dans la dimension C ; on obtient alors le cube cible (A = a1, B = b1, C = c2). Mesures correspondent à un ensemble d‟une ou de plusieurs mesure agrégées selon les fonctions SUM, AVG, MAX et MIN. Par exemple, à partir d‟un cube de ventes, AVG(Bénéfice) permet d‟agréger la mesure Bénéfice en calculant sa moyenne. Valeurs correspondent à l‟ensemble des valeurs que prennent les mesures agrégées dans la configuration du cube source. Delta-valeurs mesurent les différentiels des valeurs des mesures agrégées entre le cube cible et le cube source. Pour résumer cette approche, considérons l‟exemple du cubegrade suivant : (Lieu=France) ⇒ (Lieu=France, Temps=2005) [AVG(Bénéfice), AVG(Bénéfice) = $ 40 000, DeltaAVG(Bénéfice) = 80%] Cet exemple signifie que la moyenne des bénéfices générés par les ventes en France, évalués à $ 40 000, enregistrent une baisse de 20% pendant l‟année 2005. Imielinski et al. affirment que les cubegrades sont une généralisation des règles d‟association et des cubes de données. Cette approche généralise le concept d‟une règle d‟association et fait un rapprochement avec les cubes de données. Mais, elle ne généralise nullement le processus d‟extraction des règles d‟association à partir d‟un cube de données. En effet, les auteurs ne proposent pas des algorithmes pour la découverte des cubegrades dans une base multidimensionnelle. Ils ne définissent pas non plus le calcul du support et de la confiance d‟un cubegrade. o Règles inter-dimensionnelles basées sur les quantités Guenzel et al. proposent un processus d‟extraction de règles inter-dimensionnelles avec des prédicats non répétitifs à partir d‟un environnement multidimensionnel des données [GAL99]. Cette approche construit une règle d‟association à partir d‟un ensemble de modalités, appelé éléments dimensionnels, provenant de dimensions distinctes du cube. Chaque élément dimensionnel d‟une règle d‟association est pris à partir d‟un seul niveau hiérarchique d‟une 62 Chapitre 3 : Opérateurs de couplage entre OLAP et DM dimension. Les auteurs identifient chaque motif candidat d‟une règle par une cellule ou un sous-cube dans le cube étudié. Le support et la confiance d‟une règle sont ensuite exprimés en fonction des fréquences contenues dans ces cellules ou dans ces sous- cubes. Par exemple, soit la règle inter dimensionnelle suivante : Produit(iTwin) ⇒ Lieu(France) ∧ Temps(2004) Le support de cette règle s‟exprime selon la quantité du produit iTwin vendu en France pendant l‟année 2004. Par exemple, le support de cette règle peut être égal à 1200 unités vendues. La confiance de cette règle est calculée en divisant la quantité d‟unités du produit iTwin, vendu en France pendant l‟année 2004, par la quantité d‟unités totales vendues pour le produit iTwin. Cette approche de calcul du support et de la confiance rejoint le cas classique qui se base sur le comptage des faits supportés par la règle selon la mesure COUNT. o Règles intra-dimensionnelles contextualisées Dans [CDH99, CDH00], Chen et al. proposent une plateforme OLAP pour la fouille dans les transactions relatives au commerce électronique (distributed OLAP based infrastructure). Selon les auteurs, cette plateforme inclut des outils d‟entreposage, d‟analyse en ligne et des techniques de fouille de données. Chen et al. Introduisent dans cette plateforme un processus d‟extraction de règles d‟association intra- dimensionnelles. Une règle intra-dimensionnelle contient des modalités provenant du même niveau hiérarchique d‟une même dimension, appelée dimension de base. Elle s‟exprime selon un contexte de données en fonction d‟autres dimensions du cube. Par exemple, considérons la règle suivante : [x ∈ Client : achète produit(x, A) ⇒ achète produit(x, B)] Lieu = France, Temps = 2005 Dans cet exemple, Client est la dimension de base, les produits sont les éléments (item) de la règle et Lieu et Temps sont les dimensions selon lesquelles l‟utilisateur définit le contexte du cube d‟o`u la règle est extraite. Selon Chen et al., le contexte d‟une règle intradimensionnelle peut-être défini de différentes manières selon le niveau de granularité souhaité par l‟utilisateur. Par exemple, la règle précédente peut également être exprimée dans des contextes différents : [x ∈ Client : achète produit(x, A) ⇒ achète produit(x, B)] Lieu = Lyon, Temps = 2005 [x ∈ Client : achète produit(x, A) ⇒ achète produit(x, B)] Lieu = France, Temps = janvier 2005 63 Chapitre 3 : Opérateurs de couplage entre OLAP et DM o Règles d’association étendues Dans [NJ03], Nestorov et Jukic introduisent un processus d‟extraction de règles d‟association étendues (extended association rules) à partir des entrepôts de données. Cette approche consiste à exploiter le langage de requête SQL fourni dans les systèmes de gestion des bases de données multidimensionnelles sans faire recours à des composantes extérieures de fouille de données. Une règle d‟association étendue est une règle intra-dimensionnelle avec prédicats répétitifs. Elle exprime une association entre les modalités d‟une seule dimension (item dimension) et qui satisfont des conditions fixées par l‟utilisateur dans d‟autres dimensions (non-item dimensions). Cependant, cette approche s‟inscrit dans le problème d‟analyse du panier de la ménagère. En effet, les éléments d‟une règle d‟association étendue désignent exclusivement des produits de ventes. Si un utilisateur cherche à découvrir les associations des produits vendus dans le sud de la France pendant la saison estivale, un exemple d‟une règle d‟association étendu peut-être: Dans le Sud et pendant l‟Eté : Tente ⇒ Sac de couchage (Support = 1%, Confiance = 50%) Pour obtenir une telle règle, l‟utilisateur doit tout d‟abord choisir la modalité Sud dans la dimension Lieu et la modalité ´ Eté dans la dimension Temps. L‟utilisateur doit également fixer les seuils minimums du support et de la confiance. Le processus d‟extraction des règles étendues utilise une séquence dynamique de requêtes SQL. o Règles d’association à partir d’un entrepôt de données Tjioe et Taniar proposent une approche pour extraire des règles d‟association interdimensionnelles à partir d‟un entrepôt de données [TT05]. Cette approche consiste en un ensemble de procédures de pré-traitement des données afin de les préparer pour la phase de fouille. Ces procédures partent des dimensions choisies par l‟utilisateur pour le processus de fouille. Les pré-traitements effectués ensuite sur les données de ces dimensions se basent essentiellement sur la fonction d‟agrégation de la moyenne (AVG). En effet, les auteurs proposent quatre algorithmes de pré-traitement : VAvg, HAvg, WMAvg et ModusFilter. Les trois premiers algorithmes consistent à calculer, dans un premier temps, la valeur moyenne d‟une mesure, sélectionnée par l‟utilisateur. ModusFilter calcule le mode de la mesure, c‟est-à-dire la valeur la plus fréquente de la mesure. Dans un second temps, ces algorithmes élaguent les faits OLAP ayant une mesure inférieure à la valeur moyenne. Les auteurs considèrent que les faits dont la mesure est en dessous de la valeur 64 Chapitre 3 : Opérateurs de couplage entre OLAP et DM moyenne sont inintéressants pour le processus de fouille parce qu‟ils ne peuvent pas générer de règles d‟association. L‟algorithme VAvg calcule la moyenne verticale d‟une mesure selon les dimensions choisies, alors que HAvg calcule plutôt la moyenne horizontale. WMAvg calcule la moyenne mobile pondérée verticalement dans les dimensions choisies. Par exemple, en partant du croisement des dimensions Temps et Produit, l‟algorithme VAvg calcule la moyenne générale des bénéfices de chaque produit sur toutes les années. Ensuite, comme le résume le tableau3.5, l‟algorithme élimine pour chaque produit les faits dont les bénéfices annuels sont au-dessous de la moyenne générale. WMAvg fonctionne de la même manière que VAvg dans la phase d‟élagage. En revanche, au lieu de calculer une simple moyenne d‟un produit, WMAvg calcule plutôt une moyenne mobile pondérée par les quantités annuelles de ce produit. L‟algorithme ModusFilter calcule pour chaque produit le mode, c‟est-à-dire la valeur des bénéfices la plus fréquente dans le temps. Ensuite, pour chaque produit, il ne garde que les faits ayant une mesure égale au mode. Temps iTwin Bénéfices) ……. aDream (Bénéfices 2000 100 250 2001 120 125 2002 300 80 2003 200 110 2004 250 100 2005 270 150 2006 280 180 Vavg 217.14 142 ,14 Tab.3.6– Exemple de fonctionnement de l‟algorithme Vavg [TT05] Avec le même exemple de dimensions, l‟algorithme HAvg calcule plutôt la moyenne générale des bénéfices de chaque année pour tout les produits. Comme le résume le tableau 3.6 (Exemple de fonctionnement de l‟algorithme Havg [TT05]), pour chaque année, l‟algorithme élimine ensuite les faits dont les bénéfices d‟un produit sont en dessous de la moyenne générale. 65 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Temps 2000 2001 . 2006 iTwin 100 135 DV-400 200 160 125 50 aStar 150 90 175 aDream 125 145 150 Havg 143 132 125 Tab.3.7– Exemple de fonctionnement de l‟algorithme Havg [TT05] Ces algorithmes de pré-traitement suivent tous une démarche relationnelle et emploient des requêtes SQL pour élaguer, dans la table des faits, les données jugées inutiles pour le processus de fouille. Les données filtrées sont aplaties selon un format tabulaire (initialized table). Les auteurs proposent ensuite trois algorithmes, de type Apriori, d‟extraction de règles d‟association inter-dimensionnelles à partir de ces données filtrées : l‟algorithme GenNLI pour les règles à prédicats non répétitifs et les algorithmes ComDims et GenHLI pour les règles à prédicats répétitifs. 3.4.4 Formalisation de l’opérateur AROX : Définition (Sous-cube de données) On considère D′ ⊆ D un sous-ensemble non vide de p dimensions {D1, . . . ,Dp} du cube de données C (p ≤ d). Le p-uplet (£1, . . . ,£p) est un sous-cube de données dans C selon D′ si et seulement si ∀i ∈ {1, . . . , p}, £i ≠ ∅ et il existe un indice unique j ≥ 0 tels que £i ⊆ Aij . Un sous-cube de données selon un ensemble de dimensions D′ correspond à une portion du cube de données original C. Il s‟agit de fixer un niveau hiérarchique Hji dans chaque dimension de Di ∈ D′ et de sélectionner dans ce niveau un sous-ensemble £i non vide de modalités appartenant à l‟ensemble de toutes les modalités Aij de Hji. Fig.3.16– Exemple d‟un sous-cube de données dans le cube des ventes 66 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Par exemple, considérons le sous-ensemble des dimensions D′ = {D1,D2} du cube C de la figure 3.16. Soient le sous-ensemble des modalités £1={Europe} du niveau H11 (Continent) de la dimension D1 (Lieu) et le sous-ensemble des modalités £2={EN- 700, aStar, aDream} du niveau H22 (Produit) de la dimension D2 (Produit). Dans ce cas, (£1, £2) = (Europe, {EN-700, aStar, aDream}) correspond au sous- cube grisé dans la figure 3.16 dans le cube C selon les dimensions D′ = {D1,D2}. Il est à noter que, selon cette définition, un même sous-cube de données peut-être désigné par différentes notations : -En changeant le nombre des dimensions selon lesquelles est défini le sous-cube et en fixant à All les dimensions restantes. Par exemple, la portion grisée de la figure 3.16 peut aussi se définir comme le sous-cube de données (Europe, {EN-700, aStar, aDream}, All ) selon l‟ensemble des dimensions D = {D1,D2,D3} ; – En changeant, si possible, de niveau hiérarchique d‟une des dimensions selon lesquelles est défini le sous-cube. Par exemple, la portion grisée de la figure 3.16 peut aussi se définir comme le sous-cube de données ({France, Italie, Espagne}, {EN-700, aStar, aDream}) selon l‟ensemble des dimensions D = {D1, D2} ; – En changeant, si possible, le nombre de dimensions selon lesquelles est défini le sous-cube et leurs niveaux hiérarchiques. Par exemple, la portion grisée de la figure 3.16 peut aussi se définir comme le sous-cube de données ({France, Italie, Espagne}, {EN-700, aStar, aDream}, All ) selon l‟ensemble des dimensions D = {D1,D2,D3}. On note aussi qu‟une cellule d‟un cube de données C correspond au cas particulier d‟un souscube de données défini selon l‟ensemble entier des dimensions D = {D1, . . . , Dd} et tel que ∀i ∈ {1, . . . , d}, £i est un singleton contenant une seule modalité appartenant au niveau hiérarchique le plus fin de la dimension Di. Par exemple, la cellule noire dans le cube de la figure 3.16 est exprimée selon le sous-cube (Japon, iTwin, 2002) selon l‟ensemble des dimensions D = {D1, D2, D3}. o Agrégation SUM d’un sous-cube de données Chaque cellule du cube de données C représente un fait OLAP qui s‟évalue dans IR selon une mesure M ∈M. Dans cette proposition, ils évaluent un sous-cube de données selon l‟agrégation SUM de la mesure M. Cette dernière est définie comme suit : Définition (Agrégation SUM d‟un sous-cube de données) Soient (£1, . . . , £p) un sous-cube de données dans C selon un sous-ensemble de dimensions 67 Chapitre 3 : Opérateurs de couplage entre OLAP et DM D′ ⊆ D et une mesure M ∈ M. L‟agrégation SUM de la mesure M du sous-cube (£1, . . . , £p) , notée SUMM(£1, . . . , £p), est la somme de toutes les valeurs de la mesure M des faits présents dans le sous-cube. Par exemple, le bénéfice des ventes du sous-cube de données grisé dans la figure 3.16 peut être évalué selon l‟agrégation SUMBénéfice(Europe, {EN-700, aStar, aDream}) qui représente la somme des valeurs des bénéfices présentes dans toutes les cellules du sous-cube en question, c‟est à dire les cellules grisées dans le cube des ventes. o Prédicat dimensionnel Définition (Prédicat dimensionnel) Soit Di une dimension d‟un cube de données C. Un prédicat dimensionnel dans Di, noté αi, est un prédicat de la forme <a ∈ Aij>. Un prédicat dimensionnel est un prédicat qui prend la valeur d‟une modalité de la dimension dans laquelle il est défini. Par exemple, dans la dimension D1 de la figure 5.3, un prédicat dimensionnel possible peut prendre la forme α1 =<a ∈ A11>=<a ∈ {Amérique, Europe, Asie}>. o Prédicat inter-dimensionnels Définition (Prédicat inter-dimensionnels) Soit D′ ⊆ D un sous-ensemble non vide de p dimensions {D1, . . . ,Dp} du cube de données C (2 ≤ p ≤ d). (α1 ∧・ ・ ・∧ αp) est un prédicat inter-dimensionnels dans D′ si et seulement si ∀i ∈ {1, . . . , p}, αi est un prédicat dimensionnel dans Di. Par exemple, soit D′ = {D1,D2} un sous-ensemble de dimensions du cube de données de la figure 3.15. Un prédicat inter-dimensionnels possible dans D′ peut prendre la forme (<a1 ∈ A11> ∧ <a2 ∈ A21>). Un prédicat inter-dimensionnel est une conjonction de prédicats dimensionnels non répétitifs. C‟est-à-dire, chaque dimension de D′ a un prédicat dimensionnel distinct dans l‟expression du prédicat inter-dimensionnel. o Méta-règle inter-dimensionnelles En s‟inspirant du formalisme fourni par Plantevit et al. [PCL+05], ils ont établit une partition dans les dimensions D du cube de données C selon trois sous-ensembles DC,DA et DI tels que: – DC est un sous-ensemble de p dimensions de contexte. Un sous-cube de données dans C selon DC est défini afin d‟établir le contexte d‟analyse à partir duquel les règles d‟association seront extraites ; 68 Chapitre 3 : Opérateurs de couplage entre OLAP et DM – DA est un sous-ensemble de (s+r) dimensions d‟analyse à partir desquelles les prédicats d‟une méta-règle inter-dimensionnelles sont choisis ; – DI est le sous-ensemble des dimensions restantes. Ces dimensions sont fixées à l‟agrégat total All. Il s‟agit des dimensions inutilisées qui sont totalement agrégées et qui, par conséquent, n‟interviennent ni dans la définition du contexte du processus d‟extraction des règles d‟association, ni dans la définition de la méta-règle. Une méta-règle inter-dimensionnelles est un modèle de règles d‟association défini par l‟utilisateur selon un schéma général de la forme : R Dans le contexte (£1, . . . ,£p) (α1 ∧ …. ∧ αs) ⇒ (β1 ∧ …. ∧ βr) où (£1, . . . ,£p) est un sous-cube de C défini selon le sous-ensemble des dimensions DC. Ce sous-cube désigne la portion du cube de données dans laquelle sera conduit le processus d‟extraction des règles d‟association. à la différence du schéma de la méta- règle proposé par Kamber et al. dans [KHC97], notre méta-règle permet de cibler un contexte d‟analyse précis dans le cube en définissant la population des faits qui se trouvent dans le sous-cube de données (£1, . . . ,£p). Il est à remarquer que le cas ou le sous-ensemble des dimensions de contexte est vide (DC = ∅), correspond à un contexte d‟analyse général qui couvre tous les faits du cube de données C. Il est à noter que ∀k ∈ {1, . . ., s} (respectivement ∀k ∈ {1, . . ., r}), αk (respectivement βk) est un prédicat dimensionnel dans une dimension distincte de DA. Par conséquent, la conjonction des prédicats (α1 ∧ …. ∧ αs) ⇒ (β1 ∧ …. ∧ βr) est un prédicat inter-dimensionnels dans DA. Le nombre de prédicats (s + r) dans la méta-règle est égal au nombre de dimensions dans DA. Ainsi, notre méta-règle est un modèle qui définit des règles d‟association interdimensionnelles avec des prédicats non répétitifs. Par exemple, en plus des trois dimensions représentées dans la figure 3.16, supposons que le cube des ventes contient quatre autres dimensions : Profil du consommateur (D4), Profession du consommateur (D5), Sexe (D6) et Promotion (D7). Considérons alors la partition suivante des dimensions du cube des ventes : – DC = {D5, D6} = {Profession du consommateur, Sexe} ; – DA = {D1, D2, D3} = {Lieu, Produit, Temps} ; – DI = {D4, D7} = {Profil du consommateur, Promotion}. 69 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Selon cette partition, un utilisateur peut souhaiter extraire des règles d‟association répondant au modèle de la méta-règle inter-dimensionnelles suivante : Dans le contexte (Etudiant, Femme) <a1 ∈ Continent> ∧ <a3 ∈ Année> ⇒ <a2 ∈ Produit> Selon cette méta-règle, les règles d‟association inter-dimensionnelles sont extraites à partir du sous-cube de données (Etudiant, Femme) qui couvre les ventes concernant seulement la population des étudiantes. Les dimensions inutilisées (Profil du consommateur, Promotion) sont totalement agrégées et n‟interviennent pas dans le processus d‟extraction des règles d‟association. En revanche, les dimensions d‟analyse interviennent dans la découverte des règles. En effet, les prédicats des règles extraites proviennent des dimensions de DA. Deux prédicats dimensionnels dans D1 et D3 sont prévus dans l‟antécédent des règles, alors qu‟un seul prédicat dimensionnel est prévu dans le conséquent des règles. Le premier prédicat dimensionnel de l‟antécédent est fixé au niveau Continent de D1. Le deuxième prédicat dimensionnel de l‟antécédent est fixé au niveau Année de D3. Quant au prédicat dimensionnel du conséquent, il est fixé au niveau Produit de D2. 70 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Algorithme Apriori : Algorithme d‟Extraction des règles d‟association inter-dimensionnelles à partir d‟un cube de données Entrée C,DC,DA,DU,R,M,minsupp,minconf Sortie : X ⇒ Y, Supp,Conf, Lift, Loev 1: C(1) ← ∅ 2: pour k ← 1 à (s + r) faire 3: C(k) ← C(k) ∪ Akj 4: fin pour 5: k ← 1 6: tant que C(k) ≠ ∅ et k ≤ (s + r) faire 7: F(k) ← ∅ 8: pour tout A ∈ C(k) faire 9: si A est un prédicat inter-dimensionnels alors 10: Supp ← CalculSupport(A,M) 11: si Supp ≥ minsupp alors 12: F(k) ← F(k) ∪ {A} 13: fin si 14: fin si 15: fin pour 16: pour tout A ∈ F(k) faire 17: pour tout B ≠ ∅ et B ∈ A faire 18: si A\B ⇒ B répond à R alors 19: Conf ← CalculConfidence(A\B,B,M) 20: si Conf ≥ minconf alors 21: X ← A\B 22: Y←B 23: Lift ← CalculLift(X, Y,M) 24: Loev ← CalculLoevinger(X, Y,M) 25: retourner (X ⇒ Y, Supp,Conf, Lift, Loev) 26: fin si 27: fin si 28: fin pour 29: fin pour 30: C(k + 1) ← ∅ 31: pour tout A ∈ F(k) faire 32: pour tout B ∈ F(k) qui partage k − 1 items avec A faire 33: si Tout Z ⊂ {A ∪ B} ayant k items est un prédicat inter-dimensionnels et est fréquent alors 34: C(k + 1) ← C(k + 1) ∪ {A ∪ B} 35: fin si 36: fin pour 37: fin pour 38: k←k+1 39: fin tant que 71 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.4.5 Conclusion et perspectives Cette méthode établi un cadre général pour l‟extraction des règles d‟association interdimensionnelles pour l‟explication dans les cubes de données. Cette approche couple les règles d‟association avec la technologie OLAP en adaptant l‟algorithme de recherche des règles au contexte des données multidimensionnelles. Selon cette approche, aucun prétraitement préalable est nécessaire sur les cubes de données. L‟algorithme proposé est une adaptation d‟Apriori aux données multidimensionnelles. Il repose sur une recherche ascendante des motifs fréquents qui exploite la propriété d‟anti-monotonie particulièrement adaptée aux données éparses. Ils ont employé les méta-règles inter-dimensionnelles afin de piloter le processus de recherche des règles dans un cube de données. Ainsi, un utilisateur peut cibler un contexte d‟analyse spécifique défini par une portion particulière dans le cube étudié. Également, ils ont revisité les principes classiques du support et de la confiance d‟une règle d‟association. Ils proposent un formalisme qui redéfinit ces derniers en offrant la possibilité de les calculer en fonction des unités de masse d‟une mesure choisie par l‟utilisateur. Ils ont montré que cette nouvelle façon d‟évaluer une règle d‟association est plus pertinente au sens d‟une analyse en ligne. En général, le support et la confiance entraînent la génération d‟un grand nombre de règles d‟association qui sont inexploitables dans la plupart des cas. Pour cela, nous proposons de filtrer les règles extraites en ne gardant que celles les plus intéressantes aux sens du critère du Lift et de l‟indice de Loevinger. Afin de valoriser les règles d‟association extraites, ils ont proposé un codage graphique de ses dernières selon la sémiologie graphique de Bertin [Ber67]. Ce codage prend en compte l‟ordre d‟importance de chaque règle en fonction des valeurs de ses critères d‟évaluation. ils utilisent également ce codage dans le cadre d‟une nouvelle approche de visualisation des règles d‟association dans un espace de représentation du cube de données étudié. Suite à ce travail, des améliorations possibles et de nouvelles pistes de recherche méritent d‟être étudiées. Tout d‟abord, il est aussi intéressant d‟intégrer la valeur de la mesure dans l‟expression de la règle inter-dimensionnelle. La mesure peut aussi faire l‟objet d‟un codage graphique intégré dans celui de la règle. Ainsi, offrir à l‟utilisateur une visualisation complète de l‟espace de représentation du cube de données incluant les mesures des faits OLAP et les liens entre ces faits par les règles d‟association. 72 Chapitre 3 : Opérateurs de couplage entre OLAP et DM Vu le grand nombre de travaux sur les règles d‟association dans les cubes de données, il est nécessaire d‟élaborer une étude comparative afin de positionner notre approche, en terme de performance, par rapport aux approches existantes. Enfin, une autre amélioration possible de cette approche consisterait à mieux profiter de l‟aspect hiérarchique des dimensions du cube de données étudié afin d‟en extraire des règles d‟association avec des prédicats appartenant à plusieurs niveaux de granularité. 73 Chapitre 3 : Opérateurs de couplage entre OLAP et DM 3.5 Conclusion Dans cette partie, nous avons essayé d‟apporter des solutions au problème de l‟analyse des données complexes. Nous nous sommes basés sur le couplage entre l‟analyse en ligne et la fouille de données. Nous avons énoncé les deux domaines sont complémentaires et peuvent évoluer dans le cadre d‟un processus décisionnel unique. Leur association est capable d‟enrichir et de rehausser le processus décisionnel. De plus, la fouille a déjà avancé des solutions pour l‟extraction des connaissances à partir des données complexes. Par conséquent, la fouille de données est capable d‟étendre les capacités de l‟OLAP pour analyser les données complexes. A partir de la fin des années 90, le couplage de l‟analyse en ligne et de la fouille de données a suscité beaucoup d‟intérêts. Plusieurs travaux ont abordé le sujet en proposant des approches variées selon différents types de motivations. Néanmoins, nous avons distingué trois grandes approches ou chacune se caractérise par une manière d‟opérer le couplage entre les deux domaines. La première consiste à transformer les données multidimensionnelles en données tabulaires exploitables par les algorithmes classiques de fouille. La deuxième approche repose sur une extension des outils OLAP et des langages de requêtes des SGBDMs aux techniques de fouille. Enfin, la troisième approche adapte les techniques classiques de fouille au contexte des données multidimensionnelles. Cependant nous avons mis le point sur les trois opérateurs de couplage entre OLAP et DM à savoir : le réarrangement d‟un cube par analyse factorielle (ACM): Opérateur ORCA, l‟agrégation par classification dans les cubes de données (CAH) : Opérateur OPAC et l‟explication par recherche guidée de règles d‟association dans un cube: Opérateur AROX. 74 Cubes de prédiction Résumé Nous présentons une nouvelle famille des outils pour l'analyse de données exploratoire, appelés cubes de prédiction. Comme dans la norme OLAP des cubes de données, chaque cellule dans un cube de prédiction contient une valeur qui résume les données appartenant à cette cellule, et la granularité des cellules peut être changée via des opérations telles que le roll-up et -down. Contrairement aux cubes de données, dans lesquelles chaque valeur de cellules est calculée par une fonction d‟agrégation, par exemple, SUM ou AVG, chaque valeur de cellules dans un cube de prédiction résume un modèle prédictif formé sur les données correspondant à cette cellule, et caractérise son comportement ou prédit la décision. Nous proposons et motivons la prédiction dans les cubes, et nous montrons qu'ils peuvent être efficacement calculés en exploitant l'idée d'un modèle de décomposition. Sommaire 4.1 Introduction 4.2 Contributions et futures directions 4.3 Exemple de motivation 4.4 Modèles prédictifs 4.5 Les cubes de prédiction 4.6 Conclusion et perspective 75 Chapitre4 Cubes de prédiction « Les prédictions d'événements inattendus sont toujours plus précises si on ne les a pas rédigées auparavant » Carl Sagan, Extrait de Contact 4.1 Introduction Il est souvent dit que l'analyse de données exploratoire est un processus itératif, et que la partie du temps est passée sur l'arrangement de la structure et les modèles sont suggérés en appliquant un ou plusieurs algorithmes de fouille de données sur différents sous-ensembles ou différente condition sur les versions des données. Cependant, presque toute la recherche s'est concentrée sur améliorer la qualité et l'efficacité des algorithmes de fouille, et a ignoré le rétrécissement de l'humain dans la boucle. Nous adressons, ainsi, directement la question de la façon dont nous pouvons aider l'analyste en identifiant des sous-ensembles de données qui sont aussi bien - intéressant à la lumière d'un modèle prédictif donné- l'idée fondamentale peut être généralisée pour soutenir d'autres genres d'arrangements exploratoires d'analyse. Notre proposition de base est simple pourtant puissante, OLAP est maintenant un outil bien compris et puissant pour explorer systématiquement des questions d'agrégation à travers des sous-ensembles de données. 4.2 Contributions et futures directions En cette partie, nous : (1) présentons la cubes de prédiction, (2) développons une technique informatique générale, appelée la décomposition de marquage de fonction, pour améliorer l'efficacité de les cubes de prédiction, (3) comment s'appliquer la technique proposée à la construction de cubes de prédiction pour plusieurs algorithmes utilisés généralement d'étude de machine, et finalement (4) présentons par série d'expériences qui évaluent empiriquement l'exactitude et l'efficacité 76 de la construction de cube. Chapitre 4 : Cubes de prédiction Cette partie est une première étape, et ouvre un certain nombre de directions intéressantes pour la future recherche. Au delà des améliorations possibles aux algorithmes, en construisant les cubes de prédiction pour d'autres modèles prédictifs est un défi important. Si nous regardons des paramètres des algorithmes d‟étude comme dimensions du cube, ceci ouvre la porte à une utilisation plus générale de cubes de prédiction ; en accordant l'algorithme d‟étude (par exemple, pour divers choix - les seuils magiques, le calcul efficace de cube pour ces généralisations est grand ouvert. 4.3 Exemple de motivation Considérons une banque dans tout le pays dont les directeurs veulent analyser le processus de reconnaissance du prêt de la banque en ce qui concerne deux dimensions, Location et Time (illustrés en figure1). Ils sont intéressés par les questions comme : 1. Etant donné un ensemble d'attributs (par exemple, race et sexe), y a-t-il des endroits et les périodes pendant lesquels les approbations ont dépendu fortement de ces attributs ? 2. Y a-t-il des endroits et les périodes où la prise de décision était semblable à celle en 1950? Z1 = Location Z1(3)= All Z1(2)= State Z2 = Time All MA WI MN Z2(2)= Year Z1(1)= City All Z2(3)= All Madison, WI Green Bay, WI Z2(1)= Month 8 5 Jan.8 6 8 6 0 4 Dec.8 6 Fig. 4.1: Exemple de dimension hiérarchique Quand les modèles prédictifs sont construit par un chemin de fer tel que l'algorithme, ils sont employés pour aider à des décisions de reconnaissance, les questions essentiellement doivent être faites avec façon prévisible de certains attributs et ressemblance des modèles qualifiés sur différents sous-ensembles de données. Les sociologues ont soulevé des inquiétudes que l'utilisation de l'exploitation de données présente le risque de discrimination. Ces questions sont également compliquées par le fait que les réponses de candidat sont des sous-ensembles de données, divisés par des valeurs d'endroit et de temps ; clairement, il y a un grand nombre de candidats. Bien que les hiérarchies d'endroit et de Temps soient connues, le niveau juste (granularité) pour l'analyse est peu clair ; par exemple, exécutant l'analyse qui emploie l'État-Mois mieux qu'en utilisant la Ville-Année ? Ainsi, il est -77- Chapitre 4 : Cubes de prédiction souhaitable d'avoir un outil qui permet aux analystes de la banque de se diriger par différents niveaux hiérarchique par rolling-up ou/et drill-down. Nous proposons ainsi, un nouveau genre d'outil de fouille des données, appelé cubes de prédiction, pour soutenir une telle analyse. Le figure 4.3 (a) et (b) montre un exemple à deux dimensions un cube de prédiction pour répondre à la première question. Sur le figure 4.3 (c), chaque cellule est classée par paire [état, année]. Chaque valeur de cellules est l‟attribut prévisible, calculé en évaluant deux modèles formé sur le sous-ensemble de données de cette cellule. (Dans la section suivante, nous discutons comment mesurer le prévisible) nous appelons cette sorte de cube de prédiction ; un cube prévisible. La prédiction est la navigation de cubes par l'intermédiaire du roll-up (par exemple, de [état, année] [état, tout]) et drill-down (par exemple, de [état, année] [état, mois]). (a) Le cube de niveau [1,1] (b) Le cube de niveau [1,2] (c) Le cube de niveau [2,2] Fig.4.3 : Exemple de différents niveaux de cube 4.4. Modèles prédictifs Les modèles prédictifs sont les objets centraux dans les cubes de prédiction. Nous présentons d'abord les concepts de base et les notations, et nous décrivons ensuite des techniques standard d'étude pour mesurer l'exactitude de mode, la ressemblance entre les modèles, et l'attribut prévisible. 4.4.1 Fondations Soit D une table de données du schéma [X, Y], où X = {X1,…, Xm} est un ensemble d'attributs de facteur prédictif et Y est l'étiquette (c.-à-d., l'attribut dépendant). Chaque ligne dans D s'appelle un exemple. Un modèle prédictif h(X ; D) est un modèle qualifié sur D en utilisant l'algorithme de h qui prévoit l'étiquette d'un nouvel exemple X. Pour faciliter l'expression, si l'ensemble de données n'est pas important ou peut être impliqué du contexte, nous employons juste h (X) pour noter un modèle prédictif. En outre, nous employons h(x ; D) pour noter la fonction qui produit la prédiction de h(X ; D) sur l'entrée X. Par exemple, D est une table des données d'application de prêt, avec le schéma [Age, Gender, Race, Approval], où X= {Age, Gender, Race} note les attributs de facteur prédictif et Y=Approval est l'étiquette. -78- Chapitre 4 : Cubes de prédiction Le modèle prédictif decision_tree(X ; D) est l'arbre de décision déterminé dans D, pour prévoir si une application de prêt d‟une personne serait approuvée se basant sur son Age, Gender et Race. Dans l'étude et les statistiques, on assume que D est un échantillon aléatoire tiré indépendamment d'une distribution fondamentale de probabilité p*(X, Y). Puisque les différents ensembles de données viennent de différentes distributions, nous employons p* (X, Y | D) pour noter la distribution de l'ensemble de données D. Etant donner cette distribution, l'étiquette pour l'entrée x est l'étiquette qui maximise la probabilité conditionnelle p*(Y=y | X=x, D), pour toute la classe y ; c.-à-d., best_class (x | D) = argmaxy p*(Y=y | X=x, D). De ce point de vue probabiliste, un modèle prédictif h (X ; D) est optimal si pour n'importe quelle entrée x, h (x ; D) produit toujours la meilleure étiquette de x ; c.-à-d., h (x ; D) = argmaxy p*(Y=y | X=x, D) Ainsi, h (X ; D) peut être considéré comme l‟approximation de p*(Y | X, D). De plus, il est intuitif pour imaginer cela, h (X ; D) construit une distribution interne de probabilité ph (Y | X, D) qui approxime p*(Y | X, D). Ainsi, la prédiction de h (X ; D) en x est l'étiquette de classe qui maximise ph(Y=y | X=x, D), pour tout y ; c.-à-d., h (x ; D) = argmaxy ph (Y=y | X=x, D). En fait, beaucoup d'algorithmes d'étude ont de telles distributions de probabilité, ou ont quelques composants de marquage qui ont une signification probabiliste semblable, bien que les points ne soient pas réellement des probabilités. 4.4.2 L’exactitude du Modèle Théoriquement, l'exactitude de h (X ; D) est défini par combien de fois nous nous attendons à qu'il soit correct : Ex,y[I (h (x ; D) = y )], où (x, y) est tiré de p*(X, Y | D), et I est la fonction indicatrice. Si ¥est vrai, I (¥) = 1, sinon I (¥) = 0. Donc, p*(X, Y | D) est une distribution inconnue -79- Chapitre 4 : Cubes de prédiction Définition 1 : Test-set accuracy. (Exactitude de l‟ensemble test) Soit ∆ un schéma de test de [X, Y], Test-set accuracy (l‟exactitude de l‟ensemble test) de h (X ; D) est : 1 ∆ 𝐼 ℎ 𝑥; 𝐷 =𝑦 (𝑥,𝑦)∈∆ où ∆ est la taille de ∆. Notons que si nous n'avons pas un ensemble mis de côté de test, une méthode générale est utilisée. Nous divisons d'abord aléatoirement D en n-recouvrement D1,…, Dn. Puis, pour i = 1 à n, nous employons ∪ 𝑗 ≠ 𝐼 (𝐷 j) comme données pour établir un modèle, et puis employer Di comme des tests pour mesurer le modèle Test-set accuracy (Exactitude de l‟ensemble test). Puis, l'exactitude de vérification est la moyenne des exactitudes ci-dessus de n. Un choix commun de n est 10. 4.4.3 Ressemblance du modèle La notion de la ressemblance (ou de la différence) entre les modèles est importante dans la prédiction. Considérons h1(x) et h2(x) deux modèles prédictifs. Une méthode simple de mesurer la ressemblance entre h1(x) et h2(x) est d'examiner si ces deux modèles prévoient les mêmes classes d‟étiquettes pour la plupart des exemples d‟ensemble de test. Définition 2: Prediction similarity and distance (ressemblance prévisible et distance). La ressemblance prévisible (test-set-based) entre deux modèles, h1(x) et h2 (x), sur l'ensemble de test est : Nous utilisons la différence (h1(x), h2 (x)) pour noter la ressemblance modèle entre h1(x) et h2(x). La prédiction de distance entre h1 (x) et h2(x) est 1-similarity (h1(x), h2(x)). Notons que l'ensemble de test utilisé n'ayez pas besoin d'avoir des classes d‟étiquettes. Il est employé pour fournir la distribution désirée du X. Habituellement, est produit selon la véritable distribution fondamentale p ∗ (x). Cependant, nous pouvons également commander les tests ; c.-à-d., en employant le test à différent place, on peut comparer des modèles basés sur différentes régions de l'espace de dispositif. Par exemple, en employant un ensemble de test d'informations sur les personnes riches, nous pouvons concentrer la comparaison sur la façon dont deux modèles traitent les personnes riches. -80- Chapitre 4 : Cubes de prédiction Du point de vue probabiliste, les modèles h1(x) et h2(x) peut également estimer les classe de probabilités conditionnelles, c.-à-d., 𝑝ℎ 1 𝑌 𝑋 et 𝑝ℎ 2 𝑌 𝑋 , alors nous pouvons mesurer la ressemblance entre h1(x) et h2(x) plus avec précision en employant la divergence de Kullback-Leibler (KL) entre 𝑝ℎ 1 𝑌 𝑋 et 𝑝ℎ 2 𝑌 𝑋 . Définition 3 : KL-distance [KL14]. La test-set-based KL entre les modèles, h1(x) et h2(x), sur l'ensemble de test ∆ est : 1 ∆ 𝑝ℎ 1 𝑦 𝑥 log 𝑥∈∆ 𝑦 𝑝ℎ 1 𝑦 𝑥 𝑝ℎ 2 𝑦 𝑥 Nous employons KL_distance (h1 (x), h 2(x)) pour noter la KL-distance entre h1(x) et h2(x). Notons qu‟en général, 𝐾𝐿_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (ℎ1 , ℎ2 ) ≠ 𝐾𝐿_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (ℎ2 , ℎ1 ). 4.4.4 Attribut prévisible : Des modèles prédictifs peuvent être employés pour mesurer si un ensemble d'attributs 𝑉 ⊆ 𝑋 est prédictif avec Y est dans un ensemble de données D. L'intuition est que V n'est pas prédictif si et seulement si V est indépendant de Y et d‟autre attribut X-V ; c.-à-d., 𝑝 ∗ 𝑌 𝑋 − 𝑉, 𝐷) = 𝑝 ∗ (𝑌 | 𝑋, 𝐷). Ainsi, la ressemblance entre ces deux probabilités est une bonne mesure du prévisible de V. Par suite p ∗ est inconnu dans la pratique, nous employons la différence (prédiction ou KL-distance) entre ℎ (𝑋 ; 𝐷) et ℎ (𝑋 − 𝑉 ; 𝐷) comme mesure du prévisible. Notons qu'il y a une autre manière de mesurer le prévisible de V, basé sur l'intuition que V est prédictif si et seulement si le modèle employant V est plus précis que le modèle n'employant pas V ; c.-à-d., h (X ; D) est plus précis que ℎ (𝑋 − 𝑉 ; 𝐷). La validation peut être employée pour estimer les exactitudes de ℎ (𝑋 ; 𝐷) et ℎ (𝑋 − 𝑉 ; 𝐷). Dans l'intérêt de l'espace, nous ne discutons pas de cette alternative plus d'avantage. 4.5. Les cubes de prédiction Dans cette section, nous définissons formellement les cubes de prédiction. Nous présentons d'abord les genres d'analyse pour lesquels les cubes de prédiction est conçu, et puis nous définissons les cubes de prédiction ainsi considérer leur réalisation. -81- Chapitre 4 : Cubes de prédiction 4.5.1 Model_based Subset Analysis Nous sommes intéressé par l'analyse des données de modèle basé (ou modèle fondé). Plus spécifiquement, donné une table de données D au schéma [X, Y], nous voulons comprendre le rapport entre X et Y (c.-à-d., 𝑝 ∗ (𝑌 | 𝑋, 𝐷)) en établissant un modèle (c.-à-d., ℎ (𝑋 ; 𝐷)). Des sous-ensembles 𝜎 (𝐷) sont définis par des sélections relationnelles, et nous employons les modèles ℎ (𝑋 ; 𝜎 (𝐷)) pour approximer les vraies distributions 𝑝 ∗ (𝑌 | 𝑋, 𝜎 (𝐷)). Les caractéristiques du modèle que nous sommes intéressés sont : Test-set behavior (conduite de l‟ensemble de test): étant donné un ensemble de test du schéma [X, Y], nous voulons savoir si les modèles établis sur différent sous ensembles de D se comportent comme la distribution fondamentale qui produit ∆. Par exemple, peut être une liste d'applications de prêt qui ont été injustement traitées. Ceci peut être estimé en employant Test-set accuracy (Exactitude de l‟ensemble test). Model-based data similarity (Modèle basé sur la ressemblance des données): Etant donné un ensemble de données D0 , qui peut être un sous-ensemble de D, nous voulons savoir si le semblable D0 est différent au sous-ensemble de D. Cette comparaison peut être faite en mesurant la ressemblance ou la distance entre le modèle établi sur D0 et les modèles établis sur différents sous-ensembles de D. Attribute predictiveness (Attribut prévisible): Etant donné un ensemble V ⊆ X d'attributs, par exemple, attributs comme race et le sexe, nous voulons savoir si V est prédictif en ce qui concerne Y sur différents sous-ensembles de D. C'est la notion de prévisible définie dans la section suivante. Tant que les exactitudes des modèles prédictifs sont raisonnablement hautes, cette prétention est courante dans l'étude et les statistiques. Dans la pratique, nous pouvons essayer différents algorithmes d‟étude, et nous obtenons un bon sens au sujet de la prédiction ou les caractéristiques de décision. Cependant, le nombre de tous les sous-ensembles possibles de D est trop grand. Ainsi, nous empruntons l'idée des données multidimensionnelles et hiérarchiques groupant à OLAP, et contraignez les sous-ensembles que nous considérons à ceux définis par des groupements hiérarchiques multidimensionnels valides. 4.5.2 De cubes en données aux cubes de prédiction OLAP est un environnement qui soutient l'analyse de données multidimensionnelle et hiérarchique. Ces données sont stockées dans une table D de fait avec un ensemble -82- Chapitre 4 : Cubes de prédiction 𝑍 = { 𝑍1 , … , 𝑍𝑑 } des attributs de dimension et d'un attribut Y de mesure, où chaque dimension 𝑍𝐼 a un domaine hiérarchique, par exemple, le figure1. Un cube de données est une rangée de dimension d où la valeur en chaque cellule est une valeur globale, par exemple, la somme ou la moyenne, qui récapitulent le sous-ensemble de données situant dans cette cellule. Le figure3 (c) est un exemple. Formellement, la valeur dans la cellule classée près [𝑧1 , … , 𝑧𝑑 ] est définie par une question de la forme suivante. agg (Y) Z1 z1 AND … Zd=zd; où zi sont des valeurs dans les hiérarchies et agg() est une fonction globale, par exemple, somme ou moyenne. Par exemple, sur le figure3 (c), la cellule indexée par [WI, 86] est 0.9. Tandis que le cube de données est un moyen utile pour comprendre les traits autour de sous-ensemble des données, ils fournissent un savoir caractéristique de prédiction ou de décisions. Ainsi, nous prolongeons le concept d'un cube de données comme suit : Utiliser le mécanisme OLAP pour diviser des données en sous-ensembles et utiliser l'interface utilisateur OLAP pour choisir des sous-ensembles à vérifier, par exemple, le roll-up et drill-down. Introduire de nouveaux genres de fonctions globales qui capturent la prédiction ou la décision des données. Au lieu de l'agrégation simple, par exemple, la somme et la moyenne, la valeur dans chaque cellule est calculé en évaluant un modèle basé sur le sous ensemble de données associé à la cellule. Nous appelons ce nouveau genre de cube ; les cubes de prédiction. La complexité de calcul de manipulation des cubes de prédiction est plus haute qu'aux cubes de données. -83- Chapitre 4 : Cubes de prédiction 4.5.3 Dimensions et hiérarchies : D'abord, nous redéfinissons le schéma D pour qu‟il soit [Z, X, Y], où 𝑍 = {𝑍1 , … , 𝑍𝑑 } est un ensemble de dimension d'attributs, d est le nombre de dimensions, X est un ensemble d'attributs de facteur prédictif et Y est la classe d'étiquette. Dans l'exemple de motivation, Z = {Location, Time}. Le long de chaque dimension𝑍𝑖 , il y a une hiérarchie. Pour la simplicité de l'exposition, nous assumons que la hiérarchie de 𝑍𝑖 est linéaire : <Zi(1),…, Zi(k)>, pour un certain k, où Zi(t) est un domaine plus général que Zi(t-1). Ainsi, Zi(t) est appelé le domaine le moins général, et le Zi(k) s'appelle le domaine le plus général. Nous disons que Zi(a) est plus général que Zi(b) si chaque valeur dans le domaine Zi(b) est (a) (t) exactement un fils d‟une valeur dans le domaine Zi dans la hiérarchie. Nous appelons Zi le domaine au niveau t. Par exemple, suivant les indications du figure1, la hiérarchie de domaine de Location est < City, State, All >, où la City est au niveau 1 et c‟est le domaine le moins général ; All est au niveau 3 et c‟est le domaine le plus général. Dans cette hiérarchie, chaque ville (City) est exactement un fils d‟un état (State), et chaque état (State) est un fils de All dans la hiérarchie Location. (𝑡) Nous utilisons 𝑣 ∈ 𝑍𝑖 pour noter qu'une valeur est du domaine Zi(t). Sans perte de généralité, nous assumons cela pour n'importe quelle dimension Zi, les domaines Zi(1),…, Zi(k) ont des différents ensembles de valeurs ; (𝑎) (𝑏) c.-à-d., il n'y a aucune valeur 𝑣 tels que 𝑣 ∈ 𝑍𝑖 et 𝑣 ∈ 𝑍𝑖 , pour tout i, a et b. Par exemple, il y a différentes valeurs du domaine mois pour le même mois de différentes années. Semblable à la table de fait dans OLAP, nous supposons que les valeurs dans les attributs de dimension de la table D de données viennent des moindres domaines généraux, c.(𝑙) à-d., le 𝑍𝑖 𝑠. Le sous-ensemble hiérarchique multidimensionnel au niveau 𝑙1 , … , 𝑙𝑑 , est noté par (𝑙 𝑖 ) 𝜎 𝑣1 ,…,𝑣𝑑 (𝐷) où 𝑣𝑖 ∈ 𝑍𝑖 , est défini par: où desc (vi) représente l'ensemble de valeurs qui sont les descendants de vi dans la hiérarchie de Zi et vi . -84- Chapitre 4 : Cubes de prédiction Par exemple, 𝜎[𝑊𝐼,86] (𝐷) est le sous-ensemble de données avec l'endroit dans WI et le temps dans 86. Notons que le niveau de ce sous-ensemble est [2.2]. Nous pouvons visualiser un sous-ensemble hiérarchique multidimensionnel en traçant chaque exemplaire de D comme point dans un espace d -dimensionnel basé sur leurs valeurs des attributs. Puis, le sous-ensemble hiérarchique multidimensionnel 𝜎 𝑣1 ,…,𝑣𝑑 (𝐷) est l'ensemble d'exemples (points de données) tombant dans la boîte définie par 𝑣1 , … , 𝑣𝑑 . Fig. 4.2 - visualisation du 𝜎 𝑊𝐼, 86 𝐷 Par exemple, 𝜎[𝑊𝐼,86] (𝐷) est l'ensemble d'exemples situés dans le rectangle du le figure 4.2. Un cube au niveau 𝑙1 , … , 𝑙𝑑 est une rangée de dimension d, où chaque cellule est indexé par (𝑙 ) [𝑣1 , … , 𝑣𝑑 ] , 𝑣1𝑖 ∈ 𝑍𝑖 𝑖 , et la valeur dans la cellule est un nombre qui récapitule 𝜎 𝑣1 ,…,𝑣𝑑 (𝐷). Nous disons que 𝜎 𝑣1 ,…,𝑣𝑑 (𝐷) est le sous-ensemble défini par la cellule 𝑣1 , … , 𝑣𝑑 . Le figure 4.3 montre un exemple d'un cube à différents niveaux. Par exemple, dans le cube du niveau [2, 2] chaque cellule de la rangée est indexée par une Location et une année. La valeur dans la cellule [𝑊𝐼, 86] est un nombre qui récapitulent 𝜎[𝑊𝐼,86] (𝐷) (nous définirons la signification des valeurs dans les cubes de prédiction plus tard). Le Roll-up est l'opérateur qui change le cube de prédiction du niveau [𝑙1 , … , 𝑙𝑖 , … , 𝑙𝑑 ] au niveau [𝑙1 , … , 𝑙𝑖∗ , … , 𝑙𝑑 ] , où 𝑙𝑖∗ > 𝑙𝑖 , pour une certaine dimension i. Drill-down est l'opérateur qui change le cube de prédiction du niveau [𝑙1 , … , 𝑙𝑖 , … , 𝑙𝑑 ] au niveau [𝑙1 , … , 𝑙𝑖∗ , … , 𝑙𝑑 ], où 𝑙𝑖∗ < 𝑙𝑖 , pour une certaine dimension i. -85- Chapitre 4 : Cubes de prédiction 4.5.4 Cubes de prédiction Nous définissons maintenant trois types de test-set based (TS) des cubes de prédiction, et expliquons comment les employer pour exécuter le modèle d'analyse basée de sous ensemble. Pour tous TS les cubes de prédiction, l'utilisateur indique : (1) les données de la table D, du schéma [Z, X, Y], ainsi que les hiérarchies liées à Z, (2) un algorithme d‟étude h, et (3) un ensemble de données de test du schéma [X, Y] (pour des cubes de prédiction TS; mais [X] pour les deux autres types de cubes). Notons que l'ensemble de test est un paramètre personnalisé par l'utilisateur. Cela signifie que l'utilisateur peut choisir l'ensemble de test basé sur sa distribution désirée de données. Définition 4 : TS cube d’exactitude. TS- cube d‟exactitude au niveau [𝑙1 , … , 𝑙𝑑 ] est une rangée de dimension d, dans laquelle la valeur de chaque cellule est l'exactitude test-set de ℎ (𝑋 ; 𝜎(𝐷)) basé sur l'ensemble de test , où σ(D) est le sous-ensemble défini par cette cellule. Définition 5 : Cube en Modèle-ressemblance (ou distance) Model-similary (or distance). Etant donné un autre modèle personnalisé par l'utilisateur h0(X), la ressemblance des cubes de prédiction (ou cube KL-distance) au niveau [𝑙1 , … , 𝑙𝑑 ] est une rangée d-dimensionnelle, dans laquelle la valeur en chaque cellule est la ressemblance de prédiction (ou KL-distance) entre h0(x) et h (X ; σ(D)) basé sur l'ensemble non étiqueté de test , où σ(D) est le sous-ensemble défini par cette cellule. Définition 6 : Cube de façon prévisible. Etant donné un ensemble 𝑉 ⊆ 𝑋 d'attributs, le PD (ou KL-) cube prévisible au niveau [𝑙1 , … , 𝑙𝑑 ] est une rangée d-dimensionnelle, dans laquelle la valeur en chaque cellule est la distance prédite (ou KL) entre ℎ (𝑋 − 𝑉 ; 𝜎(𝐷)) 𝑒𝑡 ℎ (𝑋 ; 𝜎(𝐷)) mesuré par l'ensemble non étiqueté de test , où 𝜎(𝐷) est le sous-ensemble défini par cette cellule. Notons que les opérateurs des cubes de prédiction sont les mêmes pour le cube de données, par exemple, roll-up et drill-down le bas. Dans le suivant, nous expliquons comment employer les cubes de prédiction pour exécuter un model-based subset analysis. Test-set behavior (conduite de l‟ensemble de test): Nous pouvons employer le TS cube d‟exactitude pour analyser le test-set (∆)sur différents sous-ensembles -86- Chapitre 4 : Cubes de prédiction Model-based data similarity (Modèle basé sur la ressemblance des données): Etant donné un ensemble de données D0 , qui peut être un sous-ensemble de D, nous pouvons d'abord établir un modèle h0 sur D0 , et mesurer le model-based similary de D0 à différents sous-ensembles de D en utilisant les cubes model-similary (ou distance) en supposons que h0 est un des paramètres d'entrée. Attribute predictiveness (attribut prévisible): Etant donné un ensemble 𝑉 ⊆ 𝑋 d'attributs, nous pouvons vérifier le prévisible de V w.r.t. Y sur différents sousensembles en utilisant les cubes de façon prévisible. Généralisons des cubes ci-dessus, si l'utilisateur fournit une fonction d'évaluation Eval (ℎ, 𝜎(𝐷) | ∆, 𝜃) dont il évalue le comportement du modèle 𝜎(𝐷) en utilisant l'algorithme d‟étude h basé sur l'ensemble de test et quelques paramètres facultatifs 𝜃, puis les TS-cube de prédiction (general test-set-based prediction cube) peut être défini comme suit. Définition 7 : le général TS-cube de prédiction. Etant donné une fonction d'évaluation Eval et un ensemble de paramètre facultatif 𝜃, le général TS-cube de prédiction au niveau [𝑙1 , … , 𝑙𝑑 ] est une rangée d-dimensionnelle, où la valeur en chaque cellule est Eval (ℎ, 𝜎(𝐷) | ∆, 𝜃), et 𝜎(𝐷) est le sous-ensemble défini par cette cellule. Notons que pour TS-accuracy cubes, Eval (h, σ(D) | ∆, θ) est Test-set accuracy (Exactitude de l‟ensemble test) de h (X ; σ(D) ) en utilisant cubes en modèle-ressemblance (ou distance), avec étant vide. Pour des est h0 et Eval (h, σ(D) | ∆, θ)est la ressemblance (ou la distance) entre h (X ; σ(D) ) et h0 (X) basé dans . Pour des cubes de façon prévisible, Eval (h, σ(D) | ∆, θ ) est la ressemblance (ou la distance) entre h (X ; σ(D) ) et h (X − V ; σ(D) ) basé dans avec étant V. En outre, notons que nous pouvons définir les cubes de prédiction basés sur la contrevérification. Cependant, dans l'intérêt de l'espace, nous ne discutons pas cette variation. 4.5.5 Réalisation de cubes de prédiction Bien que le concept de cubes de prédiction est intuitif, la navigation de cube de prédiction est informatique très coûteuse. Ainsi, il est généralement nécessaire de réaliser des réponses interactives acceptables, matérialisant les valeurs de cellules à différents niveaux. -87- Chapitre 4 : Cubes de prédiction Pour la simplicité, nous considérons seulement la pleine réalisation, c.-à-d., réalisation de toutes valeurs de cellules pour tous les niveaux possibles. La réalisation partielle avec des contraintes peut être faite en prolongeant les techniques de réalisation développée ici en utilisant les techniques partielles de réalisation développées pour des cubes des données, par exemple, développer dans [HRH96]. Définition 8 : La réalisation de la table pleine. La réalisation de la table pleine du cube de prédiction est une table du schéma [Z1,…, Zd, M] qui contient toutes valeurs de cellules du cube à tous les niveaux possibles. C'est-à-dire, la table contient un couple [v1,…, vd, m(v1,…, vd)], où m(v1,…, vd)est la valeur dans la cellule (𝑙) de cube [v1,…, vd], pour chaque 𝑣𝑖 ∈ 𝑧𝑖 , pour tout i et l. (𝑙) Notons que les valeurs de Zi dans la table de donnée D sont du domaine 𝑧𝑖 , le domaine le moins général. Cependant, les valeurs de l'attribut Zj dans la réalisation de la table pleine sont l'union de tous les domaines de cette dimension, c.-à-d. 𝑙 (𝑙) 𝑍𝑖 Une manière de produire la réalisation de la table pleine pour un cube de prédiction est d'établir exhaustivement un modèle et de l'évaluer pour chaque cellule et pour chaque niveau. Cela signifie que nous devons construire 𝑙 (𝑙) 𝑍1 ×… × 𝑙 (𝑙) 𝑍𝑑 modèles. Nous appelons cette méthode la méthode exhaustive. Notons que les tailles de données pour ces modèles sont différentes. À une extrémité, nous considérons les cellules dans le cube au plus bas niveau [1,…, 1]. La taille des données situées dans chacune de telles cellules est petite. Cela signifie qu'en établissant un modèle pour une telle cellule est relativement moins cher. À une autre extrémité, considérons la cellule dans le cube au plus général niveau. Dans ce cas-ci, les données pour cette cellule sont l'ensemble de données entier de D. Cela signifie qu‟en établissant un modèle pour cette cellule exige les ressources extrêmement grandes. De plus, il est très probable qu'établir le modèle simple de la plus générale cellule soit beaucoup plus cher qu'en établissant les modèles pour toutes cellules au plus bas niveau. Cette observation précise un grand défi informatique dans la réalisation des cubes de prédiction. Si nous n'adaptons pas des algorithmes d'étude pour des cubes de données, une construction du modèle pour 𝑙 (𝑙) 𝑍1 ×… × 𝑙 (𝑙) 𝑍𝑑 semble inévitables, et les grandes conditions de -88- Chapitre 4 : Cubes de prédiction ressource pour des cellules aux niveaux élevés rendent la situation encore plus mauvaise. Ainsi, d‟arranger les modèles plutôt que d'obtenir zéro à plusieurs reprises 4.6 Conclusion et perspective Les cubes de prédiction et leurs défis informatiques associés sont de nouveaux problèmes dans l'exploitation de données. Dans cette partie, nous avons motivé ces problèmes et nous avons présenté quelques résultats préliminaires. Nos futures directions incluent : (1) développer un mécanisme pour manipuler le cas où quelques sous-ensembles n'ont pas des données suffisantes pour établir un bon modèle, (2) dérivant le marquage décomposable fonctionnant pour d'autres modèles prédictifs, (3) étudiant le problème de la façon à faire les modèles interprétable dans les cubes de prédiction, et (4) prolonger la définition des dimensions pour inclure des paramètres des algorithmes d‟étude. Dans un travail relatif, les cubes de données ont été prolongés en utilisant des règles d'association dans [IKA02], mais les règles l'association sont tout à fait différentes que les modèles prédictifs décrits dans cette partie et les méthodes particulières proposées dans [IKA02] ne peuvent pas être appliquées aux cubes de prédiction. Trouver un couple dans les environs des cellules ayant la particularité d'être associer avec un grand changement dans un cube de données étudié dans [DHL+01]. Cependant, la ressemblance définie dedans [DHL+01] est très différente de la ressemblance définie entre le comportement du modèle prédictif. Établir des modèles dans OLAP a été également étudié dans [BW01, MFT01]. Dans [BW01], ils ont considéré les modèles statistiques log-linéaires pour approximer des régions denses dans un cube de données, alors que dans [MFT01], ils ont considéré à établir le réseau bayésiens (BN) sur le cube de données pour répondre approximativement à des questions de compte. Cependant, leur but était d'employer des modèles pour condenser des cubes de données, plutôt que model-based data analysis proposée en cette partie. Notons que l'algorithme BN proposé dedans [MFT01] peut être adaptée de sorte qu‟il soit un exemple de notre méthode décomposable. Dans l'étude de machine, la méthode [Die00] est une technique employée couramment pour amplifier l'exactitude des algorithmes d‟étude instables. Cependant, un ensemble se compose typiquement d'un ensemble de classificateurs bas, chacun qualifié sur une grande partie d‟ensemble de données plein; notre utilisation d'ensemble n'a pas cette propriété et n'a pas été soigneusement étudiée. -89- Chapitre 5 : Conclusion générale Chapitre 5 Conclusion générale « C’est là en effet un des grands et merveilleux caractères des beaux livres que pour l’auteur ils pourraient s’appeler ‘Conclusions’ et pour le lecteur ‘Incitations’. » Marcel Proust, “Sur la lecture” 6.1 Bilan et contributions Dans le cadre de ce mémoire, nous avons essayé d‟apporter des solutions au problème de l‟analyse des données complexes. Pour y parvenir, nous nous sommes basés sur le couplage entre l‟analyse en ligne et la fouille de données. Nous avons énoncé les deux domaines sont complémentaires et peuvent évoluer dans le cadre d‟un processus décisionnel unique. Leur association est capable d‟enrichir et de rehausser le processus décisionnel. De plus, la fouille a déjà avancé des solutions pour l‟extraction des connaissances à partir des données complexes. Par conséquent, la fouille de données est capable d‟étendre les capacités de l‟OLAP pour analyser les données complexes. A partir de la fin des années 90, le couplage de l‟analyse en ligne et de la fouille de données a suscité beaucoup d‟intérêts. Plusieurs travaux ont abordé le sujet en proposant des approches variées selon différents types de motivations. Néanmoins, nous avons distingué trois grandes approches ou chacune se caractérise par une manière d‟opérer le couplage entre les deux domaines. La première consiste à transformer les données multidimensionnelles en données tabulaires exploitables par les algorithmes classiques de fouille. La deuxième approche repose sur une extension des outils OLAP et des langages de requêtes des SGBDMs aux techniques de fouille. Enfin, la troisième approche adapte les techniques classiques de fouille au contexte des données multidimensionnelles. Cependant nous avons mis le point sur les trois opérateurs de couplage entre OLAP et DM à savoir : le réarrangement d‟un cube par analyse factorielle (ACM): Opérateur ORCA, l‟agrégation par classification dans les cubes de données (CAH) : Opérateur OPAC et l‟explication par recherche guidée de règles d‟association dans un cube: Opérateur AROX. -90- Chapitre 5 : Conclusion générale 6.2 Perspectives de recherche Les travaux réalisés dans ce domaine ouvrent diverses perspectives de recherche. Tout d‟abord, nous continuons à croire que le couplage de l‟analyse en ligne et de la fouille de données est une solution adéquate pour l‟analyse des données complexes. Nous projetons la généralisation des cas d‟application aux données complexes de différentes propositions basées sur le couplage. Nous pensons que, par analogie à l‟agrégation par classification, la réorganisation par l‟ACM et l‟explication par les règles d‟association peuvent aussi fournir des connaissances pertinentes dans les données de mammographies, en particulier, et dans les données complexes, en général. Nous croyons aussi que XML est une solution adaptée à la modélisation multidimensionnelle des données complexes. Au vu des divers efforts dans le domaine des entrepôts de données XML, nous pensons que, dans un avenir proche, XML sera un nouveau standard pour un processus d‟entreposage particulièrement adapté aux données complexes. Cette évolution, va naturellement engendrer une redéfinition des mécanismes d‟interrogation des données au niveau de l‟analyse en ligne. Parallèlement, l‟extension de l‟analyse en ligne à la fouille doit aussi tenir compte de cette nouvelle représentation des données complexes. D‟une manière similaire aux données multidimensionnelles, nous pensons que nous serons amenés à réfléchir à un nouveau type de couplage entre l‟analyse en ligne et la fouille de données qui adapterait les algorithmes de fouille aux données XML. Dans des travaux réalisés, ils ont exploité le couplage de l‟analyse en ligne et de la fouille de données afin d‟étendre les capacités de l‟OLAP. Ces capacités ont porté principalement sur la description et la visualisation, la classification et l‟explication. Cependant, il est encore important d‟étendre l‟analyse en ligne à des capacités de prédiction. En effet, dans un processus décisionnel, un utilisateur observe les faits OLAP dans un cube afin d‟extraire des informations intéressantes au regard du contexte d‟analyse. Ces informations permettent à l‟utilisateur de comprendre des relations ou des phénomènes existants dans les données. Ils permettent aussi à l‟utilisateur d‟anticiper, intuitivement, la réalisation de phénomènes futurs selon un certains nombre de conditions. Nous pensons que, avec une technique de prédiction appropriée au contexte des données multidimensionnelles, il est possible d‟assister l‟utilisateur dans cette tâche. La combinaison de l‟analyse en ligne avec une technique de prédiction est capable de fournir, par exemple, des estimations des valeurs des mesures d‟un fait inexistant ou d‟un fait qui va se réaliser dans l‟avenir. -91- Chapitre 5 : Conclusion générale Enfin, la nécessité de la mise en place d‟un cadre formel général pour le couplage de l‟analyse en ligne et de la fouille de données. Ils ont déjà mis en place une première base théorique à cet effet. Nous projetons une formalisation complète de ce cadre afin de fournir une algèbre générale incluant à la fois les opérateurs classiques de l‟OLAP et la nouvelle génération des opérateurs de fouille de données en ligne. A l‟image de nos réalisations existantes et futures, notre objectif est d‟étendre le noyau minimal de notre algèbre actuelle à un nouveau noyau dédié, non seulement à la structuration et la navigation dans les données multidimensionnelles, mais aussi à la description, la classification, l‟explication et la prédiction dans les données complexes. -92- Bibliographie [AIS93] Agrawal R., Imielinski T., Swami A., « Mining Association Rules between Sets of Items in Large Databases », in Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD‟1993), pp. 207– 216, Washington, D.C., USA : ACM Press. May 1993. [ACS03] ACS Public Use Microdata Sample (PUMS) 2003 < http://factfinder.census gov/home/en/acs_pums_2003.html> [AS94] Agrawal R., Srikant R., « Fast Algorithms for Mining Association Rules », in Proceedings of the 20th International Conference on Very Large Data Bases (VLDB‟1994), pp. 487–499, Santiago, Chile : Morgan Kaufmann. September 1994. [BB03] X. Baril, Z. Bellahsène, "Designing and Managing an XML Warehouse", ln XML Data Management: Native XML and XML-enabled Database Systems, Addison Wesley, 2003, 455-473. [BBL06] R. Ben Messaoud, O. Boussaïd, S. Loudcher, "A Data Mining-Based OLAP Aggregation of Complex Data: Application on XML Documents", International Journal of Data Warehousing and Mining, to appear, 2006. [BCCOP04] K.S. Beyer, R.J. Cochrane, L.S. Colby, F. Ozcan, H. Pirahesh, "XQuery for Analytics: Challenges and Requirements", lst International Workshop on XQuery Implementations, Experiments and Perspectives (XIME-P 04), Paris, France, 2004, 3-8. [BDU04] Bentayeb F., Darmont J., Udréa C., « Efficient Integration of Data Mining Techniques in Database Management Systems », in Proceedings of the 8th International Database Engineering and Applications Symposium (IDEAS‟2004), pp. 59–67, Coimbra, Portugal : IEEE Computer Society. July 2004. [Ben73] Benzécri J.P., L‟analyse des correspondances, Paris : Dunold. 1973. [Ber67] Bertin J., Sémiologie Graphique, Paris : Gauthier-Villars. 1967. -93- [BFR98] Bradley P.S., Fayyad U.M. and Reina C.A., Scaling EM (ExpectationMaximization) Clustering to Large Databases. ICML 1998. [BF01] Breiman L., Random Forests. Machine Learning, 2001. [BMS97] Brin S., Motwani R., Silverstein C., « Beyond Market Baskets: Generalizing Association Rules to Correlations », in Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD‟1997), pp. 265– 276, Tucson, Arizona, USA: ACM Press. May 1997. [BS97] Barbara D., Sullivan M., « Quasi-Cubes : Exploiting Approximations in Multidimensional Databases », SIGMOD Record, 26(3) :12–17. 1997. [BW01] Barbara D. and Wu X.. Loglinear-Based Quasi Cubes. J. Intelligent Information System, 2001. [CDH99] Chen Q., Dayal U., Hsu M., « A Distributed OLAP Infrastructure for ECommerce », in Proceedings of the 4th IECIS International Conference on Cooperative Information Systems (COOPIS‟1999), pp. 209–220, Edinburgh, Scotland: IEEE Computer Society. September 1999. [CDH00] Chen Q., Dayal U., Hsu M., « An OLAP-based Scalable Web Access Analysis Engine », in Proceedings of the 2nd International Conference on Data Warehousing and Knowledge Discovery (DaWaK‟2000), Lecture Notes in Computer Science, pp. 210–223, London, UK : Springer-Verlag. September 2000. [CDRBB03] F. Clerc, A. Duffoux, C. Rose, F. Bentayeb, O. Boussaïd, "SMAIDoC : Un Système Multi-Agents pour l'Intégration des Données Complexes", Revue des Nouvelles Technologies de l'Information, No. l, 2003, 13-24. [CFB97] Chaudhuri S., Fayyad U., Bernhardt J., « Scalable Classification over SQL Databases », Technical Report MSR-TR-97-35, Microsoft Research, Redmond, WA, USA. 1997. -94- [CFB99] Chaudhuri S., Fayyad U., Bernhardt J., « Scalable Classification over SQL Databases », in Proceedings of the 15th International Conference on Data Engineering (ICDE‟1999), pp. 470–479, Sydney, Australia. March 1999. [Cha98] Chaudhuri S., « Data Mining and Database Systems: Where is the Intersection?», Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 21(1):4–8. March 1998. [CH92] Cooper G.F., Herskovits E.. A Bayesian Method for the Induction of Probabilistic Networks from Data, Machine Learning, 1992. [CZC01] Chen M., Zhu Q., Chen Z., « An Integrated Interactive Environment for Knowledge Discovery from Heterogeneous Data Resources », Information and Software Technology, 43(8): 487–496. July 2001. [DBRA05] J. Darmont, O. Boussaïd, J.C. Ralaivao, K. Aouiche, "An Architecture Framework for Complex Data Warehouses", 7th International Conference on Enterprise Information Systems (ICEIS 05), Miami, USA, May 2005,370-373. [DG02] A.Danna, O.Gandy. All the Glitters is not Gold: Digging Beneath the Surface of Data Mining. J. Business Ethics, 2002. [DHL+01] Dong G., Han J., Lam J., Pei J., Wang K., « Mining Multi-Dimensional Constrained Gradients in Data Cubes », in Proceedings of the 27th International Conference on Very Large Data Bases (VLDB‟2001), pp. 321– 330, Roma, Italy : Morgan Kaufmann. September 2001. [Die00] T.G. Dietterich. Ensemble Methods in Machine Learning Int. Workshop on Multiple Classifier Systems (MCS), 2000. [FBB06] C. Favre, F. Bentayeb, O. Boussaïd, "A Rule-based Data Warehouse Model", 23rd British National Conference on Databases (BNCOD 06), Belfast, Northern 1re land, July 2006; to appear in LNCS. -95- [FH00] Fu L., Hammer J., «CUBIST: a New Algorithm for Improving the Performance of Ad-hoc OLAP Queries », in Proceedings of the 3rd ACM International Workshop on Data warehousing and OLAP (DOLAP‟2000), pp. 72–79, Washington, D.C., USA : ACM Press. November 2000. [FR00] Favero E., Robin J., « Using OLAP and Data Mining for Content Planning in Natural Language Generation », in Proceedings of the 5th International Conference on Applications of Natural Language to Information Systems (NLDB‟2000), pp. 164–175, Versailles, France : Lecture Notes in Computer Science. June 2000. [Fu05] Fu L., « Novel Efficient Classifiers Based on Data Cube », International Journal of Data Warehousing and Mining, 1(3) :15–27. 2005. [GC98a] Goil S., Choudhary A., « High Performance Data Mining Using Data Cubes on Parallel Computers », in Proceedings of the 12th International Parallel Processing Symposium (IPPS‟1998), pp. 548–555, Orlando, Florida, USA. April 1998. [GC98b] Goil S., Choudhary A., « High Performance Multidimensional Analysis and Data Mining », in Proceedings of the 10th High Performance Networking and Computing Conference (SC‟1998), Orlando, Florida, USA. November 1998. [GC99] Goil S., Choudhary A.N., « A parallel Scalable Infrastructure for OLAP and Data Mining », in Proceedings of the 3rd International Database Engineering and Applications Symposium (IDEAS‟1999), pp. 178–186, Montreal, Canada : IEEE Computer Society. August 1999. [GC01] Goil S., Choudhary A.N., « PARSIMONY: An Infrastructure for Parallel Multidimensional Analysis and Data Mining », Journal of Parallel and Distributed Computing, 61(3) :285–321. March 2001. [GCB+97] J.Gray, S.Chaudhuri , A.Bosworth, A. Layman, D.Riechart and M.Venkatrao. Data Cube: A Relational Aggregate Operator Generalizing Group-By, CrossTab, and Sub-Tables. J.Data Mining and Knowledge Discovery, 1997. -96- [GGR99] V.Ganti, J.Gehrke and R.Ramakrishnan. CACTUS-Clustering Categorical Data Using Summaries. KDD 1999. [GoCh97] S. Goil, A. Choudhary. High Performance Data Mining Using Data Cubes on Parallel Computer. Journal of Data Mining and Knowledge Discovery, 1997, Vol 1, N°.4, pp 391-417. [GoCh98] S. Goil, A. Choudhary. High Performance Multidimensional Analysis and Data Mining. In : High Performance Networking and Computing Conference (SC‟98), novembre 1998, Orlando. [GoCh99] S. Goil, A. Choudhary. A parallel Scalable Infrastructure for OLAP and Data Mining, In: International Data Engineering and Applications Symposium (IDEAS‟99), 2-4 août 1999, Montreal, Canada, pp 178. [GoCh01] S. Goil, A. Choudhary. PARSIMONY: An Infrastructure for parallel Multidimensional Analysis and Data Mining. Journal of parallel and distributed computing, 2001, Vol 61, N°3, pp 285-321. [HAH03] W. Hümmer, H. Andreas, B.G. Harde, "XCube: XML for Data Warehouses", 6th ACM International Workshop on Data warehousing and OLAP (DOLAP 03), New Orleans, USA, 2003, 33-40. [Han97] J. Han. OLAP Mining: An Integration of OLAP with Data Mining. In: Proceedings of the IFIP Conference on Data Semantics, octobre.1997, Leysin, Switzerland, pp 1-11. [Han98] J. Han. Toward On-line Analytical Mining in Large Databases. In : SIGMOD Record, 1998, 27(1):97-107, 1998. [HCC98] Han J., Chee S.H., Chiang J.Y., « Issues for On-Line Analytical Mining of Data Warehouses », in Proceedings of the 1998 SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery (DMKD‟1998), pp. 2 :1–2 :5, Seattle, Washington, USA. June 1998. -97- [HDY99] Han J., Dong G., Yin Y., « Efficient Mining of Partial Periodic Patterns in Time Series Database », in Proceedings of the 15th International Conference on Data Engineering (ICDE‟1999), pp. 106– 115, Sydney, Australia : IEEE Computer Society. April 1999. [HRH96] V. Harinarayan, A.Rajaraman and J.D? Ullman. Implementing Data Cubes Efficiently. SIGMOD 1996. [HT96] T. Hastie and R. Tibshirani. Discriminant Analysis by Gaussian Mixtures. J. Royal Statical Societ, 1996. [IKA02] Imielinski T., Khachiyan L., Abdulghani A., « Cubegrades: Generalizing Association Rules », Data Mining and Knowledge Discovery, 6(3):219–258, ISSN 1384-5810. 2002. [Inm02] W.H. Inmon, "Building the Data Warehouse", Troisième edition, John Wiley & Sons, 2002. [Inm96] Inmon W.H., Building the Data Warehouse, John Wiley & Sons. 1996. [Kim96] Kimball R., The Data Warehouse Toolkit , John Wiley & Sons. 1996. [KHC97] Kamber M., Han J., Chiang J., « Metarule-Guided Mining of MultiDimensional Association Rules Using Data Cubes », in Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining (KDD‟1997), pp. 207–210, Newport Beach, CA, USA : The AAAI Press. August 1997. [KL51] S. Kullback and R.A. Leibler. On information and sufficiency. Ann. Math. Stat., 22:79-86, 1951. [LBMD+00] Laurent A., Bouchon-Meunier B., Doucet A., Ganc¸arski S., Marsala C., « Fuzzy Data Mining from Multidimensional Databases », in Proceedings of the International Symposium on Computational Intelligence (ISCI‟2000), pp. 278– 283, Kosice, Slovakia. 2000. -98- [LGM00] Laurent A., Gancarski S., Marsala C., « Coopération entre un système d‟extraction de connaissances floues et un système de gestion de bases de données multidimensionnelles », in Rencontres Francophones sur la Logique Floues et ses Applications (LFA‟2000), La Rochelle, France. 2000. [LMP00] Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle, Paris : Dunold, 3e édition, édition. 2000. [LR03] Q. Li and J. Racine. Nomparametic Estimation of Distributions with Categorical and Continuous Data. J. Multivariate Analysis, 2003. [LZBX06] Liu B., Zhao K., Benkler J., Xiao W., « Rule Interestingness Analysis Using OLAP Operations », in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD‟2006), pp. 297– 306, Philadelphia, PA, USA : ACM Press. August 2006. [MAD06] H. Mahboubi, K. Aouiche, J. Darmont, "Materialized View Selection by Query Clustering in XML Data Warehouses", 4th International Multiconference on Computer Science and Information Technology (CSIT 06), Amman, Jordan, April 2006. [MAF05] Messaoud R.B., Aouiche K., Favre C., « Une approche de construction d‟espaces de représentation multidimensionnels dédiés à la visualisation », in 1ère journée francophone sur les Entrepôts de Données et l‟Analyse en ligne (EDA‟2005), Revue des Nouvelles Technologies de l‟Information, pp. 34–50, Lyon, France: Cépaduès Editions. Juin 2005. [MBR04] Messaoud R.B., Boussaid O., Rabaséda S., « A New OLAP Aggregation Based on the AHC Technique », in Proceedings of the 7th ACM International Workshop on Data Warehousing and OLAP (DOLAP‟2004), pp. 65–72, Washington D.C., VA, USA : ACM Press. November 2004. -99- [MBR05] Messaoud R.B., Boussaid O., Rabaséda S.L., « Evaluation of a MCA-Based Approach to Organize Data Cubes », in Proceedings of the 14th ACM International Conference on Information and Knowledge Management (CIKM‟2005), pp. 341–342, Bremen, Germany : ACM Press. October – November 2005. [MBR06a] Messaoud R.B., Boussaid O., Rabaséda S.L., « A Data Mining- Based OLAP Aggregation of Complex Data: Application on XML Documents », International Journal of Data Warehousing and Mining, 2(4) :1–26. 2006. [MBR06b] Messaoud R.B., Boussaid O., Rabaséda S.L., « Efficient Mul-tidimensional Data Representation Based on Multiple Correspondence Analysis », in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD‟2006), pp. 662–667, Philadelphia, PA, USA : ACM Press. August 2006. [MBR06c] Messaoud R.B., Boussaid O., Rabaséda S.L., « Mining Association Rules in OLAP Cubes », in Proceedings of the 1st International Conference on Innovations in Information Technology (IIT‟2006), Dubai, UAE : IEEE Communications Society. November 2006. [MBR06d] Messaoud R.B., Boussaid O., Rabaséda S.L., « Using a Factorial Approach for Efficient Representation of Relevant OLAP Facts », in Proceedings of the 7th International Baltic Conference on Databases and Information Systems (DB&IS‟2006), pp. 98–105, Vilnius, Lithuania: IEEE Communications Society. July 2006. [MFT01] D. Margaritis, C. Faloutsos and S.Thrun. NetCube: A Scalable Tool for Fast Data Mining and Compression. VLDB, 2001. [Mit97] T. Mitchell. Machine Learning, McGraw Hill, 1997. -100- [MRBB04] Messaoud R.B., Rabaséda S., Boussaid O., Bentayeb F., « OpAC : Opérateur d‟analyse en ligne bas´e sur une technique de fouille de données », in 4èmes Journées francophones d‟Extraction et de Gestion des Connaissances (EGC‟2004), volume 2 de Revue des Nouvelles Technologies de l‟Information, pp. 35–46, Clermont-Ferrand, France. Janvier 2004. [MRBM06] Messaoud R.B., Rabas´eda S.L., Boussaid O., Missaoui R., « Enhanced Mining of Association Rules from Data Cubes », in Proceedings of the 9th ACM International Workshop on Data Warehousing and OLAP (DOLAP‟2006), pp. 11–18, Arlington, VA, USA : ACM Press. November 2006. [MHW00] Maedche A., Hotho A., Wiese M., « Enhancing Preprocessing in DataIntensive Domains using Online-Analytical Processing », in Proceedings of the 2nd International Conference on Data Warehousing and Knowledge Discovery (DaWaK‟2000), pp. 258–264, London, UK : Springer. September 2000. [MJBN06] Missaoui R., Jatteau G., Boujenoui A., Naouali S., Data Warehouses and OLAP : Concepts, Architectures and Solutions, chapitre Towards Integrating Data Warehousing with Data Mining Techniques, Idea Group Inc. February 2006. [MPC96] Meo R., Psaila G., Ceri S., « A New SQL-like Operator for Mining Association Rules », in Proceedings of the 22nd International Conference on Very Large Data Bases (VLDB‟1996), pp. 122–133, Bombay, India : Morgan Kaufmann. September 1996. [MRB05] Messaoud R.B., Rabaséda S., Boussaid O., « L‟analyse factorielle pour la construction de cubes de données complexes », in 2ème atelier Fouille de Données Complexes (FDC‟2005), pp. 53–56, Paris, France. Janvier 2005. [MRBB04] Messaoud R.B., Rabaséda S., Boussaid O., Bentayeb F., « OpAC : Opérateur d‟analyse en ligne bas´e sur une technique de fouille de données », in 4èmes Journées francophones d‟Extraction et de Gestion des Connaissances (EGC‟2004), volume 2 de Revue des Nouvelles Technologies de l‟Information, pp. 35–46, Clermont-Ferrand, France. Janvier 2004. -101- [MRBM06] Messaoud R.B., Rabaséda S.L., Boussaid O., Missaoui R., « Enhanced Mining of Association Rules from Data Cubes », in Proceedings of the 9th ACM International Workshop on Data Warehousing and OLAP (DOLAP‟2006), pp. 11–18, Arlington, VA, USA : ACM Press. November 2006. [MTV94] Mannila H., Toivonen H., Verkamo I., « Efficient Algorithm for Discovering Association Rules », in Proceedings of the AAAI Workshop on Knowledge Discovery in Databases (KDD‟1994), pp. 181–192, Seattle, Washington, USA: AAAI Press. July 1994. [NNQ04] Naouali S., Nachouki G., Quafafou M., « Mining OLAP Cubes: Semantic Links Based on Frequent Itemsets », in Proceedings of the 1st International Conference on Information & Communication Technologies: from Theory to Applications (ICTTA‟2004), pp. 447–449, Damascus, Syria : IEEE Section France. April 2004. [NNT03] Niemi T., Nummenmaa J., Thanisch P., « Normalising OLAP Cubes for Controlling Sparsity », Data & Knowledge Engineering , 46(3) :317–343. 2003. [NRDR05] V. Nassis, R. Rajagopalapillai, T.S. Dillon, W. Rahayu, "Conceptual and Systematic Design Approach for XML Document Warehouses", International Journal of Data Warehousing and Mining, 1(3),2005,63-87. [ORS98] Ozden B., Ramaswamy S., Silberschatz A., « Cyclic Association Rules », in Proceedings of the 14th International Conference on Data Engineering (ICDE‟1998), pp. 412–421, Orlando, Florida, USA : IEEE Computer Society. February 1998. [Pal00] Palpanas T., « Knowledge Discovery in Data Warehouses », SIGMOD Record – ACM Special Interest Group on Management of Data, 29(3): 88–100. 2000. [Par97] Parsaye K., « OLAP and Data Mining: Bridging the Gap », Database Programming and Design, 10: 30–37. 1997. -102- [PCY95] Park J.S., Chen M.S., Yu P.S., « An Effective Hash-Based Algorithm for Mining Association Rules », SIGMOD Record, 24(2): 175– 186, ISSN 01635808. 1995. [PHS05] B.K. Park, H. Han, I.Y. Song, "XML-OLAP: A Multidimensional Analysis Framework for XML Warehouses", 7th International Conference on Data Warehousing and Knowledge Discovery (DaWaK 05), Copenhagen, Denmark, 32-42. [Pok01] J. Pokorny, "Modelling Stars Using XML", 4th ACM Internatio nal Workshop on Data Warehousing and OLAP (DOLAP 01), Atlanta, USA, 24-31. [Qui86] Quinlan J.R., « Induction of Decision Trees », Machine Learning, 1 :81–106. 1986. [Qui86] Quinlan J.R., C4.5: Programs for Machine Learning, Morgan Kaufmann, 1993. [RF01] Robin J., Favero E., « HYSSOP: Natural Language Generation Meets Knowledge Discovery in Databases », in Proceedings of the 3rd International Conference on Information Integration and Web-based Applications and Services (iiWAS‟2001), pp. 243–256, Linz, Austria: Austrian Computer Society. September 2001. [RMS98] Ramaswamy S., Mahajan S., Silberschatz A., « On the Discovery of Interesting Patterns in Association Rules », in Proceedings of the 24th International Conference on Very Large Data Bases (VLDB‟1998), pp. 368–379, New York City, NY, USA : Morgan Kaufmann. August 1998. [RRT05] L.I. Rusu, J.W. Rahayu, D. Taniar, "A Methodology for Building XML Data Warehou ses", International Journal of Data Warehousing and Mining, 1 (2), 2005, 23-48. -103- [SA96] Srikant R., Agrawal R., « Mining Quantitative Association Rules in Large Relational Tables », in Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD‟1996), pp. 1–12, Montreal, Quebec, Canada : ACM Press. June 1996. [SAM98] Sarawagi S., Agrawal R., Megiddo N., « Discovery-driven Exploration of OLAP Data Cubes », in Proceedings of the 6th International Conference on Extending Database Technology (EDBT‟1998), pp. 168– 182, Valencia, Spain: Springer. Mars 1998. [Sar99] Sarawagi S., « Explaining Differences in Multidimensional Aggregates », in Proceedings of the 25th International Conference on Very Large Data Bases (VLDB‟1999), pp. 42–53, Edinburgh, Scotland, UK: Morgan Kaufmann. September 1999. [Sar01] Sarawagi S., «iDiff: Informative Summarization of Differences in Multidimensional Aggregates », Data Mining and Knowledge Discovery, 5(4): 255–276(22). October 2001. [SBMU98] Silverstein C., Brin S., Motwani R., Ullman J., « Scalable Techniques for Mining Causal Structures », Data Min. Knowl. Discov., 4(2-3) :163–192, ISSN 1384-5810. 1998. [SDRK02] Sismanis Y., Deligiannakis A., Roussopoulos N., Kotidis Y., « Dwarf : Shrinking the PetaCube », in Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD‟2002), pp. 464–475, Madison, Wisconsin, USA : ACM Press. 2002. [SON95] Savasere A., Omiecinski E., Navathe S.B., « An Efficient Algorithm for Mining Association Rules in Large Databases », in Proceedings of the 21st International Conference on Very Large Data Bases (VLDB‟1995), pp. 432– 444, Zurich, Switzerland : Morgan Kaufmann. September 1995. [STA98] Sarawagi S., Thomas S., Agrawal R., « Integrating Association Rule Mining with Relational Database Systems: Alternatives and Implications », in -104- Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data (SIGMOD‟1998), pp. 343–354, Seattle, Washington, USA: ACM Press. 1998. [TNBP00] Teusan T., Nachouki G., Briand H., Philippe J., « Discovering Association Rules in Large, Dense Databases », in Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery (PKDD‟2000), pp. 638–645, Lyon, France: Springer. September 2000. [Toi96] Toivonen H., « Sampling Large Databases for Association Rules », in Proceedings of the 22nd International Conference on Very Large Data Bases (VLDB‟1996), pp. 134–145, Mumbai (Bombay), India : Morgan Kaufmann. September 1996. [TT05] Tjioe H.C., Taniar D., « Mining Association Rules in Data Warehouses », International Journal of Data Warehousing and Mining, 1(3): 28–62. 2005. [UBDB04] Udréa C., Bentayeb F., Darmont J., Boussaid O., « Intégration efficace de méthodes de fouille de données dans les SGBD », in 4èmes Journées Francophones d‟Extraction et de Gestion des Connaissances (EGC‟2004), Clermont-Ferrand, France. Janvier 2004. [VW99] Vitter J.S., Wang M., « Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets », in Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD‟1999), pp. 193–204, Philadelphia, PA, USA : ACM Press. June 1999. [WF00] I.H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools with Java Implementations, Morgan Kaufmann, 2000. [Zhu98] Zhu H., On-Line Analytical Mining of Association Rules, Master‟s thesis, Simon Fraser University, Burnaby, British Columbia, Canada. December 1998. [ZRL99] Zhang T., Ramakrishnan R. and Livny M., Fast density estimation using CFkernel for large databases. KDD 1999. -105- Liste des figures 1.1 Du système OLTP au système OLAP 1.2 Processus d‟extraction des connaissances à partir des données 2.1 Les trois approches du couplage des techniques de fouille avec l‟analyse en ligne 2.2 Coopération entre SGBDM et Algorithme d‟apprentissage 2.3 Pré-traitement des données avec les outils OLAP [MHW00] 2.4 Architecture d‟un système intégrant SGBD, OLAP et MOLAP [Fu05] 2.5 Exemple d‟une exploration d‟un cube à trois dimensions dans DBMiner [Han97] 2.6 L‟architecture du moteur distribué de génération de règles d‟association 2.7 Architecture de l‟implémentation « Discovery-driven » 3.1 Objectifs du couplage OLAP & DM 3.2 Étapes de la réorganisation d‟un cube de données par approche factorielle 3.3 Cube de données à deux dimensions 3.4 Exemple d‟un cube de données de ventes 3.5 Exemple de transformation d‟un tableau disjonctif complet en tableau de contingence de Burt 3.6 Exemple en 2 dimensions de la notion de voisinage des cellules d‟un cube de données 3.7 Premier plan factoriel construit par l‟ACM à partir des données démographiques 3.8 Représentation du cube des données démographiques avant l‟arrangement des modalités 3.9 Représentation du cube des données démographiques après l‟arrangement des modalités 3.10 Etapes de l‟agrégation par classification dans les cubes de données 3.11 Agrégation (a) classique dans le contexte OLAP et (b) agrégation par classification 3.12 Choix de la technique de classification 3.13 Formalisation théorique de l‟opérateur OpAC 3.14 Etapes de l‟explication dans les cubes de données par règle d‟association -106- 3.15 Opérations possibles dans un cubegrade [IKA02] 3.16 Exemple d‟un sous-cube de données dans le cube des ventes 4.1 Exemple de dimension hiérarchique 4.2 Visualisation du 𝜎 𝑊𝐼, 86 𝐷 4.3 Exemple de différents niveaux de cube -107- Liste des tableaux 1.1 OLTP versus OLAP 2.1 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 1ére approche : Adaptation des données multidimensionnelles. 2.2 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 1éme approche : Extension de l‟analyse OLAP et des langages de requêtes 2.3 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 3éme approche : Adaptation des techniques de fouille de donnée 3.1 Exemple de transformation d‟un cube de données en tableau disjonctif complet 3.2 Description des dimensions du cube des données démographique 3.3 Nouvel ordre des modalités de la dimension D2 du cube des données démographiques 3.4 Aplatissement d‟un cube de données pour l‟extraction de règles inter dimensionnelles [Zhu98] 3.5 Aplatissement d‟un cube de données pour l‟extraction de règles intra dimensionnelles [Zhu98] 3.6 Exemple de fonctionnement de l‟algorithme Vavg [TT05] 3.7 Exemple de fonctionnement de l‟algorithme Havg [TT05] -108- Tables de matière Remerciements i Résumé ii Introduction générale 1 Etat d‟art 7 8 2.1 Introduction 2.2 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 1ére approche : Adaptation des données 10 multidimensionnelles 2.3 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 2éme approche : Extension de l‟analyse OLAP et des 15 langages de requêtes 2.4 Comparaison des propositions de couplage de l‟OLAP et de la fouille de données selon la 3éme approche : Adaptation des techniques de fouille de donnée 19 2.5 Conclusion 28 Opérateurs de couplage entre OLAP et DM 3.1 Introduction 24 27 3.2 Réarrangement d‟un cube par analyse factorielle (ACM): 31 Opérateur ORCA 3.3 Agrégation par classification dans les cubes de données (CAH) : 48 Opérateur OPAC 3.4 Explication par recherche guidée de règles d‟association dans un cube: 56 Opérateur AROX 74 3.5 Conclusion Cubes de prédiction 75 4.1 Introduction 76 4.2 Contributions et futures directions 76 -109- 4.3 Exemple de motivation 77 4.4 Modèles prédictifs 78 4.5 Les cubes de prédiction 81 4.6 Conclusion et perspective 89 Conclusion générale 90 5.1 Bilan et contributions 90 5.2 Perspectives de recherche 91 93 Bibliographie Liste des figures 106 Liste des tableaux 108 Tables de matière 109 -110-