DU Les modèles de l’Economie Numérique 3ème Promotion - 2004 Data Mining Techniques d’extraction des connaissances Georges El Helou et Charbel Abou khalil Module 4.1 - Management et NTIC Professeur : Mélissa Saadoun Projet soutenu le 16 février 2004 Data Mining : techniques d’extraction des connaissances Table des matières I – Du data warehouse au data mart ............................................................................. 3 I.1. COMPRENDRE LE DATA WAREHOUSE ......................................................... 3 I.1.1. HISTORIQUE .................................................................................................. 3 I.1.2. DEFINITION ................................................................................................... 4 I.1.3. POURQUOI UN DATA WAREHOUSE? ........................................................ 5 I.2. COMPOSANTS DU DATA WAREHOUSE ........................................................ 6 I.2.1. LA STRUCTURE ............................................................................................. 6 I.2.2. LES ARCHITECTURES .................................................................................. 7 I.3. LE DATA MART................................................................................................... 8 I.3.1. MISE EN PLACE ............................................................................................. 8 I.3.2. LES SEPT MYTHES DU DATA MART ........................................................... 9 II – Les outils d’exploration et d’extraction des connaissances................................ 10 II.1. LES OUTILS OLAP ........................................................................................... 10 II.1.1. LES 12 REGLES OLAP ................................................................................ 10 II.1.2. LES OUTILS MOLAP .................................................................................. 13 II.1.3. LES OUTILS ROLAP ................................................................................... 14 II.2. INTRODUCTION AU DATA MINING ............................................................ 16 II.2.1. PRESENTATION DU DATA MINING......................................................... 16 II.2.2. LE DATA MINING ET LA RECHERCHE OPERATIONNELLE ................ 17 II.2.3. STATISTIQUES ET DATA MINING ............................................................ 17 II.3. LA RECHERCHE DE CONNAISSANCES ...................................................... 18 II.3.1. LES STATISTIQUES .................................................................................... 18 II.3.2. LES SCHEMAS D’INFERENCE.................................................................. 20 II.3.3. LES TACHES DU DATA MINING .............................................................. 21 II.3.4. LA CLASSIFICATION ................................................................................. 22 II.3.5. L’ESTIMATION ........................................................................................... 22 II.3.6. LA PREDICTION ......................................................................................... 22 II.3.7. LE REGROUPEMENT PAR SIMILITUDES ............................................... 23 II.3.8. L’ANALYSE DES CLUSTERS...................................................................... 23 II.3.9. LA DESCRIPTION ....................................................................................... 23 II.3.10. L’OPTIMISATION ..................................................................................... 23 II.3.11. LE CERCLE VERTUEUX .......................................................................... 23 Conclusion ..................................................................................................................... 25 Glossaire ........................................................................................................................ 26 Bibliographie ................................................................................................................. 29 Bibliographie ................................................................................................................. 29 Georges El Helou et Charbel Abou Khalil - 2004 2 Data Mining : techniques d’extraction des connaissances I – Du data warehouse au data mart I.1. Comprendre le data warehouse L’accroissement de la concurrence, l’individualisation des consommateurs et la brièveté du cycle de vie des produits obligent les entreprises à non plus simplement réagir au marché mais à l’anticiper. Elles doivent également cibler au mieux leur clientèle afin de répondre à ses attentes. La connaissance de son métier, des schémas de comportement de ses clients, de ses fournisseurs est essentielle à la survie de l’entreprise, car elle lui permet d’anticiper sur l’avenir. Aujourd’hui, les entreprises ont à leur disposition une masse de données importante. En effet, les faibles coûts des machines en terme de stockage et de puissance ont encouragé les sociétés à accumuler toujours plus d’informations. Cependant, alors que la quantité de données à traiter augmente énormément - l'institut EDS estime que la quantité de données collectées dans le monde double tous les 20 mois - le volume d’informations fournies aux utilisateurs n’augmente lui que très peu. Ces réservoirs de connaissance doivent être explorés afin d’en comprendre le sens et de déceler les relations entre données, des modèles expliquant leur comportement. Dans cette optique, la constitution d’un data warehouse, regroupant, sous une forme homogène, toutes les données de l’entreprise sur une longue période, offre des perspectives nouvelles aux utilisateurs, notamment en terme d’extraction de connaissances grâce aux outils de data mining. I.1.1. Historique Le concept de data warehouse (entrepôt de données) a été formalisé pour la première fois en 1990. L’idée de constituer une base de données orientée sujet, intégrée, contenant des informations datées, non volatiles et exclusivement destinées aux processus d’aide à la décision, fut dans un premier temps accueillie avec une certaine perplexité. Beaucoup n’y voyaient que l'habillage d’un concept déjà ancien : l’infocentre. Mais l’économie actuelle en a décidé autrement. Les entreprises sont confrontées à une concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte organisationnel de plus en plus complexe et mouvant. Pour faire face aux nouveaux enjeux économiques, l’entreprise doit anticiper. L’anticipation ne peut être efficace qu’en s’appuyant sur de l’information pertinente. Cette information est à la portée de toute entreprise qui dispose d’un capital de données gérées par ses systèmes opérationnels et qui peut en acquérir d’autres auprès de fournisseurs externes. Mais actuellement, les données sont surabondantes, non Georges El Helou et Charbel Abou Khalil - 2004 3 Data Mining : techniques d’extraction des connaissances organisées dans une perspective décisionnelle et éparpillées dans de multiples systèmes hétérogènes. Pourtant, les données représentent une mine d’informations. Il devient fondamental de rassembler et d’homogénéiser les données afin de permettre d’analyser les indicateurs pertinents pour faciliter les prises de décisions. Pour répondre à ces besoins, le nouveau rôle de l’informatique est de définir et d’intégrer une architecture qui serve de fondation aux applications décisionnelles : le data warehouse (DW). I.1.2. Définition Le DW est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. Commentons cette définition : Orientées sujet Le DW est organisé autour des sujets majeurs de l’entreprise, contrairement aux données des systèmes de production. Ceux-ci sont généralement organisés par processus fonctionnels. Les données sont structurées par thème. L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise. Cette orientation sujet va également permettre de développer son système décisionnel via une approche par itérations successives, sujet après sujet. L’intégration dans une structure unique est indispensable car les informations communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique, une structure supplémentaire appelée Data Mart (magasin de données) peut être créée pour supporter l’orientation sujet. Données intégrées Un DW est un projet d’entreprise. Par exemple dans la distribution, le même indicateur de chiffre d’affaires intéressera autant les forces de vente que le département financier ou les acheteurs. Pour y parvenir, les données doivent être intégrées. Avant d’être intégrées dans le DW, les données doivent être mises en forme et unifiées afin d’avoir un état cohérent. Par exemple, la consolidation de l’ensemble des informations concernant un client donné est nécessaire pour donner une vue homogène de ce client. Une donnée doit avoir une description et un codage unique. Cette phase d’intégration est très complexe et représente 60 à 90% de la charge totale d’un projet. Données historisées Dans un système de production, la donnée est mise à jour à chaque nouvelle transaction. Dans un DW, la donnée ne doit jamais être mise à jour. Un référentiel temps doit être associé à la donnée afin d’être capable d’identifier une valeur particulière dans le temps. Georges El Helou et Charbel Abou Khalil - 2004 4 Data Mining : techniques d’extraction des connaissances Données non volatiles La non volatilité des données est en quelque sorte une conséquence de l’historisation. Une même requête effectuée à quelques mois d’intervalle en précisant la date de référence de l’information recherchée donnera le même résultat. I.1.3. Pourquoi un data warehouse? L’entreprise construit un système décisionnel pour améliorer sa performance. Elle doit décider et anticiper en fonction de l’information disponible et capitaliser sur ses expériences. Depuis plusieurs dizaines d’années, une importante masse d’informations est stockée sous forme informatique dans les entreprises. Les systèmes d’information sont destinés à garder la trace d’événements de manière fiable et intègre. Ils automatisent de plus en plus les processus opérationnels. Parallèlement, les entreprises réalisent la valeur du capital d’information dont elles disposent. Au delà de ce que l’informatique leur apporte en terme fonctionnel, elles prennent conscience de ce qu’elle pourrait apporter au niveau du contenu informationnel. Considérer le système d’information sous cet angle en tant que levier pour accroître leur compétitivité et leur réactivité n’est pas nouveau. Par contre, étant donné l’environnement concurrentiel actuel, cela devient une question de survie. L’informatique a un rôle à jouer, en permettant à l’entreprise de devenir plus entreprenante et d’avoir une meilleure connaissance de ses clients, de sa compétitivité ou de son environnement. Il est intéressant de calculer les retours sur investissement rendus publics. Ils se calculent rarement en terme de baisse de coûts, mais en terme de gains. Par exemple, ils permettent un meilleur suivi des ventes, une meilleure compréhension des habitudes d’achats des clients, d’une adaptation des produits à une clientèle mieux ciblée. Georges El Helou et Charbel Abou Khalil - 2004 5 Data Mining : techniques d’extraction des connaissances I.2. Composants du data warehouse I.2.1. La structure Un DW se structure en quatre classes de données, organisées selon un axe historique et un axe synthétique. Les données détaillées Elles reflètent les événements les plus récents. Les intégrations régulières des données issues des systèmes de production vont habituellement être réalisées à ce niveau. Les volumes à traiter sont plus importants que ceux gérés en transactionnel. Attention : le niveau de détail géré dans le DW n’est pas forcément identique au niveau de détail géré dans les systèmes opérationnels. La donnée insérée dans le DW peut être déjà une agrégation ou une simplification d’informations tirées du système de production. Exemple : l’étude du panier de la ménagère nécessite de stocker le niveau de finesse du ticket de caisse. Les données agrégées Elles correspondent à des éléments d’analyse représentatifs des besoins utilisateurs. Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue dans le système décisionnel, et doivent être facilement accessibles et compréhensibles. La facilité d’accès est apportée par des structures multidimensionnelles qui permettent aux utilisateurs de naviguer dans les données suivant une logique intuitive, avec des performances optimales. Certains SGBD du marché sont conçus pour faciliter la mise en place des agrégations et la navigation au sein de celles-ci. La définition complète de l’information doit être mise à la disposition de l’utilisateur pour une bonne compréhension. Dans le cas d’un agrégat, l’information est composée du contenu présenté (moyenne des ventes…) et de l’unité (par mois, par produit…). Les méta-données Elles regroupent l’ensemble des informations concernant le DW et les processus associés. Elles constituent une véritable aide en ligne permettant de connaître l’information contenue dans le DW. Elles sont idéalement intégrées dans un référentiel. Les principales informations sont destinées : A l’utilisateur (sémantique, localisation). Aux équipes responsables des processus de transformation des données du système de production vers le data warehouse (localisation dans les systèmes de production, description des règles, processus de transformation). Aux équipes responsables des processus de création des données agrégées à partie des données détaillées. Georges El Helou et Charbel Abou Khalil - 2004 6 Data Mining : techniques d’extraction des connaissances Aux équipes d’administration de la base de données (structure de la base implémentant le DW). Aux équipes de production (procédures de changement, historique de MAJ…). Les données historisées Un des objectifs du DW est de conserver en ligne les données historisées. Chaque nouvelle insertion de données provenant du système de production ne détruit pas les anciennes valeurs, mais crée un nouvelle occurrence de la donnée. Le support de stockage dépend du volume des données, de la fréquence d’accès, du type d’accès. Les supports les plus couramment utilisés sont les disques, les disques optiques numériques, les cassettes. La logique d’accès aux données la plus utilisée est la suivante : les utilisateurs commencent à attaquer les données par le niveau le plus agrégé, puis approfondissent leur recherche vers les données les plus détaillées (drill down). L’accès des données se fait également directement par les données détaillées et historisées, ce qui conduit à des brassages de données lourds, demandant des machines très puissantes. Le DW est une réussite dans une entreprise lorsque le nombre d’utilisateur accédant aux données de détail augmente. I.2.2. Les architectures Pour implémenter un DW, trois types d’architectures sont possibles : L’architecture réelle qui est généralement retenue pour les systèmes décisionnels. Le stockage des données est réalisé dans un SGBD séparé du système de production. Le SGBD est alimenté par des extractions périodiques. Avant le chargement, les données subissent d’importants processus d’intégration, de nettoyage, de transformation. L’avantage est de disposer de données préparées pour les besoins de la décision et répondant aux objectifs du DW. Les inconvénients sont le coût de stockage supplémentaire et le manque d’accès en temps réel. L’architecture virtuelle qui n’est pratiquement pas utilisée pour le data warehouse. Les données résident dans le système de production. Elles sont rendues visibles par des produits middleware ou par des passerelles. Il en résulte deux avantages : pas de coût de stockage supplémentaire et l’accès se fait en temps réel. L’inconvénient est que les données ne sont pas préparées. L’architecture remote qui est une combinaison de l’architecture réelle et de l’architecture virtuelle. Elle est rarement utilisée. L’objectif est d’implémenter physiquement les niveaux agrégés afin d’en faciliter l’accès et de garder le niveau de détail dans le système de production en y donnant l’accès par le biais de middleware ou de passerelle. Georges El Helou et Charbel Abou Khalil - 2004 7 Data Mining : techniques d’extraction des connaissances I.3. Le Data Mart Avec un DW, il y a des risques d’échec. Rien n’invite l’utilisateur à se servir d’un DW. Le succès d’un DW dépend donc uniquement de son effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la problématique informatique et de se détourner de l’utilisateur. Le Data Mart (DM) minimise la complexité informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs. Le DM est une base de données moins coûteuse que le DW et plus légère puisque destinée à quelques utilisateurs d’un département. Il séduit plus que le DW les candidats au décisionnel. C’est une petite structure très ciblée et pilotée par les besoins utilisateurs. Il a la même vocation que le DW (fournir une architecture décisionnelle), mais vise une problématique précise avec un nombre d’utilisateurs plus restreint. En général, c’est une petite base de données (SQL ou multidimensionnelle) avec quelques outils, et alimentée par un nombre assez restreint de sources de données. Son coût ne dépasse pas deux à trois millions de francs. Mais pour réussir, il y a quelques précautions à prendre, gage de son évolutivité vers le DW. Data Warehouse Data Mart Cible utilisateur Toute l’entreprise Département Implication du service informatique Elevée Faible ou moyen Base de données d’entreprise SQL type serveur SQL milieu de gamme, bases multidimensionnelles Modèles de données A l’échelle de l’entreprise Département Champ applicatif Multi sujets, neutre Quelques sujets, spécifique Sources de données Multiples Quelques unes Stockage Base de données Plusieurs bases distribuées Taille Centaine de GO et plus Une à 2 dizaines de GO Temps de mise en place 9 à 18 mois pour les 3 étapes 6 à 12 mois (installation en plusieurs étapes) Coût > 6 millions de francs 500.000 à 3 millions de francs Matériel Unix NT, petit serveur Unix I.3.1. Mise en place Construire un ou plusieurs DM départementaux au lieu d’un DW central permet de valider rapidement le concept d’informatique décisionnelle. Mais construire des DM n’est pas sans risques : Georges El Helou et Charbel Abou Khalil - 2004 8 Data Mining : techniques d’extraction des connaissances En effet, dans les entreprises, des DM isolés peuvent proliférer. Ces entreprises risquent de retomber dans le piège d’une architecture composée de multiples systèmes décisionnels incohérents, contenant des informations redondantes. Cela coûte plus cher et c’est plus complexe à gérer qu’un DW centralisé. Les entreprises américaines, plus en avance que les entreprises européennes, en ont fait les frais. Les DM résolvent les problèmes de performance des gros DW. Mais ils font régresser vers le vieux problème des îlots isolés. Les entreprises vont devoir affronter des problèmes techniques complexes et coûteux pour remettre en cohérence les ensembles. Fédérer des DM ou les faire évoluer vers une structure centralisée n’est pas facile. On peut se poser la question s’il est préférable de bâtir un gros et unique DW ou bien de concevoir un réservoir plus modeste, nourri par les données d’un seul département. Il est intéressant de commencer par un DM, à condition de respecter certaines règles : Impliquer les utilisateurs. Ne pas construire de multiples Data Marts isolés. Bannir les redondances. I.3.2. Les sept mythes du Data Mart Les Data Marts sont petits Les Data Marts sont moins complexes et plus facile à déployer que les DW. Les Data Marts peuvent évoluer facilement vers un Data Warehouse Les différents Data Marts indépendants peuvent être dynamiquement coupler pour se métamorphoser en Data Warehouse Les DM ne se résument qu’à une seule information métier : par exemple, les ventes. Les Data Marts sont plus flexibles que les Data Warehouse Les Data Marts sont un nouveau concept. Donc le DM peut préparer au DW. Mais il faut penser grand, avenir et adopter des technologies capables d’évoluer. Georges El Helou et Charbel Abou Khalil - 2004 9 Data Mining : techniques d’extraction des connaissances II – Les outils d’exploration et d’extraction des connaissances II.1. Les outils OLAP Les outils OLAP (On Line Analytical Process) reposent sur une base de données multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population de données. La plupart des solutions OLAP reposent sur un même principe : restructurer et stocker dans un format multidimensionnel les données issues de fichiers plats ou de bases relationnelles. Ce format multidimensionnel, connu également sous le nom d'hypercube, organise les données le long de dimensions. Ainsi, les utilisateurs analysent les données suivant les axes propres à leur métier. Ce type d'analyse multidimensionnelle nécessite à la fois l'accès à un grand volume de données et des moyens adaptés pour les analyser selon différents points de vue. Ceci inclut la capacité à discerner des relations nouvelles ou non prévues entre les variables, la capacité à identifier les paramètres nécessaires à manier un volume important de données pour créer un nombre illimité de dimensions et pour spécifier des expressions et conditions inter dimensions. Ces dimensions représentent les chemins de consolidation. OLAP concerne de ce fait au moins autant le monde des serveurs, voire des structures de stockage, que celui des outils. II.1.1. Les 12 règles OLAP Afin de formaliser le concept OLAP, fin 1993, à la demande de Arbor Software, Edgar F. Codd publie un article intitulé « Providing OLAP to User Analysts » aux Etats Unis, dans lequel il définit 12 règles que tout système de pilotage multidimensionnel devrait respecter. « Ce qu’il y a d’agréable avec ces outils OLAP », explique Eric Klusman, de Cantor Fitzgerald LP, "c’est que je suis en mesure de distribuer les données aux utilisateurs sans les obliger à apprendre des complexes formules de programmation, d’interrogation ou même à ce qu’ils aient à programmer leurs tableurs". D’une façon générale, tous affirment que l’on peut interfacer de nombreux outils d’utilisateurs avec des bases de données multidimensionnelles sans qu’il soit nécessaire de consentir de lourds efforts de formation ou des interventions importantes du service informatique. Georges El Helou et Charbel Abou Khalil - 2004 10 Data Mining : techniques d’extraction des connaissances Vue multidimensionnelle L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple lorsqu'il souhaite analyser les ventes par produit mais aussi par région ou par période. Ces modèles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere). Transparence du serveur OLAP à différents types de logiciels Cette transparence se traduit pour l'utilisateur par un complément à ses outils habituels garantissant ainsi sa productivité et sa compétence. Elle s'appuie sur une architecture ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les fonctionnalités du système central. Par ailleurs, l'utilisateur ne doit pas être concerné par l'intégration des données dans OLAP provenant d'un environnement homogène ou hétérogène. Accessibilité à de nombreuses sources de données Le système OLAP doit donner accès aux données nécessaires aux analyses demandées. Les outils OLAP doivent avoir leur propre schéma logique de stockage des données physiques hétérogènes, doivent accéder aux données et réaliser n'importe quelle conversion afin de présenter à l'utilisateur une vue simple et cohérente. Ils doivent aussi savoir de quel type de systèmes proviennent les données. Performance du système de Reporting L'augmentation du nombre de dimensions ou du volume de la base de données ne doit pas entraîner de dégradation visible par l'utilisateur. Architecture Client/Serveur La plupart des données pour OLAP sont stockées sur des gros systèmes et sont accessibles via des PC. Il est donc nécessaire que les produits OLAP soient capables de travailler dans un environnement Client/Serveur. Dimensions Génériques Toutes les dimensions doivent être équivalentes en structure et en calcul. Il ne doit exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique à une dimension doit être aussi capable de s'appliquer à une autre dimension. Gestion dynamique des matrices creuses Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse spécifique créé pour optimiser la gestion des matrices creuses. En effet, dans une analyse à la fois sur les produits et les régions, tous les produits ne sont pas vendus dans toutes les régions. Georges El Helou et Charbel Abou Khalil - 2004 11 Data Mining : techniques d’extraction des connaissances Support Multi-Utilisateurs Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse. Support Multi-Utilisateurs Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse. Calculs à travers les dimensions Les opérations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire intervenir l'utilisateur pour définir un calcul hiérarchique. Manipulation intuitive des données Toute manipulation doit être accomplie via une action directe sur les cellules du modèle sans utiliser de menus ou des chemins multiples à travers l'interface utilisateur. Souplesse et facilité de constitution des rapports La création des rapports dans les outils OLAP doit permettre aux utilisateurs de présenter comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation du modèle. Nombre illimité de niveaux d'agrégation et de dimensions Tout outil OLAP doit gérer au moins 15 à 20 dimensions. D'après EF CODD & Associates, les SGBD Relationnels n'ont jamais été conçus pour fournir les puissantes fonctions de synthèse, d'analyse et de consolidation communément appelées analyse multidimensionnelle des données. Ces types de fonctions ont toujours été prévus pour être fournis par des outils séparés, orientés utilisateurs et complémentaires des SGBD Relationnels. Les tables vont être transformées en un hypercube de données. Les données vont pouvoir être visualisées sous différents angles grâce aux vues multidimensionnelles. OLAP, parce qu'il associe des mécanismes de navigation aux données, permet d'effectuer des analyses de manière interactive, à l'opposé du requêteur pour qui chaque requête est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prédéfini, limitant dès lors l'autonomie potentielle de l'utilisateur. De ce fait requêtes et outils OLAP doivent être considérés comme complémentaires plutôt que concurrents. Georges El Helou et Charbel Abou Khalil - 2004 12 Data Mining : techniques d’extraction des connaissances II.1.2. Les outils MOLAP OLAP sera l'outil à privilégier pour les données quantitatives si leur structuration a priori est naturelle (cas rencontré fréquemment pour les applications financières ou commerciales), alors que le requêteur sera idéal pour les données qualitatives et pour toute analyse impromptue nécessitant l'autonomie de l'utilisateur (cas rencontré fréquemment pour le marketing ou la gestion du personnel). Si les besoins sont à combiner, il faudra choisir entre la richesse fonctionnelle apportée par plusieurs outils interfacés ou l’homogénéité des outils intégrés. Deux versions d'OLAP s'affrontent actuellement. Les outils MOLAP (Multidimensional OLAP) d'une part qui s'appuient sur une base de données multidimensionnelle. Les outils ROLAP (Relational OLAP) d'autre part, qui représente leur équivalent sur une base de données relationnelle. MOLAP est conçue exclusivement pour l'analyse multidimensionnelle, avec un mode de stockage optimisé par rapport aux chemins d'accès prédéfinis. Ainsi, toute valeur d'indicateur associée à l'axe temps sera pré-calculée au chargement pour toutes ses valeurs hebdomadaires, mensuelles, etc. MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus les principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la phase de chargement de la base, tant en terme de performances que de volume. La limite fréquemment évoquée pour MOLAP étant de quelques giga octets. MOLAP surpasse ROLAP pour des fonctionnalités avancées comme la prévision ou la mise à jour des données pour la simulation. Cependant, ces différences s'expliquent par une plus grande maturité en faveur de MOLAP, concept qui date de près de vingt ans. MOLAP est incompatible avec d'autres modes d'accès aux données. Si MOLAP doit cohabiter avec d'autres techniques d'accès aux données (par requêteur, par data mining, etc.), deux bases de données doivent cohabiter. En effet, MOLAP repose sur un moteur Georges El Helou et Charbel Abou Khalil - 2004 13 Data Mining : techniques d’extraction des connaissances spécialisé, qui stocke les données dans un format tabulaire propriétaire (cube). Pour accéder aux données de ce cube, on ne peut pas utiliser le langage de requête standard SQL, il faut utiliser une API spécifique. Le marché des bases MOLAP étant plus réduit, il est plus difficile pour les éditeurs qui le représentent d'investir sur de telles évolutions. II.1.3. Les outils ROLAP Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modèle qui représente les données dans un format multidimensionnel. Ces produits diminuent sensiblement le coût lié à la mise en œuvre d'un serveur de base de données multidimensionnelle supplémentaire. Au travers des méta-données, ils permettent de transformer l’analyse multidimensionnelle demandée par l’utilisateur en requêtes SQL. Pour cela, ces outils s’appuient pour la plupart sur une modélisation particulière des données, distinguant les axes d’analyse et les faits à observer. On parlera notamment de modèle en étoile et de modèle en flocon ou encore des techniques de définition physique d'agrégations. Ceci oblige à définir le modèle en fonction de l’outil à utiliser et des analyses à mener mais est un gage de performance et de cohérence lors de l’utilisation de ce type de produits. Cette contrainte exige un travail important des équipes informatiques et donc enlève beaucoup à l'intérêt d'utiliser un SGBD Relationnel comme support de stockage pour l'analyse multidimensionnelle. Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les données ou pour les calculs complexes. Avec ROLAP, il est déconseillé d'accéder en direct à des bases de données de production pour faire des analyses sérieuses, pour des raisons de performances. Georges El Helou et Charbel Abou Khalil - 2004 14 Data Mining : techniques d’extraction des connaissances ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait ROLAP est plus lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains agrégats. Certains éditeurs, comme Informix avec Métacube ou Oracle avec Discoverer 2000, pallient cependant à cette faiblesse avec des outils d'administration aptes à conseiller pour une politique d'agrégation adéquate. ROLAP est donc mieux adapté aux gros volumes. En s'appuyant sur les bases relationnelles, référence du marché, ROLAP tire partie des évolutions de celles-ci (adaptation aux architectures hardware sophistiquées, extensions objets, etc.). Georges El Helou et Charbel Abou Khalil - 2004 15 Data Mining : techniques d’extraction des connaissances II.2. Introduction au Data Mining II.2.1. Présentation du Data Mining Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures. Il permet d’augmenter la valeur des données contenues dans le DW. Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles. Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Ces utilisateurs n’ont donc pas obligatoirement un bagage statistique important. L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes les formules mathématiques et termes techniques utilisés, soit permettre de construire une application «clé en main», rendant à l’utilisateur transparentes toutes les techniques utilisées. On pourrait définir le data mining comme une démarche ayant pour objet de découvrir des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de données. On devrait ajouter que la pertinence et l'intérêt du Data Mining sont conditionnés par les enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs clairement explicités ("améliorer la performance commerciale", "mieux cibler les prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...). Le succès du concept de Data warehouse et le nombre croissant de bases de données décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations Georges El Helou et Charbel Abou Khalil - 2004 16 Data Mining : techniques d’extraction des connaissances cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances. L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation. II.2.2. Le Data Mining et la Recherche Opérationnelle La recherche opérationnelle n'est pas assimilée aux techniques de Data Mining. Son objectif est l'optimisation et la recherche prouvée de la meilleure solution, ce qui n'est pas le cas du Data Mining : Son champ d'application est plus large, On ne recherche pas la meilleure solution prouvée mais à faire le mieux possible, Enfin un outil de Data Mining appliqué à un même ensemble de données ne donne pas toujours les mêmes résultats, contrairement à la recherche opérationnelle. II.2.3. Statistiques et Data Mining On pourrait croire que les techniques de Data Mining viennent en remplacement des statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise : Pour faire une analyse préalable, Pour estimer ou alimenter les valeurs manquantes, Pendant le processus pour évaluer la qualité des estimations, Après le processus pour mesurer les actions entreprises et faire un bilan. Par ailleurs, certaines techniques statistiques récentes (travaux de BENZECRI, analyse en composantes principales, analyse factorielle des correspondances, …) peuvent être apparentées aux techniques de Data Mining. Statistiques et Data Mining sont tout à fait complémentaires. Georges El Helou et Charbel Abou Khalil - 2004 17 Data Mining : techniques d’extraction des connaissances II.3. La recherche de connaissances II.3.1. Les statistiques Les statistiques sont à la base de tout raisonnement sur les données. Elles permettent de synthétiser un grand nombre de valeurs pour une variable grâce à un nombre très réduit d’informations. Pour chaque variable, on va ainsi rechercher au moins deux indicateurs : un pour mesurer la tendance centrale, un pour mesurer la dispersion. Indicateurs de tendance centrale C’est en général le premier critère d'évaluation d'une série statistique. Le plus couramment utilisé est la moyenne arithmétique : ( ) å= n i i in x N1 1 (N représente l’effectif total, xi le centre de la classe ou sa valeur, ni l’effectif de la classe), mais on lui associe ou préfère parfois le mode (valeur la plus fréquemment trouvée) ou la médiane (valeur du représentant de la moitié de l’effectif). La médiane présente l’avantage de ne pas être sensible aux valeurs exceptionnelles (contrairement à la moyenne). Indicateurs de dispersion Les indicateurs de tendance centrale donnent une première indication de la population à étudier mais il est intéressant de savoir comment se répartissent les individus autour de cette moyenne. En effet, si deux élèves obtiennent les notes suivantes : Elève A : 9 - 10 - 10 - 10 - 10 - 11 Elève B : 0 - 0 - 0 - 20 - 20 - 20 Ces deux élèves auront 10 de moyenne mais on voit nettement que l’élève A obtient des notes autour de la moyenne alors que l’élève B en est très éloigné. Pour exprimer ceci, les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion : L’amplitude, ou dimension, ou étendue de la distribution : Valeur sup - Valeur inf L’écart absolu moyen des valeurs à la moyenne de la distribution : La distance interquartile ou inter décile de la distribution : écart entre l’individu représentant 25 % (ou 10 %) et celui représentant 75 % (ou 90%) de la population. Georges El Helou et Charbel Abou Khalil - 2004 18 Data Mining : techniques d’extraction des connaissances L’écart type ( s) défini ainsi : (la majorité des individus est entre moyenne - 2 s et moyenne + 2 s). Ces indicateurs sont utilisés pour évaluer des valeurs manquantes, mettre en évidence les valeurs exceptionnelles et donner une première synthèse des données. ixx n -å Relations entre variables Très vite, les besoins des décideurs ont amené les statisticiens à rechercher des liens entre plusieurs variables ou plusieurs populations. Ils ont donc créé de nouveaux indicateurs comme le khi2, la covariance ou le coefficient de corrélation. La corrélation entre les variables ne recouvre pas que la causalité; elle peut s’expliquer de plusieurs manières : La causalité : on observe qu’une variation de A entraîne une variation de B. Il existe un vrai lien entre A et B. Le hasard : une variation de A entraîne une variation de B mais celle-ci est uniquement due au hasard. La réponse commune : une variation de C entraîne une variation de A et B. La confusion : la variation de A et C entraîne la variation de B. Lorsque le coefficient de corrélation est significatif, il y a souvent confusion entre ces différentes possibilités, surtout entre causalité et hasard. D’autres techniques : régressions simples ou multiples (linéaires ou non), ajustements vers des lois statistiques (loi normale, binomiale, hypergéométrique, de Poisson, ...) permettent de modéliser les séries, et facilitent les estimations. Elles ne seront pas développées dans cet ouvrage. Ces techniques statistiques permettent de savoir s’il existe une relation entre plusieurs variables, de faire des prévisions ou estimations. Le but de ce type d’analyse est souvent de rechercher des liens de causalité. La recherche de connaissances par l’utilisation de méthodes statistiques est souvent limitée car on ne peut étudier simultanément que quelques variables (une à deux). Les problèmes sont en général plus complexes et mettent en œuvre plusieurs dizaines de variables. Pour répondre à ces besoins, il a fallu créer de nouveaux algorithmes, parfois issus de la recherche opérationnelle, alliant la recherche intelligente et les statistiques. Georges El Helou et Charbel Abou Khalil - 2004 19 Data Mining : techniques d’extraction des connaissances II.3.2. Les schémas d’inférence Les outils de Data Mining ne sont pas destinés à un informaticien ou un statisticien mais à l’utilisateur ou au décisionnaire. Seul ce dernier saura analyser avec pertinence les informations retournées par le système. Pour mieux comprendre le fonctionnement de ces processus, voici les principales techniques de raisonnement mises en œuvre. La recherche de connaissances et d’informations repose sur les schémas d’inférence formalisés par C. S. Pierce en 1903. Ce dernier a distingué trois types de raisonnements : l’abduction, la déduction et l’induction. L’abduction Pour mieux exprimer ce qu’est l’abduction, le plus simple est d’en présenter un exemple: Toutes les voitures ont 4 roues La Peugeot 106 a 4 roues _ La Peugeot 106 est une voiture Cette technique est notamment utilisée dans les outils d’aide au diagnostic médical pour découvrir la maladie la plus probable depuis une liste de symptômes. Il faut cependant être très vigilant avec ce type de raisonnement car il peut produire des résultats aberrants ou triviaux : Toutes les voitures ont un moteur, l’Airbus 320 a un moteur _ l’Airbus 320 est une voiture. Pour éviter ce type de comportement, il suffit d’avoir un ensemble descriptif (ici : 4 roues) suffisamment riche. Il aurait suffit de préciser : toutes les voitures ont 4 roues, un moteur, un volant, de 3 à 5 portes, sont inscrites sur les registres des mines, etc. pour diminuer considérablement le risque d’erreurs. Tous les possesseurs de la carte jeune ont moins de 25 ans. Cette information est certes vraie mais risque de ne présenter aucun intérêt. La déduction C’est le type de raisonnement le plus utilisé et le plus familier. Son atout majeur est qu’il ne laisse pas de place au doute. Exemple : La Peugeot 106 est une voiture Toutes les voitures ont 4 roues _ La Peugeot 106 a 4 roues Georges El Helou et Charbel Abou Khalil - 2004 20 Data Mining : techniques d’extraction des connaissances L’induction C’est la technique la plus communément utilisée par le data mining. Elle consiste à tirer des conclusions à partir d’une série de faits. Exemples : Exemple 1 Exemple 2 La Clio a 4 roues La Clio a 4 roues La Peugeot 106 a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Laguna a 4 roues La Corsa a 4 roues La Corsa a 4 roues Un patin à roulettes a 4 roues _ Toutes les voitures ont 4 roues (100 %) _ Les voitures ont 4 roues (80 %) La certitude n’est pas absolue et sera donc associée à une probabilité. Plus les faits corroborant l’hypothèse sont nombreux, plus la probabilité que la conclusion soit exacte est forte. La recherche d’informations se fait généralement par des mécanismes d’induction. La déduction est plutôt utilisée pour vérifier la cohérence des informations. II.3.3. Les tâches du Data Mining Contrairement aux idées reçues, le Data Mining n’est pas le remède miracle capable de résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une multitude de problèmes d’ordre intellectuel, économique ou commercial peuvent être regroupés, dans leur formalisation, dans l’une des tâches suivantes : Classification, Estimation, Prédiction, Groupement par similitudes, Segmentation (ou clusterisation), Description, Optimisation. Afin de lever toute ambiguïté sur des termes qui peuvent paraître similaires, il semble raisonnable de les définir. Georges El Helou et Charbel Abou Khalil - 2004 21 Data Mining : techniques d’extraction des connaissances II.3.4. La classification La classification se fait naturellement depuis déjà bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espèces animales, minérales ou végétales). « La classification consiste à examiner des caractéristiques d’un élément nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. » [BERRY97] Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat de la classification viendra alimenter un champ supplémentaire. La classification permet de créer des classes d’individus (terme à prendre dans son acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert / bleu, ... Les techniques les plus appropriées à la classification sont : Les arbres de décision, Le raisonnement basé sur la mémoire, Eventuellement l’analyse des liens. II.3.5. L’estimation Contrairement à la classification, le résultat d’une estimation permet d’obtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en entrée. Le résultat d’une estimation permet de procéder aux classifications grâce à un barème. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc.). Il sera ensuite possible de définir des tranches de revenus pour classifier les individus. Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing, combinée à d’autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position d’un élément dans sa classe si celui ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes. La technique la plus appropriée à l’estimation est : le réseau de neurones. II.3.6. La prédiction La prédiction ressemble à la classification et à l’estimation mais dans une échelle temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et Georges El Helou et Charbel Abou Khalil - 2004 22 Data Mining : techniques d’extraction des connaissances le présent mais son résultat se situe dans un futur généralement précisé. La seule méthode pour mesurer la qualité de la prédiction est d’attendre ! Les techniques les plus appropriées à la prédiction sont : L’analyse du panier de la ménagère Le raisonnement basé sur la mémoire Les arbres de décision les réseaux de neurones II.3.7. Le regroupement par similitudes Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement ensembles. La technique la plus appropriée au regroupement par similitudes est l’analyse du panier de la ménagère II.3.8. L’analyse des clusters L’analyse des clusters consiste à segmenter une population hétérogène en sous populations homogènes. Contrairement à la classification, les sous populations ne sont pas préétablies. La technique la plus appropriée à la clusterisation est l’analyse des clusters II.3.9. La description C’est souvent l’une des premières tâches demandées à un outil de Data Mining. On lui demande de décrire les données d’une base complexe. Cela engendre souvent une exploitation supplémentaire en vue de fournir des explications. La technique la plus appropriée à la description est l’analyse du panier de la ménagère II.3.10. L’optimisation Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle d’y associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève pas du Data Mining. La technique la plus appropriée à l’optimisation est le réseau de neurones II.3.11. Le cercle vertueux On ne met pas en œuvre une technique de Data Mining pour faire une simple exploration. Il faut l'inscrire dans un contexte plus global, appelé le cercle vertueux. Celui-ci est composé de quatre étapes : Georges El Helou et Charbel Abou Khalil - 2004 23 Data Mining : techniques d’extraction des connaissances Identifier le domaine d'étude Préparer les données Agir sur la base de données Evaluer les actions La première étape consiste à identifier le domaine d'étude. Il faut répondre aux questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on définit un objectif général. Lorsque le domaine est délimité, il faut recenser les données relatives au domaine, puis les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui inclus le client / serveur, même si ce n'est pas recommandé. La troisième étape consiste à mettre en œuvre une ou plusieurs techniques de Data Mining pour une première analyse. Après évaluation et étude des résultats, des actions sont mises en œuvre. La dernière étape consistera à évaluer ces actions, et par-là même la performance du Data Mining, voire le retour sur investissements. L'achèvement du premier cycle débouche souvent sur l'expression de nouveaux objectifs affinés, ce qui nous ramène à la première étape. Georges El Helou et Charbel Abou Khalil - 2004 24 Data Mining : techniques d’extraction des connaissances Conclusion Notre étude, dans chacune de ses parties, nous a amenés à isoler chaque technique de l’aide à la décision afin d’en montrer ses caractéristiques, sa mise en œuvre, son apport au processus de prise de décision. Ainsi, en conclusion, nous rassemblons les apports de ces techniques. Le data warehouse permet au décideur de travailler dans un environnement informationnel, référencé, homogène, historisé. Cette technique l’affranchit des problèmes liés à l’hétérogénéité des systèmes informatiques, l’hétérogénéité des différentes définitions de données issues de l’historique de l’organisation. Le Data Mining permet d’extraire du Data Warehouse deux types de connaissances : l’une, explicative des résultats obtenus par l’analyse multidimensionnelle ou explicative d’hypothèses relatives au contenu informationnel du data warehouse, l’autre, nouvelle, porteuse éventuellement de nouvelles possibilités d’action. Aujourd’hui, ces techniques font l’actualité des presses spécialisées en informatique, bien sûr, mais aussi dans les rubriques « Informatiques » des presses spécifiques à chaque type d’activité. Les applications décisionnelles dans le Marketing nourrissent la majorité de ces articles de presse. Georges El Helou et Charbel Abou Khalil - 2004 25 Data Mining : techniques d’extraction des connaissances Glossaire Base de données distribuée Base dont les données sont dispersées sciemment (distribuées) sur plusieurs serveurs liés par un réseau. Une application cliente peut avoir besoin d'accéder aux données de X serveurs simultanément. On dit aussi Base Répartie lorsque c'est le SGBD qui pilote les accès. Base de données locale Base de donnée située sur le poste client, contenant des données propres à l’utilisateur, voire des données partagées répliquées. Batch Dans les outils de Data Mining ou d’infocentre, le batch permet d’explorer de grandes masses de données (requêtes lourdes) à des heures creuses, sans trop solliciter le poste de l’utilisateur, voire à planifier l’exécution des requêtes (module souvent appelé scheduler). Catalogue Dans certains outils clients du Data Warehouse, c’est la structure permettant à l’utilisateur de travailler sur une vue logique et orientée métier des données qu’il souhaite visualiser. Catégorie Valeur prise par une variable discrète. Classification Deux types de classification existent : Soit classer des éléments dans des classes connues (par exemple les bons et les mauvais clients). On parlera aussi d’apprentissage supervisé. Soit de regrouper les éléments ayant des comportements similaires dans des classes, inconnues au départ. On parlera alors de clustering, de segmentation ou d’apprentissage non supervisé. Client Poste de travail Utilisateur : machine déportée qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de présentation, d’infocentre et de développement. Georges El Helou et Charbel Abou Khalil - 2004 26 Data Mining : techniques d’extraction des connaissances Data Mining Définition un peu floue car récupérée par beaucoup d’éditeurs d’outils d’aide à la décision. A l’origine, le data mining correspondait à toutes les technologies avancées susceptibles d’analyser l’information d’un Data Warehouse pour en tirer des tendances, pour segmenter l’informations, ou pour trouver des corrélations dans les données. Aujourd’hui, le terme a tendance à caractériser tous les outils d’aide à la décision, le " mineur " étant soit l’outil lui-même soit l’utilisateur. Data Mining (outils de) Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d’extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d’information présent dans les entreprises. Data Surfing Possibilité donnée à l’utilisateur de naviguer de manière ergonomique et intuitive dans un modèle multidimensionnel. Data Warehouse Entrepôt de données. Base de données spécifique au monde décisionnel et destinée principalement à analyser les leviers « business » potentiels. Data Warehousing Processus de mise en œuvre d’un projet de Data Warehouse. DBA (Data Base Administrator) Personne garante de la cohérence des données, des performances du système, de sa sécurité... Pour les outils disposant d’un catalogue, c’est le DBA qui le mettra en œuvre. Modèle relationnel Technique de modélisation consistant à modéliser une base de données en la décomposant en entité et en relations corrélant ces entités . MOLAP (Multidimensional On Line Analytical Processing) Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel en s’appuyant sur les bases de données multidimensionnelles. OLAP (On Line Analytical Processing) Caractérise l’architecture nécessaire à la mise en place d’un système d’information décisionnel. S’oppose à OLTP (On Line Transaction Processing), adressant les systèmes d’information transactionnels. OLAP est souvent utilisé pour faire référence exclusivement aux bases de données multidimensionnelles. En effet, le concept a été formalisé par le Dr Codd, sous la forme de douze règles, décrivant un modèle idéal d’analyse d’information. Il a été montré depuis qu’il a été possible de respecter ces règles indépendamment de la structure de stockage utilisée. De plus en plus, le terme est Georges El Helou et Charbel Abou Khalil - 2004 27 Data Mining : techniques d’extraction des connaissances souvent utilisé pour désigner plus généralement le décisionnel dans ses aspects techniques. Requête C'est une demande envoyée au gestionnaire de Base de Données serveur. Si celui-ci permet la gestion des données, le langage utilisé est le SQL. Dans un contexte d’infocentre, l'exécution des questions sur un serveur est le plus souvent interprétée. ROLAP (Relational On Line Analytical Processing) Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel en s’appuyant sur les technologies relationnelles. SGBDR (Système de Gestion de Base de Données Relationnelle) On dialogue avec le SGBDR grâce à des requêtes écrites en SQL, langage assez bien standardisé. Les SGBDR (certains disent Serveur de bases de données) les plus avancés disposent de mécanismes de gestion des contraintes d'intégrité appelés les Triggers, et aussi de capacité de traitements liés aux données: les Procédures Stockées. Georges El Helou et Charbel Abou Khalil - 2004 28 Data Mining : techniques d’extraction des connaissances Bibliographie Jean-Michel Franco, Le Data Warehouse, le Data Mining, Eyrolles, 1996 Michael J.A. Berry et Gordon S. Linoff, Data Mining:Techniques appliquées au marketing, à la vente et aux services clients, Masson, 1997 René Lefébure et Gilles Venturi, Le data mining, Eyrolles, 1998 Pierre Lévine et Jean-Charles Pomerol, Systèmes interactifs d’aide à la décision et systèmes experts, Hermès, 1990 Jean-Charles Pomerol, Les systèmes experts, Hermès, 1988 Olivier Cérutti et Bruno Gattino, Indicateurs et tableaux de bord, Afnor, 1993 Hervé Sérieyx, Le big bang des organisations, Editions Calmann-Lévy, 1993 Anis Bouayad, Pierre-Yves Legris, Les alliances stratégiques, Dunod, 1996 Martin Forest, Groupe Canadien Innovation, Gérer le Savoir, le nouveau défi des organisations, Journée d’études du 8 Avril 1997, Maison des Professions de Lille. Articles IEEE Parall & Distributed Technology, Parallelism speeds data mining, 1995 Inist CNRS, Power Tools for Data Drilling, 1996 Cover story, Data Marts : Low cost, High Appeal, 1996 Objectif, BussinessMiner : le Data Mining pour tous, 1997 Le monde informatique Novembre 1996 Le monde informatique Février 1997 01 Informatique n°1442 Février 1997 et n°1499 du 22 Mai 1998 Décision Micro&Réseaux n°248 Mars 1996 Sciences & vie micro - Juin 1998 Georges El Helou et Charbel Abou Khalil - 2004 29