L'INFOthèque DATA WAREHOUSE, DATA MINING, DATA WEBHOUSE Des outils informatiques pour aider les entreprises à savoir plus et mieux QUELQUES DÉFINITIONS : DONNÉES : « représentations réinterprétables d’une information sous une forme conventionnelle convenant à la communication, à l’interprétation ou au traitement. » Dictionnaire de l'informatique : le vocabulaire normalisé / AFNOR. - Paris : AFNOR, 1997. DATABASE : « base de données, en anglais. » Dictionnaire encyclopédique bilingue de la micro-informatique / Rédaction, Jean-Claude et Maïthé de Vos. - Les Ulis : Microsoft Press, 1999. DATA MINING : « méthode de recherche sur les bases de données de l’entreprise , éventuellement celles créées dans le data warehouse, dans le but de détecter des situations ou des schémas d’actions non courants : par exemple, en bourse, des tractations anormales, en assurances, des comportements à risques, en distribution, des mouvements de stocks hors normes… Les outils de recherche ne travaillent pas sur critères, mais sur des questions qui permettent de détecter des faits remarquables intervenus dans l’intervalle de temps examiné : recherche par association de paramètres (qui a fait quoi ?), recherche par occurrence (y a-t-il une relation entre deux faits ?) ou recherche par groupe de critères. Il en résulte que le data mining fait partie des outils décisionnels offerts aux directions. » Dictionnaire d'informatique / Michel Ginguay, Annette Lauret, Yves Waché. - Paris : InterEditions, 1998. DATA WEBHOUSE : « alors qu’un data warehouse classique est avant tout un outil d’aide à la décision pour la direction de l’entreprise, le data webhouse a pour vocation d’offrir – via une interface web, bien entendu – de nouveaux services aux responsables de l’entreprise comme à ses clients et partenaires : outils de pilotage pour la direction, rapports d’analyse du comportement client pour les responsables marketing, relevés de comptes et statistiques pour les partenaires commerciaux, services personnalisés pour le client final. » Le Data Webhouse : analyser les comportements client sur le Web / Ralph Kimball, Richard Merz ; trad. de l'anglais [par] Jean-Michel Berthier. - Paris : Eyrolles, 2000. LE DATA WAREHOUSE Le data warehouse : guide de conduite de projet / Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite ; trad. de l'anglais par Véronique Campillo, Emmanuelle Burr, Ann Kenn, Laurent Adam ; adaptation, Anne Pottier ; validation technique, Christine Blanchard. - Paris : Eyrolles, 2005. INFO 551 KIMB Une bible sur le data warehouse, signée notamment par Ralph Kimball, l'un des inventeurs du concept (en 1982) et l'un de ses chefs de file le plus reconnu. En 2005, rien qu'aux Etats-Unis, plus d'un millier d'entrepôts de données de toutes sortes sont opérationnels et en perpétuelle évolution. Ce "guide de terrain" expose l'ensemble des outils et techniques qui permettent de concevoir, développer et déployer un data warehouse au sein d'une grande entreprise. Il aborde de façon approfondie les techniques de modélisation dimensionnelle et l'architecture en bus décisionnel qui permettent de répondre aux besoins d'évolutivité des data warehouses aujourd'hui. Entrepôts de données : guide pratique de modélisation dimensionnelle / Ralph Kimball, Margy Ross. - Paris : Vuibert, 2003. INFO 551 KIMB Cet ouvrage est le prolongement du précédent. Ralph Kimball y explicite toutes ses techniques de modélisation dimensionnelle, des plus simples aux plus avancées, dont des améliorations de techniques existantes et d'autres totalement nouvelles. On retiendra notamment les différentes études de cas, qui témoignent de la multiplicité des domaines dans lesquels peut s'appliquer le data warehouse, et des formes spécifiques qu'il peut prendre, selon qu'il s'agit de vente au détail, gestion d'inventaire, approvisionnement, commandes et facturation, gestion de la relation client, comptabilité, télécommunications, services médicaux et financiers, commandes en ligne, commerce électronique… INFOthèque, mars 2006 Piloter l'entreprise grâce au data warehouse / Jean-Michel Franco, Sandrine de Lignerolles. - Paris : Eyrolles, 2000. INFO 81 FRANC "Ce qui ne se mesure pas ne s'améliore pas". Ce pourrait être la devise des auteurs de ce livre, Sandrine de Lignerolles et Jean-Michel Franco, co-auteurs du premier livre sur le data warehouse publié en France, en 1997, par Eyrolles, qui a obtenu le prix AFISI du livre informatique. Dans une entreprise, le système d'information constitue trop souvent une "boîte noire" ingurgitant une masse phénoménale d'informations. Les solutions de data warehouse permettent à l'entreprise de disposer d'une vision claire de ses activités et de leur rentabilité. Le projet décisionnel : enjeux, modèles, architectures du data warehouse / Jean-Marie Gouarne. - Paris : Eyrolles, 1998. INFO 81 GOUA Les grands systèmes d'information d'aujourd'hui, conçus pour gérer et automatiser, semblent cependant peu enclins à informer. De la donnée à l'information, le chemin est long. Le data warehouse et, plus globalement, le Système d'information décisionnel (SID), ne se réduit ni à une concentration de données brutes, ni à un d éploiement de nouvelles technologies. Le succès d'un projet décisionnel implique le respect de quelques principes fondamentaux, ici exposés et situés. Data stores, data warehousing and the Zachman Framework : managing enterprise knowledge / W.H. Inmon, John A. Zachman, Jonathan G. Geiger. - New York : McGraw-Hill, 1997. INFO 551 INMO W.H. Inmon est l'un des "pères" du data warehouse. Dans ce livre, il s'associe à John A. Zachman, inventeur d'un célèbre système de data warehouse (le "Zacman Framework"), ainsi qu'au praticien Jonathan G. Geiger pour décrire les différentes étapes qui, partant de la collecte des données, mènent à un Knowledge management réussi. Le data warehouse pivot de la relation client / Jean-François Goglin. - Paris : Hermès Science Publications, 2001. INFO 51 GOGL Une connaissance fine du client, élaborée dans un entrepôt de données (data warehouse) qui constitue le coeur du système de gestion des ressources clientèle, permet seule de tisser une relation client fournisseur personnalisée et efficace. Ce livre propose une approche méthodologique complète, intégrant l'architecture et la modélisation des indicateurs. LE DATA MINING Introduction au Data mining : analyse intelligente des données / Michel Jambu. - Paris : Eyrolles, 1998. INFO 551 JAMB Le Data mining est généralement présenté comme un thème novateur (ce qu'il est), voire miraculeux (ce qu'il n'est pas); il suscite donc de nombreuses interrogations. Bien qu'il s'agisse d'une technologie de valorisation de l'information et d'extraction de la connaissance, l'intérêt pour une entreprise est trop souvent masqué par la complexité des techniques mises en œuvre ou bien rendu suspect par des discours trop optimistes pour ne pas susciter la méfiance. Data Mining : concepts and techniques / Jiawei Han ; Micheline Kamber. - San Francisco : Morgan Kaufmann Publishers, 2001. INFO 552 HAN Voici une initiation aux principes du data mining écrite à l'intention des praticiens et professionnels des bases de données. Il commence par une introduction conceptuelle, suivie d'un exhaustif état de l'art des techniques existantes. A chaque fois que c'est possible, les auteurs posent les questions de l'utilité, la faisabilité, l'optimisation, la montée en charge, sans jamais perdre de vue les points les plus susceptibles d'affecter les résultats d'un projet et à même de lui assurer le succès. Advances in knowledge discovery and data mining / Usama M. Fayyad. - Menlo park : AAAI Press : MIT Press, 1996. INFO 552 FAYY Nous assistons depuis quelques années à un accroissement de nos capacités à générer et récolter des données. Ces avancées, couplées à l’utilisation des codes-barres et à l’informatisation des pratiques, imposent de découvrir de nouvelles techniques et outils qui puissent nous assister intelligemment et automatiquement dans la transformation des données disponibles en connaissance utile. Ce livre en fait l'examen et offre un panorama des perspectives de ce champ émergent qu'est le data mining. INFOthèque, mars 2006 Méthodes de base de l'analyse des données / Michel Jambu. - Paris : Eyrolles, 1999. MATH 83 JAMB Cet ouvrage expose les principales méthodes permettant d'étudier et de synthétiser les données (description des types, analyse des variables, visualisation graphique, méthodes factorielles, méthodes de classification, etc.). Il propose une série d'exercices, ainsi qu'un formulaire pour les méthodes factorielles, et trente jeux de données illustrant les méthodes utilisées. Le livre est accompagné d'un cédérom contenant une version d'évaluation du logiciel STATlab, qui permet aussi bien de tester des solutions que d'en avoir une visualisation. Approche pragmatique de la classification : arbres hiérarchiques, partitionnements / Jean-Pierre Nakache, Josiane Confais ; [préf. de Gilbert Saporta]. - Paris : Technip, 2005. MATH 88 NAKA La classification est une branche de l'analyse statistique multidimensionnelle descriptive qui a fait l'objet de très nombreuses publications. Elle connaît, ces dernières années, un renouvellement et un développement considérables avec la multiplication de bases de données de plus en plus importantes, n écessitant une exploration fouillée (data mining) avant d'adopter un modèle probabiliste suggéré par les résultats. Ce manuel pratique présente un large éventail de méthodes de classification, des plus classiques aux plus récentes. Data Mining et réseaux neuronaux chez Communication & Systèmes / Anne-Lise Pellieux. - Courbevoie : Pôle universitaire Léonard de Vinci, 2002. MEMO ESILV PELL La technique des réseaux de neurones est une des techniques les plus utilisées dans le data mining, qui se traduit littéralement par "forage de données". Le but de cette étude était de "découvrir" les relations existant entre différentes informations journalières concernant une série chronologique financière, celle-ci pouvant être le prix d'une action ou la valeur d'un indice boursier, afin d'élaborer des prévisions. LE DATA WEBHOUSE Le data webhouse : analyser les comportements client sur le Web / Ralph Kimball, Richard Merz ; trad. de l'anglais par Jean-Michel Berthier. - Paris : Eyrolles, 2000. COMM 871 KIMB Ralph Kimball (décidément très présent dans ce champ d'investigation !) signe avec ce livre un ouvrage sur ce qu'on peut appeler le data webhouse, qui a pour vocation d’offrir – via une interface web – de nouveaux services aux responsables de l’entreprise comme à ses clients et partenaires. Les auteurs expliquent comment enregistrer et stocker dans un data warehouse spécialisé tous les faits et gestes des visiteurs d’un site de commerce électronique. Ils montrent ensuite comment exploiter cette formidable base de données comportementale pour améliorer l’ergonomie du site, mieux cibler ses actions marketing et offrir au client une page d’accueil et des offres commerciales personnalisées. Data mining pour le Web : profiling, filtrage collaboratif, personnalisation client / Patrick Naïm, Mylè ne Bazsalicza. - Paris : Eyrolles, 2001. INFO 552 NAIM La personnalisation : une approche devenue incontournable. Il y a peu, les sites Web pouvaient être classés en deux grandes familles : les sites statiques et les sites dynamiques. Dorénavant, il est plus pertinent de distinguer les sites avec personnalisation des sites qui n’en ont pas encore. La personnalisation, qui consiste à adapter le contenu d’un site en fonction du profil de ses utilisateurs, s’est ainsi imposée pour gérer la richesse et la complexité croissantes des contenus, tout en garantissant une navigation fluide à l’internaute. Après avoir exposé les différentes techniques de data mining appliquées au Web, les auteurs abordent la relation-client, dressent le panorama des outils proposés sur le marché et fournissent des critères d’évaluation. Le Webmarketing / dir. : Pierre Ravot. - Paris : Hermès science publications, 2001. COMM 87 RAVO L'Internet est à la fois un média et un canal de distribution. C'est sous l'angle de cette double caractéristique que l'on examine les spécificités du webmarketing par rapport au marketing traditionnel. Nouvelles techniques, nouveaux métiers, nouvelles pratiques d'achat, nouveaux comportements des consommateurs. Des pionniers du webmarketing apportent leur témoignage. INFOthèque, mars 2006 Internet, Intranet et bases de données : data web, data media, data warehouse, data mining / Georges Gardarin. - Paris : Eyrolles, 1999. INFO 551 GARD Georges Gardarin fait le point sur ces nouvelles technologies qui donnent naissance à de nombreuses entreprises et qui sont centrées autour de nouveaux concepts souvent liés aux data… L'auteur distingue quatre types de bases de données : data web (Internet), data média (gérer des images, des sons, des films...), data warehouse (archiver les données de l'entreprise), data mining (extraire des connaissances à partir de grands volumes d'informations). La compréhension de ces nouvelles techniques est essentielle pour la construction de sites Web intelligents et de portails Internet attractifs, le commerce électronique efficace, l’intranet dynamique, la communication électronique réussie, la prise de décision adéquate et le développement durable. Le projet eCRM : relation client et Internet / Ludovic Cinquin, Pierre-Adrien Lalande, Nicolas Moreau. - Paris : Eyrolles, 2002. COMM 87 CINQ Qu'est-ce que l'eCRM ? C'est l'Electronic customer relationship management, ou Gestion de la relation client sur Internet. Quelques questions typiques de l'eCRM : comment fidéliser les visiteurs d'un site marchand ou d'un portail d'information ? comment recueillir et analyser le profil du client pour lui proposer une page d'accueil et des offres commerciales personnalisées ? comment mettre en place des services de support client efficaces ? Les réponses passent par la gestion de contenu, la collecte et la restitution d'informations. Au moyen d'un panel d'outils commenté et d'un guide de conduite de projets illustré par trois études de cas, nous sommes plongés au cœur des nouveaux enjeux liés à l'essor d'Internet. Gestion de la relation client : édition 2005 / René Lefébure, Gilles Venturi. - Paris : Eyrolles, 2004. COMM 55 LEFE Destiné aux décideurs, aux responsables fonctionnels (marketing, commercial) et aux chefs de projets informatiques chargés de la mise en place de solutions CRM (Customer Relationship Management), cet ouvrage s'est imposé comme la référence en langue française sur la gestion de la relation client. Il explique en détail les techniques marketing utilisées pour mieux identifier, cibler et fidé liser ses clients, et dresse un panorama des solutions disponibles. DU CÔTÉ D’INTERNET Web-datamining.net : http://www.web-datamining.net/ Ce site a pour vocation d'être un lieu d'information et d'échanges continus sur les évolutions du data mining" et fait office de portail sur le data mining en langue française. Ressources data mining : http://eric.univ-lyon2.fr/~ricco/data-mining/index.html Le site d'un enseignant lyonnais, fournissant un bon échantillon de documents pour s'initier au data mining ou approfondir certains de ses aspects plus particulièrement (liens vers des cours de Georges Gardarin, Gilbert Saporta,…). Data mining, statistique & scoring : http://data.mining.free.fr Le site de Stéphane Tufféry, spécialiste du data mining et de statistique décisionnelle, qui propose en ligne ses cours, une "cartographie des logiciels de statistique et data mining", ainsi que les liens essentiels. Data management center : http://www.infogoal.com/dmc/dmcdwh.htm Ce site donne un aperçu significatif des ressources en langue anglo-saxonne, abordant aussi bien data mining que data warehouse, data mart et "decision support". Kimball group : http://www.rkimball.com/ Le site de Ralph Kimball himself, qui y fait la publicité de ses activités tout en mettant librement à disposition ses articles et ceux de ses collaborateurs. Cette bibliographie a été réalisée par Philippe Marchesi - [email protected] INFOthèque, mars 2006