Data mining

publicité
DU Les modèles de l’Economie Numérique
3ème Promotion - 2004
Data Mining
Techniques d’extraction des connaissances
Georges El Helou et Charbel Abou khalil
Module 4.1 - Management et NTIC
Professeur : Mélissa Saadoun
Projet soutenu le 16 février 2004
Data Mining : techniques d’extraction des connaissances
Table des matières
I – Du data warehouse au data mart ............................................................................. 3
I.1. COMPRENDRE LE DATA WAREHOUSE ......................................................... 3
I.1.1. HISTORIQUE .................................................................................................. 3
I.1.2. DEFINITION ................................................................................................... 4
I.1.3. POURQUOI UN DATA WAREHOUSE? ........................................................ 5
I.2. COMPOSANTS DU DATA WAREHOUSE ........................................................ 6
I.2.1. LA STRUCTURE ............................................................................................. 6
I.2.2. LES ARCHITECTURES .................................................................................. 7
I.3. LE DATA MART................................................................................................... 8
I.3.1. MISE EN PLACE ............................................................................................. 8
I.3.2. LES SEPT MYTHES DU DATA MART ........................................................... 9
II – Les outils d’exploration et d’extraction des connaissances................................ 10
II.1. LES OUTILS OLAP ........................................................................................... 10
II.1.1. LES 12 REGLES OLAP ................................................................................ 10
II.1.2. LES OUTILS MOLAP .................................................................................. 13
II.1.3. LES OUTILS ROLAP ................................................................................... 14
II.2. INTRODUCTION AU DATA MINING ............................................................ 16
II.2.1. PRESENTATION DU DATA MINING......................................................... 16
II.2.2. LE DATA MINING ET LA RECHERCHE OPERATIONNELLE ................ 17
II.2.3. STATISTIQUES ET DATA MINING ............................................................ 17
II.3. LA RECHERCHE DE CONNAISSANCES ...................................................... 18
II.3.1. LES STATISTIQUES .................................................................................... 18
II.3.2. LES SCHEMAS D’INFERENCE.................................................................. 20
II.3.3. LES TACHES DU DATA MINING .............................................................. 21
II.3.4. LA CLASSIFICATION ................................................................................. 22
II.3.5. L’ESTIMATION ........................................................................................... 22
II.3.6. LA PREDICTION ......................................................................................... 22
II.3.7. LE REGROUPEMENT PAR SIMILITUDES ............................................... 23
II.3.8. L’ANALYSE DES CLUSTERS...................................................................... 23
II.3.9. LA DESCRIPTION ....................................................................................... 23
II.3.10. L’OPTIMISATION ..................................................................................... 23
II.3.11. LE CERCLE VERTUEUX .......................................................................... 23
Conclusion ..................................................................................................................... 25
Glossaire ........................................................................................................................ 26
Bibliographie ................................................................................................................. 29
Bibliographie ................................................................................................................. 29
Georges El Helou et Charbel Abou Khalil - 2004
2
Data Mining : techniques d’extraction des connaissances
I – Du data warehouse au data mart
I.1. Comprendre le data warehouse
L’accroissement de la concurrence, l’individualisation des consommateurs et la brièveté
du cycle de vie des produits obligent les entreprises à non plus simplement réagir au
marché mais à l’anticiper. Elles doivent également cibler au mieux leur clientèle afin de
répondre à ses attentes. La connaissance de son métier, des schémas de comportement
de ses clients, de ses fournisseurs est essentielle à la survie de l’entreprise, car elle lui
permet d’anticiper sur l’avenir.
Aujourd’hui, les entreprises ont à leur disposition une masse de données importante. En
effet, les faibles coûts des machines en terme de stockage et de puissance ont encouragé
les sociétés à accumuler toujours plus d’informations. Cependant, alors que la quantité
de données à traiter augmente énormément - l'institut EDS estime que la quantité de
données collectées dans le monde double tous les 20 mois - le volume d’informations
fournies aux utilisateurs n’augmente lui que très peu. Ces réservoirs de connaissance
doivent être explorés afin d’en comprendre le sens et de déceler les relations entre
données, des modèles expliquant leur comportement.
Dans cette optique, la constitution d’un data warehouse, regroupant, sous une forme
homogène, toutes les données de l’entreprise sur une longue période, offre des
perspectives nouvelles aux utilisateurs, notamment en terme d’extraction de
connaissances grâce aux outils de data mining.
I.1.1. Historique
Le concept de data warehouse (entrepôt de données) a été formalisé pour la première
fois en 1990. L’idée de constituer une base de données orientée sujet, intégrée,
contenant des informations datées, non volatiles et exclusivement destinées aux
processus d’aide à la décision, fut dans un premier temps accueillie avec une certaine
perplexité. Beaucoup n’y voyaient que l'habillage d’un concept déjà ancien :
l’infocentre.
Mais l’économie actuelle en a décidé autrement. Les entreprises sont confrontées à une
concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte
organisationnel de plus en plus complexe et mouvant.
Pour faire face aux nouveaux enjeux économiques, l’entreprise doit anticiper.
L’anticipation ne peut être efficace qu’en s’appuyant sur de l’information pertinente.
Cette information est à la portée de toute entreprise qui dispose d’un capital de données
gérées par ses systèmes opérationnels et qui peut en acquérir d’autres auprès de
fournisseurs externes. Mais actuellement, les données sont surabondantes, non
Georges El Helou et Charbel Abou Khalil - 2004
3
Data Mining : techniques d’extraction des connaissances
organisées dans une perspective décisionnelle et éparpillées dans de multiples systèmes
hétérogènes. Pourtant, les données représentent une mine d’informations. Il devient
fondamental de rassembler et d’homogénéiser les données afin de permettre d’analyser
les indicateurs pertinents pour faciliter les prises de décisions. Pour répondre à ces
besoins, le nouveau rôle de l’informatique est de définir et d’intégrer une architecture
qui serve de fondation aux applications décisionnelles : le data warehouse (DW).
I.1.2. Définition
Le DW est une collection de données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un processus d’aide à la décision.
Commentons cette définition :
Orientées sujet
Le DW est organisé autour des sujets majeurs de l’entreprise, contrairement aux
données des systèmes de production. Ceux-ci sont généralement organisés par processus
fonctionnels. Les données sont structurées par thème.
L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur
un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de
l’entreprise. Cette orientation sujet va également permettre de développer son système
décisionnel via une approche par itérations successives, sujet après sujet.
L’intégration dans une structure unique est indispensable car les informations
communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique, une
structure supplémentaire appelée Data Mart (magasin de données) peut être créée pour
supporter l’orientation sujet.
Données intégrées
Un DW est un projet d’entreprise. Par exemple dans la distribution, le même indicateur
de chiffre d’affaires intéressera autant les forces de vente que le département financier
ou les acheteurs. Pour y parvenir, les données doivent être intégrées. Avant d’être
intégrées dans le DW, les données doivent être mises en forme et unifiées afin d’avoir
un état cohérent. Par exemple, la consolidation de l’ensemble des informations
concernant un client donné est nécessaire pour donner une vue homogène de ce client.
Une donnée doit avoir une description et un codage unique. Cette phase d’intégration
est très complexe et représente 60 à 90% de la charge totale d’un projet.
Données historisées
Dans un système de production, la donnée est mise à jour à chaque nouvelle transaction.
Dans un DW, la donnée ne doit jamais être mise à jour. Un référentiel temps doit être
associé à la donnée afin d’être capable d’identifier une valeur particulière dans le temps.
Georges El Helou et Charbel Abou Khalil - 2004
4
Data Mining : techniques d’extraction des connaissances
Données non volatiles
La non volatilité des données est en quelque sorte une conséquence de l’historisation.
Une même requête effectuée à quelques mois d’intervalle en précisant la date de
référence de l’information recherchée donnera le même résultat.
I.1.3. Pourquoi un data warehouse?
L’entreprise construit un système décisionnel pour améliorer sa performance. Elle doit
décider et anticiper en fonction de l’information disponible et capitaliser sur ses
expériences.
Depuis plusieurs dizaines d’années, une importante masse d’informations est stockée
sous forme informatique dans les entreprises. Les systèmes d’information sont destinés
à garder la trace d’événements de manière fiable et intègre. Ils automatisent de plus en
plus les processus opérationnels.
Parallèlement, les entreprises réalisent la valeur du capital d’information dont elles
disposent. Au delà de ce que l’informatique leur apporte en terme fonctionnel, elles
prennent conscience de ce qu’elle pourrait apporter au niveau du contenu
informationnel.
Considérer le système d’information sous cet angle en tant que levier pour accroître leur
compétitivité et leur réactivité n’est pas nouveau. Par contre, étant donné
l’environnement concurrentiel actuel, cela devient une question de survie.
L’informatique a un rôle à jouer, en permettant à l’entreprise de devenir plus
entreprenante et d’avoir une meilleure connaissance de ses clients, de sa compétitivité
ou de son environnement.
Il est intéressant de calculer les retours sur investissement rendus publics. Ils se
calculent rarement en terme de baisse de coûts, mais en terme de gains. Par exemple, ils
permettent un meilleur suivi des ventes, une meilleure compréhension des habitudes
d’achats des clients, d’une adaptation des produits à une clientèle mieux ciblée.
Georges El Helou et Charbel Abou Khalil - 2004
5
Data Mining : techniques d’extraction des connaissances
I.2. Composants du data warehouse
I.2.1. La structure
Un DW se structure en quatre classes de données, organisées selon un axe historique et
un axe synthétique.
Les données détaillées
Elles reflètent les événements les plus récents. Les intégrations régulières des données
issues des systèmes de production vont habituellement être réalisées à ce niveau. Les
volumes à traiter sont plus importants que ceux gérés en transactionnel. Attention : le
niveau de détail géré dans le DW n’est pas forcément identique au niveau de détail géré
dans les systèmes opérationnels. La donnée insérée dans le DW peut être déjà une
agrégation ou une simplification d’informations tirées du système de production.
Exemple : l’étude du panier de la ménagère nécessite de stocker le niveau de finesse du
ticket de caisse.
Les données agrégées
Elles correspondent à des éléments d’analyse représentatifs des besoins utilisateurs.
Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue
dans le système décisionnel, et doivent être facilement accessibles et compréhensibles.
La facilité d’accès est apportée par des structures multidimensionnelles qui permettent
aux utilisateurs de naviguer dans les données suivant une logique intuitive, avec des
performances optimales. Certains SGBD du marché sont conçus pour faciliter la mise
en place des agrégations et la navigation au sein de celles-ci.
La définition complète de l’information doit être mise à la disposition de l’utilisateur
pour une bonne compréhension. Dans le cas d’un agrégat, l’information est composée
du contenu présenté (moyenne des ventes…) et de l’unité (par mois, par produit…).
Les méta-données
Elles regroupent l’ensemble des informations concernant le DW et les processus
associés. Elles constituent une véritable aide en ligne permettant de connaître
l’information contenue dans le DW. Elles sont idéalement intégrées dans un référentiel.
Les principales informations sont destinées :
 A l’utilisateur (sémantique, localisation).
 Aux équipes responsables des processus de transformation des données du système
de production vers le data warehouse (localisation dans les systèmes de production,
description des règles, processus de transformation).
 Aux équipes responsables des processus de création des données agrégées à partie
des données détaillées.
Georges El Helou et Charbel Abou Khalil - 2004
6
Data Mining : techniques d’extraction des connaissances
 Aux équipes d’administration de la base de données (structure de la base
implémentant le DW).
 Aux équipes de production (procédures de changement, historique de MAJ…).
Les données historisées
Un des objectifs du DW est de conserver en ligne les données historisées. Chaque
nouvelle insertion de données provenant du système de production ne détruit pas les
anciennes valeurs, mais crée un nouvelle occurrence de la donnée. Le support de
stockage dépend du volume des données, de la fréquence d’accès, du type d’accès. Les
supports les plus couramment utilisés sont les disques, les disques optiques numériques,
les cassettes.
La logique d’accès aux données la plus utilisée est la suivante : les utilisateurs
commencent à attaquer les données par le niveau le plus agrégé, puis approfondissent
leur recherche vers les données les plus détaillées (drill down).
L’accès des données se fait également directement par les données détaillées et
historisées, ce qui conduit à des brassages de données lourds, demandant des machines
très puissantes.
Le DW est une réussite dans une entreprise lorsque le nombre d’utilisateur accédant aux
données de détail augmente.
I.2.2. Les architectures
Pour implémenter un DW, trois types d’architectures sont possibles :
 L’architecture réelle qui est généralement retenue pour les systèmes décisionnels.
Le stockage des données est réalisé dans un SGBD séparé du système de production.
Le SGBD est alimenté par des extractions périodiques. Avant le chargement, les
données subissent d’importants processus d’intégration, de nettoyage, de
transformation. L’avantage est de disposer de données préparées pour les besoins de
la décision et répondant aux objectifs du DW. Les inconvénients sont le coût de
stockage supplémentaire et le manque d’accès en temps réel.
 L’architecture virtuelle qui n’est pratiquement pas utilisée pour le data warehouse.
Les données résident dans le système de production. Elles sont rendues visibles par
des produits middleware ou par des passerelles. Il en résulte deux avantages : pas de
coût de stockage supplémentaire et l’accès se fait en temps réel. L’inconvénient est
que les données ne sont pas préparées.
 L’architecture remote qui est une combinaison de l’architecture réelle et de
l’architecture virtuelle. Elle est rarement utilisée. L’objectif est d’implémenter
physiquement les niveaux agrégés afin d’en faciliter l’accès et de garder le niveau
de détail dans le système de production en y donnant l’accès par le biais de
middleware ou de passerelle.
Georges El Helou et Charbel Abou Khalil - 2004
7
Data Mining : techniques d’extraction des connaissances
I.3. Le Data Mart
Avec un DW, il y a des risques d’échec. Rien n’invite l’utilisateur à se servir d’un DW.
Le succès d’un DW dépend donc uniquement de son effective utilisation. Un des gros
risques de la construction est de se cristalliser autour de la problématique informatique
et de se détourner de l’utilisateur. Le Data Mart (DM) minimise la complexité
informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs.
Le DM est une base de données moins coûteuse que le DW et plus légère puisque
destinée à quelques utilisateurs d’un département. Il séduit plus que le DW les candidats
au décisionnel.
C’est une petite structure très ciblée et pilotée par les besoins utilisateurs. Il a la même
vocation que le DW (fournir une architecture décisionnelle), mais vise une
problématique précise avec un nombre d’utilisateurs plus restreint. En général, c’est une
petite base de données (SQL ou multidimensionnelle) avec quelques outils, et alimentée
par un nombre assez restreint de sources de données. Son coût ne dépasse pas deux à
trois millions de francs. Mais pour réussir, il y a quelques précautions à prendre, gage
de son évolutivité vers le DW.
Data Warehouse
Data Mart
Cible utilisateur
Toute l’entreprise
Département
Implication du service
informatique
Elevée
Faible ou moyen
Base de données d’entreprise
SQL type serveur
SQL milieu de gamme, bases
multidimensionnelles
Modèles de données
A l’échelle de l’entreprise
Département
Champ applicatif
Multi sujets, neutre
Quelques sujets, spécifique
Sources de données
Multiples
Quelques unes
Stockage
Base de données
Plusieurs bases distribuées
Taille
Centaine de GO et plus
Une à 2 dizaines de GO
Temps de mise en place
9 à 18 mois pour les 3 étapes
6 à 12 mois (installation en
plusieurs étapes)
Coût
> 6 millions de francs
500.000 à 3 millions de francs
Matériel
Unix
NT, petit serveur Unix
I.3.1. Mise en place
Construire un ou plusieurs DM départementaux au lieu d’un DW central permet de
valider rapidement le concept d’informatique décisionnelle. Mais construire des DM
n’est pas sans risques :
Georges El Helou et Charbel Abou Khalil - 2004
8
Data Mining : techniques d’extraction des connaissances
 En effet, dans les entreprises, des DM isolés peuvent proliférer. Ces entreprises
risquent de retomber dans le piège d’une architecture composée de multiples
systèmes décisionnels incohérents, contenant des informations redondantes. Cela
coûte plus cher et c’est plus complexe à gérer qu’un DW centralisé. Les entreprises
américaines, plus en avance que les entreprises européennes, en ont fait les frais.
 Les DM résolvent les problèmes de performance des gros DW. Mais ils font
régresser vers le vieux problème des îlots isolés. Les entreprises vont devoir
affronter des problèmes techniques complexes et coûteux pour remettre en
cohérence les ensembles.
 Fédérer des DM ou les faire évoluer vers une structure centralisée n’est pas facile.
On peut se poser la question s’il est préférable de bâtir un gros et unique DW ou bien de
concevoir un réservoir plus modeste, nourri par les données d’un seul département. Il
est intéressant de commencer par un DM, à condition de respecter certaines règles :
 Impliquer les utilisateurs.
 Ne pas construire de multiples Data Marts isolés.
 Bannir les redondances.
I.3.2. Les sept mythes du Data Mart
 Les Data Marts sont petits
 Les Data Marts sont moins complexes et plus facile à déployer que les DW.
 Les Data Marts peuvent évoluer facilement vers un Data Warehouse
 Les différents Data Marts indépendants peuvent être dynamiquement coupler pour
se métamorphoser en Data Warehouse
 Les DM ne se résument qu’à une seule information métier : par exemple, les ventes.
 Les Data Marts sont plus flexibles que les Data Warehouse
 Les Data Marts sont un nouveau concept.
Donc le DM peut préparer au DW. Mais il faut penser grand, avenir et adopter des
technologies capables d’évoluer.
Georges El Helou et Charbel Abou Khalil - 2004
9
Data Mining : techniques d’extraction des connaissances
II – Les outils d’exploration et d’extraction des
connaissances
II.1. Les outils OLAP
Les outils OLAP (On Line Analytical Process) reposent sur une base de données
multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population
de données.
La plupart des solutions OLAP reposent sur un même principe : restructurer et stocker
dans un format multidimensionnel les données issues de fichiers plats ou de bases
relationnelles. Ce format multidimensionnel, connu également sous le nom d'hypercube,
organise les données le long de dimensions. Ainsi, les utilisateurs analysent les données
suivant les axes propres à leur métier.
Ce type d'analyse multidimensionnelle nécessite à la fois l'accès à un grand volume de
données et des moyens adaptés pour les analyser selon différents points de vue. Ceci
inclut la capacité à discerner des relations nouvelles ou non prévues entre les variables,
la capacité à identifier les paramètres nécessaires à manier un volume important de
données pour créer un nombre illimité de dimensions et pour spécifier des expressions
et conditions inter dimensions. Ces dimensions représentent les chemins de
consolidation.
OLAP concerne de ce fait au moins autant le monde des serveurs, voire des structures
de stockage, que celui des outils.
II.1.1. Les 12 règles OLAP
Afin de formaliser le concept OLAP, fin 1993, à la demande de Arbor Software, Edgar
F. Codd publie un article intitulé « Providing OLAP to User Analysts » aux Etats Unis,
dans lequel il définit 12 règles que tout système de pilotage multidimensionnel devrait
respecter.
« Ce qu’il y a d’agréable avec ces outils OLAP », explique Eric Klusman, de Cantor
Fitzgerald LP, "c’est que je suis en mesure de distribuer les données aux utilisateurs
sans les obliger à apprendre des complexes formules de programmation,
d’interrogation ou même à ce qu’ils aient à programmer leurs tableurs". D’une façon
générale, tous affirment que l’on peut interfacer de nombreux outils d’utilisateurs avec
des bases de données multidimensionnelles sans qu’il soit nécessaire de consentir de
lourds efforts de formation ou des interventions importantes du service informatique.
Georges El Helou et Charbel Abou Khalil - 2004
10
Data Mining : techniques d’extraction des connaissances
Vue multidimensionnelle
L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple
lorsqu'il souhaite analyser les ventes par produit mais aussi par région ou par période.
Ces modèles permettent des manipulations simples : rotation, pivot ou vues par tranche,
analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere).
Transparence du serveur OLAP à différents types de logiciels
Cette transparence se traduit pour l'utilisateur par un complément à ses outils habituels
garantissant ainsi sa productivité et sa compétence. Elle s'appuie sur une architecture
ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les
fonctionnalités du système central. Par ailleurs, l'utilisateur ne doit pas être concerné par
l'intégration des données dans OLAP provenant d'un environnement homogène ou
hétérogène.
Accessibilité à de nombreuses sources de données
Le système OLAP doit donner accès aux données nécessaires aux analyses demandées.
Les outils OLAP doivent avoir leur propre schéma logique de stockage des données
physiques hétérogènes, doivent accéder aux données et réaliser n'importe quelle
conversion afin de présenter à l'utilisateur une vue simple et cohérente. Ils doivent aussi
savoir de quel type de systèmes proviennent les données.
Performance du système de Reporting
L'augmentation du nombre de dimensions ou du volume de la base de données ne doit
pas entraîner de dégradation visible par l'utilisateur.
Architecture Client/Serveur
La plupart des données pour OLAP sont stockées sur des gros systèmes et sont
accessibles via des PC. Il est donc nécessaire que les produits OLAP soient capables de
travailler dans un environnement Client/Serveur.
Dimensions Génériques
Toutes les dimensions doivent être équivalentes en structure et en calcul. Il ne doit
exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui
s'applique à une dimension doit être aussi capable de s'appliquer à une autre dimension.
Gestion dynamique des matrices creuses
Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse
spécifique créé pour optimiser la gestion des matrices creuses. En effet, dans une
analyse à la fois sur les produits et les régions, tous les produits ne sont pas vendus dans
toutes les régions.
Georges El Helou et Charbel Abou Khalil - 2004
11
Data Mining : techniques d’extraction des connaissances
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la
sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la
sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Calculs à travers les dimensions
Les opérations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas
faire intervenir l'utilisateur pour définir un calcul hiérarchique.
Manipulation intuitive des données
Toute manipulation doit être accomplie via une action directe sur les cellules du modèle
sans utiliser de menus ou des chemins multiples à travers l'interface utilisateur.
Souplesse et facilité de constitution des rapports
La création des rapports dans les outils OLAP doit permettre aux utilisateurs de
présenter comme ils le désirent des données synthétiques ou des résultats en fonction de
l'orientation du modèle.
Nombre illimité de niveaux d'agrégation et de dimensions
Tout outil OLAP doit gérer au moins 15 à 20 dimensions.
D'après EF CODD & Associates, les SGBD Relationnels n'ont jamais été conçus pour
fournir les puissantes fonctions de synthèse, d'analyse et de consolidation
communément appelées analyse multidimensionnelle des données. Ces types de
fonctions ont toujours été prévus pour être fournis par des outils séparés, orientés
utilisateurs et complémentaires des SGBD Relationnels. Les tables vont être
transformées en un hypercube de données. Les données vont pouvoir être visualisées
sous différents angles grâce aux vues multidimensionnelles.
OLAP, parce qu'il associe des mécanismes de navigation aux données, permet
d'effectuer des analyses de manière interactive, à l'opposé du requêteur pour qui chaque
requête est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans
un cadre prédéfini, limitant dès lors l'autonomie potentielle de l'utilisateur. De ce fait
requêtes et outils OLAP doivent être considérés comme complémentaires plutôt que
concurrents.
Georges El Helou et Charbel Abou Khalil - 2004
12
Data Mining : techniques d’extraction des connaissances
II.1.2. Les outils MOLAP
OLAP sera l'outil à privilégier pour les données quantitatives si leur structuration a
priori est naturelle (cas rencontré fréquemment pour les applications financières ou
commerciales), alors que le requêteur sera idéal pour les données qualitatives et pour
toute analyse impromptue nécessitant l'autonomie de l'utilisateur (cas rencontré
fréquemment pour le marketing ou la gestion du personnel). Si les besoins sont à
combiner, il faudra choisir entre la richesse fonctionnelle apportée par plusieurs outils
interfacés ou l’homogénéité des outils intégrés.
Deux versions d'OLAP s'affrontent actuellement. Les outils MOLAP (Multidimensional
OLAP) d'une part qui s'appuient sur une base de données multidimensionnelle. Les
outils ROLAP (Relational OLAP) d'autre part, qui représente leur équivalent sur une
base de données relationnelle.
MOLAP est conçue exclusivement pour l'analyse multidimensionnelle, avec un mode
de stockage optimisé par rapport aux chemins d'accès prédéfinis. Ainsi, toute valeur
d'indicateur associée à l'axe temps sera pré-calculée au chargement pour toutes ses
valeurs hebdomadaires, mensuelles, etc.
MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus
les principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la
phase de chargement de la base, tant en terme de performances que de volume. La
limite fréquemment évoquée pour MOLAP étant de quelques giga octets.
MOLAP surpasse ROLAP pour des fonctionnalités avancées comme la prévision ou la
mise à jour des données pour la simulation. Cependant, ces différences s'expliquent par
une plus grande maturité en faveur de MOLAP, concept qui date de près de vingt ans.
MOLAP est incompatible avec d'autres modes d'accès aux données. Si MOLAP doit
cohabiter avec d'autres techniques d'accès aux données (par requêteur, par data mining,
etc.), deux bases de données doivent cohabiter. En effet, MOLAP repose sur un moteur
Georges El Helou et Charbel Abou Khalil - 2004
13
Data Mining : techniques d’extraction des connaissances
spécialisé, qui stocke les données dans un format tabulaire propriétaire (cube). Pour
accéder aux données de ce cube, on ne peut pas utiliser le langage de requête standard
SQL, il faut utiliser une API spécifique.
Le marché des bases MOLAP étant plus réduit, il est plus difficile pour les éditeurs qui
le représentent d'investir sur de telles évolutions.
II.1.3. Les outils ROLAP
Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modèle qui
représente les données dans un format multidimensionnel. Ces produits diminuent
sensiblement le coût lié à la mise en œuvre d'un serveur de base de données
multidimensionnelle supplémentaire. Au travers des méta-données, ils permettent de
transformer l’analyse multidimensionnelle demandée par l’utilisateur en requêtes SQL.
Pour cela, ces outils s’appuient pour la plupart sur une modélisation particulière des
données, distinguant les axes d’analyse et les faits à observer. On parlera notamment de
modèle en étoile et de modèle en flocon ou encore des techniques de définition
physique d'agrégations.
Ceci oblige à définir le modèle en fonction de l’outil à utiliser et des analyses à mener
mais est un gage de performance et de cohérence lors de l’utilisation de ce type de
produits.
Cette contrainte exige un travail important des équipes informatiques et donc enlève
beaucoup à l'intérêt d'utiliser un SGBD Relationnel comme support de stockage pour
l'analyse multidimensionnelle.
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les
performances lors de la navigation dans les données ou pour les calculs complexes.
Avec ROLAP, il est déconseillé d'accéder en direct à des bases de données de
production pour faire des analyses sérieuses, pour des raisons de performances.
Georges El Helou et Charbel Abou Khalil - 2004
14
Data Mining : techniques d’extraction des connaissances
ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait ROLAP est
plus lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains
agrégats.
Certains éditeurs, comme Informix avec Métacube ou Oracle avec Discoverer 2000,
pallient cependant à cette faiblesse avec des outils d'administration aptes à conseiller
pour une politique d'agrégation adéquate. ROLAP est donc mieux adapté aux gros
volumes.
En s'appuyant sur les bases relationnelles, référence du marché, ROLAP tire partie des
évolutions de celles-ci (adaptation aux architectures hardware sophistiquées, extensions
objets, etc.).
Georges El Helou et Charbel Abou Khalil - 2004
15
Data Mining : techniques d’extraction des connaissances
II.2. Introduction au Data Mining
II.2.1. Présentation du Data Mining
Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils
permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous
restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des
informations riches à partir des données de l’entreprise, notamment des données
historiques, de découvrir des modèles implicites dans les données. Ils peuvent
permettre par exemple à un magasin de dégager des profils de client et des achats types
et de prévoir ainsi les ventes futures. Il permet d’augmenter la valeur des données
contenues dans le DW.
Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à
l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans
le cas du Data Mining, le système a l’initiative et découvre lui-même les associations
entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle
direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par
exemple le comportement d’un client, et de détecter, dans le passé, les données
inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être
employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer.
Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les
tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Ces
utilisateurs n’ont donc pas obligatoirement un bagage statistique important. L’outil doit
donc soit être ergonomique, facile à utiliser et rendant transparentes toutes les formules
mathématiques et termes techniques utilisés, soit permettre de construire une application
«clé en main», rendant à l’utilisateur transparentes toutes les techniques utilisées.
On pourrait définir le data mining comme une démarche ayant pour objet de découvrir
des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de
données.
On devrait ajouter que la pertinence et l'intérêt du Data Mining sont conditionnés par les
enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs
clairement explicités ("améliorer la performance commerciale", "mieux cibler les
prospects", "fidéliser la clientèle", "mieux comprendre les performances de
production"...).
Le succès du concept de Data warehouse et le nombre croissant de bases de données
décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining.
Le terme de Data Mining signifie littéralement forage de données. Comme dans tout
forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts
s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations
Georges El Helou et Charbel Abou Khalil - 2004
16
Data Mining : techniques d’extraction des connaissances
cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de
techniques spécifiques, de faire apparaître des connaissances.
Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer
les données en connaissances.
L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est
de remplir l'une des tâches suivantes : classification, estimation, prédiction,
regroupement par similitudes, segmentation (ou clusterisation), description et, dans une
moindre mesure, l'optimisation.
II.2.2. Le Data Mining et la Recherche Opérationnelle
La recherche opérationnelle n'est pas assimilée aux techniques de Data Mining. Son
objectif est l'optimisation et la recherche prouvée de la meilleure solution, ce qui n'est
pas le cas du Data Mining :
 Son champ d'application est plus large,
 On ne recherche pas la meilleure solution prouvée mais à faire le mieux possible,
 Enfin un outil de Data Mining appliqué à un même ensemble de données ne donne
pas toujours les mêmes résultats, contrairement à la recherche opérationnelle.
II.2.3. Statistiques et Data Mining
On pourrait croire que les techniques de Data Mining viennent en remplacement des
statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise :
 Pour faire une analyse préalable,
 Pour estimer ou alimenter les valeurs manquantes,
 Pendant le processus pour évaluer la qualité des estimations,
 Après le processus pour mesurer les actions entreprises et faire un bilan.
Par ailleurs, certaines techniques statistiques récentes (travaux de BENZECRI, analyse
en composantes principales, analyse factorielle des correspondances, …) peuvent être
apparentées aux techniques de Data Mining.
Statistiques et Data Mining sont tout à fait complémentaires.
Georges El Helou et Charbel Abou Khalil - 2004
17
Data Mining : techniques d’extraction des connaissances
II.3. La recherche de connaissances
II.3.1. Les statistiques
Les statistiques sont à la base de tout raisonnement sur les données. Elles permettent de
synthétiser un grand nombre de valeurs pour une variable grâce à un nombre très réduit
d’informations. Pour chaque variable, on va ainsi rechercher au moins deux indicateurs
: un pour mesurer la tendance centrale, un pour mesurer la dispersion.
Indicateurs de tendance centrale
C’est en général le premier critère d'évaluation d'une série statistique. Le plus
couramment utilisé est la moyenne arithmétique : ( ) å=
n
i
i in x
N1
1 (N représente l’effectif total, xi le centre de la classe ou sa valeur, ni l’effectif de la
classe), mais on lui associe ou préfère parfois le mode (valeur la plus fréquemment
trouvée) ou la médiane (valeur du représentant de la moitié de l’effectif). La médiane
présente l’avantage de ne pas être sensible aux valeurs exceptionnelles (contrairement à
la moyenne).
Indicateurs de dispersion
Les indicateurs de tendance centrale donnent une première indication de la population à
étudier mais il est intéressant de savoir comment se répartissent les individus autour de
cette moyenne. En effet, si deux élèves obtiennent les notes suivantes :
Elève A : 9 - 10 - 10 - 10 - 10 - 11
Elève B : 0 - 0 - 0 - 20 - 20 - 20
Ces deux élèves auront 10 de moyenne mais on voit nettement que l’élève A obtient des
notes autour de la moyenne alors que l’élève B en est très éloigné. Pour exprimer ceci,
les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion :
L’amplitude, ou dimension, ou étendue de la distribution : Valeur sup - Valeur inf
L’écart absolu moyen des valeurs à la moyenne de la distribution :
La distance interquartile ou inter décile de la distribution : écart entre l’individu
représentant 25 % (ou 10 %) et celui représentant 75 % (ou 90%) de la population.
Georges El Helou et Charbel Abou Khalil - 2004
18
Data Mining : techniques d’extraction des connaissances
L’écart type ( s) défini ainsi : (la majorité des individus est entre moyenne - 2 s et
moyenne + 2 s).
Ces indicateurs sont utilisés pour évaluer des valeurs manquantes, mettre en évidence
les valeurs exceptionnelles et donner une première synthèse des données.
ixx
n
-å
Relations entre variables
Très vite, les besoins des décideurs ont amené les statisticiens à rechercher des liens
entre plusieurs variables ou plusieurs populations. Ils ont donc créé de nouveaux
indicateurs comme le khi2, la covariance ou le coefficient de corrélation. La corrélation
entre les variables ne recouvre pas que la causalité; elle peut s’expliquer de plusieurs
manières :
 La causalité : on observe qu’une variation de A entraîne une variation de B. Il
existe un vrai lien entre A et B.
 Le hasard : une variation de A entraîne une variation de B mais celle-ci est
uniquement due au hasard.
 La réponse commune : une variation de C entraîne une variation de A et B.
 La confusion : la variation de A et C entraîne la variation de B.
Lorsque le coefficient de corrélation est significatif, il y a souvent confusion entre ces
différentes possibilités, surtout entre causalité et hasard.
D’autres techniques : régressions simples ou multiples (linéaires ou non), ajustements
vers des lois statistiques (loi normale, binomiale, hypergéométrique, de Poisson, ...)
permettent de modéliser les séries, et facilitent les estimations. Elles ne seront pas
développées dans cet ouvrage.
Ces techniques statistiques permettent de savoir s’il existe une relation entre
plusieurs variables, de faire des prévisions ou estimations.
Le but de ce type d’analyse est souvent de rechercher des liens de causalité.
La recherche de connaissances par l’utilisation de méthodes statistiques est souvent
limitée car on ne peut étudier simultanément que quelques variables (une à deux). Les
problèmes sont en général plus complexes et mettent en œuvre plusieurs dizaines de
variables. Pour répondre à ces besoins, il a fallu créer de nouveaux algorithmes, parfois
issus de la recherche opérationnelle, alliant la recherche intelligente et les statistiques.
Georges El Helou et Charbel Abou Khalil - 2004
19
Data Mining : techniques d’extraction des connaissances
II.3.2. Les schémas d’inférence
Les outils de Data Mining ne sont pas destinés à un informaticien ou un statisticien mais
à l’utilisateur ou au décisionnaire. Seul ce dernier saura analyser avec pertinence les
informations retournées par le système. Pour mieux comprendre le fonctionnement de
ces processus, voici les principales techniques de raisonnement mises en œuvre.
La recherche de connaissances et d’informations repose sur les schémas d’inférence
formalisés par C. S. Pierce en 1903. Ce dernier a distingué trois types de raisonnements
: l’abduction, la déduction et l’induction.
L’abduction
Pour mieux exprimer ce qu’est l’abduction, le plus simple est d’en présenter un
exemple:
Toutes les voitures ont 4 roues
La Peugeot 106 a 4 roues
_ La Peugeot 106 est une voiture
Cette technique est notamment utilisée dans les outils d’aide au diagnostic médical pour
découvrir la maladie la plus probable depuis une liste de symptômes. Il faut cependant
être très vigilant avec ce type de raisonnement car il peut produire des résultats
aberrants ou triviaux :
Toutes les voitures ont un moteur, l’Airbus 320 a un moteur _ l’Airbus 320 est une
voiture.
Pour éviter ce type de comportement, il suffit d’avoir un ensemble descriptif (ici : 4
roues) suffisamment riche. Il aurait suffit de préciser : toutes les voitures ont 4 roues, un
moteur, un volant, de 3 à 5 portes, sont inscrites sur les registres des mines, etc. pour
diminuer considérablement le risque d’erreurs.
Tous les possesseurs de la carte jeune ont moins de 25 ans.
Cette information est certes vraie mais risque de ne présenter aucun intérêt.
La déduction
C’est le type de raisonnement le plus utilisé et le plus familier. Son atout majeur est
qu’il ne laisse pas de place au doute. Exemple :
La Peugeot 106 est une voiture
Toutes les voitures ont 4 roues
_ La Peugeot 106 a 4 roues
Georges El Helou et Charbel Abou Khalil - 2004
20
Data Mining : techniques d’extraction des connaissances
L’induction
C’est la technique la plus communément utilisée par le data mining. Elle consiste à tirer
des conclusions à partir d’une série de faits. Exemples :
Exemple 1
Exemple 2
La Clio a 4 roues
La Clio a 4 roues
La Peugeot 106 a 4 roues
La Peugeot 106 a 4 roues
La Laguna a 4 roues
La Laguna a 4 roues
La Corsa a 4 roues
La Corsa a 4 roues
Un patin à roulettes a 4 roues
_ Toutes les voitures ont 4 roues (100 %)
_ Les voitures ont 4 roues (80 %)
La certitude n’est pas absolue et sera donc associée à une probabilité. Plus les faits
corroborant l’hypothèse sont nombreux, plus la probabilité que la conclusion soit exacte
est forte.
La recherche d’informations se fait généralement par des mécanismes d’induction. La
déduction est plutôt utilisée pour vérifier la cohérence des informations.
II.3.3. Les tâches du Data Mining
Contrairement aux idées reçues, le Data Mining n’est pas le remède miracle capable de
résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une multitude de
problèmes d’ordre intellectuel, économique ou commercial peuvent être regroupés, dans
leur formalisation, dans l’une des tâches suivantes :
 Classification,
 Estimation,
 Prédiction,
 Groupement par similitudes,
 Segmentation (ou clusterisation),
 Description,
 Optimisation.
Afin de lever toute ambiguïté sur des termes qui peuvent paraître similaires, il semble
raisonnable de les définir.
Georges El Helou et Charbel Abou Khalil - 2004
21
Data Mining : techniques d’extraction des connaissances
II.3.4. La classification
La classification se fait naturellement depuis déjà bien longtemps pour comprendre et
communiquer notre vision du monde (par exemple les espèces animales, minérales ou
végétales).
« La classification consiste à examiner des caractéristiques d’un élément nouvellement
présenté afin de l’affecter à une classe d’un ensemble prédéfini. » [BERRY97]
Dans le cadre informatique, les éléments sont représentés par un enregistrement et le
résultat de la classification viendra alimenter un champ supplémentaire.
La classification permet de créer des classes d’individus (terme à prendre dans son
acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert /
bleu, ...
Les techniques les plus appropriées à la classification sont :
 Les arbres de décision,
 Le raisonnement basé sur la mémoire,
 Eventuellement l’analyse des liens.
II.3.5. L’estimation
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une
variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les
données en entrée. Le résultat d’une estimation permet de procéder aux classifications
grâce à un barème. Par exemple, on peut estimer le revenu d’un ménage selon divers
critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type
d’habitation, etc.).
Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.
Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on
le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en
marketing, combinée à d’autres, pour proposer des offres aux meilleurs clients
potentiels. Enfin, il est facile de mesurer la position d’un élément dans sa classe si celui
ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes.
La technique la plus appropriée à l’estimation est : le réseau de neurones.
II.3.6. La prédiction
La prédiction ressemble à la classification et à l’estimation mais dans une échelle
temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et
Georges El Helou et Charbel Abou Khalil - 2004
22
Data Mining : techniques d’extraction des connaissances
le présent mais son résultat se situe dans un futur généralement précisé. La seule
méthode pour mesurer la qualité de la prédiction est d’attendre !
Les techniques les plus appropriées à la prédiction sont :
 L’analyse du panier de la ménagère
 Le raisonnement basé sur la mémoire
 Les arbres de décision
 les réseaux de neurones
II.3.7. Le regroupement par similitudes
Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement
ensembles. La technique la plus appropriée au regroupement par similitudes est
l’analyse du panier de la ménagère
II.3.8. L’analyse des clusters
L’analyse des clusters consiste à segmenter une population hétérogène en sous
populations homogènes. Contrairement à la classification, les sous populations ne sont
pas préétablies. La technique la plus appropriée à la clusterisation est l’analyse des
clusters
II.3.9. La description
C’est souvent l’une des premières tâches demandées à un outil de Data Mining. On lui
demande de décrire les données d’une base complexe. Cela engendre souvent une
exploitation supplémentaire en vue de fournir des explications. La technique la plus
appropriée à la description est l’analyse du panier de la ménagère
II.3.10. L’optimisation
Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle
d’y associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou
minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne
relève pas du Data Mining. La technique la plus appropriée à l’optimisation est le réseau
de neurones
II.3.11. Le cercle vertueux
On ne met pas en œuvre une technique de Data Mining pour faire une simple
exploration. Il faut l'inscrire dans un contexte plus global, appelé le cercle vertueux.
Celui-ci est composé de quatre étapes :
Georges El Helou et Charbel Abou Khalil - 2004
23
Data Mining : techniques d’extraction des connaissances
 Identifier le domaine d'étude
 Préparer les données
 Agir sur la base de données
 Evaluer les actions
La première étape consiste à identifier le domaine d'étude. Il faut répondre aux
questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on définit un
objectif général.
Lorsque le domaine est délimité, il faut recenser les données relatives au domaine, puis
les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce
qui inclus le client / serveur, même si ce n'est pas recommandé. La troisième étape
consiste à mettre en œuvre une ou plusieurs techniques de Data Mining pour une
première analyse.
Après évaluation et étude des résultats, des actions sont mises en œuvre. La dernière
étape consistera à évaluer ces actions, et par-là même la performance du Data Mining,
voire le retour sur investissements. L'achèvement du premier cycle débouche souvent
sur l'expression de nouveaux objectifs affinés, ce qui nous ramène à la première étape.
Georges El Helou et Charbel Abou Khalil - 2004
24
Data Mining : techniques d’extraction des connaissances
Conclusion
Notre étude, dans chacune de ses parties, nous a amenés à isoler chaque technique de
l’aide à la décision afin d’en montrer ses caractéristiques, sa mise en œuvre, son apport
au processus de prise de décision. Ainsi, en conclusion, nous rassemblons les apports de
ces techniques.
Le data warehouse permet au décideur de travailler dans un environnement
informationnel, référencé, homogène, historisé. Cette technique l’affranchit des
problèmes liés à l’hétérogénéité des systèmes informatiques, l’hétérogénéité des
différentes définitions de données issues de l’historique de l’organisation.
Le Data Mining permet d’extraire du Data Warehouse deux types de connaissances :
l’une, explicative des résultats obtenus par l’analyse multidimensionnelle ou explicative
d’hypothèses relatives au contenu informationnel du data warehouse, l’autre, nouvelle,
porteuse éventuellement de nouvelles possibilités d’action.
Aujourd’hui, ces techniques font l’actualité des presses spécialisées en informatique,
bien sûr, mais aussi dans les rubriques « Informatiques » des presses spécifiques à
chaque type d’activité. Les applications décisionnelles dans le Marketing nourrissent la
majorité de ces articles de presse.
Georges El Helou et Charbel Abou Khalil - 2004
25
Data Mining : techniques d’extraction des connaissances
Glossaire
Base de données distribuée
Base dont les données sont dispersées sciemment (distribuées) sur plusieurs serveurs
liés par un réseau. Une application cliente peut avoir besoin d'accéder aux données de X
serveurs simultanément. On dit aussi Base Répartie lorsque c'est le SGBD qui pilote les
accès.
Base de données locale
Base de donnée située sur le poste client, contenant des données propres à l’utilisateur,
voire des données partagées répliquées.
Batch
Dans les outils de Data Mining ou d’infocentre, le batch permet d’explorer de grandes
masses de données (requêtes lourdes) à des heures creuses, sans trop solliciter le poste
de l’utilisateur, voire à planifier l’exécution des requêtes (module souvent appelé
scheduler).
Catalogue
Dans certains outils clients du Data Warehouse, c’est la structure permettant à
l’utilisateur de travailler sur une vue logique et orientée métier des données qu’il
souhaite visualiser.
Catégorie
Valeur prise par une variable discrète.
Classification
Deux types de classification existent :
 Soit classer des éléments dans des classes connues (par exemple les bons et les
mauvais clients). On parlera aussi d’apprentissage supervisé.
 Soit de regrouper les éléments ayant des comportements similaires dans des classes,
inconnues au départ. On parlera alors de clustering, de segmentation ou
d’apprentissage non supervisé.
Client
Poste de travail Utilisateur : machine déportée qui supporte le dialogue interactif avec
l'utilisateur ou les applications, mais aussi les outils de présentation, d’infocentre et de
développement.
Georges El Helou et Charbel Abou Khalil - 2004
26
Data Mining : techniques d’extraction des connaissances
Data Mining
Définition un peu floue car récupérée par beaucoup d’éditeurs d’outils d’aide à la
décision. A l’origine, le data mining correspondait à toutes les technologies avancées
susceptibles d’analyser l’information d’un Data Warehouse pour en tirer des tendances,
pour segmenter l’informations, ou pour trouver des corrélations dans les données.
Aujourd’hui, le terme a tendance à caractériser tous les outils d’aide à la décision, le "
mineur " étant soit l’outil lui-même soit l’utilisateur.
Data Mining (outils de)
Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data
mining permettent d’extraire de la connaissance des données en découvrant des
modèles, des règles dans le volume d’information présent dans les entreprises.
Data Surfing
Possibilité donnée à l’utilisateur de naviguer de manière ergonomique et intuitive dans
un modèle multidimensionnel.
Data Warehouse
Entrepôt de données. Base de données spécifique au monde décisionnel et destinée
principalement à analyser les leviers « business » potentiels.
Data Warehousing
Processus de mise en œuvre d’un projet de Data Warehouse.
DBA (Data Base Administrator)
Personne garante de la cohérence des données, des performances du système, de sa
sécurité... Pour les outils disposant d’un catalogue, c’est le DBA qui le mettra en œuvre.
Modèle relationnel
Technique de modélisation consistant à modéliser une base de données en la
décomposant en entité et en relations corrélant ces entités .
MOLAP (Multidimensional On Line Analytical Processing)
Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel
en s’appuyant sur les bases de données multidimensionnelles.
OLAP (On Line Analytical Processing)
Caractérise l’architecture nécessaire à la mise en place d’un système d’information
décisionnel. S’oppose à OLTP (On Line Transaction Processing), adressant les
systèmes d’information transactionnels. OLAP est souvent utilisé pour faire référence
exclusivement aux bases de données multidimensionnelles. En effet, le concept a été
formalisé par le Dr Codd, sous la forme de douze règles, décrivant un modèle idéal
d’analyse d’information. Il a été montré depuis qu’il a été possible de respecter ces
règles indépendamment de la structure de stockage utilisée. De plus en plus, le terme est
Georges El Helou et Charbel Abou Khalil - 2004
27
Data Mining : techniques d’extraction des connaissances
souvent utilisé pour désigner plus généralement le décisionnel dans ses aspects
techniques.
Requête
C'est une demande envoyée au gestionnaire de Base de Données serveur. Si celui-ci
permet la gestion des données, le langage utilisé est le SQL. Dans un contexte
d’infocentre, l'exécution des questions sur un serveur est le plus souvent interprétée.
ROLAP (Relational On Line Analytical Processing)
Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel
en s’appuyant sur les technologies relationnelles.
SGBDR (Système de Gestion de Base de Données Relationnelle)
On dialogue avec le SGBDR grâce à des requêtes écrites en SQL, langage assez bien
standardisé. Les SGBDR (certains disent Serveur de bases de données) les plus avancés
disposent de mécanismes de gestion des contraintes d'intégrité appelés les Triggers, et
aussi de capacité de traitements liés aux données: les Procédures Stockées.
Georges El Helou et Charbel Abou Khalil - 2004
28
Data Mining : techniques d’extraction des connaissances
Bibliographie
Jean-Michel Franco, Le Data Warehouse, le Data Mining, Eyrolles, 1996
Michael J.A. Berry et Gordon S. Linoff, Data Mining:Techniques appliquées au
marketing, à la vente et aux services clients, Masson, 1997
René Lefébure et Gilles Venturi, Le data mining, Eyrolles, 1998
Pierre Lévine et Jean-Charles Pomerol, Systèmes interactifs d’aide à la décision et
systèmes experts, Hermès, 1990
Jean-Charles Pomerol, Les systèmes experts, Hermès, 1988
Olivier Cérutti et Bruno Gattino, Indicateurs et tableaux de bord, Afnor, 1993
Hervé Sérieyx, Le big bang des organisations, Editions Calmann-Lévy, 1993
Anis Bouayad, Pierre-Yves Legris, Les alliances stratégiques, Dunod, 1996
Martin Forest, Groupe Canadien Innovation, Gérer le Savoir, le nouveau défi des
organisations, Journée d’études du 8 Avril 1997, Maison des Professions de Lille.
Articles
IEEE Parall & Distributed Technology, Parallelism speeds data mining, 1995
Inist CNRS, Power Tools for Data Drilling, 1996
Cover story, Data Marts : Low cost, High Appeal, 1996
Objectif, BussinessMiner : le Data Mining pour tous, 1997
Le monde informatique Novembre 1996
Le monde informatique Février 1997
01 Informatique n°1442 Février 1997 et n°1499 du 22 Mai 1998
Décision Micro&Réseaux n°248 Mars 1996
Sciences & vie micro - Juin 1998
Georges El Helou et Charbel Abou Khalil - 2004
29
Téléchargement