Base de données

publicité
Le « Data mining » pour
la fouille de données
Cours INF 7115 Bases de données
Hiver 2004, groupe 10
Par: Javier Bentancur, Youssef Khlouf et Yvon L’Abbé
1
Motivation
 Pourquoi
nous intéresser à ce sujet ?
Élargir nos connaissances,
 Évolution normale sur le thème des bases
de données,
 Complément du « data-warehousing »
pour une création de base de
connaissances,
 Un sujet de recherches d’actualité.

2
Sommaire

Introduction
 Domaines d’applications
 Catégories principales
 Le « Clustering »
 Algorithmes et logiciels
 Comparaison
 La recherche
 Conclusion
3
Vision

Les découvertes de pépites d’or et de
diamants sont évoqués bien souvent lorsqu’il
est question de « data mining ».

Ces découvertes sont destinées à l’obtention
d’avantages compétitifs, à améliorer le
service à la clientèle et finalement, les profits.
4
Introduction

Le savoir est source de pouvoir
 Les données qui dorment peuvent être
dynamisées par des experts ou des logiciels
« intelligents »
 Fouiller pour en extraire la quintessence
 Il faut une accélérer la synthèse de
l’information à partir des données qui
s’accumulent à grande vitesse
5
Actualité choc

« Le Congrès coupe les fonds à un
organisme qui a créé un programme de
fouille de données, soupçonné d’empiéter sur
la vie privée de citoyens américains,
sans raisons valables. »
Washington Times, Audrey Hudson, 26 sept. 2003
Ce programme fut perçu comme
le plus ambitieux aux USA
pour la surveillance de citoyens
en sol américain.
6
Le plaidoyer du milieu
1- La technologie de fouille de données est une technique
d’analyse qui doit être distinguée de la collecte ou de
l’agrégation des données et leurs utilisations.
2- Support de la recherche dans la découverte de profils
d’actions de médicaments, pour la biologie et les
applications de protection de la vie, autant que pour
d’innombrable applications d’affaires et de sciences.
7
Constatations

Les données aident à apprendre du passé pour
prédire le futur
 Au rythme de croissance des banques de données,
les statistiques n’arrivent plus à tout analyser
 Le data mining a émergé comme un domaine
grandissant de recherches multidisciplinaires
 Cette technique est définie comme l’extraction de
liens implicites, jusque-là inconnus et potentiellement
utiles
 Une importante source de savoir serait donc à la
porté de la main
8
•Affaires
•Insurance Premium Increase Optimization: Case Study
•Insurance Fraud Detection: MARS vs. Neural Networks
•Predicting Customer Behavior Trends Over Space and Time
•CART/ MARS Risk Assessment of Automobile Loans and Leases
•Combined Time Series and Cross Sectional CART Modeling for Common Stock Selection
Scientifiques
•The Importance of CART and MARS in Environmental Fate and Risk Assessment for Pesticides
•Atmospheric Pollution Forecasting"
•Predictive and Spatial Modeling Applications for Wildlife Research and Conservation
Biomédical
•Using CART to Develop a Diagnostic Tool for Erectile Dysfunction
•Using CART to Discern Models in Genetics: Alcoholism, Alzheimers and Aging
•CART for Outcome Predictions in Clinical Settings: Emergency Department Triage,
•Survival Prediction and Prediction of Neurologic Survival"
•Application of MARS to Gene Expression Data: Predictive Models of Gene Regulation
•Mining SELDI ProteinChip Data for Biomarkers and Disease Stratification
Découverte de médicaments
•Drug Discovery using CART and MARS
•Improving the Ability to Predict Drug-Like Compounds from Virtual Screening Using CART
•CART in Drug Discovery: Identifying Rules for Making Better Small Molecules
9
•Drug Discovery Clinical Trials and Random Forests at Novartis
Définition

“The process of exploration and analysis, by
automatic or semi-automatic means, of large
quantities of data in order to discover
meaningful patterns and rules”.
Knowledge Discovery

Une classe d’applications de bases de
données qui cherche des liens cachés dans
un groupe de données qui peuvent être
utilisés pour prédire un comportement futur.
10
“Data Mining”
«
Comment arriver à trouver
un diamant dans un tas de charbon
sans se salir les mains » !
 Le
“Data Mining” ce n’est pas le
“Data Warehousing”, ni
OLAP.
11
Data mining &
Entrepôt de données
BD
opérationnelle
(OLTP)
BD
opérationnelle
(OLTP)
Extraction :
épuration,
filtrage,
synthèse,
transformation,
fusion
Entrepôt de données
« Data Wharehouse »
Outils
Data mining
Autre
source de
données
12
Principales phases

Compréhension du domaine et des buts
 Extraction de groupes de données cibles
 Purification des données
 Sélection de la tâche appropriée
 Sélection de l’algorithme de traitement
 Triturer les données pour en découvrir les
secrets
 Passage au crible des liens découvert pour
mettre en valeur les plus prometteurs
13
Casino Harrah’s

Comment s’assurer de la loyauté des clients ?






Acquérir une information riche et complète par un
système impliquant des cartes de membres
Triturer finement les données pour faciliter l’analyse
Utiliser la fouille de données pour identifier les
clients principaux et prédire leur valeur à long terme
Obtenir d’avantage d’informations sur les
préférences des clients, de sorte à les satisfaire
Déployer des stratégies de marketing intelligentes
Récompenser les employés qui donnent
la priorité au service !
14
Data mining
3,920,000 liens !
15
Catégories principales en
fouilles de données
 Classification
 Association
 Séquençage/profil
temporel
 Regroupement/segmentation
(Clustering)
16
Classification

Chercher les règles pour prédire la classe à
la quelle le cas appartient à partir des
attributs prédictifs.
 Technique supervisée : définition d’au moins
un attribut.
 Catégorie des règles :
 exactes (sans exceptions)
 fortes (avec quelques exceptions)
 probables (conditionnées à la probabilité)
 de classification (avec assez de conditions pour
classifier les objets).
17
Association
Opération sur les éléments d’une collection
d’objets qui donnent pour résultat les affinités
trouvées parmi les éléments de la collection
 Le résultat est présenté comme règle :



« Le 70 % des éléments dans la collection qui
contient l’élément A contient aussi les éléments D
et F »
L’usage le plus commun est la recherche de
liens entre les produits achetés dans un
super marché
18
Séquençage /
profil temporel
 Consiste
à analyser une collection de
donnés pendant quelques périodes de
temps, pour identifier tendances.
 Trouve
des liens entre des clients et les
profils de fréquence des achats.
19
Regroupement / Clustering
 Processus
par lequel seront créés des
groupes de données
+
Les
(
objets dans ces groupes doivent
présenter des similarités entre eux
et se différencier des autres.
=~
)
20
Type de Clustering
pour le Data mining
 supervisé

savoir spécifiquement ce que nous
recherchons.
Input
Processus
Output
21
Type de Clustering
 Non

supervisé
Pas exactement certain de ce que
nous recherchons
Input
Output
22
Différentes techniques

Arbres de décision
 Réseaux neuronaux
 Régression
 Clustering
 Etc.
Clustering
Arbres de décision
Neural Networks
23
Classification
d’algorithmes de “Clustering”




Hiérarchiques
De partitionnement
À base de densité
À base de grille
24
Méthodes de groupement
Hiérarchiques
 Séquences
nichées de partitions
 Agglomération
•
Chaque objet est un groupe
 Division
•
L’ensemble est divisé en groupes
plus petits.
 CURE,
CHAMALEON, (BIRCH)
25
Méthodes de groupement
Partitionnement
 Groupement
d’objets avec
similarités entre eux et
différenciés des autres.
 CLARANS
26
Méthodes de groupement
Densité
Des Clusters sont des régions denses
séparées par régions moins denses
 DBSCAN, DENCLUE, OPTICS

Grille
L’espace est divisé en segments
rectangulaires
 CLIQUE, STING

27
Problèmes à résoudre

Densité d’information


Interprétation des résultats


Différents attributs et domaines complexes
(multimédia)
Assimilation par l’usager
Ordre des données


Vitesse d’obtention des résultats
Nombre de lectures

Qualité des groupes
 Bruit
28
Exemples d’algorithmes
de Clustering
CLARANS
BIRCH
DBSCAN
CLIQUE
OPTICS
29
CLARANS
 Usage
pour la statistique
 Cluster : point central
 Data mining spatial
 K-medoid
Maxneighbour
 Local minimun

 Recherche
: R-Tree,
plus de vitesse mais moins de qualité
Clustering LARge Applications
30
BIRCH
 Très
grande base de données
 Différences entre clusters et bruit
Points plus importantes qu’autres
 Sommaire compacte

 Mémoire
disponible
 Une seule lecture, O(N)
 CF-tree (Cluster Feature)
 Recherche: parallélisme et apprentissage
Balanced Iterative Reducing and Clustering using Hierarchies
31
BIRCH
32
• Image : 512 x 1024 pixels
• BIRCH: 400Kb mémoire, 80 kb disque
33
DBSCAN
34
Comparaison entre
BIRCH & DBSCAN
35
CLIQUE

« Density & grid based »
 Trouve automatiquement les sous-espaces
 Identifie les groupes denses dans les sousespaces de dimensionnement maximal
 Peu importe l’ordre
 Regroupement : hyper rectangles parallèles
 Échelle linéaire avec le nombre de données
entrées
CLustering In QUEst : research projet à IBM Almaden
36
OPTICS
 Analyse
et ordonnancement des groupes
distance au centre
 distance aux autres objets

 Basé
sur DBSCAN
 Analyse automatique et interactive
 Technique de visualisation
Ordering Points to Identify the Clustering Structure
37
Le code derrière Optics
38
La visualisation
39
ANALYSE
 Générateur
des données
 Paramètres des groupes (clusters)
Nombre de points
 Rayon
 Centre

 Externes
Mémoire
 Type d’accès
 Dimensions

40
Quelques progiciels
 Intégral
Solutions-ISL (Clementine)
 Thinking Machines-TMC (Darwin)
 SAS Institute (Enterprise Miner)
 IBM (Intelligent Miner for Data)
 Unica Technologies (Pattern
Recognition Workbench)
« An Evaluation of High-end Data Mining Tools for Fraud Detection»
41
Outils de Data mining
http://www.kdnuggets.com
Business Intelligence
42
Outils de Data mining
Sélection des outils de Data mining par






expérience professionnelle du produit
viabilité des fournisseurs
ampleur des algorithmes d'extraction de données dans
l'outil
compatibilité avec une configuration matérielle
spécifique
facilité d'utilisation
la capacité de manipuler de grands ensembles de
données
43
Techniques de fouille de données
supportées par les fournisseurs:
44
Fouille de données:
Microsoft SQL vs Oracle
•Algorithmes pour Microsoft:
- Arbres de décision
- « Microsoft Clustering »
- algorithme EM
45
Microsoft Data Mining
Model de data Mining sur SQL Server avec DMM
MiningModel 'Model1_MDT_NonNested' Execute :
CREATE MINING MODEL [Model1_MDT_NonNested'S]
([Customer Id] LONG KEY,
[Income] DOUBLE CONTINUOUS ,
[Other Income] DOUBLE CONTINUOUS ,
[Loan] DOUBLE CONTINUOUS ,
[Age] DOUBLE CONTINUOUS ,
[Region Name] TEXT DISCRETE ,
[Home Years] DOUBLE CONTINUOUS ,
[House Value] DOUBLE CONTINUOUS ,
[Education Level] TEXT DISCRETE ,
[Home Type] TEXT DISCRETE ,
[Churn Yes No] TEXT DISCRETE PREDICT)
USING Microsoft_Decision_Trees
46
Oracle Data Mining
 Algorithme
de Clustering d’Oracle :

Enhanced hierarchical k-means clustering
 Orthogonal Partitioning Clustering
(O-Cluster)
 Oracle

Data Mining (ODM)
Permet de faire la classification, l’association,
la régression et le regroupement
47
La recherche / Sigmod

2004



2002





Statistical Grid-based Clustering over Data Streams
State-of-the-art in Privacy Preserving Data Mining
Data Mining: Practical Machine Learning Tools and Techniques
Cluster Validity Methods: Part I, II
Data Mining: Concepts and Techniques
Mining the World Wide Web: An Information Search Approach
2001

Data Mining-based Intrusion Detectors: An Overview of the Columbia IDS
Project
ADAM: A Testbed for Exploring the Use of Data Mining in Intrusion
Detection
Mining System Audit Data: Opportunities and Challenges
Mining Email Content for Author Identification Forensics

Data Analysis and Mining in the Life Sciences



48
La recherche de règles
d’association
« Data mining Group » de l’université
d’Helsinki est à la recherche de règles
d’associations et étudie la taille
d’échantillon de données pour obtenir
des déductions fiables.
 Le
49
La découverte de connaissances
dans les bases de données (KDD)
Innovation !
Interprétation
Savoir
Data Mining
Transformation
Pré-traitement
Données
« Paterns »
transformées
Sélection
Données
Pré-traitées
Données
Ciblage
50
L’outil et le spécialiste
L’outil
Rôle déterminant
Le spécialiste
1990
2010
Fouille de données
51
Contrôle de la qualité





La validité des regroupements comme importante
préoccupation de l’analyse
Évaluation des résultats et de la sélection de
schèmes qui concordent le mieux avec les données
Aucune indication à-priori sur le nombre de groupes
présents dans les données
Évaluations basées sur des tests statistiques ou par
comparaisons
On a besoin de déterminer les mesures de qualité:



Intra-groupe,
Séparation inter-groupe,
Géométrie des groupes.
52
Conclusions





Il existe de nombreuses techniques et méthodes
spécialisées pour différents types de données et de
domaines.
Il faut une meilleure compréhension de la fouille de
données et des modèles permettant de clarifier les
tâches.
On doit Inciter les utilisateurs à mieux comprendre la
contribution de ces outils au processus de découverte
de connaissances.
Il faut savoir que les résultats de la fouille de données
incluent souvent des faux positifs et faux négatifs.
On peut améliorer la situation en faisant plus de
recherches, entre autre pour la sécurisation
des données sur la vie privée.
53
Bibliographie

1.Congress kills data-mining computer program, Audrey Hudson, The Washington Times,
2003

2. Spatial Clustering Methods in Data Mining : A Survey, Jiawei Han, M.Kamber & K.H.Tung,
School of Computing Science, Simon Fraser University, B.C., Canada, 2001

3. An evaluation of High-end Data Mining Tools for Fraud Detection, Dean W. Abbot et al.,
U.S.A., 1998 ?


4. Survey of Clustering Data Mining Techniques, Pavel Berkhin, Accrue Software Inc., année
2002,

5. Spatial Data Mining: Progress and Challenges, Krzysztof Koperski Jiawei Han Junas
Adhikary, Simon Fraser University, Canada, 1997

6. Data Mining: Clustering, Nina Mishra, HP Labs, oct. 2002

7. Birch: An efficient Data Clustering Method for Very Large Databases, Tian Zhang, Raghu
Ramakrishnan, Miron Livny, Univ. of Wisconsin-Madison, année 1998
54
Bibliographie / 2

8. Automatic Suspace Clustering of High Dimensional Data for Data Mining Applications,
Rakesh Agrawal, J.Gehrke, D.Gunopulos, P. Raghavan, IBM, année 1998

9. OPTICS: Ordering Points To Identify the Clustering Structure, Mihael Ankerst, M.Breunig, H.P.Kriegel,
J.Sander, Univ. of Munich, année 1999

10. Statistical Grid-based Clustering over Data Streams, Nam Hun Park, Won Suk Lee, Yonsei University,
2002

11. A Comparison of Leading Data Mining Tools, J.F. Elder IV & Dean W. Abbott, Elder Research, NewYork, 1998

12. Performance Study of Microsoft Data Mining Algorithms, Sanjay Soni, ZhaohuiTang, Jim Yang, Unisys &
Microsoft, March 2002.

13. Oracle Data Mining, Discover Patterns, Make Predictions, Develop Advanced BI Applications data
sheet, Oracle Technology Network, web page, January 2004.

14. Clustering Validity Checking Methods: Part 1-2, Maria Halkidi, Yannis Batistaki, Michalis Vazirgiannis,
Athens Univ. of Economics & Business, Sigmod, Vol.31, no. 3, sept.2002.

15. Diamonds in the Data Mine, Gary Loveman, HBR OnPoint, 2003.
55
Période de questions
56
57
Téléchargement