Data Mining: Concepts et Techniques

publicité
Data Mining:
Concepts et Techniques
1
Plan du Cours

Introduction

Règles d’association

Classification et prédiction

Regroupement (Clustering)

Extraction de types complexes

Applications du Datamining et tendances actuelles
(génomique)
2
Chapitre 1. Introduction

Motivation: Pourquoi le Data mining?

Ce qu’est le Data mining?

Data Mining: Sur quels types de données?

Fonctionnalités du Data mining

Intérêt des motifs (patterns)

Classification des systèmes de Data mining

Problèmes rencontrés
3
Motivation: Le besoin crée l’invention

Problème de l’explosion de données

Les outils automatiques de collecte de données font que les
Bases de Données (BD’s) contiennent énormément de données
(Ex: La base de données des transactions d’un super marché)

Beaucoup de données mais peu de connaissances !

Solution: Data warehousing et data mining

Data warehousing et OLAP (On Line Analytical Processing)

Extraction de connaissances intéressantes (règles, régularités,
patterns, contraintes) à partir de données
4
Evolution des Bases de Données

1960s:


1970s:


Modèle et SGBD’s relationnels, SQL, transactions, OLTP
1980s:


Collecte des données, création des BD’s, IMS et le modèle réseau
Modèles de données et SGBD’s avancés (relationnel étendu, OO,
déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s—2000s:

Data mining et data warehousing, BD’s multimédia, BD’s sur le
WEB
5
Ce qu’est le Data Mining

Data mining :


Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données.
Autres appellations:



ECD (Extraction de Connaissances à partir de Données)
KDD (Knowledge Discovery from Databases)
Analyse de données/patterns, business intelligence, fouille
de données, etc …
6
Pourquoi faire ?
Applications potentielles

Analyse de données et aide à la décision

Analyse de marché


Marketing ciblé, gestion des relations client,
analyse des achats des clients, ventes croisées,
segmentation du marché

Analyse de risque

Détection de fraudes
Autres Applications

Text mining : news groups, emails, documents Web.

Optimisation des requêtes
7
Analyse de marché et management (1)

Les sources de données à analyser ?


Marketing ciblé


Transactions avec carte de crédit, carte de fidélité, sondages
Trouver un « modèle » pour regrouper les clients partageant les
mêmes caractéristiques. Pour chaque groupe, adopter une
démarche marketing particulière
Analyse croisée

Associations/co-relations entre ventes de produits

Prédiction basée sur ces associations
8
Applications

L’analyse d’une BD de transactions d’un supermarché
permet d’étudier le comportement des clients :


réorganiser les rayons

Ajuster les promotions
En VPC, regrouper les clients selon certains critères :


L’analyse de données médicales :


Cibler les « mailings »
Support pour la recherche
L’analyse de données financières :

Prédire l’évolution des actions

Organismes de crédit (dresser des profils de clients)
9
Applications

Détection de fraudes


Approche


en santé, services de cartes de crédit, télécommunications, etc.
Utiliser les données historiques pour construire des modèles
de comportements frauduleux puis utiliser les techniques de
datamining pour retrouver des instances similaires
Exemples


Assurances auto: détecter les personnes qui collectionnent les
accidents et les remboursements
Blanchiment d’argent: détecter les transactions suspectes (US
Treasury's Financial Crimes Enforcement Network)
10
Applications

Astronomie


Le laboratoire JPL a découvert 22 quasars en utilisant
les techniques de datamining
Web


IBM a appliqué des algorithmes de data mining pour
réorganiser leurs sites WEB afin de faciliter la
navigation.
Améliorer le WEB marketing
11
Datamining: Un processus dans l’ECD

Data mining: étape clé
dans l’extraction de
connaissances
Evaluation de patterns
Data Mining
Données intéressantes
Data Warehouse
Sélection
Nettoyage de données
Intégration
Bases de données ou fichiers
12
Etapes du processus d’ECD

Comprendre le domaine d’application

Création d’un ensemble de données (sélection)


Nettoyage et pré-traitement des données (peut prendre 60% de
l’effort)
Choix des fonctionnalités du data mining

classification, consolidation, régression, association, clustering.

Choix de(s) l’algorithme(s) d’extraction

Datamining: Recherche des motifs (patterns) intéressants

Evaluation des Patterns et présentation


visualisation, transformation, suppression des patterns redondants,
etc.
Utilisation de la connaissance extraite
13
Architecture typique d’un système
de Data mining
Interface graphique
Evaluation des motifs
Module Data mining
Base de
connaissances
BD ou Datawarehouse
Nettoyage & intégration
Filtrage
BD’s
Data
Warehouse
14
Datamining: sur quels types
de données




BD’s relationnelles
Data warehouses
BD’s transactionnelles
BD’s avancées






BD’s objet et objet-relationnelles
BD’s spatiales
Séries temporelles
BD’s Textes et multimedia
BD’s Hétérogènes
WWW
15
Fonctionnalités du Data Mining

On distingue deux grandes familles de tâches
réalisées en datamining

Description : consiste à trouver les caractéristiques
générales relatives aux données fouillées

Prédiction : consiste à faire de l’inférence à partir des
données actuelles pour prédire des évolutions futures
16
Quels types de motifs extraire ? (1)

Description de concepts: Caractérisation et
discrimination

Caractérisation : Il s’agit de trouver des descriptions
concises et précises de certains concepts. Ex: On a une
table décrivant les clients d’une entreprise.

Contraster (régions sèches vs humides)
17
Quels types de motifs extraire ? (2)

Association (corrélation et causalité)

age(X, “20..29”) & revenu(X, “200..300KF”) 
achète(X, “PC”) [support = 2%, confiance = 60%]

contient(T, “ordinateur”)  contient(T, “logiciel”) [1%,
75%]
18
Quels types de motifs extraire ? (3)

Classification et Prédiction



Trouver des modèles (fonctions) qui décrivent et distinguent des
concepts pour de futures prédictions
Ex : classifier les pays en se basant sur leurs climats, les voitures
selon leurs carburants
Présentation: Arbres de décision, règles de classification,
réseaux neuronaux

Prédiction: Prédire des valeurs inconnues

Démarche:


On prend un échantillon (jeu d’essai) dans lequel chaque
objet est associé à une classe
Analyser chaque classe (son contenu) pour pouvoir ensuite
affecter chaque objet nouveau à une classe particulière
19
Quels types de motifs extraire ? (4)

Analyse de groupes (clusters)



Appelée aussi classification non supervisée
Le regroupement est basé sur le principe: maximiser la
similarité intra-groupe et la minimiser entre groupes
distincts
Le nom de chaque groupe est inconnu
20
Quels types de motifs extraire ? (5)

Analyse d’exceptions

Les objets non conformes à la tendance générale

Une exception peut être considérée comme du bruit mais aussi
comme indice de fraude

Analyse de tendances

Tendance et déviation: analyse de régression

Extraction de séquences séquentiels, analyse de
périodicités
21
Est-ce que tous les motifs découverts
sont utiles?

Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?

Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur

Mesure Objective vs. Subjective :

Objective: basée sur des mesures statistiques : support,
confiance, etc.

Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
22
Peut-on trouver tous et que
les motifs intéressants?

Trouver tous les patterns intéressants: Complétude


Association vs. classification vs. regroupement
Trouver que les patterns intéressants: Optimisation

Approches

D’abord les trouver tous puis filtrer

Ne générer que les motifs intéressants
23
Data Mining: Confluence de
plusieurs Disciplines
Technologie BD
Apprentissage
Statistique
Data Mining
Théorie de l’information
Visualisation
Autres
Disciplines
24
Classification des systèmes (1)



Fonctionnalité générale

Data mining descriptif

Data mining prédictif
Différentes vues, différentes classifications

Types de BD’s à fouiller

Types de connaissances à découvrir

Types de techniques utilisées
Application ciblée
25
Classification des systèmes (2)

BD fouillée


Connaissance recherchée



Association, classification, clustering, tendance, analyse de
déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées


Relationnelle, transactionnelle, orienté-objet, objectrelationnelle, active, spatiale, séries temporelles, texte, multimedia, hétérogènes, WWW, etc.
BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc.
Applications

télécommunication, banque, analyse de fraude, ADN, finance, Web, …
26
Problématiques



Méthodologie et interaction

Différents types de connaissances à extraire

Prise en compte des connaissances des experts

Langages de requête et data mining ad-hoc

Expression et visualisation des résultats

Prise en compte des données incomplètes ou avec bruit

Évaluation des motifs: notion d’intérêt
Performance et mise en échelle

Efficacité des algorithmes

Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données

Relationnels, objets complexes, texte, …
27
Résumé





Data mining: Découverte de motifs intéressants à partir de grandes
quantités de données
Une évolution naturelle de la technologie des SGBD, très demandée
par diverses applications
Un processus d’ECD inclut les étapes: nettoyage, intégration,
sélection, transformation, data mining, évaluation des patterns,
présentation de la connaissance
La fouille peut se faire sur différents types d’entrepôts de données
Fonctionnalités: discrimination, association, classification, clustering,
analyse de tendances, etc.

Classification de SDM

Problématiques du data mining
28
Quelques systèmes

Intelligent miner d’IBM (couplé avec le SGBD DB2)


Entreprise miner de SAS


Classification, association et divers outils statistiques.
Très puissant en terme de visualisation
Clémentine de SPSS


Multiples outils d’analyse statistique, classification, …
Mine set de Silicon graphics.


Classification, association, régression, analyse de
séquences, regroupement
En plus des fonctionnalités classiques, l’utilisateur peut
y rajouter ses propres algorithmes
DBMiner de DBMiner technologie.

Il se distingue par le fait qu’il incorpore les
fonctionnalités d’OLAP
29
Bibliographie
Titre: Datamining : Concepts and techniques.
Auteurs : Jiawei Han & Micheline Kamber
Editeur : Morgan Kaufmann 2000
30
Téléchargement