Introduction à la Fouille de Données (Data Mining) (8)

Introduction à la fouille de données - Bernard ESPINASSE - 1

Introduction à la Fouille de Données

(Data Mining)

(8)

Bernard ESPINASSE

Professeur à Aix-Marseille Université (AMU)

Ecole Polytechnique Universitaire de Marseille

Septembre 2008

• Introduction à la fouille de données

• Types de données exploitées et de connaissances extraites

• Exemples dʼapplications de la fouille de données

• Quelques logiciels de fouille de données

Introduction à la fouille de données - Bernard ESPINASSE - 2

P

Pl

l

la

a

an

n

1. Introduction à la fouille de données

! Extraction de connaissances à partir de données et fouille de données

! La fouille de données à la rencontre de plusieurs disciplines

! Un exemple de découverte dʼinformation et de connaissance

2. Types de données exploitées et de connaissances extraites

! Exemple de données disponibles exploitées

! Connaissances extraites

3. Exemples dʼapplications de la fouille de données

! Principaux domaines d'application de la fouille de données

! Ciblage dʼun mailing

! Oiseux rares et moutons noirs

! Ticket de caisse

! Repérer les intrus

4. Quelques logiciels de fouille de données

Introduction à la fouille de données - Bernard ESPINASSE - 3

R

Ré

é

éf

f

fé

é

ér

r

re

e

en

n

nc

c

ce

e

es

s

b

bi

i

ib

b

bl

l

li

i

io

o

og

g

gr

r

ra

a

ap

p

ph

h

hi

i

iq

q

qu

u

ue

e

es

s

Ouvrages :

! Franco J-M., « Le Data Warehouse et le Data Mining ». Ed. Eyrolles, Paris, 1997.

ISBN 2-212-08956-2.

! Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, Paris, 1999, ISBN

2-212-09069-2.

! Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann

Publishers, 2004.

! Lefébure R., Venturi G., « Le data Mining », Ed. Eyrolles, Paris, 1998. ISBN 2-212-

08981-3.

! Tufféry S., « Data Mining et statistique décisionnelle », Ed. Technip, Paris, 2005, ISBN

2-7108-0867-6.

! …

Cours :

! Cours de A. Rakotomamonjy, INSA Rouen, Lab. PSI, Rouen.

! Cours de G. Gardarin, Univ. de Versailles

! Cours de J. Han et M. Kamber M., Simon Fraser Univ., Vancouver BC, Canada.

! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble

! Cours de R. Gilleron et M. Tommasi, Univ. Charles De Gaulle-Lille 3, Lab. LIFL, équipe

Grappa.

! Cours de R. Rakotomalala, Univ. Lumière Lyon 2, Lab. ERIC Lyon

! …

Introduction à la fouille de données - Bernard ESPINASSE - 4

R

Re

e

es

s

ss

s

so

o

ou

u

ur

r

rc

c

ce

e

es

s

su

u

ur

r

l

le

e

W

We

e

eb

b

r

re

e

el

l

la

a

at

t

ti

i

iv

v

ve

e

es

s

à

l

la

a

f

fo

o

ou

u

ui

i

il

l

ll

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

! Page de Ricco Rakotomalala :

! http://chirouble.univ-lyon2.fr/~ricco/cours/index.html

! cette page regroupe des liens très intéressant sur le Data Mining

(cours, transparents, logiciels ...)

! Page de Stéphane Tufféry :

! http://data.mining.free.fr/

! cette page regroupe aussi pleins de liens très intéressant sur le

Data Mining (cours, transparents, logiciels ...)

! …

Introduction à la fouille de données - Bernard ESPINASSE - 5

1

–

I

In

n

nt

t

tr

r

ro

o

od

d

du

u

uc

c

ct

t

ti

i

io

o

on

n

à

l

la

a

f

fo

o

ou

u

ui

i

il

l

ll

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

! Extraction de connaissances à partir de données et fouille de

données

! La fouille de données à la rencontre de plusieurs disciplines

! Un exemple de découverte dʼinformation et de connaissance

Introduction à la fouille de données - Bernard ESPINASSE - 6

D

Dé

é

éf

f

fi

i

in

n

ni

i

it

t

ti

i

io

o

on

n

ns

s

! Extraction de connaissance à partir de données (Knowledge

Discovery in Databases – KDD) :

! cycle de découverte dʼinformation regroupant la conception de grandes

bases de données ou entrepôts de données (Data Warehouse)

! tous les traitements à effectuer pour extraire de lʼinformation des données

! lʼun de ces traitement est la Fouille de données (Data Mining)

! Fouille de données (Data Mining) :

! Ensemble de techniques d'exploration de données permettant d'extraire

d'une base de données des connaissances sous la forme de modèles

de description afin de :

! décrire le comportement actuel des données et/ou

! prédire le comportement futur des données

Introduction à la fouille de données - Bernard ESPINASSE - 7

P

Pr

r

ro

o

oc

c

ce

e

es

s

ss

s

su

u

us

s

d

dʼ

ʼ

ʼe

e

ex

x

xt

t

tr

r

ra

a

ac

c

ct

t

ti

i

io

o

on

n

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

es

s

à

p

pa

a

ar

r

rt

t

ti

i

ir

r

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

Processus ECD (Extraction de connaissances à partir de données) ou KDD

(Knowledge Discovery in Databases) :

Introduction à la fouille de données - Bernard ESPINASSE - 8

L

La

a

f

fo

o

ou

u

ui

i

il

l

ll

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

à

l

la

a

r

re

e

en

n

nc

c

co

o

on

n

nt

t

tr

r

re

e

d

de

e

p

pl

l

lu

u

us

s

si

i

ie

e

eu

u

ur

r

rs

s

d

di

i

is

s

sc

c

ci

i

ip

p

pl

l

li

i

in

n

ne

e

es

s

Introduction à la fouille de données - Bernard ESPINASSE - 9

F

Fo

o

ou

u

ui

i

il

l

ll

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

=

g

gr

r

ra

a

an

n

nd

d

de

e

q

qu

u

ua

a

an

n

nt

t

ti

i

it

t

té

é

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

+

a

al

l

lg

g

go

o

or

r

ri

i

it

t

th

h

hm

m

me

e

es

s

e

ef

f

ff

f

fi

i

ic

c

ca

a

ac

c

ce

e

es

s

La fouille de données = processus qui sʼappuie sur :

! La disponibilité de grandes quantités de données :

! Si lʼensemble est trop petit, les structures peuvent ne résulter que du

hasard

! On peut espérer quʼun gros volume de données représente bien lʼunivers

(échantillon. . .)

! Des algorithmes sûrs et efficaces :

! Algorithmes sûrs : fondés théoriquement (recherche)

! Efficaces en temps

! Efficaces en espace

! Résultats interprétables

! Paramètres ajustables (en temps réel ou à peu près).

Introduction à la fouille de données - Bernard ESPINASSE - 10

U

Un

n

e

ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

dé

é

éc

c

co

o

ou

u

uv

v

ve

e

er

r

rt

t

te

e

d

dʼ

ʼ

ʼi

i

in

n

nf

f

fo

o

or

r

rm

m

ma

a

at

t

ti

i

io

o

on

n

e

et

t

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

Exemple issu du livre de P. Adriaans et D. Zantige [Adriaans & Zantige 96]

- Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD

- Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés ou

vendre plus de magazines à ses clients habituels

Quelques questions qu'il peut se poser :

Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette

année ?

Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que

l'année dernière ?

Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ?

Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines

de voiture ?

Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les

diminuer ?

Questions de natures différentes mettant en jeu des processus différents

Introduction à la fouille de données - Bernard ESPINASSE - 11

U

Un

n

e

ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

dé

é

éc

c

co

o

ou

u

uv

v

ve

e

er

r

rt

t

te

e

d

dʼ

ʼ

ʼi

i

in

n

nf

f

fo

o

or

r

rm

m

ma

a

at

t

ti

i

io

o

on

n

e

et

t

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

Q1 : Combien de personnes ont pris un abonnement à un magazine de sport

cette année ?

! réalisable en SQL à partir des données opérationnelles sous réserve

d'indexations suffisantes des tables concernées

! seule difficulté : ne pas pénaliser le serveur transactionnel par des requêtes

trop longues

Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que

l'année ?

! nécessite de conserver toutes les dates de souscription même pour les

abonnements résiliés

! l'utilisateur devrait poser de nombreuses requêtes de ce type

! elles devraient être résolues par des requêtes multidimensionnelles de type

OLAP.

Q1 et Q2 :

! Réponse par simples requêtes SQL : les données recherchées sont que le

résultat d'un calcul simple sur un ou des groupes d'enregistrements

! ce qui distingue Q1 et Q2, c'est la notion de temps et la comparaison

Introduction à la fouille de données - Bernard ESPINASSE - 12

U

Un

n

e

ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

dé

é

éc

c

co

o

ou

u

uv

v

ve

e

er

r

rt

t

te

e

d

dʼ

ʼ

ʼi

i

in

n

nf

f

fo

o

or

r

rm

m

ma

a

at

t

ti

i

io

o

on

n

e

et

t

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de

sport ?

! exemple simplifié de problème où l'on demande si les données vérifient une

règle

! réponse formulée par une valeur estimant la probabilité que la règle soit vraie

! en général des outils statistiques sont utilisés

! cette question peut être généralisée, on pourrait ainsi :

! chercher des associations fréquentes entre acheteurs de magazine

pour effectuer des actions promotionnelles

! introduire une composante temporelle pour chercher si le fait d'être

lecteur d'un magazine implique d'être, plus tard, lecteur d'un autre

magazine

Introduction à la fouille de données - Bernard ESPINASSE - 13

U

Un

n

e

ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

dé

é

éc

c

co

o

ou

u

uv

v

ve

e

er

r

rt

t

te

e

d

dʼ

ʼ

ʼi

i

in

n

nf

f

fo

o

or

r

rm

m

ma

a

at

t

ti

i

io

o

on

n

e

et

t

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

Q4 : Quelles sont les caractéristiques principales de mes lecteurs de

magazines de voiture ?

! question beaucoup plus ouverte : il sʼagit de trouver une règle et non plus de

la vérifier ou de l'utiliser

c'est pour ce type de question que sont mis en oeuvre des

outils de fouille de données

Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les

diminuer ?

! question ouverte : Il faut disposer d'indicateurs comme : durées

d'abonnement, délais de paiement, ...

! question (classique dans le bancaire) avec une forte composante

temporelle et nécessite des données historiques

Introduction à la fouille de données - Bernard ESPINASSE - 14

2

–

T

Ty

y

yp

p

pe

e

es

s

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

e

ex

x

xp

p

pl

l

lo

o

oi

i

it

t

té

é

ée

e

es

s

e

et

t

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

es

s

e

ex

x

xt

t

tr

r

ra

a

ai

i

it

t

te

e

es

s

! Exemple de données disponibles exploitées

! Connaissances extraites

Introduction à la fouille de données - Bernard ESPINASSE - 15

E

Ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

d

di

i

is

s

sp

p

po

o

on

n

ni

i

ib

b

bl

l

le

e

es

s

(

(1

1

1)

)

! Transactions :

! Tickets de caisse : liste dʼarticles.

! Factures : produit, client.

! Communications téléphoniques : interlocuteurs, durée, lieux.

! Connexions informatiques : fichier « log »

! Bases de données des entreprises :

! Factures.

! Commandes.

! Suivi.

! . . .

! Téléphone portable :

! Obligation légale de conservation des données.

! Durée des communications.

! Numéros appelés (type, localisation).

! Abonnement, changements.

! Mobilité.

! Utilisation des services annexes.

Introduction à la fouille de données - Bernard ESPINASSE - 16

E

Ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

d

di

i

is

s

sp

p

po

o

on

n

ni

i

ib

b

bl

l

le

e

es

s

(

(2

2

2)

)

! Satellites : Espace

! Photos (différentes longueur dʼonde) de corps célestes

! Les photos sont créées plus vite quʼelles ne peuvent être exploitées

! Chaque photo contient un très grand nombre dʼinformations potentielles

! Accumuler, classer et mémoriser

! Histoire dʼun objet céleste (orbite brillance )

! Satellites : La Terre

! Militaires

! Météo

! Géographiques (Cartographie)

! Reconnaissance automatique :

! De forme (cartographie)

! De mouvement (militaire, météo : nuages)

! Type de terrain (cartographie)

! Type de culture, état de la végétation (subvention …).

Introduction à la fouille de données - Bernard ESPINASSE - 17

E

Ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

d

di

i

is

s

sp

p

po

o

on

n

ni

i

ib

b

bl

l

le

e

es

s

t

te

e

em

m

mp

p

po

o

or

r

re

e

el

l

ll

l

le

e

es

s

(

(1

1

1)

)

! Données temporelles :

! On suppose quʼil existe une relation de cause à effet entre la donnée au

temps t et les données aux temps ti < t :

! Suivre une donnée dans le temps.

! Une donnée par rapport à toutes les autres.

! Chaque donnée par rapport à toutes les autres.

! Trouver les relations entre les données.

! Exemples :

! Cours de la bourse (valeurs des actions, contexte . . .)

! Météo : vent, température, précipitations … (en différents

points dʼobservation).

! Génomique : Démarche inverse : on produit les données explicitement pour

appliquer des méthodes de Data Mining :

! Séquençage automatique (rapide).

! Il y a des informations, des structures à trouver.

! Recherche de structures communes.

! Localisation des gènes.

Introduction à la fouille de données - Bernard ESPINASSE - 18

E

Ex

x

xe

e

em

m

mp

p

pl

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

d

di

i

is

s

sp

p

po

o

on

n

ni

i

ib

b

bl

l

le

e

t

te

e

em

m

mp

p

po

o

or

r

re

e

el

l

ll

l

le

e

es

s

(

(2

2

2)

)

! Données du Web :

Récupération facile de pages ou de sites (paquetage java.net) :

! Contenu des pages.

! Liens entre les pages.

! Historique des connexions (fichiers log).

! Données textuelles :

! Pages Web.

! fichiers word, pdf …

! Dépêches dʼagence.

! Digitalisation de bibliothèques.

Introduction à la fouille de données - Bernard ESPINASSE - 19

T

Ty

y

yp

p

pe

e

es

s

d

de

e

c

co

o

on

n

nn

n

na

a

ai

i

is

s

ss

s

sa

a

an

n

nc

c

ce

e

es

s

e

ex

x

xt

t

tr

r

ra

a

ai

i

it

t

te

e

es

s

Connaissances extraites = connaissances sous la forme de modèles de

description permettant de :

! décrire le comportement actuel des données et/ou

! prédire le comportement futur des données

! des analyses :

! exemple: la distribution du trafic routier en fonction de l'heure

! des règles :

! exemple : si un client n'a pas payé une facture > 1 000 € alors il est dans

70% des cas en faillite

! lʼattribution de scores de qualité :

! par exemple, score de fidélité aux clients

! la classification dʼentités :

! par exemple, les mauvais payeurs

Introduction à la fouille de données - Bernard ESPINASSE - 20

3

–

E

Ex

x

xe

e

em

m

mp

p

pl

l

le

e

es

s

d

dʼ

ʼ

ʼa

a

ap

p

pp

p

pl

l

li

i

ic

c

ca

a

at

t

ti

i

io

o

on

n

ns

s

d

de

e

l

la

a

f

fo

o

ou

u

ui

i

il

l

ll

l

le

e

d

de

e

d

do

o

on

n

nn

n

né

é

ée

e

es

s

! Principaux domaines d'application de la fouille de données

! Ciblage dʼun mailing

! Oiseux rares et moutons noirs

! Ticket de caisse

! Repérer les intrus

6

7

8

Introduction à la Fouille de Données (Data Mining) (8)

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Introduction à la Fouille de Données (Data Mining) (8)

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib