view

publicité
Extraction de Connaissances à partir de
Données (KDD*)
Mots clés :
Fouille de données, entrepôt de données, analyse de données,
classification, apprentissage
Nédra Mellouli-Nauwynck
[email protected]
* Knowledge Discovery in Data Bases (KDD) and data Mining (DM)
Introduction
KDD - La démarche
Décision
•Promouvoir le produit P dans la région R durant la période N
•Réaliser un mailing sur le produit P aux familles du profil F
Connaissance
•Une quantité Q du produit P est vendue en région R
•Les familles de profil F utilisent M% de P durant la période N
Information
•X habite la région R
•Y a A ans
•Z dépense son argent dans la ville V de la région R
Données
•Consommateurs
•Magasins
•Ventes
•Démographie
•Géographie
Introduction
Le processus de KDD
Données
Pré-traitementpré-traitées
et nettoyage
Databases
Datawarehouse
DataMart
Web
Données
cibles
visualisation
Motifs /
Modèles
Données
transformées
Introduction
Quelques définitions
Extraction d’informations originales, auparavant inconnues,
potentiellement utiles à partir de données. « Frawley & PiateskiShapiro »
La découverte de nouvelles corrélations, tendances et modèles par
le tamisage d’un large volumes de données. « John Page »
Un processus d’aide à la décision où les utilisateurs cherchent des
modèles d’interprétation dans les données. « Parsaye »
Torturer l’information jusqu’à ce qu’elle avoue. « Dimitris et al. »
Découverte de connaissances dans les bases de données (KDD)

Connaissances : un ensemble de relations entre les
données
Introduction
À retenir…Data Mining ou KDD
Besoin de retrouver toutes les informations associées à
un sujet donné, par exemple un consommateur, un
vendeur, un produit ou une activité.
Extraire des connaissances des « grandes BD »
historisées, en dégageant des tendances de fond et les
règles de l’entreprise et du marché.
1 source
de données
n sources
de données
extraction
extraction
1 utilisateur
n utilisateurs
Introduction
Data Warehouse
Entrepôt de données est une collection de données structurées
englobant les informations en provenance des différents
systèmes opérationnels
 Propriétés des données
 Intégrées
 Non volatiles (permanentes)
 Historisées
 Orientées sujet
 Organisées

Pour le système décisionnel
Introduction
Exploitation d’un Data Warehouse
Les outils d’exploitation d’un data Warehouse peuvent être classés
en deux catégories:


Outils d’aide à la décision permettant d ’interroger et
d’analyser l’évolution des données
Outils de DM permettant de comprendre les relations entre
les données (problème très ouvert) afin de déterminer des
modèles implicites, et de remonter de l’information non
prévisible à l’utilisateur.
Structure du cours
Première partie :
 Description de la démarche détaillée du processus du DM
avec une décomposition en huit étapes successives.
 Description d’un processus d’analyse des données
Deuxième partie :
 Enumération de quelques techniques de DM avec un rappel
de quelques notions de bases en statistiques
 Etude de certains logiciels
 Etude d’un cas
 Perspectives de développement et de recherche
Intégration de données hétérogènes pour le pré-traitement
Structure du cours
Première partie :
 Description détaillée de la démarche du processus
du DM avec une décomposition en huit étapes
successives.
 Description d’un processus d’analyse des données
Deuxième partie :
 Enumération de quelques techniques de DM avec
un rappel de quelques notions de bases en
statistiques
 Etude de certains logiciels
 Etude d’un cas
 Perspectives de développement et de recherche
Identification de profils de clients et
organisation d’une campagne de Marketing
direct
Un voyagiste organise des circuits touristiques et
offrent cinq types de prestations qui sont notés par
A, B, C, D, E. Le directeur marketing souhaite mettre
en place une option de fidélisation. En effet, la
politique de fidélisation se comprend comme le
souhait de vendre aux clients existants de nouvelles
prestations. C’est donc de transformer des
monodétenteurs de produits en multidétenteurs.
II. Processus du Data Mining :
différentes phases
•
•
•
•
•
•
•
•
Phase
Phase
Phase
Phase
Phase
Phase
Phase
Phase
1
2
3
4
5
6
7
8
de compréhension du problème
de recherche des données
de sélection des données pertinentes
de nettoyage des données
des actions sur les variables
de recherche de modèles
d’évaluation des résultats
d’intégration de la connaissance
Phase 1 de compréhension du
problème
Recueillir les « intuitions » et la
connaissance des experts pour
identifier les variables les plus
pertinentes susceptibles d’expliquer
les phénomènes analysés
Formuler le problème
 Définir les objectifs
 Les résultats attendus
 Les moyens d’évaluation des résultats en fin du
processus de DM
Phase 1: comment faire? …
Formuler le problème

Décomposer le problème complexe en sous-problèmes de complexité
moindre et collecter les données nécessaires au traitement de chacun des
sous-problèmes
Typologie du problème
 Problème d’affectation
 Classification des objets en sous-ensembles homogènes. Cela
suppose la connaissance des classes. Il s’agit d’identifier les
facteurs d’affectation
 Problème de structuration
 Mise en évidence des classes ou des facteurs de différentiation.
Il s’agit d’identifier les facteurs de structuration.
Résultats attendus
 Une démarche d’analyse critique des moyens d’exploitation de
résultats
Typologie des clients
la politique de fidélisation se comprend
comme le souhait de vendre aux clients
existants de nouvelles prestations. C’est donc
de transformer des monodétenteurs de
produits en multidétenteurs.
 Proposition de plusieurs produits différents

clients monodétenteurs
hétérogènes

comprendre la répartition actuelle
avant toute vente de nouveaux
produits
 Problématique de structuration des
clients
 Qui sont mes clients?
 Nombre de clients, les
types de produits
achetés,etc.
 Problématique d’affectation
 Quels sont les clients à cibler?
 taux des multidétenteurs,
volume de chiffres
d’affaires,etc.
 Objectifs
 Mieux identifier les clients
afin de réviser les offres et
la politique marketing
 Fournir au corps marketing
une liste ciblée de clients
Phase 2 de recherche des données
fichiers
supports électroniques
Documents papiers
préparer les données d’entrée, en
particulier trouver les sources,
collecter, nettoyer, transformer et
intégrer les données.
Déterminer la structure générale des
données, les règles utilisées pour les
constituer.
• Sélection des données
– Déterminer les attributs les plus représentatifs
– Déterminer les variables influentes
– Contexte du problème étudié et représentation
Phase 2 de recherche des données:
comment faire? …
Total des données collectées
 Mr l’expert vs Système expert
 Lister les éléments qui sont, selon lui importants (pas
d’organisation du processus d’analyse de l’expert)
 Absence de l’expert
 Remplacer par des techniques d’analyse telles les
réseaux de neurones, les régressions


Extraire la sémantique des données, identifier des groupes
fréquents de données, des valeurs seuils, des valeurs
aberrantes afin de réduire la dimension du problème en
isolant les variables pertinentes.
Réduction des données collectées
Réduction des données collectées
Création de méthodes de classification des variables
Observation de corrélations entre certaines données
Réduction arbitraire
--
Exemples
++
Configuration
optimale
Attention
temps de
calcul
Attention
Peu
d’exemples
stabilité
--
variables
++
Collecte des données liées aux clients, aux
produits et aux achats
Réunion de travail
avec les responsables
des produits
Responsable
marketing
Caractériser le
comportement du
client
Informations sur le client

Sexe,âge,situation matrimoniale,nb
d’enfants à charges, catégorie
socioprofessionnelle,nb d’années
anciennetés,…
Informations sur les types de produits
achetés

Produit A avec la date du 1er. Achat

Produit B //
//

…
Informations comptables

Montant des achats par produit

Date du dernier achat, type de
payement

Statut financier du client
(bon,moyen,mauvais)
Informations collectées par questionnaires et
enquêtes

Centre d’intérêts
Informations géographiques

Code de la commune, taille de la
commune,type d’habitat,etc.
Phase 3 de sélection des données
pertinentes
Pour ou contre l’échantillonnage, les avis sont assez
partagés. Il est vain d’essayer de traiter entièrement
les grosses bases de données.
Il semble judicieux de mettre en œuvre des schémas
de tirage qui permettent d’assurer de la prise en
compte de la plupart des structures qui régissent les
observations
Échantillonnage
 Représentation de la population, dans quel cas
c’est avec un tirage aléatoire
 stratification de la population, et mieux
représenter une sous population (20% des clients
contribuent à 80% du chiffre d’affaires)
Phase 3 : exemple(suite)
Si le client n’a effectué aucun achat sur les 3
dernières années, alors pas d’extraction
Si le client a acheté pour plus de 30 000F, on tire
aléatoirement 1 exemple parmi 4 (40%)
Sinon, on tire aléatoirement un exemple sur 10
(10%)
 Obtention d’un échantillon représentatif pour
l’enjeux Marketing
Phase 4 de nettoyage des données
Selon les moyens d’acquisition des données
 Manuels : plus la quantité de données à saisir est importante plus
l’erreur sur les données est probable
 Automatisés : mettre des dispositifs de vérification de la cohérence
des données. Le cas des capteurs, comment faire?
 Mixtes : détection des incohérence est plus complexe
Les valeurs aberrantes
Réparer les données
 Valeurs contradictoires
Tenir compte de la non-qualité
 Dates impossibles
des données
Les valeurs manquantes
Réduction considérable du
 Des sauts de lignes ou de colonnes
 Des valeurs inconnues à l’origine
nombre de variables
Les valeurs nulles
 Distinguer entre une vraie valeur nulle et une fausse
 Une valeur nulle : valeur inconnue, oubliée ou réellement zéro.
Phase 5 des actions sur les variables
La transformation monovariable


Modification des unités de mesures
Transformation des dates en durées
La transformation multivariable
 Les ratios
 Les fréquences
 Les tendances
 Les combinaisons linéaires et non linéaires
Normalisation
des valeurs
Phase 5 : exemple (suite)
Croisement de la variable Age et date du premier
achat => l’âge du client au premier achat
Croisement de la date du premier achat avec la date
du dernier => une durée de vie du client dans la
compagnie
Croisement des variables type d’habitat et taille de la
commune permet de caractériser le style d’habitat
 Petite ville & individuelle => rural
 Grande ville & individuel => banlieue chic
 Grande ville & collectif
=> forte concentration
Exemples d’actions sur les variables
Chiffre
log
d’affaires
Achat en Achat en fréquence
période période
1
2
Exemple 1 23
3.145
oui
non
50%
Exemple 2 123
4.812
non
non
0%
Exemple 3 2345
7.760
oui
oui
100%
Phase 6 de recherche de modèles
L’apprentissage
 Apprentissage supervisé vs. non supervisé
L’automatisme et interaction
 Interaction entre algorithme d’apprentissage et l’humain
Les algorithmes de calculs
 Les modèles d’équations et de projections
 Issus des modèles statistiques : régression linéaire,
logistique analyse discriminante
 Réseaux de neurones
 L’analyse logique
 Logique inductive, abductive, déductive
 Généralisation, spécialisation, validation
Le canard vole,
Le pigeon vole,  tous les oiseaux volent
Le moineau vole
Tous les oiseaux volent,
Titi vole  titi est un oiseau
Tous les oiseaux volent,
Titi est un oiseau  titi est un oiseau
Phase 6 : recherche des modèles de
ventes
Age
Détention
Chiffre d’affaires
Déterminer la typologie des clients
Un grand nombre de voyages achetés
Clients jeunes
Gros chiffre d’affaires
3%
Clients midle-âges
chiffre d’affaires
petit
6%
Un faible nombre de voyages achetés
Clients jeunes
chiffre d’affaires
moyen
20%
Clients âgés
chiffre d’affaires
moyen
4%
Clients jeunes
chiffre d’affaires
petit
22%
Clients midle-âges
chiffre d’affaires
important
5%
Clients très âgés
chiffre d’affaires
important
21%
Phase 7 d’évaluation des résultats
Une évaluation qualitative
 Visualisations
 Graphiques et/ou textuelle
Une évaluation quantitative
 Notion d’intervalle de confiance
 Un intervalle déterminant une certaine précision
 Notion de validation par le test
Phase 8 d’intégration de la connaissance
Prise de décision à partir des connaissances extraites
 À partir des connaissances vers la décision
Définition des actions
 De la décision vers l’action
Intégration du processus de mining dans le système
informatique fonctionnel.
Conclusion
il existe de nombreuses (autres) méthodes
il n’y a pas de meilleure méthode
méthode à choisir selon
 les données (continues ? manquantes ? volumineuses ? denses
? ...)
 la tâche
 le temps de calcul dont on dispose
règle du rasoir d’Ockham :
« pluralitas non est ponenda sine neccessitate »
« Les choses essentielles ne doivent pas être multipliées sans nécessité »
autres types de données
IV. Les bases de l’analyse des
données
•
•
•
•
La
La
La
La
notion de similarité
notion de distance
notion d’association
notion de probabilité et d’arbre de décision
Représentation des données et types
des variables
Table de décision
Exemples Attributs
décision
Age
Sexe
antécédents Analyse
de
l’examen
Patient 1
56
f
oui
positif
malade
Patient 2
45
f
non
positif
malade
Patient 3
60
m
oui
négatif
?
Disjonctive, catégorique (ordonnées, non ordonnées), continues
Les bases de l’analyse
La notion de similarité
Voiture
Diligence
calèche
Présence de roues
Oui
Oui
oui
Présence d’un plancher
Oui
Oui
oui
Présence de portes
Oui
Oui
non
Présence de moteur
Oui
Non
non
Présence d’un toit
Oui
Oui
non
calèche
voiture
diligence
oui
non
4
1
non 0
0
oui
2
0
non 2
1
oui
Coïncidences positives =1
Coïncidences négative =0
Indice de similarité [0,1]
(Russel, Jaccard, Sokal)
Cp/C ; Cp/C-Cn ; Cp+Cn/C
Les bases de l’analyse
La notion de similarité : suite
S(A,B)=1 si A et B représentent les mêmes caractéristiques et 0 sinon
Zone idéale
Zone A
Zone B
Zone C
Prix de
location
(1)
500 DT
400 DT
1000 DT
1200 DT
Distance
% travail
(2)
40 mn
60 mn
120 mn
50 mn
Garderie
(3)
oui
non
oui
non
Qualité
(4)
calme
chaude
animée
calme
NB de critères (4)
Etude de l’étendue
-variable Prix de location
Prix =Max-Min
Similarité S(I,A) =S(I,A)(i)/NB
S(I,A)(i)=1-[|PrixA-PrixI|/ Prix]
A calculer….
Les bases de l’analyse
La notion de distance
Distance (A,B)= 1-similarité(A,B)
 Distance(Idéale,A)
 Distance(Idéale,B)
 …
Plus la similarité est importante plus les objets sont
proches
Plus les points sont proches plus les individus sont
similaires
Les bases de l’analyse
Choix de la distance
d(A,A) = 0
Rappel : distance d 
d(A,B) = d(B,A)
d(A,C)  d(A,B) + d(B,C)
Distance sur chaque variable
d(x,y) = |x-y|
d(x,y) = |x-y| / distance_max
Distance agrégée.
d(x,y) =
distance euclidienne :
 [d (x ,y )
1
1
1
2
+...+ dn(xn,yn)2]
Les bases de l’analyse
Les techniques de classification
Distance et classification hiérarchique
Design
Facile
Produit A
1
1
Produit B
1
2
Produit C
3
Facile
3
B
2
4
4
D
A
1
Produit D
Correspondance des points
C
4
2
1
A
B
C
A
-
1
13½ 10½
B
1
-
8½
C
D
2
Design
4
AB
C
AB
-
13½ 10½
3
C
13½ -
5½
13½ 8½ -
5½
D
10½ 5½
-
10½ 3
-
5½
D
3
D
Max(D(A,X), D(B,X))
D(AB,X)= ou
Min(D(A,X), D(B,X))
A calculer …
Les bases de l’analyse
Les techniques de classification :
suite
Variance (notion de prédiction)
 Moyenne
 Ecart Type par rapport à la moyenne
 Ecart au carré
  des écarts au carré
 Division par le nombre d’observations
Coefficient de variation
 Ecart type / Moyenne
Plus la surface est importante plus la distribution
s’éloigne de la moyenne
Exemple
Econo
STAT
E1
3
7
E2
4
8
E3
6
9
E4
11
11
E5
16
13
E6
18
14
E7
19
15
11
11
Découper la population sur la note de Stat qui présente la plus forte variance
Créer un 1 groupe avec note <11
Créer un 2 groupe avec note >= 11
A calculer …
La notion d’association
Corrélation
Régression
Association sur des variables qualitatives 2
V. Les techniques de Data Mining
•
•
•
•
•
•
•
•
•
•
Introduction
Le raisonnement par Analogie : raisonnement à partir des
cas
Les agents intelligents
Les associations
Les arbres de décision
Les algorithmes génétiques
Les réseaux bayesiens
Les réseaux de neurones
Les outils de visualisation
Les systèmes à base de connaissances
Apprentissage supervisé
Méthode de Bayes naïf
Comment classer un nouvel exemple en fonction
d’un ensemble d’exemples pour lesquels on connaît la
classe ?
Soit un exemple d = (d1, ..., dn) et c classes k = 1,
..., c
Classe(d) = argmax
P P(di|k) . P(k)
^
k
i
proportion d’exemples di parmi ceux de la classe k
proportion d’exemples de la classe k
^
Exemple : va-t-on jouer au tennis ?
TEMPS
HUMIDITE
VENT
TENNIS
Ex1
Soleil
Haute
Oui
Oui
Ex2
Soleil
Basse
Non
Non
Ex3
nuageux
Basse
Oui
Oui
Ex4
pluvieux
Haute
Oui
Non
Ex5
pluvieux
Basse
Oui
Non
Ex6
Soleil
Basse
Oui
Oui
Ex7
pluvieux
Basse
Non
Non
Soleil
haute
Non
?
Va-t-on jouer s’il y a du soleil, beaucoup d’humidité
et pas de vent ?
Apprentissage supervisé
k plus proches voisins
Raisonnement à partir de cas
Utilisation des cas similaires pour prendre une
décision
Pas d’étape d’apprentissage (avantages et
inconvénients)
Algorithme
Décider du nombre de voisins à utiliser k (souvent k
= nbre d’attributs + 1)
Pour un enregistrement sur lequel il faut décider :
 trouver les k plus proches voisins
 combiner les classes des k plus proches voisins en
une classe c
Choix de la classe
on dispose des k classes des k plus proches voisins
choix de la classe du nouvel exemple :
 classe majoritaire
 classe pondérée
Le résultat change en fonction de tous ces choix
(distance, combinaison, calcul de la classe)
Exemple : va-t-on jouer au tennis
avec cette méthode ?
on choisit k = 4
distance euclidienne
d(A,A)=0
d(A,B)=1
calcul des voisins
combinaison des classes des voisins
Apprentissage supervisé
Arbres de décision
Représentation graphique d’une procédure de décision
Représentation compréhensive  règles
fièvre
forte
normale
malade
toux
oui
non
malade
non malade
feuille
Classes
nœud
Attributs
arc
Tests sur
les attributs
Problématiques associées
Choix des attributs tests (divisions successives de
la base d’apprentissage)
Critère d’arrêt
But : construire un arbre le plus petit possible
Heuristique. Algorithme glouton.
Plusieurs algorithmes (ID3, C4.5)
Algorithme de construction
Nœud Courant  racine
Répéter
 Si le nœud courant est terminal
 Alors l’étiqueter Nœud Courant  Classe
 Sinon
 Sélectionner un attribut test
 Créer le sous-arbre
 Passer au nœud suivant non exploré
Jusqu’à obtention d’un arbre
Critère d’arrêt
Plusieurs tests possibles pour décider si le nœud
courant est terminal :
 il n’y a plus assez d’exemples
 les exemples ne sont pas trop mélangés (une
classe se dégage). seuil d’impureté.
On étiquette avec la classe majoritaire
Sélection de l’attribut test
Quel est l’attribut dont la connaissance nous aide le
plus sur la classe ?
Plusieurs critères possibles : test de Gini, gain
d’information, entropie, ...
ID3 : entropie de Shannon
Hs(C|A) = -
 P(Xi)  P(Ck|Xi). log((P(Ck|Xi)))
i
k
Exemple : va-t-on jouer au tennis
avec cette méthode ?
Construction de l’arbre
Racine : choix du 1er attribut test
 Calcul de H(C|temps)
 Calcul de H(C|humidité)
 Calcul de H(C|vent)
Division de la base d’exemple
Nœuds terminaux ?
Attributs continus
ID3 ne les prend pas en charge
discrétisation par un expert
algorithme C4.5 :
 test et calcul de l’entropie avec toutes les
coupures possibles entre les valeurs successives
 exemple sur les valeurs 3,4,8 on testera
 < 3,5 vs. > 3,5
 < 6 vs. > 6
Avantages et inconvénients
attention au sur-apprentissage  élagage
performances moins bonnes si beaucoup de classes
algorithme non incrémental
on peut expliquer une décision
permet la sélection des attributs pertinents (feature
selection)
classification rapide d’un nouvel exemple (parcours
d’arbre)
Apprentissage supervisé
Réseaux de neurones
Méthode de type boîte noire
Nombreuses applications (notamment
reconnaissance d’écriture manuscrite)
Méthode coûteuse en temps de calcul
Topologie à connaître
Une méthode issue des modèles
biologiques
• Chaque
neurone disposer en moyenne de 10.000 points de
contacts (synapses) avec les neurones qui l'entourent, et jusqu’à
50.000 !
• Nous disposons de quelques dizaines de milliards de ces neurones
à l'intérieur de notre cerveau
• De synapse en synapse, l'information transite dans la totalité de
notre corps, au travers d'environ 500 000 milliards de synapses
Problèmes linéairement ou non
linéairement séparables
on distingue 2 types de problèmes pour 2 types de
solution
OU
x1 x2 OU XOR
0 0
0
0
0 1
1
1
1 0
1
1
1 1
1
0
XOR
1
1
1
0
0
1
0
1
perceptron
perceptron
multi-couches
Approche informatique : perceptron
ENTREES
PLUSIEURS
CLASSES
POIDS
SORTIE
SOMMATION FONCTION SEUIL
Perceptron multi-couches
COUCHE D’ENTREE
COUCHE DE SORTIE
COUCHE CACHEE
Algorithme d’apprentissage des poids
Initialiser les poids de manière aléatoire
Répéter
 Pour chaque exemple i
 Si la sortie s n’est pas égale à la sortie attendue a
 Alors poids wi  wi + (a - s)xi
Jusqu’à ce que tous les exemples soient bien classés
=1
Exemple : apprentissage duX OU
logique
0
x1
x2
w1
w0

x1  x2
w2
Source : « Apprentissage à partir d'exemples », F. Denis, R. Gilleron
Apprentissage non supervisé
Segmentation (Clustering)
But : diviser la population en groupes
Maximiser la similarité intra-groupe
Maximiser la dissimilarité inter-groupes
Exemple : notes d’étudiants
note s
note s
25,00
00
20,00
00
00
reseaux
00
15,00
10,00
00
5,00
00
0,00
0,00
5,00
0,00
10,00
BD
5,00
15,00
10,00
BD
20,00
15,00
20,00
Algorithme des k-moyennes
1.
2.
3.
Choisir le nombre de groupes à créer k
Choisir k centres initiaux c1, .., ck
Pour chaque exemple, l’affecter au groupe i dont le centre est le
plus proche
4. Si aucun exemple ne change de groupe
5. Alors STOP
6. Sinon
a)
Calculer les nouveaux centres :
Pour i = 1 à k
ci est la moyenne des éléments du groupe
b)
Aller en 2)
Exemple : faire 2 groupes d’étudiants
• Centres initiaux : c1=(11,13) c2=(14,18)
e1
e2
e3
e4
e5
• d(e1,c1)= [(14-11)2 + (14-13)2]1/2= 3.16
• d(e1,c2) = [(14-14)2 + (14-18)2]1/2  4
• d(e2,c1)= 4.12 d(e2,c2)  2.24
14
12
16
10
14
14
17
20
11
16
• d(e3,c1) > d(e3,c2)
e3
• d(e4,c1) < d(e4,c2)
• d(e5,c1) > d(e5,c2)
• Nouveaux centres :
e2
e5
• c’1 = ((14+10)/2,(14+11)/2) = (12,12.5)
• c’2 = ((12+16+14)/3),(17+20+16)/3)=(14,17.6)
e1
• calcul de d(e1,c’1) d(e1,c’2) …
• résultat inchangé  FIN
e4
10
Problèmes
Nécessité de l’existence d’une distance
Choix de k
Influence du choix des centres initiaux sur le résultat
Normalisation des attributs
Petit rappel de l’épisode précédent ...
Quelles règles d’association construit-on sur cet
exemple (support minimum = 3) ?
TEMPS
HUMIDITE
VENT
TENNIS
Ex1
Soleil
Haute
Oui
Oui
Ex2
Soleil
Basse
Non
Non
Ex3
nuageux
Basse
Oui
Oui
Ex4
pluvieux
Haute
Oui
Non
Ex5
pluvieux
Basse
Oui
Non
Ex6
Soleil
Basse
Oui
Oui
Ex7
pluvieux
Basse
Non
Non
Evaluation des méthodes
Apprentissage supervisé : évaluation sur une base
d’exemples test
Méthodes de séparation entre les bases d’apprentissage
et de test.
 on dispose de deux bases séparées
 on coupe la base en deux
 validation croisée. Leave One Out.
Critères d’évaluation
Taux de bon apprentissage
Parmi tous les exemples, quelle proportion est bien classée ?
Précision de la classe k
Parmi les exemples classés dans la classe k, quelle proportion est
effectivement de la classe k ?
Rappel de la classe k
Parmi les exemples de la classe k, quelle proportion se retrouvent
classés dans la classe k ?
Précision contre Rappel
Matrice de confusion :
table de contingence
Matrice de coûts
Prédit
OBSERVE
Retardé
Payé
Impayé
TOTAL
80
15
5
100
Retardé
1
17
2
20
Impayé
5
2
23
30
TOTAL
86
34
30
150
Payé
• Validité du modèle (taux d’apprentissage) : nombre de cas exacts (=somme
de la diagonale) divisé par le nombre total : 120/150 = 0.8
• Rappel de la classe Payé : nombre de cas prédits et observés « payé » divisé par le
nombre total de cas observés « payés » : 80/86 = 0.93
• Précision de la classe Payé : nombre de cas observés et prédits « payé » divisé par
le nombre total de cas prédits « payés » : 80/100 = 0.8
Algorithmes génétiques
Simuler l’évolution en imitant la sélection naturelle
(Darwin)
Codage du problème sous forme binaire
(chromosome)
Croisements
Mutations (la probabilité doit être faible)
Sélection
Fonctionnement général
Sélection
POPULATION
Remplacement
DESCENDANTS
PARENTS
Recombinaison
(Croisement)
Mutation
Exemple : découvrir la bonne
combinaison ...
boîte à n interrupteurs
ON
ON
ON
ON ON
voltmètre
OFF OFF OFF OFF OFF
but : trouver la position optimale
parcours impossible :
5
 5 interrupteurs  2 =32 combinaisons
 32 interrupteurs  232= 4 294 296 combinaisons
possibles ! (584 942 siècles avec 1 test/ms)
Utilisation des AG
Déroulement de l’AG
population initiale de 5 individus (hasard)
<10010><11000><00010><01101><10001>
test des sorties : 5832, 13824, 8, 2197, 4913
on tue 20% de moins adapté : <00010>
on croise (hasard sur les individus et l’endroit)
<10010> avec <11000> ; <01101> avec <10001>
on se retrouve avec parents + enfants :
<10010><11000><01101><10001>
<10000><11010><01001><10101>
Déroulement ... suite
Mutation :
<10101>  <10111>
Sélection : nouvelle population
<11010><11000><10111><10010><10000>
17576 13824 12167 5832 4096
Optimisation : recherche de l’extremum de la
fonction f(x)=x3 pour un nombre compris entre 0 et
31 (codage sur 5 bits)
Comment s’arrêter ?
 nombre d’itérations
 stagnation
Traitement des données manquantes
Attention à la sémantique :
 La donnée peut-elle exister ?
Plusieurs méthodes :
 les oublier
 les remplacer :
 valeurs majoritaire
 valeur moyenne
 ...
Références. Bibliographie
Livres :


Introduction au Data Mining. M.Jambu. Eyrolles. 1998.
Data Mining: Concepts and Techniques. J. Han and M. Kamber,
The Morgan Kaufmann Series in Data Management Systems, 2000.
Sites internet :
 KD Nuggets
Logiciels :
Intelligent Miner (www.ibm.com), Entreprise Miner (SAS
Institute), MineSet (Silicon Graphics Inc.), Clementine
(Integral Solutions Ltd, racheté par SPSS), DBMiner
(www.dbminer.com), weka
Téléchargement