Découverte de connaissances dans les données - (CUI)

publicité
Découverte de connaissances dans les données
(Datamining ou KDD)
15 September 2009
Data Mining
1
2009-2010
Renseignements Pratiques
Cours le mardi 10h15-12h, Battelle A, Salle 316-318 (2è )
Labo le mercredi 16-18h, Battelle A, Salle 314-315 (2è )
Contrôle des connaissances
HEC (1 semestre)
60% exercices
40% devoir de semestre
SC/SES (2 semestres)
40% exercices
20% devoir de semestre
40% projet + soutenance
8 crédits (SC), 12 (SES)
6 crédits
Data Mining
2
2009-2010
Plan
1
Le processus de datamining
2
La matière première : les données
Le résultat : les connaissances
Le coeur du processus : l'apprentissage
Généralités sur l'apprentissage supervisé
3
4
5
Data Mining
3
2009-2010
Dénition
Le processus de datamining
le datamining ou fouille de données = découverte de connaissances
dans les données (knowledge discovery in data, KDD)
processus itératif par lequel on extrait des connaissances valides,
nouvelles, potentiellement utiles et compréhensibles en dernière
analyse
[Fayyad et al., 1995]
Data Mining
4
2009-2010
Schéma du processus
Analyse du pb.
Le processus de datamining
Sélection
Prétraitement
Donnees
initiales
BD
Données
de travail
Déploiement
Modèle/
motifs (patterns)
Connaissances
Data Mining
Apprentissage
Evaluation
5
2009-2010
Les étapes du processus I
1
Le processus de datamining
Analyse du problème d'application
choisir un problème précis, des objectifs tangibles et quantiables
dénir la manière dont la solution sera déployée
spécier la solution
2
Sélection des données
évaluer la qualité des données, détecter leurs insusances et pathologies
visualiser, analyser les distributions et les regroupements
Data Mining
6
2009-2010
Les étapes du processus II
3
Le processus de datamining
Prétraitement des données
nettoyage : suppression du bruit, valeurs manquantes ou abérrantes
réduction des données
sélection des instances
sélection, extraction, combinaison des variables
transformation des données
discrétisation des variables continues
numérisation des variables nominales
invention de nouvelles variables
Data Mining
7
2009-2010
Les étapes du processus III
4
Le processus de datamining
L'apprentissage
le coeur du KDD : construction d'un modèle à partir des données
le maître-mot :
généralisation
problème critique : choix de l'algorithme d'apprentissage en fonction du
problème/des données
5
Evaluation et interprétation des résultats
évaluation quantitative indispensable
compréhensibilité souvent capitale (ex. applications médicales)
6
Déploiement de la solution
Data Mining
8
2009-2010
La matière première : les données
Plan
1
Le processus de datamining
2
La matière première : les données
3
Le résultat : les connaissances
Le coeur du processus : l'apprentissage
Généralités sur l'apprentissage supervisé
4
5
Data Mining
9
2009-2010
Structure des données
La matière première : les données
une instance|exemple : un vecteur de d variables|attributs
une table comporte n lignes (exemples), d colonnes (variables)
cas le plus simple :
un ensemble de données (dataset) = une table
apprentissage dit attribut-valeur (propositionnel)
Data Mining
10
2009-2010
La matière première : les données
Notation
variables
1
d
exemples
1
X = {xij }
y = {yj }
xi
n
Data Mining
11
2009-2010
Types de variables
La matière première : les données
Simple ou primitive
discrète|catégorique|qualitative : nombre ni de valeurs non ordonnées
ordinale : nombre ni de valeurs ordonnées
continue|réelle|quantitative : nombre inni de valeurs ordonnées
Structurée ou complexe
ensembles, listes, n-uplets, arbres, graphes ...
Data Mining
12
2009-2010
Rôle des variables
La matière première : les données
indépendante|explicative|prédictive : sa valeur est donnée|observée
dépendante|réponse|cible : sa valeur dépend d'autres variables
Data Mining
13
2009-2010
La matière première : les données
#
1
2
3
4
5
...
PL
PW
Iris
1.4
5.1
4.6
5.6
5.8
0.2
1.8
1.5
1.8
2.2
Iris-setosa
Iris-virginica
Iris-versicolor
Iris-virginica
Iris-virginica
1.5
1.0
Petal.Width
2.0
Setosa
Versicolor
Virginica
0.5
Chaque cas = un point dans
un espace à d dimensions
(d = nb de variables)
Ex. Iris : 150 exemples, 4
variables (2 visualisées)
2.5
Interprétation géométrique des données
1
2
3
4
5
6
7
Petal.Length
Problèmes réels → des centaines de milliers de variables|dimensions
Data Mining
14
2009-2010
Les résultats : les connaissances
Plan
2
Le processus de datamining
La matière première : les données
3
Le résultat : les connaissances
4
Le coeur du processus : l'apprentissage
Généralités sur l'apprentissage supervisé
1
5
Data Mining
15
2009-2010
Les résultats : les connaissances
Forme des connaissances extraites
modèle : un résumé global de l'ensemble de données
s'applique à toute instance appartenant à l'espace des données
ex. modèle simple :
Y = aX + c,
où
X ∈ R, a
et
c
sont les paramètres
du modèle
motif (pattern) : résumé local d'une région de l'espace des données
une règle
R: a→c
n'est valable que pour les données qui satisfont ses
antécédents
ex. R1: si longueur.pétale < 2 alors iris-setosa
Distinction pas toujours très nette: le terme modèle également utilisé
pour désigner un ensemble de motifs
Data Mining
16
2009-2010
Le coeur du processus : l'apprentissage
Plan
3
Le processus de datamining
La matière première : les données
Le résultat : les connaissances
4
Le coeur du processus : l'apprentissage
5
Généralités sur l'apprentissage supervisé
1
2
Data Mining
17
2009-2010
L'apprentissage automatique
Data Mining
Le coeur du processus : l'apprentissage
18
2009-2010
Types d'apprentissage
Le coeur du processus : l'apprentissage
Supervisé versus non-supervisé
Non supervisé : pas de variable dépendante
Supervisé : comporte une variable dépendante ou cible
Propositionnel versus relationnel
Propositionnel : une seule table (variables = attributs d'un objet)
Relationnel : plusieurs tables (variables = attributs ou relations entre
objets)
Data Mining
19
2009-2010
Le coeur du processus : l'apprentissage
Exemples d'apprentissage non supervisé
Segmentation or regroupement (clustering)
détecter les groupes abérrants (fraudes, intrusions)
segmenter la clientèle (campagnes promotionnelles)
découvrir des classes sémantiques dans les mots d'un texte
Association
analyser le panier d'achats
analyser les cours choisis par les étudiants
interpréter les parcours des navigateurs sur Internet
Data Mining
20
2009-2010
Le coeur du processus : l'apprentissage
Exemples d'apprentissage supervisé
Classication : variable cible catégorique
ltrer les mails (spam or non)
détecter les tendances boursières (hausse, baisse)
diagnostiquer une maladie (positif, négatif )
Régression : variable cible numérique
estimer la valeur d'un bien immobilier
prédire la durée d'hospitalisation d'un patient
estimer le retour sur investissement d'une campagne publicitaire
Prédiction structurée: variable cible complexe/structurée
prédiction de séries temporelles
prédiction d'arbres syntaxiques d'une phrase
Data Mining
21
2009-2010
Plan
4
Le processus de datamining
La matière première : les données
Le résultat : les connaissances
Le coeur du processus : l'apprentissage
5
Généralités sur l'apprentissage supervisé
1
2
3
Généralités sur l'apprentissage supervisé
Le cadre formel
Un générateur de données x ∈ X ⊆ Rd , iid ∼ P (x) inconnue
Un superviseur qui génère y ∈ Y ⊆ R, iid ∼ P (y|x) inconnue
Un apprenti capable d'implémenter f (x, Θ) ∈ H
Générateur
Superviseur
P(y| x )
P( x)
x
Data Mining
y
x1
y1
x2
...
xn
y2
...
yn
Apprenti
H
Θ
23
f ( x, Θ ) = y^
2009-2010
Dénition de la tâche
Généralités sur l'apprentissage supervisé
Etant donné un ensemble de n exemples {(x1 , y1 ), . . . , (xn , yn )},
trouver une fonction f paramétrée par Θ telle que f (x, Θ) = ŷ soit
une bonne approximation de y pour une nouvelle donnée x.
On suppose une fonction "vraie" mais inconnue qu'il s'agit
approximer à l'aide de données
Dans les problèmes réels, les données sont souvent bruitées
Data Mining
24
2009-2010
Généralités sur l'apprentissage supervisé
Un problème central : La sélection du modèle
Problème : comment trouver la bonne approximation fˆ de la
fonction cible ?
1
sélection de l'algorithme d'apprentissage = choix d'une famille de
modèles
2
sélection du modèle = choix d'hyperparamètres pour un algorithme
donné
Ex. d'une famille de fonctions : les fonctions polynomiales d'une
variable
f (x, w) =
M
X
wj x j
j=0
w: paramètres du modèle
M : ordre de la fonction polynomiale (hyperparamètre à choisir)
Data Mining
25
2009-2010
Généralités sur l'apprentissage supervisé
Eclaircissements sur un exemple simulé
On suppose une fonction cible sin(2πx)
Le générateur tire n données par tirage uniforme dans le domaine de
la fonction
Le superviseur donne les réponses perturbées par un bruit gaussien
aléatoire
L'apprenant ne connaît pas f mais généralise à partir des données
pour prédire la valeur de tout nouveau cas
Data Mining
26
2009-2010
Généralités sur l'apprentissage supervisé
Modèles appris de complexité croissante ...
M=1
1.0
1.0
Données bruitées
●
●
●
0.5
●
0.5
●
●
●
●
●
0.4
0.6
●
●
●
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
M x= 9
1.0
1.0
M x= 3
●
●
−1.0
−1.0
0.2
0.0
y
●
●
0.0
●
−0.5
0.0
●
●
−0.5
y
●
●
●
●
●
0.5
●
0.5
●
●
●
●
0.4
0.6
●
●
●
●
−1.0
−1.0
0.2
0.0
y
●
●
0.0
●
−0.5
0.0
●
●
−0.5
y
●
●
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Quel est le meilleur modèle ?
Data Mining
27
2009-2010
Généralités sur l'apprentissage supervisé
... et vraie fonction
●
M=1
1.0
1.0
Vraie fonction & données bruitées
●
●
●
●
0.5
0.5
●
●
●
●
●
0.4
0.6
●
●
●
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
M x= 9
1.0
1.0
M x= 3
●
●
−1.0
−1.0
0.2
0.0
y
●
●
0.0
●
−0.5
0.0
●
−0.5
y
●
●
●
●
●
0.5
●
0.5
●
●
●
y
●
0.4
0.6
●
●
●
−1.0
−1.0
0.2
●
−0.5
●
●
0.0
●
0.0
0.0
●
●
−0.5
y
●
●
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
[Bishop, 2006]
Data Mining
28
2009-2010
Généralités sur l'apprentissage supervisé
Généralisation et surapprentissage
M=1: Modèle loin des données et de la vraie fonction
M=3: Plus proche de la vraie fonction; erreurs résiduelles
M=9:
Colle parfaitement aux données (y compris au bruit)
Loin de la vraie fonction
x = 3 our x = 8.5?
surapprentissage (overtting) : le
Quelle sera la prédiction pour
On dit qu'il y a
modèle s'ajuste
parfaitement aux données d'apprentissage mais ne peut généraliser aux
données nouvelles
Pour bien géneraliser, il faut
une connaissance approfondie des familles de modèles disponibles
une méthodologie rigoureuse d'expérimentation
Data Mining
29
2009-2010
Plan du cours (automne)
1
Généralités sur l'apprentissage supervisé
L'apprentissage supervisé (classication, régression)
Partitionnement récursif : Arbres et règles de décision:
C4.5, CART
Apprentissage par estimation de densité: méthodes bayésiennes, KNN,
noyaux
Approches numériques linéaires: discriminants linéaires, perceptrons
Approches numériques non linéaires: réseaux de neurones articiels,
méthodes à base de noyaux (SVM)
2
Techniques d'évaluation et d'expérimentation
Mesures de performances et stratégies d'expérimentation
Comparaison et sélection de modèles
3
Techniques avancées d'apprentissage supervisé
L'agrégation de modèles : Bagging, boosting, stacking
Les arbres et règles de décision de premier ordre: programmation logique
inductive
L'apprentissage relationnel à base de noyaux
Data Mining
30
2009-2010
Plan du cours (printemps)
1
Généralités sur l'apprentissage supervisé
Réduction des données
Réduction de la dimensionnalité: sélection/transformation de variables
Réduction de l'échantillon par apprentissage actif
2
L'apprentissage non supervisé
Les règles d'association
Le clustering hiérarchique
Le clustering partitionnel: centres mobiles, cartes auto-organisatrices
(réseaux de Kohonen)
3
L'apprentissage semi-supervisé
La classication semi-supervisé (co-entraînement, transduction)
Le clustering semi-supervisé (apprentissage de métriques)
4
Projet data mining
Data Mining
31
2009-2010
Références
Généralités sur l'apprentissage supervisé
Bishop, C. M. Pattern Recognition and Machine Learning.
Springer, 2006.
Hastie, T., Tibshirani, R, Friedman, J. Elements of Statistical
Learning: Data Mining, Inference and Prediction. Springer,
2001.
Mitchell, T. Machine Learning. McGraw-Hill, 1997.
Data Mining
32
2009-2010
Téléchargement