DATA MINING ou KNOWLEDGE DISCOVERY IN DATABASES (KDD)

DATA MINING
ou
KNOWLEDGE DISCOVERY IN
DATABASES (KDD)
Besoin de retrouver toutes les
informations associées à un
sujet donné, par exemple un
consommateur, un vendeur, un
produit ou une activité.
Extraire des connaissances des
« grandes BD » historisées, en
dégageant des tendances de
fond et les règles de l’entreprise
et du marché.
Entrepôt de données
(Data Warehouse)
Ensemble de données
historisées, constitué par
extraction à partir de bases
applicatives ou fichiers,
organisé par sujets
spécifiques, consolidé dans
une BD unique, géré dans
un environnement de
stockage particulier, aidant
à la prise de décision de
l’entreprise.
Les outils d’exploitation d’un data
warehouse peuvent être classés en
deux catégories:
- outils d’aide à la décision
permettant d ’interroger et
d’analyser l’évolution des données
- outils de DM permettant de
comprendre les relations entre les
données (problème très ouvert) afin
de déterminer des modèles
implicites, et de remonter de
l’information non prévisible à
l’utilisateur.
Méthodes et Outils de
Data Mining (Fouille des
données)
• DM : Ensemble de techniques
d’explorations de données afin
d’en tirer les liens sémantiques.
La découverte des règles à partir des
données permet d’améliorer le processus.
Les mécanismes de base sont les méthodes
de déduction issues de la logique,
permettant de déduire un théorème à partir
d’axiomes.
Le résultat est sûr, mais la méthode
nécessite la connaissance de règles a
priori.
La logique floue gagnerait à être
considérée.
Les méthodes d’induction permettent de
tirer des conclusions à partir d’une série de
faits.
Parmi les techniques employées, on
peut citer:
- L’analyse statistique qui consiste à
choisir des variables et à les analyser
par rapport à des fonctions connues.
explorer
Variances
Ecart-types
entre variables
- Test de Chi 2
- Théorème de Bayes
Corrélations
• La découverte de règles de type:
« Si A alors B »
avec coefficients de confiance.
• La recherche de modèles
fonctionnels :
-La régression linéaire,
-Les réseaux de neurones.
• La classification des données
(techniques de prédilection du
DM): la classification
supervisée, ou segmentation.
Chaque problème
nécessite des
algorithmes d’extraction
spécifiques.
Les phases essentielles
du processus de DM
sont les suivantes:
• identifier le problème à
résoudre, i.e. cerner les
objectifs.
• préparer les données d’entrée,
en particulier trouver les
sources, collecter, nettoyer,
transformer et intégrer les
données.
• explorer et régler plusieurs
modèles afin de choisir une ou
plusieurs techniques adaptées.
• Évaluer les techniques sur un
échantillon (de 5% à 1/3) et
valider sur le reste.
• Utiliser le modèle sur le réel.
• Suivre le modèle et l’améliorer.
Acquisition et préparation
des données
• 1) Choix des objets
Il importe de définir les objets les
plus homogènes possibles
relativement au problème étudié.
Deux questions:
– Tous les objets auxquels on
s’intéresse sont-ils couverts par la
définition qu’on s’en est donné?
– Les objets considérés ne sont-ils pas
eux-mêmes des catégories agrégeant
des objets plus élémentaires, et si oui
le niveau d’agrégation est-il identique
pour tous?
• 2) Choix des individus
Il est vain d’essayer de traiter
entièrement les grosses bases de
données.
Il semble judicieux de mettre en
œuvre des schémas de tirage qui
permettent d’assurer de la prise en
compte de la plupart des structures
qui régissent les observations.
• 3) Choix des variables
Extraire les champs qui permettent
d’expliquer au mieux l’état de la
classe que l’on cherche à prédire.
S’ajoute le problème de la
pondération des variables.
• 4) Types de données
On propose généralement:
-les données nominales
auxquelles on associe des codes
permettant d’énumérer les cas
possibles.
-les données ordinales auxquelles
on associe des codes énumérant
les situations possibles en
intégrant une relation d’ordre.
-les données continues
généralement définies sur un
sous-ensemble de : échelle
d’intervalle, échelle métrique.
• Les comparer par rapport à un opérateur
distance d.
• IA: les données sont le plus souvent
symboliques.
Recodage et transformation
des données
• Objectif: Homogénéiser les variables.
Ces méthodes sont parfois considérées
comme des méthodes
d’appauvrissement ou d’enrichissement
des données.
Nominales ------> Ordinales
• Variables continues:
– Standardisation: centrage, réduction
(/écart-type), centrage-réduction.
– Transformation distributionnelle: à partir
d’une variable X, on trouve une variable Z
de distribution « presque » normale.
– Discrétisation des attributs continus.
– Transformations qui découlent de décision
d’expert.
Traitement des données
manquantes
• Traitement monovarié:
On remplace la valeur
manquante en utilisant
uniquement les caractéristiques
intrinsèques de la variable
étudiée:
la valeur la plus fréquemment
rencontrée, celle qui minimise
l’espérance du coût de la
décision, la valeur moyenne, la
valeur médiane,…..
?!: méthodes peu fiables.
• Traitement multivarié:
1) en exploitant les liens qui
existent entre les différentes
variables composant la base de
données.
?!: méthodes très coûteuses en
temps de calcul.
2) en exploitant la notion de
proximité.
?!: notion de distance.
• Traitement bivarié:
L’idée est d’essayer de trouver
une variable dans la base qui
explique au mieux les variations
de celle qui nous préoccupe. Cette
option semble être le meilleur
compromis, encore faut-il choisir
la bonne variable.
Détection des données
anormales
Il est souvent conseillé d’exclure ces
données
• Données catégorielles (symboliques):
Sauf un code différent de ceux
déclarés, il est impossible de détecter
les anomalies.
• Données continues:
sur des données basées sur l’hypothèse
de distribution gaussienne des
individus, il existe des procédures qui
permettent de détecter assez
rapidement des points « anormaux ».
Il existe également des tests d ’homogénéité
de répartition des individus à faire lorsqu’on
constate des points atypiques qui mettraient
en cause l’analyse que l’on mène.
Discrétisation des
attributs continus
Apprentissage inductif:
un système qui reçoit des entrées
et en extrait des connaissances.
• Apprentissage non-supervisé
(classification)
• Apprentissage supervisé
(classement)
Finalités de l ’apprentissage
supervisé:
– le diagnostic,
– la prévision.
Construction de
variables synthétiques et
réduction de la
dimension
• Un des objectifs de l’apprentissage
supervisé est de produire le modèle
le plus précis.
A performances égales, le modèle le
moins complexe sera considéré le
meilleur.
• Il est nécessaire de:
– réduire au mieux le nombre de
variables,
– de construire des variables
synthétiques qui:
•simplifient la représentation de la
solution,
•permettent une meilleure compréhension
du problème étudié.
• Comment?
– Construction d’expert,
– Construction automatique
(analyse discriminante,
combinaisons de variables,
régression multiple).
DATA MINING
DECOUVERTE DE NOUVELLES CONNAISSANCES
PREVISION
EXPLICATION
PREVISION-EXPLICATION
Induction de règles en
apprentissage supervisé
SI prémisse ALORS conclusion
• L’induction par graphes d’induction
propose d’utiliser les variables
explicatives pour décomposer
successivement l’échantillon de départ.
• L’objectif est de mettre en évidence des
sous-groupes dans lesquels la présence
d’une des modalités de la classe à
prédire est « significativement » élevée.
EXEMPLE
Moyenne<10 Stage
Résultat
Non
Bon
A
Non
Bon
A
Non
Bon
A
Oui
Bon
A
Non
Bon
A
Oui
Mauvais
R
Oui
Mauvais
R
Oui
Mauvais
R
Oui
Mauvais
R
Oui
Mauvais
R
M<10
Oui
Non
Stage
Bon
AA
AA
A
----> ARBRES CONCURRENTS
Mauvais
RRR
RR
5
5
Acceptés
refusés
M< 10
OUI
NON
4
0
11
5
Stage
Mauvais
0
5
Bon
5
5
Stage
1
0
Problème: Trouver
une heuristique permettant
de s’approcher au mieux
de la « meilleure » solution.
Mauvais
0
5
Bon
5
0
Les principales étapes de
la création de graphes
d’induction
• La sélection de l’attribut pour
partitionner un sous-graphe. Plusieurs
attributs sont candidats pour former les
sous-groupes induits, il importe de
choisir la meilleure localement: il est
nécessaire de définir une mesure de
qualité de la subdivision.
• Un critère d’arrêt qui permet de stopper
le processus de partionnement.
• L’affectation d’une classe à chaque
sommet terminal, on parle alors
couramment d’Arbre de Décision.
• La construction d’un classifieur
peut être ramené à la recherche de
la combinaison d’attributs
prédictifs la plus correlée avec la
variable à prédire.
• Choix de sélection des attributs
lors du partionnement sur un
nœud: NP-complet
• Stratégie couramment utilisée:
rechercher localement sur chaque
nœud, l’attribut qui induit le
meilleur éclatement.
Paradigme: L’influence de la mesure de
qualité sur la partition est manifeste sur
la complexité du graphe d’induction
construit, elle est en revanche faible sur
ses performances en classification.
Critère d’arrêt de la
construction de l’arbre
• Homogénéité totale de la partition
construite?
Oui, si processus déterministe…
Surapprentissage?……….
• Les règles induites doivent être
« statistiquement » intéressantes.
• Toute décomposition engendrant au
moins un groupe de cardinal
inférieur à une taille minimale doit
être refusée.
• Choix de la valeur limite? …. 5
• Il existe des critères statistiques, ou
des critères basés sur les gains
d’informations (pré-élégage),…
discutables!
Exemple de
décomposition à rejeter:
10
10
1
1
9
0
0
9
Post-élégage: On construit un arbre
aussi grand que l’on veut, et on définit
une séquence de sous-arbres
imbriqués, et on choisit celle qui
minimise le taux d’erreur.
70
60
20
60
50
0
20
40
10
30
0
20
10
10
Suite…..
• Extraction des règles dans le
graphe d’induction:
Si prémisses Alors Conclusion
• Assigner une conclusion à un
sommet terminal.
• Lecture des règles dans le graphe.
• SBC
• Déclenchement des règles.
• Validation statistiques des règles
(règles inutiles).
• Stratégies de décision.
Evaluations et comparaisons
empiriques de classifieurs
• Meilleur classifieur?
– Taux d’erreur en généralisation,
– Etudes théoriques,
– Etudes expérimentales (Serveurs
de données tests, ….),
– Complexité,
– Le temps de réponse,
– La difficulté de mise à jour,
– L’analyse de la fiabilité (sur
quelles classes?,coûts?,…)
Quelle est la meilleure méthode sur mes
données compte tenu des critères qu’on s’est
fixé?
L’algorithme A est-il en
général meilleur que B?
Vaste Problème.
• Les différents taux d’erreur,
• La complexité: le nombre de
règles produites?, le nombre de
nœud dans le graphe?, y
compris les feuilles?
• Les données tests?
– Données synthétiques,
– Données réalistes,
– Données réelles.
Il faut essayer de
répondre:
• Quel est l’effectif total?
• Combien de classes?
• Quelles sont les distributions
conditionnelles et inconditionnelles?
• Combien y-a-t-il d’attributs?
• Sont-ils qualitatifs, continus ou
mixtes?
• Quelles sont leurs distributions?
• Y-a-t-il des valeurs manquantes?
• Quel est le niveau de bruits sur les
observations?
Analyse et estimation de
l’erreur
• La matrice de confusion ou le
tableau de contingence (Cf page
suivante),
• Erreur théorique?
• Erreur en substitution: elle est
calculée directement sur
l’échantillon ayant servi à
l’apprentissage.
• Erreur en validation: elle est calculée
directement sur l’échantillon ayant
servi à la validation.
La matrice de confusion
CLD (L) A
CLO ©
B
C
A
50
0
0
B
0
45
1
C
0
5
49
Conclusion
• Il est délicat de comparer des
méthodes sur la base
d’évaluations empiriques.
• De nombreuses précautions sont
nécessaires pour donner une
signification statistique aux
résultats.
• Les comparaisons n’ont
vraiment de sens que pour un
domaine d’étude donné, la
généralisation est hasardeuse,
pour ne pas dire illusoire.