Telechargé par ABDELLAOUI ALAOUI El Arbi

Data-Mining

publicité
Data Mining
Plan
• Introduction
• Définition
• Les tâches du Data Mining
• Les techniques du Data
Mining
• Conclusion
1/
19
Introduction
Disponibilité croissante de données
Données en trop grandes quantités pour être
traitées manuellement ou par des algorithmes
classiques
=> Émergence du Data Mining (fouille de
données)
2/
19
Définition
Le Data Mining est l’ensemble du processus
permettant l’extraction de connaissances à partir de
grosses bases de données dans un but d’aide à la
décision.
3/
19
Processus du Data Mining
(1 / 2)
1. Identifier le problème
 Cerner les objectifs
2. Préparer les données
Collecter les données
Nettoyer les données (suppression des doublons,
des erreurs de saisie...)
4/
19
Processus du Data Mining
(2 / 2)
3. Fouille des données
Choisir un type de modèle (classification, …) et
une technique (arbres de décision, ...) pour
construire ce modèle
Validation – Évaluation (Erreurs, …) : par un
expert ou par les statistiques
4. Utiliser le modèle
Voir les résultats du modèle sur les données,
Appliquer le modèle pour prédire sur de
nouvelles données.
Les tâches du Data Mining
6/
19
Selon les objectifs
• Classification
: examiner les caractéristiques
d'un objet et lui attribuer une classe
• Segmentation : consiste à former des groupes
homogènes à l'intérieur d'une population.
Selon le type
d’apprentissage
7/
19
• Apprentissage supervisé : processus dans lequel
l'apprenant reçoit des exemples d'apprentissage
comprenant à la fois des données d'entrée et de sortie.
→ classification
• Apprentissage non supervisé : processus dans
lequel l'apprenant reçoit des exemples d'apprentissage
ne comprenant que des données d'entrée.
→ segmentation
Les techniques du Data
Mining
9/
19
Les arbres de décision (1 / 3)
• Un arbre de décision est un outil d’aide à la
décision qui permet de classifier une population
d’individus selon les valeurs de leurs attributs.
C’est une représentation graphique de la
procédure de classification où :
Chaque nœud correspond à un test sur la valeur
d'un ou plusieurs attributs.
Chaque branche partant d'un nœud correspond à
une ou plusieurs valeurs de ce test.
Une feuille = une classe.
10 /
19
Les arbres de décision (2 / 3)
11 /
19
Les arbres de décision (3 / 3)
12 /
19
L’algorithme K-NN (1 / 2)
• k-NN (k Nearest Neighbours) est un algorithme de
raisonnement à partir de cas c’est-à-dire prendre
des décisions en recherchant un ou plusieurs cas
similaires déjà résolus.
• La décision consiste à chercher les k échantillons
les plus voisins de l'objet et de l’affecter à la
classe qui est la plus représentative dans ces k
échantillons.
13 /
19
L’algorithme K-NN (2 / 2)
14 /
19
SVM (1 / 2)
• Pour deux classes d’exemples donnés, le but de
SVM
est de trouver un classificateur qui va
séparer les données et maximiser la distance entre
ces deux classes.
• Avec SVM, ce classificateur est un classificateur
linéaire appelé hyperplan.
15 /
19
SVM (2 / 2)
x2
x1
16 /
19
L’algorithme k-means (1 / 3)
• Cette méthode est basée sur une notion de
similarité entre enregistrements.
• Nous allons pour introduire l'algorithme considérer
un espace géométrique muni d'une distance, deux
points sont similaires si ils sont proches pour la
distance considérée. Nous nous plaçons donc dans
l'espace euclidien de dimension 2 et considérons
la distance euclidienne classique. L'algorithme
suppose choisi a priori un nombre k de groupes à
constituer.
17 /
19
L’algorithme k-means (2 / 3)
• On constitue alors les k groupes initiaux en
affectant chacun des enregistrements dans le
groupe correspondant au centre le plus proche.
• Pour chaque groupe ainsi constitué, on calcule son
nouveau centre en effectuant la moyenne des
points du groupe et on réitère le procédé. Le
critère d'arrêt est : d'une itération à la suivante,
aucun point n'a changé de groupe, i.e. les groupes
sont stables.
18 /
19
L’algorithme k-means (3 / 3)
étape 1
centre D(2;4)
centre B(2;2)
points
A(1;3)
B(2;2)
C(2;3)
D(2;4)
E(4;2)
F(5;2)
G(6;2)
H(7;3)
groupe
B
B
B
D
B
B
B
B
étape 2
centre D(2;4)
étape 3
centre J(5/3;10/3)
centre I(27/7;17/7) centre K(24/5;11/5)
groupe
D
I
D
D
I
I
I
I
groupe
J
J
J
J
K
K
K
K
19 /
19
Conclusion
• Nous venons de présenter les tâches principales
du data mining ainsi que les principaux outils
utilisés pour les effectuer.
• Il faut noter qu'à l'heure actuelle le choix de l'outil
par rapport a une tâche donnée dépend fortement
du
domaine
considéré.
Merci de votre
attention !
Téléchargement