dm chap01 Introd

publicité
2
Fouille de
données
Lotfi Ben Romdhane, Ph.D.
DSI / ESST / US/ Tn
Sommaire
• Chap. 1 -Introduction
• Chap. 2 - Règles d’associations
• Chap. 3 - Techniques de
Classification
• Chap. 4 - Arbres de décisions
4
Faits réels (1)
Introduction
Concepts fondamentaux
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
5
Faits réels (2)
6
Faits réels (3)
• Les satellites d’observation de la terre de la NASA
génèrent un téraoctets (109 octets) de données
chaque jour.
• Les serveurs Web stockent des billions de
transactions (fichiers logs) à propos des
navigations des internautes
• Projet Génome Humain entrepris en 1990 dont la
mission est d'établir le séquençage complet de
l'ADN du génome humain.
▫ Stockage de plusieurs billions de gènes
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
7
Faits réels (4)
• La croissance du volume de
données est exponentielle !
• Les données sont disponibles
d’une manière instantanée avec
des réseaux à haut débit
▫ actuellement les BDs sont
réparties à l’échelle de la
planète
• La capacité de stockage n’est
plus un problème
▫ les disques sont de grandes
capacités
▫ on peut regrouper plusieurs
disques qu’on utilise comme un
seul disque virtuel (RAID)
8
Faits réels (5)
• “We are drowning in information but starved for
knowledge”. John Naisbitt.
• On a besoin d’un ensemble de techniques qui sont
▫ rapides (temps d’exécution)
▫ mises en échelle (capables de traiter de grands
volumes de données)
▫ Simples à utiliser
pour tansformer les données en connaissances
(knowledge)
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
9
Fouille de données (1)?
10
Fouille de données (2) ?
• Un ensemble de techniques permettant
d’extraire des connaissances utiles et
intérressantes à partir de grands volumes de
données
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
11
Processus KDD (1)
12
Processus KDD (2)
1. Nettoyage des données
La fouille de
données est une
étape cruciale dans
le processus KDDs
▫
supprimer bruit & inconsistance dans les données
2. Intégration des données
▫
combiner plusieurs sources de données
3. Sélection des données
KDD - Knowledge
Discovery from Data
▫
extraire les données pertinentes pour l’étape de la
fouille de données
4. Transformation des données
▫
▫
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
représenter les données dans un format “adéquat”
faire une réduction de dimensions: projection sur un
espace de dimension inférieure
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
13
Processus KDD (3)
Connaissances (1)
5. Fouille de données
• Aucune définition précise et satisfaisante de la
▫ une étape importante dans laquelle plusieurs
techniques intelligentes sont utilisées pour extraire les
connaissances
notion de connaissances
6. Evaluation des connaissances
▫
• Les connaissances est un ensemble de
sélectionner uniquement les connaissances utiles en
se basant sur une “mesure de qualité”
patrons (patterns) ayant une certaine
7. Présentation des connaissances
▫
▫
14
forme d’intelligence
présenter les connaissances extraites dans un format
adéquat simple à comprendre par l’utilisateur final
les techniques de visualisation jouent un rôle
primordial à ce niveau
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
16
15
Connaissances (2)
Connaissances (3)
• On rattache généralement deux concepts
fondamentaux aux connaissances
▫ processus d’extraction :
méthodes/algorithmes utilisés pour extraire les
connaissances à partir des données
▫ mode de représentation : la forme de
représentation des connaissances
en général, dépend étroitement de l’algorithme
d’extraction
données
Algorithmes
Connaissances
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Patrons structurés
Ecole Supérieure des
Sciences et des
Technologies © L. B.
Romdhane
Patrons « Black-Box »
17
Techniques de fouille de données (2)
Techniques de fouille de données (1)
Intelligence
Artificielle
Techniques de
visualisation
Fouille de
données
Base de
données
18
Apprentissage
Statistiques
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
19
Fouille de données: Pourquoi?
Décisions sont plus
faciles et tangibles !
Quel serait le prix
du pétrole dans
les jours à venir
Quels sont les
produits que le client
est suceptible d’achter
Quels sont les
thématiques préférées
de cet internautes ?
20
21
Sources de données (1)
22
Sources de données (2)
• Base de données
relationnelles
• Entrepôts de données (data warehouse)
▫ un ensemble de plusieurs bases de données
hétérogènes intégrées ensembles et organisées
sous formes de magasins de données
▫ la forme de données la plus
répondue
▫ un ensemble de données
inter-reliées
▫ organisées sous forme de
tables/relations
▫ on y trouve les données et
les liens (clés étrangères)
entre les données
l’algorithme de fouille de
données doit tenir comptes
des liens
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
24
23
Sources de données (3)
Sources de données (4)
▫ dans un entrepôts, on garde l’historique des
modifications des données
il y a un axe temps qui s’ajoute
Image de la base en Mai 2005
Bas de
données
Entrepôt
de données
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Image de la base en Juillet 2006
Nom
Ville
Nom
Ville
Dupont
Paris
Dupont
Marseille
Durand
Lyon
Durand
Lyon
Code Année
Mois
Ville
2005
Mai
Cod
e
Nom
1
2
2006
Juillet
1
Dupont
Paris
1
Durand
Lyon
2
Dupont
Marseille
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
25
26
Sources de données (6)
Sources de données (5)
• Base de données transactionnelles
• contiennent des centaines de milliards de
transactions effectuées par les utilisateurs
• Base de données multimédia
▫ stockent les données sous forme
audio, vidéo, etc.
▫ la tendance actuelle de la plupart
des bases de données existantes
▫ achats des clients dans un supermarché
les informations visuelles sont
plus simples à assimiler et à
comprendre que celles textuelles
transaction: ensemble des produits achetés
▫ visite des internautes dans un site web
▫ Besoin d’un ensemble de
techniques intelligentes pour
calculer automatiquement la
sémantique (contenu significatif)
de l’image (un ensemble de pixels)
transaction: ensemble des pages visitées, ordre des
visites, durée des visites, ...
• Une mine d’informations à exploiter
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
27
Définition d’une donnée (1)
Tid
• Un d’objet décrit par des
attributs
• un attribut est une propriété
ou caractéristique d’un objet
▫ couleur des yeux d’une
personne
• Une collection d’attributs
permettent de décrire un objet
• Un ensemble de données est
un ensemble d’objets dont la
représentation la plus
commode est sous forme
tabulaire
Refund
Marital
Status
28
Définition d’une donnée (2)
Taxable
Income
Loyal
• Attributs discrets
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced
95K
Yes
6
No
Married
60K
No
7
Yes
Divorced
220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
chaînes de caractères
10
No
Single
90K
Yes
prix d’un Produit, taille d’une personne
▫ possède un ensemble fini de valeurs
couleurs des yeux d’une personne = {A, B, C, D}
• Attributs continus
▫ possède un ensemble de valeurs infinis
nombre réels
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
30
29
Prétraitement des données (1)
• Les données réelles , vu leur grand
Prétraitement des données (2)
image bruitée
volume, sont susceptibles de contenir
plusieurs formes d’anomalies
▫ bruit: erreurs de stockage,
transmission
▫ valeurs manquantes: certains
attributs d’un objets ne possèdent pas
de valeurs
• Les bonnes décisions se basent sur des
connaissances de qualité qui
nécessitent forcément des données de
bonne qualité
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
31
Prétraitement des données (3)
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Téléchargement