Fouille de
données
données
Lotfi Ben Romdhane, Ph.D.
DSI / ESST / US/
Tn
DSI / ESST / US/
Tn
Sommaire
Chap. 1 -Introduction
2
Chap. 2 - Règles d’associations
Chap. 3 - Techniques de
Classification
Chap. 4
-
Arbres de
décisions
Chap. 4
-
Arbres de
décisions
Introduction
Concepts fondamentaux
Faits réels (1)
4
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Faits réels (2)
Les satellites d’observation de la terre de la NASA
génèrent un téraoctets (10
9
octets) de données
5
génèrent un téraoctets (10
9
octets) de données
chaque jour.
Les serveurs Web stockent des billions de
transactions (fichiers logs) à propos des
navigations des internautes
Projet Génome Humain
entrepris en 1990 dont la
Projet Génome Humain
entrepris en 1990 dont la
mission est d'établir le séquençage complet de
l'ADN du génome humain.
Stockage de plusieurs billions de gènes
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Faits réels (3)
6
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Faits réels (4)
La croissance du volume de
données est exponentielle !
Les données sont disponibles
7
Les données sont disponibles
d’une manière instantanée avec
des réseaux à haut débit
actuellement les BDs sont
réparties à l’échelle de la
planète
La capacité de stockage n’est
plus un problème
plus un problème
les disques sont de grandes
capacités
on peut regrouper plusieurs
disques qu’on utilise comme un
seul disque virtuel (RAID)
Faits réels (5)
“We are drowning in information but starved for
8
knowledge”. John Naisbitt.
On a besoin d’un ensemble de techniques qui sont
rapides (temps d’exécution)
mises en échelle (capables de traiter de grands
volumes de
données
)
volumes de
données
)
Simples à utiliser
pour tansformer les données en connaissances
(knowledge)
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Fouille de données (1)?
Un ensemble de techniques permettant
d’extraire
des
connaissances
utiles
et
9
d’extraire
des
connaissances
utiles
et
intérressantes à partir de grands volumes de
données
Fouille de données (2) ?
10
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Processus KDD (1)
La fouille de
données
est une
11
données
est une
étape cruciale dans
le processus KDDs
KDD -Knowledge
Discovery from Data
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Processus KDD (2)
1. Nettoyage des données
supprimer
bruit
&
inconsistance
dans les données
12
supprimer
bruit
&
inconsistance
dans les données
2. Intégration des données
combiner plusieurs sources de données
3. Sélection des données
extraire les données pertinentes pour l’étape de la
fouille de données
4. Transformation des données
représenter les données dans un format “adéquat”
faire une réduction de dimensions: projection sur un
espace de dimension inférieure
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Processus KDD (3)
5. Fouille de données
une étape importante dans laquelle plusieurs
13
une étape importante dans laquelle plusieurs
techniques intelligentes sont utilisées pour extraire les
connaissances
6. Evaluation des connaissances
sélectionner uniquement les connaissances utiles en
se basant sur une “mesure de qualité”
7.
Présentation des connaissances
7.
Présentation des connaissances
présenter les connaissances extraites dans un format
adéquat simple à comprendre par l’utilisateur final
les techniques de visualisation jouent un rôle
primordial à ce niveau
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Connaissances (1)
Aucune
définition précise et satisfaisante
de la
14
Aucune
définition précise et satisfaisante
de la
notion de connaissances
Les connaissances est un ensemble de
patrons (patterns) ayant une certaine
forme d’intelligence
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Connaissances (2)
On rattache généralement deux concepts
fondamentaux aux
connaissances
15
fondamentaux aux
connaissances
processus d’extraction :
méthodes/algorithmes utilisés pour extraire les
connaissances à partir des données
mode de représentation : la forme de
représentation des connaissances
en général, dépend étroitement de l’algorithme
en général, dépend étroitement de l’algorithme
d’extraction
données Algorithmes Connaissances
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Connaissances (3)
Patrons structurés Patrons « Black-Box »
16
Ecole Supérieure des
Sciences et des
Technologies © L. B.
Romdhane
Techniques de fouille de données (1)
17
Techniques de
Intelligence
Artificielle
Base de
Apprentissage
Techniques de
visualisation
Fouille de
données
Statistiques
Base de
données
Techniques de fouille de données (2)
18
Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane
Fouille de données: Pourquoi?
Quels sont les
Décisions sont plus
19
Quels sont les
produits que le client
est suceptible d’achter
Décisions sont plus
faciles et tangibles !
Quel serait le prix
du pétrole dans
les jours à venir
Quels sont les
thématiques préférées
de cet internautes ?
20
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !