1
INTRODUCTION AU DATA
MINING
Ndèye Niang Keita
Chaire de Statistique Appliquée
Conservatoire National des Arts et Métiers
292 rue Saint Martin, 75003 Paris
Plan de la présentation
Introduction
Contexe d’émergence et définition
Le processus Data Mining
Objectifs et outils
Data Mining et statistique
Conclusions et perspectives
Introduction
Qu’est ce que le data mining?
Quelques exemples :
Analyse du panier de la ménagère
Web mining
Text mining
Télédétection et analyse d’images satellites
Point commun : un important volume de
données opérationnelles = gisement de
données (d’où le terme mining)
BIG DATA
2
Contexte d’émergence
Exigences de l ’environnement
• environnement concurrentiel,
mondialisation
• temps de réaction
• gains de productivité rapides
• transformation de l’économie : on
passe d’une politique orientée produit
vers une politique orientée client
Contexte d’émergence
L ’Etat de l’entreprise
• informatisation massive : gigantesques bases de données
• coûteuses en stockage , souvent dupliquées, incohérentes
• bases souvent optimisées pour le stockage, pas pour l’analyse
• très grande taille : le temps et la capacité de traitement
deviennent des contraintes majeures
• inexploitées
Nécessité de transformer par des outils
adaptés cette expérience accumulée en
connaissance :
‘Knowledge is power. Use it or lose it’
Pourquoi s’est-il dévelop?
Evolution des SGBD vers l’informatique
décisionnelle (BI) avec les entrepôts de données
(Data Warehouse)
Technologie de l’information : faible coût de
stockage de données, saisie automatique de
transaction (appels téléphoniques code bar, click
web, cartes de crédit…)
Augmentation de la puissance de calculs
Recherche en IA, apprentissage, extraction de
connaissances
Mais aussi entreprise commerciale! CRM
3
Définition du Data Mining
Le data Mining (traduire : fouille de
données, extraction de connaissance ECD
ou KDD) : nouveau champ d’application
intégrant des techniques provenant de
diverses disciplines : la Statistique,
l’Intelligence Artificielle et l’Informatique
(Base de données , ICHM...)
La définition exacte est peu claire et les
terminologies associées au Data-Mining
sont parfois encore floues.
Définition du Data Mining
Fayyad, Piatetsky-Shapiro et Smyth :
“ Knowledge
Discovery in Databases is the non-trivial process of
identifying valid, potentially useful, and ultimately
understandable patterns in data ”
(extraction non triviale des
bases de données, de connaissances implicites, inconnues à l’avance et
potentiellement utiles.)
D.J.Hand:
“I shall define Data Mining as the discovery of
interesting, unexpected, or valuable structures in large
data sets”
Objectif : essayer ‘de tirer quelque chose’ des informations
disponibles dans les bases de données opérationnelles dans l’optique
d’augmenter la performance des entreprises.
9
La métaphore du Data Mining signifie qu’il y a
des trésors ou pépites cachés sous des
montagnes de données que l’on peut découvrir
avec des outils spécialisés.
Le Data Mining analyse des données recueillies
à d’autres fins: c’est
une analyse secondaire
de
bases de données, souvent conçues pour la
gestion de données individuelles (Kardaun,
T.Alanko,1998)
Le Data Mining ne se préoccupe donc pas de
collecter des données de manière efficace
(sondages, plans d’expériences) (Hand, 2000)
Saporta 2013
4
Processus pas une collection d’outils
5
Mise en oeuvre d’un projet data mining
1. Comprendre et analyser les objectifs de l’application
2. Créer une base de données pour la mise au point de
l’application.
3. Prétraitement et nettoyage des données
4. Analyse statistique des données (réduction de la dimension,
projection, etc...)
5. Identifier le type de problèmes ( discrimination, clustering,…)
et choisir un algorithme.
6. Evaluer les performances de l’algorithme.
7. réitérer les étapes précédentes si nécessaire.
8. Déployer l’application.
Objectifs et outils
Rappel : objectif du data mining =
découvrir des structures dans de grandes
bases de données.
Il existe deux types de structures:
Modèles et des patterns
Deux types de méthodes:
supervisées (prédictives) ou
non supervisées (exploratoires)
Vérification vs découverte
Distinction aussi entre :
Data mining de vérification : techniques
de BD : olap, molap, rolap
Data mining de découverte : techniques
statistiques et IA
1 / 18 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !