2014_2015_WATTIAU_INTRODUCTION AU DATA MINING

Téléchargement

INTRODUCTION AU DATA

MINING

Ndèye Niang Keita

Chaire de Statistique Appliquée

Conservatoire National des Arts et Métiers

292 rue Saint Martin, 75003 Paris

[email protected]

Plan de la présentation

Introduction

Contexe d’émergence et définition

Le processus Data Mining

Objectifs et outils

Data Mining et statistique

Conclusions et perspectives

Introduction

Qu’est ce que le data mining?

Quelques exemples :

Analyse du panier de la ménagère

Web mining

Text mining

Télédétection et analyse d’images satellites

Point commun : un important volume de

données opérationnelles = gisement de

données (d’où le terme mining)

BIG DATA

Contexte d’émergence

Exigences de l ’environnement

• environnement concurrentiel,

mondialisation

• temps de réaction

• gains de productivité rapides

• transformation de l’économie : on

passe d’une politique orientée produit

vers une politique orientée client

Contexte d’émergence

L ’Etat de l’entreprise

• informatisation massive : gigantesques bases de données

• coûteuses en stockage , souvent dupliquées, incohérentes

• bases souvent optimisées pour le stockage, pas pour l’analyse

• très grande taille : le temps et la capacité de traitement

deviennent des contraintes majeures

• inexploitées

Nécessité de transformer par des outils

adaptés cette expérience accumulée en

connaissance :

‘Knowledge is power. Use it or lose it’

Pourquoi s’est-il développé ?

Evolution des SGBD vers l’informatique

décisionnelle (BI) avec les entrepôts de données

(Data Warehouse)

Technologie de l’information : faible coût de

stockage de données, saisie automatique de

transaction (appels téléphoniques code bar, click

web, cartes de crédit…)

Augmentation de la puissance de calculs

Recherche en IA, apprentissage, extraction de

connaissances

Mais aussi entreprise commerciale! CRM

Définition du Data Mining

Le data Mining (traduire : fouille de

données, extraction de connaissance ECD

ou KDD) : nouveau champ d’application

intégrant des techniques provenant de

diverses disciplines : la Statistique,

l’Intelligence Artificielle et l’Informatique

(Base de données , ICHM...)

La définition exacte est peu claire et les

terminologies associées au Data-Mining

sont parfois encore floues.

Définition du Data Mining

Fayyad, Piatetsky-Shapiro et Smyth :

“ Knowledge

Discovery in Databases is the non-trivial process of

identifying valid, potentially useful, and ultimately

understandable patterns in data ”

(extraction non triviale des

bases de données, de connaissances implicites, inconnues à l’avance et

potentiellement utiles.)

D.J.Hand:

“I shall define Data Mining as the discovery of

interesting, unexpected, or valuable structures in large

data sets”

Objectif : essayer ‘de tirer quelque chose’ des informations

disponibles dans les bases de données opérationnelles dans l’optique

d’augmenter la performance des entreprises.

La métaphore du Data Mining signifie qu’il y a

des trésors ou pépites cachés sous des

montagnes de données que l’on peut découvrir

avec des outils spécialisés.

Le Data Mining analyse des données recueillies

à d’autres fins: c’est

une analyse secondaire

bases de données, souvent conçues pour la

gestion de données individuelles (Kardaun,

T.Alanko,1998)

Le Data Mining ne se préoccupe donc pas de

collecter des données de manière efficace

(sondages, plans d’expériences) (Hand, 2000)

Saporta 2013

Processus pas une collection d’outils

Mise en oeuvre d’un projet data mining

1. Comprendre et analyser les objectifs de l’application

2. Créer une base de données pour la mise au point de

l’application.

3. Prétraitement et nettoyage des données

4. Analyse statistique des données (réduction de la dimension,

projection, etc...)



5. Identifier le type de problèmes ( discrimination, clustering,…)

et choisir un algorithme.

6. Evaluer les performances de l’algorithme.

7. réitérer les étapes précédentes si nécessaire.

8. Déployer l’application.

Objectifs et outils

Rappel : objectif du data mining =

découvrir des structures dans de grandes

bases de données.

Il existe deux types de structures:

Modèles et des patterns

Deux types de méthodes:

supervisées (prédictives) ou

non supervisées (exploratoires)

Vérification vs découverte

Distinction aussi entre :

Data mining de vérification : techniques

de BD : olap, molap, rolap

Data mining de découverte : techniques

statistiques et IA

1 / 18 100%

Documents connexes

titre sur 1 ou 2 lignes maximum

Stage en Data Mining - Machine Learning Group

Fiche-UE_CODE_CR_OPT_DM - LIRIS

Glossaire

8INF954 : Forage de données -Data mining

Télécharger le programme de la formation

Data/Pattern Analysis

Systèmes Artificiels Complexes

Data Mining : Techniques et Applications

Extraction de connaissance

Sujet de thèse : « Data science appliquée au secteur Banking ».

Le Data Mining au service du CRM Démarche

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

2014_2015_WATTIAU_INTRODUCTION AU DATA MINING

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

2014_2015_WATTIAU_INTRODUCTION AU DATA MINING

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib