2014_2015_WATTIAU_INTRODUCTION AU DATA MINING

publicité
INTRODUCTION AU DATA
MINING
Ndèye Niang Keita
Chaire de Statistique Appliquée
Conservatoire National des Arts et Métiers
292 rue Saint Martin, 75003 Paris
[email protected]
Plan de la présentation
Introduction
Contexe d’émergence et définition
Le processus Data Mining
Objectifs et outils
Data Mining et statistique
Conclusions et perspectives
Introduction
Qu’est ce que le data mining?
Quelques exemples :
Analyse du panier de la ménagère
Web mining
Text mining
Télédétection et analyse d’images satellites
Point commun : un important volume de
données opérationnelles = gisement de
données (d’où le terme mining)
BIG DATA
1
Contexte d’émergence
Exigences de l ’environnement
• environnement concurrentiel,
mondialisation
• temps de réaction
• gains de productivité rapides
• transformation de l’économie : on
passe d’une politique orientée produit
vers une politique orientée client
Contexte d’émergence
L ’Etat de l’entreprise
•
•
•
•
informatisation massive : gigantesques bases de données
coûteuses en stockage , souvent dupliquées, incohérentes
bases souvent optimisées pour le stockage, pas pour l’analyse
très grande taille : le temps et la capacité de traitement
deviennent des contraintes majeures
• inexploitées
Nécessité de transformer par des outils
adaptés cette expérience accumulée en
connaissance :
‘Knowledge is power. Use it or lose it’
Pourquoi s’est-il développé ?
Evolution des SGBD vers l’informatique
décisionnelle (BI) avec les entrepôts de données
(Data Warehouse)
Technologie de l’information : faible coût de
stockage de données, saisie automatique de
transaction (appels téléphoniques code bar, click
web, cartes de crédit…)
Augmentation de la puissance de calculs
Recherche en IA, apprentissage, extraction de
connaissances
Mais aussi entreprise commerciale! CRM
2
Définition du Data Mining
Le data Mining (traduire : fouille de
données, extraction de connaissance ECD
ou KDD) : nouveau champ d’application
intégrant des techniques provenant de
diverses disciplines : la Statistique,
l’Intelligence Artificielle et l’Informatique
(Base de données , ICHM...)
La définition exacte est peu claire et les
terminologies associées au Data-Mining
sont parfois encore floues.
Définition du Data Mining
Fayyad, Piatetsky-Shapiro et Smyth : “ Knowledge
Discovery in Databases is the non-trivial process of
identifying valid, potentially useful, and ultimately
understandable patterns in data ” (extraction non triviale des
bases de données, de connaissances implicites, inconnues à l’avance et
potentiellement utiles.)
D.J.Hand:“I shall define Data Mining as the discovery of
interesting, unexpected, or valuable structures in large
data sets”
Objectif : essayer ‘de tirer quelque chose’ des informations
disponibles dans les bases de données opérationnelles dans l’optique
d’augmenter la performance des entreprises.
Saporta 2013
La métaphore du Data Mining signifie qu’il y a
des trésors ou pépites cachés sous des
montagnes de données que l’on peut découvrir
avec des outils spécialisés.
Le Data Mining analyse des données recueillies
à d’autres fins: c’est une analyse secondaire de
bases de données, souvent conçues pour la
gestion de données individuelles (Kardaun,
T.Alanko,1998)
Le Data Mining ne se préoccupe donc pas de
collecter des données de manière efficace
(sondages, plans d’expériences) (Hand, 2000)
9
3
Processus pas une collection d’outils
4
Mise en oeuvre d’un projet data mining
1. Comprendre et analyser les objectifs de l’application
2. Créer une base de données pour la mise au point de
l’application.
3. Prétraitement et nettoyage des données
4. Analyse statistique des données (réduction de la dimension,
projection, etc...)
5. Identifier le type de problèmes ( discrimination, clustering,…)
et choisir un algorithme.
6. Evaluer les performances de l’algorithme.
7. réitérer les étapes précédentes si nécessaire.
8. Déployer l’application.
Objectifs et outils
Rappel : objectif du data mining =
découvrir des structures dans de grandes
bases de données.
Il existe deux types de structures:
Modèles et des patterns
Deux types de méthodes:
supervisées (prédictives) ou
non supervisées (exploratoires)
Vérification vs découverte
Distinction aussi entre :
Data mining de vérification : techniques
de BD : olap, molap, rolap
Data mining de découverte : techniques
statistiques et IA
5
Vérification vs découverte
« Trouver les clients qui ont acheté tel produit à
telle période»
Mais :
« Quel est leur profil ? »
« Quels autres produits les intéresseront ? »
« A quelle date? »
Les profils de clientèle à découvrir sont en général
des profils complexes : pas seulement des
oppositions évidentes jeunes/vieux, citadins/ruraux
faciles à identifier par des statistiques descriptives
Le data mining fait passer du confirmatoire à la
découverte et à la prédiction
Techniques descriptives
Exploration, recherche de « patterns » :
• mise en évidence des informations présentes mais
cachées par le volume des données
• réduction, résumé, synthèse des données
• pas de variable « cible » à prédire.
•Deux grandes familles:
description : Stat descriptive
Analyse factorielle des données
Structuration, association : typologie ou classif:
recherches de règles
d’associations
cartes de Kohonen
Quelques définitions
La statistique et les statistiques
les statistiques : recueils de données,
résultats élémentaires
la statistique : méthodologie du recueil, du
traitement, de l’interprétation de données
statistiques
Individus et variables
individus, observations, unités…
variables ou caractères
18
6
différentes méthodes
analyse exploratoire, descriptive, non
supervisée
Méthodes factorielles
réduction du nombre de variables en les résumant par
un petit nombre de composantes synthétiques : les
facteurs :
ACP pour les variables quantitatives
AFC pour 2 variables qualitatives
ACM pour plusieurs variables qualitatives
Méthodes de Classification automatique
réduction du nombre d’individus par la formation
de groupes homogènes :
méthodes de partitionnement
méthodes hiérarchiques
EXEMPLES
Feuille de calcul
Microsoft Excel
Document Microsoft
Word
Document Microsoft
Word
7
Les techniques explicatives
Prédiction , modélisation :
• extrapolation de nouvelles informations
à partir d’informations présentes
• explication des données
• une variable « cible » à prédire.
Plusieurs méthodes selon la cible :
Quantitative : régression, arbre de régression,
régression par réseau de neurones…
Qualitative : discrimination, régression logistique,
arbre de décision, réseaux de neurones…
analyse décisionnelle, inférentielle,
supervisée
Modèle linéaire général: recherche d’une
relation entre une variable numérique et
plusieurs autres :
Numériques :
régression
Qualitatives :
analyse de la variance
Mixtes :
analyse de la covariance
Analyse discriminante : prédiction d’une
variable qualitative à l’aide de plusieurs
prédicteurs en général numériques
Cas particulier des variables
qualitatives
* méthodes descriptives, exploratoires
- méthodes factorielles : ACM ACP pour
variables ordinales, AFD Disqual
- méthodes de classification: sur les
coordonnées factorielles d’une ACM
ou sur le tableau de distances du chi
deux calculées sur tableau disjonctif
8
Cas particulier des variables
qualitatives
* méthodes explicatives, supervisées
- le modèle linéaire général n’est pas
adapté au cas d’une variable cible qualitative
- autres méthodes :
Y qualitative :
et Xi qualitative
analyse
discriminante
décisionnelle sur disqual
Y qualitative et Xi qualitative :
(on ne fait pas de distinction entre à expliquer et explicative)
modèle log linéaire
ou
modèle d’association
Y qualitative et Xi quantitative : régression logistique
(les prédicteurs peuvent aussi être qualitatifs)
L’ensemble de ces méthodes (MLG, logistique, log linéaire) constituent
le modèle linéaire généralisé.
Il faut aussi ajouter les méthodes de modélisation (non
paramétriques) de segmentation par arbre et de réseaux de
neurones.
9
Quoi de neuf?
Cf S. Tufféry – Atelier SAS - http://data.mining…
Ces techniques sont pour la plupart anciennes
Ce qui est nouveau, ce sont :
les capacités de stockage et de calcul offertes par le matériel
et les techniques informatiques modernes
la constitution de giga-bases de données pour les besoins de
gestion des entreprises
la recherche en IA et en théorie de l’apprentissage
les logiciels universels développés par des éditeurs ambitieux
l’intégration du data mining dans les processus de production qui
permettent de traiter de grands volumes de données et font
sortir le data mining des laboratoires de recherche pour entrer
dans les entreprises
Quoi de neuf?
De nouvelles techniques pour de nouvelles données
De nouvelles données :
Données textuelles : text mining
Internet : webmining
Données symboliques
Image mining
Données Multimédia
De nouvelles techniques
Agrégation de modèles
rééchantillonnage bootstrap, bagging, boosting…
Text mining
Extraction d’information à partir de textes (nouvelles,
brevets, réclamations, e_mails….)
Ensemble de techniques de tri automatique de masse
de documents à partir de leur contenu sémantique
Applications :
recherche sur internet
traitement automatique des demandes en
assurances
Analyse de lettres ou appels de réclamation de
clients
Analyse des résultats d’une enquête d’opinions
10
Webmining
Analyse des fichiers log issus de la
fréquentation de sites web et du
comportement des internautes
Applications :
Click analysis : optimisation des sites
Meilleure connaissance des internautes
Fidélisation
Campagnes de promotions
Publicité
Données symboliques
Nouveau type de données : plus de
tableau classique : une valeur par case
individu-variable
Données intervalles ou floues,
distribution de probabilité, courbe,
histogramme….
Projet européen SODAS
Image mining
Reconnaissance d’iris, de visage…
Télédétection : comparaison d’image,
suivi de phénomènes climatiques
Prévision météo
….
11
Data mining et Statistique
Le data mining est–il de la statistique?
Qu’est ce qui distingue les deux?
Quelles sont les spécificités du data mining?
Data mining et Statistique
Statistique et analyse de données :
ensemble de méthodes :
décisionnelle : validation d’hypothèses ou
prédiction d’une valeur
exploratoire : synthétiser un ensemble
d’informations
Data mining et Statistique
http://cedric.cnam.fr/~saporta
12
Principaux changements
Surabondance
des données
remise en question
de la démarche
d’analyse
données opérationnelles / données d’enquêtes
données exhaustives
développement de l’approche exploratoire
données historisées
Data mining et Statistique
Statistique inférentielle classique (tests statistiques)
ne marche plus pour les très grands ensembles de
données : toute hypothèse nulle H0 est rejetée
quand n est grand
Exemple : Une corrélation de 0.002 est significativement différente
de zéro avec un million d’individus.
A la place des tests de signification on utilisera la
validation croisée, une combinaison ensemble
d’apprentissage-ensemble test, des méthodes de
rééchantillonnage…
13
Data mining et Statistique
Les structures trouvées sont-elles valides?
Il est inévitable de trouver des comportements,
en raison d’une recherche combinatoire.
Existent-ils vraiment? Exemple RA
“False discovery rate” (Benjamini&
Hochberg,1995)
Le traitement exhaustif n’est sans doute pas la
meilleure idée: un bon échantillonnage est
souvent plus sur.
Data mining et Statistique
Document Microsoft
Word
Il faut vérifier l’utilité de ce que l’on «découvre»:
corrélation n’est pas causalité et promouvoir B
n’entrainera pas forcément des meilleures ventes de
A!
Acceptabilité des méthodes:
prédire et comprendre peuvent ne pas aller de pair
réticences aux boîtes noires
Qualité des données, un enjeu majeur.
Robustesse aux outliers
Données manquantes, fusion de fichiers…
Data mining et Statistique
Découvrir des structures «inattendues» est
une idée trompeuse: on a d’autant plus de
chances de trouver quelque chose
d’intéressant que l’on connaît mieux ses
données
Une démarche complètement automatique
est aussi une idée fallacieuse. L’expertise
et l’intervention du spécialiste sera
toujours nécessaire.
14
Data mining et Statistique
L’idée de découvrir des faits à partir des
données est aussi vieille que la statistique
“Statistics is the science of learning from
data.Statistics is essential for the proper
running of government, central to decision
making in industry,and a core component of
modern educational curricula at all levels”
(J.Kettenring, 1997, ancien président de
l’ASA).
Data mining et Statistique
années 60: Analyse Exploratoire (Tukey)
Benzécri : «L’analyse des données est un
outil pour dégager de la gangue des
données le pur diamant de la véridique
nature.» (J.P.Benzécri 1973)
Les outils de l’ECD
Intégration d’outils de bases de données volumineuses,
d’apprentissage, de statistique, d’analyse des données,...
Commerciaux
SAS Entreprise Miner
SPSS / Clementine
IBM Intelligent Miner
SPAD
STATISTICA Data miner
KXEN / SAP
Universitaire
SIPINA / TANAGRA
dbMiner
Weka
15
Conclusions et perspectives
Data mining : ensemble de méthodes issues de
BD, STAT, IA mais adaptées à la nouvelle nature
des données : volumétrie, incohérence,
incomplète …
Objectif : étayer le processus décisionnel des
entreprises dans le but de consolider leur position
sur un marché mondialisé et de valoriser leurs
produits et services.
Discipline jeune avec des challenges intéressants
mais attention aux accroches publicitaires, boites
noires, automatisation, une connaissance des
méthodes est parfois indispensable.
http://cedric.cnam.fr/~saporta
http://cedric.cnam.fr/~saporta
16
Conclusions et perspectives
Selon le MIT, c’est l’une des
10 technologies émergentes
qui « changeront le monde »
au XXIe siècle.
Confirmation: big data aujourd’hui!
Quelques ouvrages...
Advances in Knowledge Discovery and Data Mining
Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy AAAI Press /
MIT Press (1996)
Le Data Mining LEFEBURE, VENTURI Eyrolles, 1998
Data Mining. Techniques for marketing sales and
customer support BERRY & LINOFF Wiley 1997
Data Mining Adriaans & Zantinge 1996
Graphes d’induction, Apprentissage et Data Mining
Zighed & Rakotomalala Hermes sciences 2000
Data Mining et Scoring, S. Tufféry, ed. Dunod, 2002.
Quelques sites web...
http://www.kdnuggets.com
Site de référence. Liens vers : Logiciels, données, liens, ouvrages…
http://eric.univ-lyon2.fr
Logiciel TANAGRA en ligne et à télécharger, papiers…
http://clubs.yahoo.com/clubs/datamining
Forums de discussion, mailing-list
http://www.cs.bham.ac.uk/~anp/papers.html
Collection d ’articles sur le Data Mining
http://www.web-datamining.net
« Le » portail français, surtout intéressant pour les études de cas
complets
17
http://cedric.cnam.fr/~saporta
18
Téléchargement