1
Data Mining
5 - JDM & bases de données
Erik Marcadé
Master
MI2 Pro EID
- Université Paris 13
Data mining et Business Intelligence
FDON
KXEN
-
Confidential
2
Agenda
Présentation de l’entreprise analytique
Rappel des concepts
Segmentation des acteurs data mining
Les standards actuels
JDM
PMML
SQL-MM
Base de données et data mining
KXEN
-
Confidential
3
L’entreprise analytique
Predictive
Analytics
Predictive
Analytics
Recommendations
Scoring
Data
Mining
Business
Intelligence
OLAP
Data
QualityQuery/
Report Data
Warehouse
OPTIMIZE
Customer Retention
Product Affinities
Promotions
Demand Planning
Quality Improvement
Employee Utilization
OPTIMIZE
OPTIMIZE
Customer Retention
Customer Retention
Product Affinities
Product Affinities
Promotions
Promotions
Demand Planning
Demand Planning
Quality Improvement
Quality Improvement
Employee Utilization
Employee Utilization
ENABLE
Customer Interaction
Inventory Control
Supply Chain
Management
Quality Measurement
Employee Self
Service
ENABLE
ENABLE
Customer Interaction
Customer Interaction
Inventory Control
Inventory Control
Supply Chain
Supply Chain
Management
Management
Quality Measurement
Quality Measurement
Employee Self
Employee Self
Service
Service
UNDERSTAND
Customer
Satisfaction
Product Revenue
Cost of Goods Sold
HR Turnover
UNDERSTAND
UNDERSTAND
Customer
Customer
Satisfaction
Satisfaction
Product Revenue
Product Revenue
Cost of Goods Sold
Cost of Goods Sold
HR Turnover
HR Turnover
Operational
Systems
ERP
ERM
WEB
CRM
Source: Jack Noonan, CEO SPSS, 2002
KXEN
-
Confidential
4
Les acteurs du Data Mining (Gartner)
Salford Systems,
Insightful, StatSoft
Niches Freeware
R, Weka
KXEN
-
Confidential
5
Les standards
JDM: Java Data Mining
Pour les Programmeurs Java
But => “Programmer des applications utilisant le Data Mining”
PMML: Predictive Modeling Markup Language
Pour les Intégrateurs, éditeurs de logiciels
But => “Transporter des modèles des environnements de
développement vers des environnements d’exécution”
SQL-MM: SQL MultiMedia extensions
Pour les Experts SQL
But => “Faire du in-data base Data Mining”
KXEN
-
Confidential
6
JDM: le projet
Qui?
Consortium
Pour Qui?
Cible
Comment?
JCP (Java Community Process)
Quand?
Dates clefs
Pourquoi?
Motivations/Objectifs
Quoi?
Une API Java qui formalise des classes standards
Ou?
Site de forum discussion java datamining:
https://datamining.dev.java.net
2
KXEN
-
Confidential
7
Cible
Développeur Java (Septembre 2005: quelques millions)
Peut créer des applications utilisant l’analyse de données…
Sans connaissance approfondie de l’analyse de données
Architecte
Chez un vendeur de logiciel métier (CRM, SCM, …), il peut intégrer des
fonctions de modélisation prédictive
Chez un vendeur d’outil d’analyse de données, il peut faire appel a de
multiples implémentations d’analyse prédictives
Chez un grand compte, il peut concevoir des applicateur internes pour
améliorer la performance de l’entreprise
Dans une communauté ‘open-source’, il peut implémenter une version
gratuite et/mais standard de l’analyse de données
Analyste métier
Peut explorer la définition de nouvelles applications internes
Peut demander à développer des chaînes de traitements métiers
utilisant la modélisation prédictive
Étudiant
Connaissance des standards du marché et de leurs fournisseurs
KXEN
-
Confidential
8
JCP (Java Community Process)
Normalise et contractualise comment la communauté
internationale Java fait évoluer le monde Java
JSR (Java Specification Request): C’est un projet de
spécification
Peut être initiée par n’importe quel développeur Java
Doit suivre un processus détaillé
Phases: initiation, early draft, public draft, maintenance
Regroupe des experts du domaine
Les phases sont validées par un Executive Committee (EC)
Produit trois choses:
Un document de spécification (Public Draft)
Un logiciel RI (Reference Implementation)
Un logiciel TCK (Technology Compatibility Kit)
KXEN
-
Confidential
9
Consortium
JSR-73
Oracle (Specification Lead)
BEA Systems
Computer Associates
Fair Isaac Corporation
Hyperion Solutions
Corporation
IBM
KXEN
SAP AG
SAS Institute, Inc.
SPSS
Strategic Analytics
Sun Microsystems, Inc.
http://www.jcp.org/en/js
JSR-247
Oracle (Specification Lead)
BEA Systems
Computer Associates
Corporate Intellect Ltd.
E.piphany, Inc.
Fair Isaac Corporation
Hyperion Solutions
Corporation
IBM
KXEN
SAP AG
SAS Institute, Inc.
SPSS
Strategic Analytics
Sun Microsystems, Inc.
http://www.jcp.org/en/js
KXEN
-
Confidential
10
Dates clefs
JSR-73 (JDM)
Groupe d’experts: Août 2000
Première ‘Public Review’: Décembre 2002
KXEN rejoint le consortium: Mars 2003 et travaille sur la ‘RI’
Deuxième ‘Public Review’: Mars 2004
‘Final Release’: Août 2004
‘Maintenance Release’: Août 2005
Deux implémentations connues:
Oracle: Septembre 2005
KXEN: Décembre 2005
JSR-247 (JDM 2)
Groupe d’experts: Juin 2004
KXEN
-
Confidential
11
Motivations/Objectifs (1)
Supporte les utilisations novices et expertes du datamining
La communauté utilisatrice est large (=>Java)
Les applications peuvent utiliser l’automatisation de certains vendeurs
Interface standard ouverte, Java, multi vendeur
Procédure de standard (=> JCP)
Tous les vendeurs majeurs sont représentés
Diminue le risque d’intégration (pas de verrouillage sur un vendeur)
Ensemble représentatif des fonctions (et algorithmes) les
plus utilisés
Extensible
Un standard n’est jamais ‘complet’ ou ‘fini’ (=> commence avec les
fonctions de base)
Les vendeurs doivent pouvoir offrir leurs avantages compétitifs
Conformité des implémentations ‘a la carte’
Notion de déclaration de capacité (=> ‘capabilities’)
KXEN
-
Confidential
12
Motivations/Objectifs (2)
Représentation standard XML
Interface ‘Web Services’
Interopérabilité
Utilise les autres standards (PMML)
Communications avec les comites PMML, SQL-MM, CWM
Apporter une solution aux problèmes des entreprises
Valider par des scénarios d’utilisation et des exemples
3
KXEN
-
Confidential
13
Résoudre les problèmes des entreprises
Services financiers
Relation clients: propension d’achat, modèles de réponses, modèles de
durée de vie, …
Risque: probabilité de défaut, probabilité de remboursement anticipé, …
Télécommunications
Relation clients: propension d’achat, modèles de réponses, modèles de
durée de vie, …
Risque: probabilité de défaut, probabilité de remboursement anticipé, …
Grande distribution
Relation clients: propension d’achat, modèles de réponses
Magasins: Profitabilité des magasins, achalandage, …
Santé
Hôpitaux: remplissage des lits, durée d’intervention, …
Sciences de la vie/Biologie
Génétique
Tests cliniques
KXEN
-
Confidential
14
Processus d’analyse de données
Les méthodologies les plus connues:
CRISP-DM
SEMMA
DMAIC (phasages Six Sigma)
Les phases que l’on retrouve:
Préparation des données
Création des modèles
Validation des modèles
Utilisation des modèles
Les architectures des logiciels d’entreprise
Business Intelligence: ‘Reporting’ et OLAP
‘Workflow’ et ordonnancement
Bases et entrepôts de données
Les avances de l’analyse automatisée
Promesses et limitations
KXEN
-
Confidential
15
Conception/Architecture
Et vous, si vous aviez à créer un standard Java pour
faire de l’analyse de données?
10 minutes de créativité…
KXEN
-
Confidential
16
Fonctions et algorithmes
Les fonctions du datamining peuvent être classées
selon plusieurs axes:
Supervisé/non supervisé
Variable cible
Descriptif/prédictif
Synthèse d’un jeu de données versus prédiction sur de nouveaux jeux de
données
Transparent/opaque
Arbre de décision versus réseau de neurones
JSR-73 (JDM1), 5 fonctions:
Classification
Régression
Importance des Attributs
Clustering
Association
KXEN
-
Confidential
17
Construire un modèle
Data
Original
Dataset
Sample,
Transform,
Prepare
Data
Data’
Transformed
Dataset
Build
Model
Model
Build
Settings
JDM 2!!!
JDM
KXEN
-
Confidential
18
Appliquer un modèle
JDM
Apply
Model
Model
Apply
Result
Apply
Settings
Data
New
Dataset
(unknown target)
Sample,
Transform,
Prepare
Data
Data’
Transformed
Dataset
JDM 2!!!
Same
Transformations
4
KXEN
-
Confidential
19
Tester un modèle
JDM
Test
Model
Model
Confusion
Matrix
Lift Result
ROC
OR
RSquare
Data
New
Dataset
(known target)
Sample,
Transform,
Prepare
Data
Data’
Transformed
Dataset
JDM 2!!!
Same
Transformations
KXEN
-
Confidential
20
Classification
Utilisation:
Réponses à des campagnes marketing
Segmentation client basée sur un score
Analyse de crédit
Guérison de patients
90% des utilisations sont dans un cadre binaire, mais JDM n’impose rien
sur ce sujet (binary versus multi-class)
On classifie par rapport a un nombre fixé de catégories
Termes:
Predictor attribute
Target attribute
Case
Identifier attribute
Algorithmes
Decision tree
Naive Bayes
Support Vector Machine
Feed Forward Neural Networks
KXEN
-
Confidential
21
Une vue sur la classification
Predictor Attributes
X
1
X
2
...... X
m
Y
Target
Attribute
Attributes
Cases
Name Income Age . . . . . . .
Response/no-respnse?
1 =Yes, 0 =No
Jones
Smith
Lee
Rogers
30,000
55,000
25,000
50,000
30
67
23
44
1
1
0
0
Identifier Attribute
KXEN
-
Confidential
22
Régression
Utilisation:
Prévision financières
Modélisation de réponses médicales
Prix des maisons
Valeur des clients
Modélisation de l’environnement
Algorithmes
Decision tree
Support Vector Machine
Feed Forward Neural Networks
KXEN
-
Confidential
23
Une vue sur la régression
KXEN
-
Confidential
24
Importance des attributs
Utilisation:
Quels sont les attributs qui impactent le plus les prévisions?
Quels sont les attributs qui expliquent le mieux tel cluster?
Quels sont les attributs a ne pas prendre pour faire un modèle?
Algorithmes:
Pas de préconisation
5
KXEN
-
Confidential
25
Une vue sur l’importance des Attributs
Predictor Attribute
Importance
Value
Rank
hhsize 0.191
mstatus 0.182
promo 0.163
… …
workcls 0.00817
KXEN
-
Confidential
26
Clustering
Utilisation:
Segmentation client
Analyse des gènes et des protéines
Groupement de produits (bundles)
Taxonomies numériques
Taxonomies de documents
Algorithmes:
K-Means
KXEN
-
Confidential
27
Une vue sur le clustering
C1
C2
AGE
INCOME
KXEN
-
Confidential
28
Association
Utilisation:
Marketing direct: analyse des transactions (le ‘panier’)
Conception de catalogues
Algorithmes:
Pas de préconisation
KXEN
-
Confidential
29
Une vue sur l’association
Support
(A B) = P(AB)
Confidence:
(A B) = P(AB)/P(A)
Rule Length:
number of items in the rule
AB C
Rule Length = 3
1 3 :
Support = 2/4 = 50%
Confidence = 2/3 = 66%
3 1 :
Support = 2/4 = 50%
Confidence = 2/2 = 100%
Transaction ID Purchased Items
1 {1, 2, 3}
2 {1, 4}
3 {1, 3}
4 {2, 5, 6}
KXEN
-
Confidential
30
JDM: le contenu
Termes
Architectures
1 / 18 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !