1 Data Mining - LIPN - Université Paris 13

Téléchargement

Data Mining

5 - JDM & bases de données

Erik Marcadé

[email protected]

Master

MI2 Pro EID

- Université Paris 13

Data mining et Business Intelligence

FDON

KXEN

Confidential

Agenda

Présentation de l’entreprise analytique

■Rappel des concepts

■Segmentation des acteurs data mining

Les standards actuels

■JDM

■PMML

■SQL-MM

Base de données et data mining

KXEN

Confidential

L’entreprise analytique

Predictive

Analytics

Predictive

Analytics

Recommendations

Scoring

Data

Mining

Business

Intelligence

OLAP

Data

QualityQuery/

Report Data

Warehouse

OPTIMIZE

Customer Retention

Product Affinities

Promotions

Demand Planning

Quality Improvement

Employee Utilization

OPTIMIZE



Customer Retention

Customer Retention



Product Affinities

Product Affinities



Promotions

Promotions



Demand Planning

Demand Planning



Quality Improvement

Quality Improvement



Employee Utilization

Employee Utilization

ENABLE

Customer Interaction

Inventory Control

Supply Chain

Management

Quality Measurement

Employee Self

Service

ENABLE



Customer Interaction

Customer Interaction



Inventory Control

Inventory Control



Supply Chain

Supply Chain

Management



Quality Measurement

Quality Measurement



Employee Self

Employee Self

Service

UNDERSTAND

Customer

Satisfaction

Product Revenue

Cost of Goods Sold

HR Turnover

UNDERSTAND



Customer

Customer

Satisfaction



Product Revenue

Product Revenue



Cost of Goods Sold

Cost of Goods Sold



HR Turnover

HR Turnover

Operational

Systems

ERP

ERM

WEB

CRM

Source: Jack Noonan, CEO SPSS, 2002

KXEN

Confidential

Les acteurs du Data Mining (Gartner)

Salford Systems,

Insightful, StatSoft

Niches Freeware

R, Weka

KXEN

Confidential

Les standards

JDM: Java Data Mining

■Pour les Programmeurs Java

■But => “Programmer des applications utilisant le Data Mining”

PMML: Predictive Modeling Markup Language

■Pour les Intégrateurs, éditeurs de logiciels

■But => “Transporter des modèles des environnements de

développement vers des environnements d’exécution”

SQL-MM: SQL MultiMedia extensions

■Pour les Experts SQL

■But => “Faire du in-data base Data Mining”

KXEN

Confidential

JDM: le projet

Qui?

■Consortium

Pour Qui?

■Cible

Comment?

■JCP (Java Community Process)

Quand?

■Dates clefs

Pourquoi?

■Motivations/Objectifs

Quoi?

■Une API Java qui formalise des classes standards

Ou?

■Site de forum discussion java datamining:

■https://datamining.dev.java.net

KXEN

Confidential

Cible

Développeur Java (Septembre 2005: quelques millions)

■Peut créer des applications utilisant l’analyse de données…

■Sans connaissance approfondie de l’analyse de données

Architecte

■Chez un vendeur de logiciel métier (CRM, SCM, …), il peut intégrer des

fonctions de modélisation prédictive

■Chez un vendeur d’outil d’analyse de données, il peut faire appel a de

multiples implémentations d’analyse prédictives

■Chez un grand compte, il peut concevoir des applicateur internes pour

améliorer la performance de l’entreprise

■Dans une communauté ‘open-source’, il peut implémenter une version

gratuite et/mais standard de l’analyse de données

Analyste métier

■Peut explorer la définition de nouvelles applications internes

■Peut demander à développer des chaînes de traitements métiers

utilisant la modélisation prédictive

Étudiant

■Connaissance des standards du marché et de leurs fournisseurs

KXEN

Confidential

JCP (Java Community Process)

Normalise et contractualise comment la communauté

internationale Java fait évoluer le monde Java

JSR (Java Specification Request): C’est un projet de

spécification

■Peut être initiée par n’importe quel développeur Java

■Doit suivre un processus détaillé



Phases: initiation, early draft, public draft, maintenance



Regroupe des experts du domaine



Les phases sont validées par un Executive Committee (EC)

■Produit trois choses:



Un document de spécification (Public Draft)



Un logiciel RI (Reference Implementation)



Un logiciel TCK (Technology Compatibility Kit)

KXEN

Confidential

Consortium

JSR-73

■Oracle (Specification Lead)

■BEA Systems

■Computer Associates

■Fair Isaac Corporation

■Hyperion Solutions

Corporation

■IBM

■KXEN

■SAP AG

■SAS Institute, Inc.

■SPSS

■Strategic Analytics

■Sun Microsystems, Inc.



http://www.jcp.org/en/js

JSR-247

■Oracle (Specification Lead)

■BEA Systems

■Computer Associates

■Corporate Intellect Ltd.

■E.piphany, Inc.

■Fair Isaac Corporation

■Hyperion Solutions

Corporation

■IBM

■KXEN

■SAP AG

■SAS Institute, Inc.

■SPSS

■Strategic Analytics

■Sun Microsystems, Inc.



http://www.jcp.org/en/js

KXEN

Confidential

Dates clefs

JSR-73 (JDM)

■Groupe d’experts: Août 2000

■Première ‘Public Review’: Décembre 2002

■KXEN rejoint le consortium: Mars 2003 et travaille sur la ‘RI’

■Deuxième ‘Public Review’: Mars 2004

■‘Final Release’: Août 2004

■‘Maintenance Release’: Août 2005

■Deux implémentations connues:



Oracle: Septembre 2005



KXEN: Décembre 2005

JSR-247 (JDM 2)

■Groupe d’experts: Juin 2004

KXEN

Confidential

Motivations/Objectifs (1)

Supporte les utilisations novices et expertes du datamining

■La communauté utilisatrice est large (=>Java)

■Les applications peuvent utiliser l’automatisation de certains vendeurs

Interface standard ouverte, Java, multi vendeur

■Procédure de standard (=> JCP)

■Tous les vendeurs majeurs sont représentés

■Diminue le risque d’intégration (pas de verrouillage sur un vendeur)

Ensemble représentatif des fonctions (et algorithmes) les

plus utilisés

Extensible

■Un standard n’est jamais ‘complet’ ou ‘fini’ (=> commence avec les

fonctions de base)

■Les vendeurs doivent pouvoir offrir leurs avantages compétitifs

Conformité des implémentations ‘a la carte’

■Notion de déclaration de capacité (=> ‘capabilities’)

KXEN

Confidential

Motivations/Objectifs (2)

Représentation standard XML

Interface ‘Web Services’

Interopérabilité

Utilise les autres standards (PMML)

■Communications avec les comites PMML, SQL-MM, CWM

Apporter une solution aux problèmes des entreprises

■Valider par des scénarios d’utilisation et des exemples

KXEN

Confidential

Résoudre les problèmes des entreprises

Services financiers



Relation clients: propension d’achat, modèles de réponses, modèles de

durée de vie, …



Risque: probabilité de défaut, probabilité de remboursement anticipé, …

Télécommunications



Relation clients: propension d’achat, modèles de réponses, modèles de

durée de vie, …



Risque: probabilité de défaut, probabilité de remboursement anticipé, …

Grande distribution



Relation clients: propension d’achat, modèles de réponses



Magasins: Profitabilité des magasins, achalandage, …

Santé



Hôpitaux: remplissage des lits, durée d’intervention, …

Sciences de la vie/Biologie



Génétique



Tests cliniques

KXEN

Confidential

Processus d’analyse de données

Les méthodologies les plus connues:

■CRISP-DM

■SEMMA

■DMAIC (phasages Six Sigma)

Les phases que l’on retrouve:

■Préparation des données

■Création des modèles

■Validation des modèles

■Utilisation des modèles

Les architectures des logiciels d’entreprise

■Business Intelligence: ‘Reporting’ et OLAP

■‘Workflow’ et ordonnancement

■Bases et entrepôts de données

Les avances de l’analyse automatisée

■Promesses et limitations

KXEN

Confidential

Conception/Architecture

Et vous, si vous aviez à créer un standard Java pour

faire de l’analyse de données?

10 minutes de créativité…

KXEN

Confidential

Fonctions et algorithmes

Les fonctions du datamining peuvent être classées

selon plusieurs axes:

■Supervisé/non supervisé



Variable cible

■Descriptif/prédictif



Synthèse d’un jeu de données versus prédiction sur de nouveaux jeux de

données

■Transparent/opaque



Arbre de décision versus réseau de neurones

JSR-73 (JDM1), 5 fonctions:

■Classification

■Régression

■Importance des Attributs

■Clustering

■Association

KXEN

Confidential

Construire un modèle

Data

Original

Dataset

Sample,

Transform,

Prepare

Data

Data’

Transformed

Dataset

Build

Model

Build

Settings

JDM 2!!!

JDM

KXEN

Confidential

Appliquer un modèle

JDM

Apply

Model

Apply

Result

Apply

Settings

Data

New

Dataset

(unknown target)

Sample,

Transform,

Prepare

Data

Data’

Transformed

Dataset

JDM 2!!!

Same

Transformations

KXEN

Confidential

Tester un modèle

JDM

Test

Model

Confusion

Matrix

Lift Result

ROC

RSquare

Data

New

Dataset

(known target)

Sample,

Transform,

Prepare

Data

Data’

Transformed

Dataset

JDM 2!!!

Same

Transformations

KXEN

Confidential

Classification

Utilisation:

■Réponses à des campagnes marketing

■Segmentation client basée sur un score

■Analyse de crédit

■Guérison de patients

■…

■90% des utilisations sont dans un cadre binaire, mais JDM n’impose rien

sur ce sujet (binary versus multi-class)

On classifie par rapport a un nombre fixé de catégories

Termes:

■Predictor attribute

■Target attribute

■Case

■Identifier attribute

Algorithmes

■Decision tree

■Naive Bayes

■Support Vector Machine

■Feed Forward Neural Networks

KXEN

Confidential

Une vue sur la classification

Predictor Attributes

...... X

Target

Attribute

Attributes

Cases

Name Income Age . . . . . . .

Response/no-respnse?

1 =Yes, 0 =No

Jones

Smith

Lee

Rogers

30,000

55,000

25,000

50,000

Identifier Attribute

KXEN

Confidential

Régression

Utilisation:

■Prévision financières

■Modélisation de réponses médicales

■Prix des maisons

■Valeur des clients

■Modélisation de l’environnement

Algorithmes

■Decision tree

■Support Vector Machine

■Feed Forward Neural Networks

KXEN

Confidential

Une vue sur la régression

KXEN

Confidential

Importance des attributs

Utilisation:

■Quels sont les attributs qui impactent le plus les prévisions?

■Quels sont les attributs qui expliquent le mieux tel cluster?

■Quels sont les attributs a ne pas prendre pour faire un modèle?

Algorithmes:

■Pas de préconisation

KXEN

Confidential

Une vue sur l’importance des Attributs

Predictor Attribute

Importance

Value

Rank

hhsize 0.191

mstatus 0.182

promo 0.163

… ……

workcls 0.00817

KXEN

Confidential

Clustering

Utilisation:

■Segmentation client

■Analyse des gènes et des protéines

■Groupement de produits (bundles)

■Taxonomies numériques

■Taxonomies de documents

Algorithmes:

■K-Means

KXEN

Confidential

Une vue sur le clustering

AGE

INCOME

KXEN

Confidential

Association

Utilisation:

■Marketing direct: analyse des transactions (le ‘panier’)

■Conception de catalogues

Algorithmes:

■Pas de préconisation

KXEN

Confidential

Une vue sur l’association

Support

(A →B) = P(AB)

Confidence:

(A →B) = P(AB)/P(A)

Rule Length:

number of items in the rule

AB →C

Rule Length = 3

1 →3 :

Support = 2/4 = 50%

Confidence = 2/3 = 66%

3 →1 :

Support = 2/4 = 50%

Confidence = 2/2 = 100%

Transaction ID Purchased Items

1 {1, 2, 3}

2 {1, 4}

3 {1, 3}

4 {2, 5, 6}

KXEN

Confidential

JDM: le contenu

Termes

Architectures

1 / 18 100%

Documents connexes

Stage en Data Mining - Machine Learning Group

titre sur 1 ou 2 lignes maximum

Fiche-UE_CODE_CR_OPT_DM - LIRIS

Glossaire

8INF954 : Forage de données -Data mining

Quelle est la meilleure stratégie de marketing en

Télécharger le programme de la formation

Data/Pattern Analysis

Liste de vocabulaire

Systèmes Artificiels Complexes

Application bancaire du data mining Prédiction du chiffre d`affaires

Introduction au Data Mining

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

1 Data Mining - LIPN - Université Paris 13

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

1 Data Mining - LIPN - Université Paris 13

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib