Data Mining - HEC

publicité
www.pepite.be
[email protected]
28/04/2003
©PEPITe S.A.
Page 1
« Data Mining »
En bref…
Techniques informatiques d’exploration
automatique de données
Extraction de connaissances à partir de
données assistée par ordinateur
Les piliers:
Visualisation d’information
La statistique
L’apprentissage automatique:
• Réseaux de neurones
• Arbres d’induction (décision, régression,..)
L’intelligence artificielle
28/04/2003
©PEPITe S.A.
Page 2
CRISP-DM
28/04/2003
©PEPITe S.A.
Page 4
Statistique
Synthétiser l’information (moyenne, écart-type,
etc.)
Sélection MANUELLE des modèles
Tests d’hypothèses pour valider les choix des
modèles
Mieux adapté pour des petites bases de
données
Méthodes plus complexes demandant une
grande expertise pour une utilisation efficace
28/04/2003
©PEPITe S.A.
Page 5
Visualisation
28/04/2003
©PEPITe S.A.
Page 6
Apprentissage Automatique
Extraction de la Connaissance
Construction de modèles à partir
d’observations (ou de simulations) d’un
système
Dans le but de:
Expliquer le comportement du système
Prédire le comportement du système
Pas d’hypothèses sur les modèles de départ
MAIS, nécessité d’un minimum d’observations
28/04/2003
©PEPITe S.A.
Page 7
IA : Systèmes Experts
Modélisation de la Connaissance
La machine imite le comportement de l’être
humain
Capacité d’apprendre et de raisonner
Capacité de proposer des solutions déduites de
prédicats
Introduction préable des règles (IF…THEN…) et
de faits par l’expert
Outils d’inférence : PROLOG, CLIPS, JESS, LISP,
OPENCYC,…
Gestion d’alarmes, jeux,…
28/04/2003
©PEPITe S.A.
Page 8
Apprentissage Automatique
Supervisé
Entrées Xi : données du débiteur
Sortie Y : solvabilité
Construction du modèle Y = F(X1,…XN)
Diviser la BD en un ensemble d’apprentissage
et un ensemble de test
Apprendre avec EA
Valider quantitativement le modèle avec ET
Valider qualitativement le modèle avec expert
Exploitation du modèle
28/04/2003
©PEPITe S.A.
Page 9
Supervisé
Classement & Régression
Sortie Y continue : régression
Taux de rebuts
Sortie Y discrète : classement
Taux de rebuts acceptable/non acceptable
28/04/2003
©PEPITe S.A.
Page 10
Apprentissage Automatique
Non-Supervisé
Apprendre les relations entre variables
Pas de distinction entre variables d’entrées et
de sorties
Exemple :
Retrouver des journées de productions similaires
Retrouver des corrélations entre attributs (mesures
similaires)
Méthodes :
Dendrogramme, K-MEANS
28/04/2003
©PEPITe S.A.
Page 11
Supervisé
Arbres de Décision
Apprentissage automatique supervisé pour le
classement
Construction
A chaque noeud recherche de la meilleure entrée et
de la bonne question
Séparation du noeud en deux fils en fonction de la
réponse à la question
Arrêt du développement
Utilisation
Propagation d’un nouvel objet dans l’arbre, le noeud
terminal indique la classe de l’objet
28/04/2003
©PEPITe S.A.
Page 12
Arbre de Décision
Construction
Y
Y
28/04/2003
T° > 54°C
N
N
©PEPITe S.A.
Page 13
Atouts des Arbres
Interprétable :
Lecture facile des règles
Plus facile pour la validation qualitative
Sélection des paramètres relevants
Construction très rapide
Différentes variantes :
Arbres de régression (sortie continue)
Arbres flous (sortie continue et discrète)
Ensemble d’arbres
28/04/2003
©PEPITe S.A.
Page 14
Problématique des Données
Qualité:
erreurs d’encodage
bruits
valeurs manquantes
Quantité:
taille minimum requise de la BD imprévisible
(dépend de la complexité du problème)
28/04/2003
©PEPITe S.A.
Page 15
Types de Données
Images
Sons
Données symboliques (grand, petit,
chaud, froid,…)
Données numériques
Données temporelles
28/04/2003
©PEPITe S.A.
Page 16
Méthodes
Régression multivariée
Arbres (régression, classif., flous,…)
Réseaux de neurones
Réseaux baysiens
Analyse Composantes Principales (ACP – PCA)
Machines à support vectoriel
…
28/04/2003
©PEPITe S.A.
Page 17
La Meilleure Méthode ?
Toutes et aucune
Dépend du type de problème
Dépend des besoins
Précision : réseau de neurones
Interprétabilité : arbres de décison
Nécessité de disposer d’une boîte à outils
robuste, flexible et adaptable
28/04/2003
©PEPITe S.A.
Page 18
Manufacturing Industry
1
ERP: planning, scheduling, supply and logistics
2
MES: plant-wide optimization &management
3
Automation, advanced process control,
abnormality management
4
Basic control, rectification, statistical analysis
5
Measurement and sensing, on-line monitoring
28/04/2003
©PEPITe S.A.
Page 19
DATA
EXPERT
PROCESS
KNOWLEDGE
28/04/2003
©PEPITe S.A.
Page 20
Applications en Économie
eCRM analytique :
analyse du comportement des
clients, des interactions & optimisation de métriques de
satisfaction
Détection de fraude
Stratégies de trading
Optimisation de portfolio
Bâle II : mesure et analyse du risque dans le gestion
des fonds propres des banques
28/04/2003
©PEPITe S.A.
Page 21
Links2go
http://www.cwu.edu/~borisk/finance
http://www.aaai.org
http://www.aaai.org/AITopics
http://www.kdnuggets.com
http://www.crisp-dm.org
http://www.montefiore.ulg.ac.be/services/stochastic
28/04/2003
©PEPITe S.A.
Page 22
Slides et logiciel disponibles sur
www.pepite.be
Login : EAA / Mot de passe AA_1000
28/04/2003
©PEPITe S.A.
Page 23
Téléchargement