Application à des données marketing bancaires

publicité
Résumé de base de données:
Application à des données marketing bancaires
R. Saint-Paul, G. Raschia and N. Mouaddib
IRIN, Nantes (France)
Table des matières
• Présentation rapide du modèle SaintEtiQ
pour le résumé de données
• Application à une base de données réelle:
marketing bancaire
• Méthode d’exploitation des résumés pour la
prise de décisions
2
Vue générale du modèle
3
Connaissances du domaine
• Permet à l’utilisateur de définir un langage
pour la description de ses données
• A chaque attribut est affecté une partition
linguistique floue
Exemple: Partition linguistique pour l’attribut revenu
4
Apprentissage Incrémental
Clustering conceptuel incrémental
1. Optimisation locale : Mesure de la qualité
de la partition (typicité et contraste) utilisée
pour choisir le meilleur opérateur
d’apprentissage
2. Mise à jour de la description du contenu
intensionnel du résumé
5
Opérateurs d’apprentissage
Tuple Candidat
z0
z0
affectation
z1
z2
z3
z1
z2
z3
z4
z3
création
z0
z1
z2
6
Opérateurs d’apprentissage
z0
z0
fusion
z1
z2
z3
z4
z1
z3
z2
z0
z1
z11
z2
z12
éclatement
z0
z11
z12
z2
7
Contenu intensionnel
• La description du contenu intensionnel des
résumés est, pour chaque attribut, un
ensemble flou de descripteurs linguistiques
avec leurs supports relatifs
Exemple : revenu = <raisonnable/0.9, modeste/0.7>
• Un processus de généralisation est possible en
se basant sur les connaissances de domaine
Exemple : <misérable/0.9, modeste/0.7>
<faible/0.8>
8
Application réelle
Présentation du jeux de données:
•
•
•
•
Données marketing du groupe CIC
33700 enregistrements
70 attributs (10 utilisés pour le résumé)
3 à 8 labels définis sur chaque attribut
comme connaissance de domaine
9
Comportement dynamique
Hiérarchie finale
• Temps total d’exécution: 21 minutes
• Tuples candidats traités : 55 724
depuis les 33700 tuples originaux
• Nombre de feuilles : 14 766
Pour un total de 1,036,800 modalités possibles
Dépendant des connaissances de domaine
11
Hiérarchie finale
Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés
12
Hiérarchie finale
Largeurs moyenne et maximum par niveau de la hiérarchie finale
Dépendant des paramètres (stratégie)
13
Méthode d’aide à la décision
Vue d’ensemble de la méthode:
Résultats de la requête
Niveau le plus informatif
Liste de résumés
SQL
Hiérarchie de résumés
14
Information d’un niveau
• Probabilité d’un tuple résultat d’être trouvé dans un résumé z:
• Entropie de la distribution de probabilité :
15
Méthode d’aide à la décision
• Requête d’exemple Q:
select CutomerID from DATA
where Nombre_de_Libre_Choix_souscrits > 0
• Q retourne 242 identifiant
• Information (1-Hl) par niveau de la hiérarchie:
16
Méthode d’aide à la décision
• liste des résumés de niveau 6 :
• 512 résumés au niveau 6
• 60 résumés résultat de la
requête
• 402 tuples candidats
• 2 résumés suffisent à
couvrir plus de 50% des
tuples candidats de la
requête
17
Méthode d’aide à la décision
• Contenu intensionnel du résumé R.2.4.2.0.1.0
18
Méthode d’aide à la décision
Interface utilisateur du
système SaintEtiQ
19
Conclusion
Nous avons présenté :
• Modèle SaintEtiQ pour la génération de résumés
• Une expérimentation sur des données marketing
réelles
• Une méthode pour l’exploitation des résumés dans
une démarche d’aide à la décision
Développements :
• Mise à jour en ligne des résumés
• Optimisation de certaines requêtes flexibles par
l’utilisation des résumés
20
Téléchargement