Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France) Table des matières • Présentation rapide du modèle SaintEtiQ pour le résumé de données • Application à une base de données réelle: marketing bancaire • Méthode d’exploitation des résumés pour la prise de décisions 2 Vue générale du modèle 3 Connaissances du domaine • Permet à l’utilisateur de définir un langage pour la description de ses données • A chaque attribut est affecté une partition linguistique floue Exemple: Partition linguistique pour l’attribut revenu 4 Apprentissage Incrémental Clustering conceptuel incrémental 1. Optimisation locale : Mesure de la qualité de la partition (typicité et contraste) utilisée pour choisir le meilleur opérateur d’apprentissage 2. Mise à jour de la description du contenu intensionnel du résumé 5 Opérateurs d’apprentissage Tuple Candidat z0 z0 affectation z1 z2 z3 z1 z2 z3 z4 z3 création z0 z1 z2 6 Opérateurs d’apprentissage z0 z0 fusion z1 z2 z3 z4 z1 z3 z2 z0 z1 z11 z2 z12 éclatement z0 z11 z12 z2 7 Contenu intensionnel • La description du contenu intensionnel des résumés est, pour chaque attribut, un ensemble flou de descripteurs linguistiques avec leurs supports relatifs Exemple : revenu = <raisonnable/0.9, modeste/0.7> • Un processus de généralisation est possible en se basant sur les connaissances de domaine Exemple : <misérable/0.9, modeste/0.7> <faible/0.8> 8 Application réelle Présentation du jeux de données: • • • • Données marketing du groupe CIC 33700 enregistrements 70 attributs (10 utilisés pour le résumé) 3 à 8 labels définis sur chaque attribut comme connaissance de domaine 9 Comportement dynamique Hiérarchie finale • Temps total d’exécution: 21 minutes • Tuples candidats traités : 55 724 depuis les 33700 tuples originaux • Nombre de feuilles : 14 766 Pour un total de 1,036,800 modalités possibles Dépendant des connaissances de domaine 11 Hiérarchie finale Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés 12 Hiérarchie finale Largeurs moyenne et maximum par niveau de la hiérarchie finale Dépendant des paramètres (stratégie) 13 Méthode d’aide à la décision Vue d’ensemble de la méthode: Résultats de la requête Niveau le plus informatif Liste de résumés SQL Hiérarchie de résumés 14 Information d’un niveau • Probabilité d’un tuple résultat d’être trouvé dans un résumé z: • Entropie de la distribution de probabilité : 15 Méthode d’aide à la décision • Requête d’exemple Q: select CutomerID from DATA where Nombre_de_Libre_Choix_souscrits > 0 • Q retourne 242 identifiant • Information (1-Hl) par niveau de la hiérarchie: 16 Méthode d’aide à la décision • liste des résumés de niveau 6 : • 512 résumés au niveau 6 • 60 résumés résultat de la requête • 402 tuples candidats • 2 résumés suffisent à couvrir plus de 50% des tuples candidats de la requête 17 Méthode d’aide à la décision • Contenu intensionnel du résumé R.2.4.2.0.1.0 18 Méthode d’aide à la décision Interface utilisateur du système SaintEtiQ 19 Conclusion Nous avons présenté : • Modèle SaintEtiQ pour la génération de résumés • Une expérimentation sur des données marketing réelles • Une méthode pour l’exploitation des résumés dans une démarche d’aide à la décision Développements : • Mise à jour en ligne des résumés • Optimisation de certaines requêtes flexibles par l’utilisation des résumés 20