LABORATOIRE
INFORMATIQUE, SIGNAUX ET SYSTÈMES
DE SOPHIA ANTIPOLIS
UMR 6070
MESURESD'INRÊTSUBJECTIFETREPRÉSENTATION
DES CONNAISSANCES
BRISSON Laurent
Projet EXECO
Rapport de recherche
ISRN I3S/RR–2004-35–FR
Octobre2004
LABORATOIRE I3S: Les Algorithmes / Euclide B – 2000 route des Lucioles – B.P. 121 –
06903 Sophia-Antipolis Cedex, France – Tél. (33) 492 942 701 – Télécopie : (33) 492 942 898
http://www.i3s.unice.fr/I3S/FR/
RÉSU:
Cerapports'intéresseàl'utilitédesrèglesdécouvertesenfouillesdedonnées. Nousprésentonsplusieursmesuresd'intérêt
subjectifpourévaluerlesrèglesgénérées.Ensuite,nousabordonsleconceptdéontologiepermettantdemodéliserlesconnais-
sancesd'undomaine.Pourfinirnousproposonsuneméthodologieafinquelesontologiespuissentaiderauprocessusdefouille
de données.
MOTS CLÉS :
fouille de données, mesures d’intérêt subjectif, ontologie
ABSTRACT:
In this report, we are interested in the interestingness of rules extracted from data. We present several subjective interest
measures in order to evaluate theses rules. Then we speak about the creation of ontology which allow to model knowledge.
Finally we propose a methodology in order to ontologies help in the data mining process.
KEY WORDS :
data mining, subjective interest measures, ontology
Mesures d’intérêt subjectif et
représentation des connaissances
Laurent BRISSON
Etat d’avancement de la thèse
Encadrée par A. Cavarero et M. Collard
Décembre 2003
Table des matières
Table des matières...................................................................................................................... 2
Introduction ................................................................................................................................ 3
I Les mesures d’intérêt subjectif ................................................................................................ 3
1. Définitions.......................................................................................................................... 3
1.1 Utilisable ...................................................................................................................... 3
1.2 Inattendu....................................................................................................................... 4
1.3 Relations entre utilisable et inattendu .......................................................................... 4
2. Méthodes pour trouver des modèles « utilisables » ........................................................... 4
2.1 Les attentes de l’utilisateur........................................................................................... 4
2.2 Identification des règles non utilisables ...................................................................... 5
3. Méthodes pour trouver des modèles inattendus ................................................................. 6
3.1 Différentes définitions.................................................................................................. 6
3.2 Les attentes de l’utilisateur........................................................................................... 6
3.3 Les impressions générales............................................................................................ 7
3.4 Les systèmes de croyances........................................................................................... 7
3.5 KEFIR, un système dédié............................................................................................. 9
II La représentation des connaissances .................................................................................... 10
1. Définitions d’Ontologie.................................................................................................... 10
2. Cycle de vie d’une ontologie............................................................................................ 10
3. Construction d’une ontologie ........................................................................................... 11
3.1 Définitions des objectifs et utilisation de scénarios ................................................... 11
3.2 Collecte des données .................................................................................................. 11
3.3 Etude linguistique et sémantique................................................................................ 12
3.4 Création de concepts .................................................................................................. 13
3.5 Création d’une taxonomie .......................................................................................... 14
3.6 Formalisation.............................................................................................................. 15
4. Les différents langages de formalisation.......................................................................... 15
4.1 Les systèmes symboliques ......................................................................................... 15
4.2 La logique de propositions ......................................................................................... 15
4.3 La logique du premier ordre....................................................................................... 17
4.4 Les Graphes conceptuels............................................................................................ 18
III La représentation des connaissances au service du Data Mining........................................ 20
1. Objectifs ........................................................................................................................... 20
2. Utilisation ......................................................................................................................... 20
3. Comment comparer ces descriptions de connaissances avec les modèles obtenus ?....... 21
Conclusion................................................................................................................................ 22
Bibliographie............................................................................................................................ 23
2
Introduction
Les techniques de data mining, permettent d’extraire à partir de données volumineuses des
connaissances implicites enfouies dans ces données. Les connaissances extraites peuvent
prendre différentes formes ou modèles : description sous forme d’agrégations et de
généralisations, fonctions de régression, règles de classification, règles d’association … Les
modèles découverts sont utilisés, en CRM (Customer Relationship Management), pour
permettre à une compagnie de mieux comprendre la relation avec sa clientèle et mieux gérer
ses ressources. La qualité d’un modèle extrait tient à la fois à son pouvoir prédictif ou
descriptif en termes de fiabilité et précision et à son utilité en termes d'intérêt, nouveauté et
surprise. En ce qui concerne la précision différentes mesures existantes ont été étudiés dans
[20] et nous avons pu constater que, bien que nécessaires, elles n’étaient pas suffisantes pour
exprimer l’intérêt d’un individu qui est très subjectif.
Pour les caisses d'allocations familiales, ce thème de recherche trouve des applications
appropriées par exemple pour extraire des modèles, règles ou motifs séquentiels traduisant le
comportement des allocataires ainsi que leur relation avec leurs interlocuteurs à l'intérieur des
centres. C’est pourquoi ce travail s’oriente d’une part sur l’étude de mesures d’intérêt
subjectif capables d’appréhender l’intérêt des agents des caisses d’allocation familiales, et
d’autre part sur la création d’une ontologie afin de pouvoir modéliser les connaissances des
agents ainsi que la mémoire d’entreprise existante.
Ce rapport est composé de trois parties, la première développe les connaissances actuelles sur
les mesures d’intérêt subjectif, la deuxième les techniques de conception d’ontologies et la
dernière aborde mes objectifs et idées pour intégrer la représentation des connaissances aux
algorithmes traditionnels de data mining.
I Les mesures d’intérêt subjectif
1. Définitions
Les mesures d’intérêt subjectif ont pour vocation de mesurer à quel point un modèle va
intéresser l’utilisateur du système. La difficulté au niveau de la mise au point de ses mesures
est que l’intérêt d’un utilisateur du système varie selon l’activité, l’utilisateur, le domaine et
même le temps. De plus, parfois les utilisateurs ne savent pas eux-mêmes ce qui peut les
intéresser. Il est cependant possible de discerner deux grandes catégories de modèles
intéressants : les modèles qui vont surprendre les utilisateurs, et les modèles utilisables par les
utilisateurs.
1.1 Utilisable
Une règle est intéressante si l’utilisateur peut grâce à elle agir et en tirer un avantage.
L’utilisabilité est une mesure d’intérêt subjective importante car beaucoup d’utilisateurs sont
souvent intéressés par des connaissances leur permettant de mieux faire leur travail grâce à
des actions appropriées. Toutefois ce n’est pas la seule mesure intéressante. [7] [11] [12]
3
1 / 26 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !