Définitions d`Ontologie

publicité
LABORATOIRE
INFORMATIQUE, SIGNAUX ET SYSTÈMES
DE SOPHIA ANTIPOLIS
UMR 6070
M ESURES D ' INTÉRÊT
SUBJECTIF ET REPRÉSENTATION
DES CONNAISSANCES
BRISSON Laurent
Projet EX E CO
Rapport de recherche
ISRN I3S/RR–2004-35–FR
Octobre 2004
L ABORATOIRE I3S: Les Algorithmes / Euclide B – 2000 route des Lucioles – B.P. 121 –
06903 Sophia-Antipolis Cedex, France – Tél. (33) 492 942 701 – Télécopie : (33) 492 942 898
http://www.i3s.unice.fr/I3S/FR/
R ÉSUMÉ :
Ce rapport s ' intéresse à l'utilité des règles découvertes en fouilles de données. Nous présentons plusieurs mesures d'intérêt
subjectif pour évaluer les règles générées. Ensuite, nous abordons le concept déontologie permettant de modéliser les connaissances d'un domaine. Pour finir nous proposons une méthodologie afin que les ontologies puissent aider au processus de fouille
de données.
M OTS CLÉS :
fouille de données, mesures d’intérêt subjectif, ontologie
A BSTRACT:
In this report, we are interested in the interestingness of rules extracted from data. We present several subjective interest
measures in order to evaluate theses rules. Then we speak about the creation of ontology which allow to model knowledge.
Finally we propose a methodology in order to ontologies help in the data mining process.
K EY WORDS :
data mining, subjective interest measures, ontology
Mesures d’intérêt subjectif et
représentation des connaissances
Laurent BRISSON
Etat d’avancement de la thèse
Encadrée par A. Cavarero et M. Collard
Décembre 2003
Table des matières
Table des matières...................................................................................................................... 2
Introduction ................................................................................................................................ 3
I Les mesures d’intérêt subjectif ................................................................................................ 3
1. Définitions.......................................................................................................................... 3
1.1 Utilisable ...................................................................................................................... 3
1.2 Inattendu....................................................................................................................... 4
1.3 Relations entre utilisable et inattendu .......................................................................... 4
2. Méthodes pour trouver des modèles « utilisables » ........................................................... 4
2.1 Les attentes de l’utilisateur........................................................................................... 4
2.2 Identification des règles non utilisables ...................................................................... 5
3. Méthodes pour trouver des modèles inattendus ................................................................. 6
3.1 Différentes définitions.................................................................................................. 6
3.2 Les attentes de l’utilisateur........................................................................................... 6
3.3 Les impressions générales............................................................................................ 7
3.4 Les systèmes de croyances........................................................................................... 7
3.5 KEFIR, un système dédié............................................................................................. 9
II La représentation des connaissances .................................................................................... 10
1. Définitions d’Ontologie.................................................................................................... 10
2. Cycle de vie d’une ontologie............................................................................................ 10
3. Construction d’une ontologie ........................................................................................... 11
3.1 Définitions des objectifs et utilisation de scénarios ................................................... 11
3.2 Collecte des données .................................................................................................. 11
3.3 Etude linguistique et sémantique................................................................................ 12
3.4 Création de concepts .................................................................................................. 13
3.5 Création d’une taxonomie .......................................................................................... 14
3.6 Formalisation.............................................................................................................. 15
4. Les différents langages de formalisation.......................................................................... 15
4.1 Les systèmes symboliques ......................................................................................... 15
4.2 La logique de propositions ......................................................................................... 15
4.3 La logique du premier ordre....................................................................................... 17
4.4 Les Graphes conceptuels............................................................................................ 18
III La représentation des connaissances au service du Data Mining........................................ 20
1. Objectifs ........................................................................................................................... 20
2. Utilisation ......................................................................................................................... 20
3. Comment comparer ces descriptions de connaissances avec les modèles obtenus ?....... 21
Conclusion................................................................................................................................ 22
Bibliographie............................................................................................................................ 23
2
Introduction
Les techniques de data mining, permettent d’extraire à partir de données volumineuses des
connaissances implicites enfouies dans ces données. Les connaissances extraites peuvent
prendre différentes formes ou modèles : description sous forme d’agrégations et de
généralisations, fonctions de régression, règles de classification, règles d’association … Les
modèles découverts sont utilisés, en CRM (Customer Relationship Management), pour
permettre à une compagnie de mieux comprendre la relation avec sa clientèle et mieux gérer
ses ressources. La qualité d’un modèle extrait tient à la fois à son pouvoir prédictif ou
descriptif en termes de fiabilité et précision et à son utilité en termes d'intérêt, nouveauté et
surprise. En ce qui concerne la précision différentes mesures existantes ont été étudiés dans
[20] et nous avons pu constater que, bien que nécessaires, elles n’étaient pas suffisantes pour
exprimer l’intérêt d’un individu qui est très subjectif.
Pour les caisses d'allocations familiales, ce thème de recherche trouve des applications
appropriées par exemple pour extraire des modèles, règles ou motifs séquentiels traduisant le
comportement des allocataires ainsi que leur relation avec leurs interlocuteurs à l'intérieur des
centres. C’est pourquoi ce travail s’oriente d’une part sur l’étude de mesures d’intérêt
subjectif capables d’appréhender l’intérêt des agents des caisses d’allocation familiales, et
d’autre part sur la création d’une ontologie afin de pouvoir modéliser les connaissances des
agents ainsi que la mémoire d’entreprise existante.
Ce rapport est composé de trois parties, la première développe les connaissances actuelles sur
les mesures d’intérêt subjectif, la deuxième les techniques de conception d’ontologies et la
dernière aborde mes objectifs et idées pour intégrer la représentation des connaissances aux
algorithmes traditionnels de data mining.
I Les mesures d’intérêt subjectif
1. Définitions
Les mesures d’intérêt subjectif ont pour vocation de mesurer à quel point un modèle va
intéresser l’utilisateur du système. La difficulté au niveau de la mise au point de ses mesures
est que l’intérêt d’un utilisateur du système varie selon l’activité, l’utilisateur, le domaine et
même le temps. De plus, parfois les utilisateurs ne savent pas eux-mêmes ce qui peut les
intéresser. Il est cependant possible de discerner deux grandes catégories de modèles
intéressants : les modèles qui vont surprendre les utilisateurs, et les modèles utilisables par les
utilisateurs.
1.1 Utilisable
Une règle est intéressante si l’utilisateur peut grâce à elle agir et en tirer un avantage.
L’utilisabilité est une mesure d’intérêt subjective importante car beaucoup d’utilisateurs sont
souvent intéressés par des connaissances leur permettant de mieux faire leur travail grâce à
des actions appropriées. Toutefois ce n’est pas la seule mesure intéressante. [7] [11] [12]
3
1.2 Inattendu
Une règle est intéressante si elle est inattendue ou inconnue de l’utilisateur. Ce concept
d’inattendu se base sur le fait que si une règle surprend l’utilisateur elle sera forcement
intéressante. Ces règles inattendues sont donc intéressantes dans la mesure où elles
contredisent nos « croyances ». [3] [5] [7]
1.3 Relations entre utilisable et inattendu
Selon Silberschatz [12] tous les modèles utilisables sont inattendus, donc seule l’étude de
l’inattendu suffirait à extraire des modèles intéressants. Il est à mon avis dangereux de
généraliser cette affirmation à tous les domaines. Il peut être envisageable que certains
modèles attendus et utilisables soient intéressants car les utilisateurs de part la quantité de
données auraient pu ne pas y porter attention. L’objectif n’est donc pas seulement de montrer
des choses intéressantes car surprenantes mais aussi de mettre en évidence les modèles
intéressants évidents et utilisables qui sont négligés par les utilisateurs.
2. Méthodes pour trouver des modèles « utilisables »
2.1 Les attentes de l’utilisateur
Cette méthode, comme les autres que nous verront par la suite, demande une participation
active de l’utilisateur qui doit exprimer de façon basique une partie de ses connaissances. La
méthode de Liu consiste à extraire le modèles qui vont correspondre aux attentes de
l’utilisateur. Dans cette première phase aucun aspect inattendu ou utilisable est introduit. [7]
a. La technique proposée
L’utilisateur doit fournir un ensemble de règles avec la même syntaxe que les règles générées.
Les règles sont considérées comme des règles floues qui sont définies par des variables floues
définies par : (x,T(x),U,G,M).
X : nom de la variable vitesse
T(x) : ensemble d’expression définissant la variable
U : ensemble de définition de la variable
G : règle syntaxique générant le nom X de la variable pour chaque
valeur
M : règle sémantique associant à X un sens
Un système de logique floue extrait alors les règles qui correspondent aux attentes de
l’utilisateur.
b. L’extraction de règles utilisables
Afin d’extraire les règles utilisables l’utilisateur spécifie dans un premier temps toutes les
actions possibles qu’il puisse effectuer. Par exemple dans le cadre de la sécurité routière un
responsable pourrait envisager les actions suivantes :
ACTION 1 : Inciter la population à rester prudent en conduisant même dans
les zones où la visibilité est bonne.
ACTION 2 : Placer des radars dans les zones à faible visibilité
4
Pour chaque action l’utilisateur spécifie les situations pour lesquelles il pourra effectuer
l’action. Les situations sont représentées par un ensemble de règles floues dans lesquelles les
valeurs des variables sont représentées par une classe (ex : MAUVAISE_VISIBILITE,
RAPIDE, LENT, …). Pour continuer dans le cadre de notre exemple on aurait :
SITUATION POUR ACTION 1 :
SI zone=BONNE_VISIBILITE ALORS blessure=légère
SITUATION POUR ACTION 2 :
SI zone=MAUVAISE_VISIBILITE, vitesse=RAPIDE ALORS blessure=mortelle
Un système de logique floue extrait alors les règles qui correspondent aux situations
envisagées par l’utilisateur :
1. SI age>50, zone=ligne_droite ALORS blessure=légère
2. SI age>50, zone=croisement ALORS blessure=légère
3. SI zone=virage, vitesse>90 ALORS blessure=mortelle
Il est important de remarque que l’utilisateur ne doit pas fournir des situations qu’il pense
possible mais toutes les situations pour lesquelles une action est possible ! Cette technique a
l’avantage de permettre de trouver les règles utilisables mais aussi de déterminer l’action à
entreprendre.
2.2 Identification des règles non utilisables
Liu [3] propose une technique permettant d’éliminer les règles non-utilisables qui ont été
cependant considérées comme « intéressantes » par les différentes méthodes d’élagage (qui
conservent les règles les plus générales et suppriment les règles plus précises et pas très
performantes)
La méthode est objective mais peut être intéressante si elle simplifie la tâche des méthodes
plus subjectives.
Exemple : Nous sommes dans une situation où l’on veut détecter les risques cardiovasculaires (BP représente la tension artérielle) :
Voici les différentes règles générées par un algorithme :
Une interprétation graphique des règles permet de dessiner ce schéma :
5
Si on veut effectuer une action sur R1 il vaut mieux l’effectuer sur R2 ou R3 car une fois les
tuples de ces 2 règles supprimées R1 n’est plus utilisable. Il ne s’agit cependant pas
d’éliminer toutes les règles ayant une faible confiance (les règles générales assez souvent)
mais d’éliminer les règles générales non-intéressantes à la lumière de règles plus précises !
3. Méthodes pour trouver des modèles inattendus
3.1 Différentes définitions
De façon subjective un modèle inattendu est un modèle qui est susceptible de nous
surprendre. Cependant, il est possible de formaliser ce concept de différentes manières.
Liu propose une mesure de « distance » qui se base sur une comparaison syntaxique des
règles et croyances. Pour Silberschatz, une règle est inattendue dans la mesure où elle
perturbe le système de croyances et peut changer le degré de croyance (notion probabiliste).
Enfin, selon Padmanabhan une règle inattendue est en contradiction logique avec une
croyance (selon lui méthode plus simple et opérationnelle).
3.2 Les attentes de l’utilisateur
Cette méthode [7] est similaire à celle utilisée pour déterminer les patterns « utilisable »
décrite en section 0. La nuance se situe au niveau de la fonction de « matching » qui est
remplacée par un moyen d’évaluer le degré de « surprise » de la règle générée.
Liu fait la différence entre conséquence inattendue et cause inattendue. Et pour chacune
d’entre elles il note différemment selon qu’il y est une contradiction entre les attributs ou juste
des attributs identiques aux valeurs différentes.
La principale difficulté réside dans l’expression des connaissances, le format des règles est
simple bien qu’un peu limitatif et sûrement rapidement fastidieux à mettre en place dans un
cas réel.
6
3.3 Les impressions générales
a. Définitions
Selon Liu [6] il existe deux principaux types de concepts :
• Les Impressions générales (GI) : L’utilisateur n’a pas de concept détaillé d’un
domaine mais il a quelques vagues sentiments. Par exemple dans le domaine d’accord
de crédit on pourrait dire que plus les revenus sont importants plus les chances d’accord
sont élevées.
• Les connaissances relativement précises (RPK) : L’utilisateur a une idée très
précise des choses. Si les revenus mensuels sont supérieurs à 5000€ alors le crédit est
toujours accordé.
b. Représentation des impressions générales
Liu n’a étudié les impressions générales que dans le cadre particulier des règles de
classement. Par rapport à la méthode précédente celle-ci met à disposition une plus grande
variété d’opérateurs pour nuancer les différentes expressions. Par exemple :
a < -> C : plus a est petit plus il y a des chances que l’on ait C
a > -> C : plus a est petit plus il y a des chances que l’on ait C
a << -> C : si a est dans la moyenne …
a | -> C : s’il existe une relation …
a [S] -> C : si a appartient à S …
La méthode permettant de repérer les règles inattendues est semblable à celle utilisée pour les
« attentes de l’utilisateur » à quelques différences près dues à la structure des connaissances.
3.4 Les systèmes de croyances
a. Création d’un ensemble de croyances selon Silberschatz [11][12]
L’inattendu est très relié aux croyances d’un individu. Ainsi il est important de mettre au
point un bon système de croyances.
Les croyances sont définies par Silberschatz comme des expressions logiques du premier
ordre auxquelles on associe une « mesure de confiance » ou « degré de croyance ».
On peut classer les croyances en deux catégories :
•
•
Les croyances « fortes » : Quelles que soient les nouvelles connaissances acquises ou
les règles générées les croyances fortes demeurent exactes. Une contraction avec une
croyance forte met en évidence un « bug » ou une corruption des données.
Les croyances « légères » : Ce sont des croyances que l’utilisateur aimerait confirmer
ou voir évoluer selon les connaissances nouvellement acquises
7
Silberschatz propose différentes méthodes pour évaluer le degré de croyance :
•
•
•
Approche Bayésienne : Le degré de croyance est défini comme une probabilité
conditionnelle que la croyance existe étant donné certaines conditions supportant cette
croyance.
Approche de Dempster-Shafer : Le degré de croyance est la somme de toutes les
probabilités des évènements B qui impliquent A
Approche fréquentielle : Pour une croyance a -> b le degré de croyance est le
nombre de tuples satisfaisant a et b sur le nombre de tuples ne satisfait que a.
D’autres approches (cyc, statistiques) ne sont pas valables dans certaines situations, d’autres
comme celle Bayésienne difficiles et contraignantes à mettre en place.
b. Création d’un ensemble de croyances selon Padmanabhan [8][9]
Les croyances s’expriment pour Padmanabhan sous la même forme que les règles générées.
Les croyances doivent respecter un principe de monotonie (le but est d’obtenir des croyances
plus spécifiques).
Les croyances doivent être vérifiées sur un ensemble statistiquement « assez grand ».
c. Le processus de raffinement [8][12]
La découvert de règles inattendues et le raffinement de la connaissance sont deux aspects
importants d’un processus plus global :
Les connaissances que l’on a apriori d’un domaine sont basées sur l’expérience passée et
dans certains cas les conditions ont pu changer et les connaissances doivent être remises en
question !
Au niveau du système de Silberschatz si une règle contredit :
•
Une croyance forte : il y a un problème dans le recueil des données ou alors la règle
est fausse !
•
Une croyance légère : soit nous avons la même situation que dans le cas d’une
croyance forte, soit nous avons un véritable cas inattendu et dans ce cas il est
important de mettre à jour la croyance !
Le principal problème demeure au niveau du classement des deux types de croyances.
8
3.5 KEFIR, un système dédié
Piatetsky-Shapiro a participé à la mise au point de KEFIR, un système dédié à l’analyse du
système de santé Américain (performances, efficacité, gestion des coûts). Cette approche
prend en compte un intérêt subjectif mais les règles de production sont codées en dur et
spécifiques au domaine d’application.
Phase 1 : Mesure de déviations par rapport aux données recueillis ou aux connaissances
préalables.
Phase 2 : Evaluation spécifique au domaine, notamment en terme de coûts.
Phase 3 : Explication générée simplement par décomposition d’une formule, ou analyse des
éléments d’un ensemble.
Phase 4 : Recommandations facilement déductibles à partir d’une base d’actions disponibles
Phase 5 : Rapport Final, système de templates à « trou » ou « variables »
Le coût d’un tel système est important. Cependant les résultats sont plus rapides et
l’évaluation de l’intérêt plus précise.
9
II La représentation des connaissances
1. Définitions d’Ontologie
Le mot « Ontologie » vient du grec ontos pour être et de logos pour univers. C’est un terme
philosophique introduit au XIXème siècle caractériser l’étude des êtres dans notre univers. Le
mot « Ontologie » possède différentes significations et demeure assez ambiguë. Il y a une
quinzaine d’années la communauté de la représentation de la connaissance transforme ce
concept philosophie en objet : « une ontologie ».
Une ontologie peut donc être définie comme un ensemble d’informations dans lequel sont
définis les concepts utilisés dans un langage donné et qui décrit les relations logiques qu'ils
entretiennent entre eux.
Le but des ontologies est donc de définir quelles primitives avec leur sémantique associée
sont nécessaires pour la représentation des connaissances dans un contexte donné [14]. En
maintenant une représentation des notions humainement compréhensible, l’ontologie capture
l’isomorphisme entre le système symbolique et les observations du monde réel.
2. Cycle de vie d’une ontologie
Selon Fernandez [15], lorsqu’une ontologie devient importante le processus de création d’une
ontologie doit être considéré comme un projet à part entière, en conséquence des méthodes de
managements doivent être utilisées.
L’équipe ACACIA de l’INRIA a travaillé sur la création d’ontologies et propose de modéliser
le processus d’évolution d’une ontologie par le diagramme ci-dessous. Ce diagramme
représente la fusion du cycle de vie d’une mémoire corporative avec les propositions de
Fernandez pour la création d’une ontologie. Selon lui, les étapes clés du processus sont : la
planification, la spécification, l’acquisition des connaissances, la conceptualisation, la
formalisation, l’intégration, l’implémentation, l’évaluation et la maintenance.
10
Figure 1 – Cycle de vie d’une ontologie (Source : Rapport n°4396 de l’INRIA)
Il est important de remarquer, qu’appliquée à un domaine en évolution une ontologie est
appelée à évoluer. Ainsi la maintenance d’une ontologie est une tâche vitale car l’ontologie a
pu être utilisée précédemment pour définir des briques de conceptualisation ou
d’implémentation et un changement non averti pourrait rendre caduque tout travail effectué
précédemment.
3. Construction d’une ontologie
3.1 Définitions des objectifs et utilisation de scénarios
Fernandez [15], préconise de ne pas commencer le développement d’une ontologie sans
savoir quels seront ses buts et sa portée. Afin d’identifier objectifs et limitations il est
impératif de savoir pourquoi l’ontologie va être créée et quels seront ses utilisateurs. Une
première importante étape doit donc être la création d’un document qui définit les
spécifications de l’ontologie.
Une technique intéressante est l’utilisation de scénarios identique à ceux déjà utilisés en génie
logiciel. Les scénarios sont un point d’entrée dans le projet car ils sont riches en informations
définissant les problèmes existants et les désirs des utilisateurs d’un système. Ils ont
l’avantage de permettre une communication en langage naturel tout en saisissant la situation
et son contexte, les dépositaires, les problèmes et les solutions avec le vocabulaire qui leur est
associé.
3.2 Collecte des données
La collecte de données est la première étape de la création d’une ontologie. Un des principes
principaux à appliquer est de ne jamais empêcher l’utilisateur de dire ce qu’il sait, mais de
l’encourager à dire les choses d’une manière qui sera facilement exploitable [16].
11
Cette collecte de données s’inscrit dans un processus comprenant les phases suivantes :
-
Préparation
Collecte
Pré-analyse et modélisation informelle
Vérifications
Formalisation et validation
Il existe différentes techniques [15] à utiliser lors l’acquisition de connaissances :
-
Des entretiens informels avec des experts dressant un brouillon des spécifications
requises
L’analyse de texte informelle, pour étudier les principaux concepts et pouvoir
ébaucher une première représentation des connaissances
L’analyse formelle de texte afin d’identifier les différentes structures (définitions,
affirmations, …) et le type de connaissances contenues dans chacune d’elles
(concepts, attributs, valeurs, relations)
Des entretiens structurés avec des experts pour obtenir des connaissances
spécifiques et détaillées sur les concepts, leurs propriétés et leurs relations et
évaluer les modèles mis au point
Lors de cette phase il faut également faire bien attention à repérer les différentes
terminologies ou ontologie existantes (plus ou moins explicitement) afin de les intégrer dans
le modèle en cours de création.
3.3 Etude linguistique et sémantique
Bachimont [14] décompose le processus de modélisation d’une ontologie en trois étapes
correspondant à trois niveaux :
- le niveau sémantique qui décrit la sémantique en langage naturel des concepts
- le niveau ontologique qui les décrit de façon formelle
- le niveau informatique qui spécifie leur utilisation dans ce cadre précis
Durant la collecte des données et la définition des objectifs différents termes sont identifiés,
parfois plusieurs pour un même concept. L’étude de la terminologie est au cœur de
l’ingénierie des connaissances et est en charge de sélectionner des termes candidats et de
fournir une définition consensuelle. Le premier objectif est donc de formaliser le contexte et
établir une terminologie commune à tous. Il faut cependant prendre garde lors de la création
d’un tel corpus, car les choix effectués risquent d’introduire des biais difficiles ensuite à
évaluer.
La normalisation sémantique est le choix d’un contexte de référence correspondant à la tâche
ou au problème qui a motivé la création de l’ontologie. Il est important que ce travail de
normalisation soit effectué conjointement par l’ingénieur des connaissances et les utilisateurs.
Uschold et Gruninger [16] donne quelques lignes à suivre pour la création de définitions :
12
-
Ecrire une définition en langage naturel aussi claire que possible
S’assurer de la consistance avec les termes déjà existants
Indiquer les relations avec les termes couramment utilisés et qui sont similaires à
celui en train d’être défini
Eviter les définitions circulaires
La définition d’un terme doit être nécessaire et suffisante autant que possible
Lors de l’étude des termes existants on peut tomber sur une des situations suivantes :
-
Le terme possède une et une seule définition : le cas idéal, rarement rencontré
Plusieurs termes ont la même définition : ce sont des synonymes, un seul doit être
conservé et les autres mis dans un dictionnaire de synonymes
Un terme a plusieurs définitions : ici le terme est ambigu et les choses se doivent
d’être clarifiées
Pour résoudre ces ambiguïtés plusieurs choix sont possibles :
-
Supprimer l’utilisation d’un terme trop ambigu
Clarifier les idées en définssent chaque concept avec quelques termes techniques
S’il existe plusieurs concepts, ne choisir que celui qui mérite d’être dans
l’ontologie
Choisir un nouveau terme pour chaque concept
3.4 Création de concepts
Durant la phase d’étude terminologique et sémantique, termes et définitions ont été recueillis.
La tâche suivante est de conceptualiser toutes les notions sous-jacentes au vocabulaire utilisé.
Dans [16], les auteurs utilisent la méthode suivante :
- Placer le terme dans une catégorie
- Conserver toutes les traces des décisions prises afin de pouvoir procéder à
d’éventuelles modifications
- Grouper les termes similaires dans les mêmes catégories
- Identifier les références sémantiques entre les catégories
S’ensuit alors le travail de conceptualisation où il est nécessaire de reconsidérer chaque
catégorie afin d’élimer le plus possible les similarités sémantiques entre catégories.
Fernandez [15], a une approche quelque peu différentes car il structure le domaine de
connaissances en verbes et en concepts. Les concepts sont décrit au moyen d’un dictionnaire
de données, de tables d’attributs d’instances, de tables d’attributs de classes, de tables de
constantes et d’arbres de classification des attributs. Les verbes, quant à eux, représentent les
actions possibles dans le domaine et sont généralement associés à un dictionnaire qui va
indiquer les conditions pour que l’action puisse être effectuée.
13
Dans [17] Gomez décrit les différentes activités de conceptualisation et les documents qui y
sont associé :
-
Dictionnaire de données : identifie les concepts du domaine et leur sémantique, les
attributs.
Arbre de classification de concepts : organise les concepts en taxonomie.
Table d’attributs d‘instance : fournit des informations sur les attributs et leur valeur
dans une instance.
Table d’attributs de classe : fournit des informations sur un concept et non ces
instances. Pour chaque concept du dictionnaire une table est crée.
Table de formules : contient des formules spécifiques au domaine pouvant
utilisant différents attributs
Arbre de classification d’attributs
Table des instances
3.5 Création d’une taxonomie
La création d’une taxonomie est une étape importante dans la réalisation d’une ontologie.
Différentes approches peuvent être envisagées :
- « Bottom-up » : on démarre avec les termes les plus spécifiques et la structure est
construite par généralisation. Cette approche permet de créer des ontologies avec
des concepts très détaillés
- « Top-down » : on démarre avec les termes les plus génériques et la structure est
construite par spécialisation. Cette approche permet de créer des ontologies très
réutilisables car possédant un haut niveau d’abstraction
- « Middle-down » : les concepts centraux sont identifiés puis généralisés et
spécialisés pour compléter la taxonomie. Cette approche permet l’émergence de
thématique et améliore la modularité de la taxonomie.
Une taxonomie est en fait une classification basée sur les similarités. Sa présence est naturelle
au sein de la représentation des connaissances car elle utilise des aptitudes inhérentes à
chaque être humain :
- classement et identification : afin de pouvoir associer un objet à une catégorie
- classification ou clustering : afin de pouvoir créer des catégories à partir de
groupes d’objets
La relation au cœur des taxonomies est la relation de subsomption. Cette relation permet de
bâtir un mécanisme d’héritage dans lequel un objet hérite des caractéristiques d’un autre qui
lui et supérieur dans la hiérarchie. Les taxonomies peuvent être créées avec différentes
structures : arbres, treillis ou graphe à héritage multiple.
Une ontologie ne se définie toutefois pas uniquement par ces concepts mais aussi par les
relations existantes entre ces concepts. Une relation est définie par les concepts qu’elle relie ;
ces concepts sont la signature sémantique de la relation.
14
3.6 Formalisation
Une ontologie peut s’exprimer selon plusieurs degrés de formalisation allant des définitions
les plus informelles en langage naturel aux expressions écrites en logique du premier ordre
devant respecter une syntaxe et sémantique très stricte. Le degré de formalisation de
l’ontologie va dépendre principalement des besoins. On peut considérer les quatre degrés
suivants :
- très informel : exprimé en langage naturel
- semi-informel : exprimé dans une forme restreinte et structurée du langage naturel
- semi-formel : exprimé dans un langage artificiel défini formellement
- rigoureusement formel : défini en termes utilisant une sémantique formelle,
théorèmes et preuves
Il est à retenir que les ontologies ont à être compréhensible à la fois par les humaines et les
ordinateurs [18]. Pour obtenir un bon équilibre entre la précision technique et la
compréhensibilité il est important pour chaque définition technique de conserver une
description informelle de la définition. Enfin, comme l’ontologie devra être exploitée par un
ordinateur, il est nécessaire qu’elle soit calculable. Et pour cela, il est nécessaire de
l’implémenter dans un langage formel.
4. Les différents langages de formalisation
4.1 Les systèmes symboliques
Les systèmes symboliques sont des ensembles de symboles, états initiaux et règles de
transformations permettant de créer de nouveaux états dans un système. Un système
symbolique seul n’a en lui-même aucun intérêt à moins qu’on lui donne une interprétation,
c’est à dire que l’on trouve l’isomorphisme entre les états et les règles du système et le modèle
et les inférences du domaine. Un système symbolique peut être formellement valide sans
aucune interprétation mais il nécessite une interprétation pour être réellement valide.
Les systèmes symboliques ne sont donc pas suffisant pour être utilisé en tant que langage de
formalisation d’une ontologie ; il est nécessaire d’avoir un moyen d’exprimer la sémantique
du formalisme.
4.2 La logique de propositions
La logique est la base des langages de formalisation. Elle constitue un système symbolique
permettant d’analyser les inférences et fournit une méthode scientifique formelle pour
analyser des idées. La logique la plus simple est la logique de proposition définit sur la figure
2.
15
Figure 2 – Définition de la logique de propositions (Source : Rapport n°4396 de l’INRIA)
Cependant, une logique sans interprétation n’est autre qu’un système symbolique sans aucun
sens qui ne peut être utilisé dans une ontologie. Sur la figure 3 ont peut voir l’interprétation de
la logique de proposition.
Figure 3 – Interprétation de la logique de propositions (Source : Rapport n°4396 de l’INRIA)
Le principal problème que pose la logique de proposition au niveau ontologique est le fait que
les propositions soient des symboles indivisibles et que seules les relations entre propositions
16
sont considérées sans tenir compte de la nature ou la structure de propositions. Il est donc
nécessaire de d’avoir un langage plus expressif permettant de différencier individus et
catégories et représenter des relations entre individus.
4.3 La logique du premier ordre
La logique du premier ordre inclus la logique de propositions et peut être définie de la façon
suivante (cf. figure 4).
Les prédicats et les quantificateurs permettent désormais de différencier les individus des
catégories et d’exprimer des relations entre individus. La figure 5 donne un aperçu de
l’interprétation de la logique du premier ordre. Cette logique est beaucoup plus expressive que
la logique de propositions cependant certaines choses ne peuvent toujours pas être exprimées
(notamment les propriétés des relations) et cette logique est semi-décidable, c’est à dire qu’il
n’existe pas d’algorithme capable de prouver en un temps fini si une expression est
démontrable.
D’autres langages de formalisation ont donc fait le choix de réduire leur expressivité afin de
pouvoir exprimer les choses réellement utiles dans le cadre des ontologies. Un d’entre eux est
examiné dans la section suivante.
Figure 4 – Définition de la logique du premier ordre (Source : Rapport n°4396 de l’INRIA)
17
Figure 5 – Interprétation de la logique du premier ordre (Source : Rapport n°4396 de l’INRIA)
4.4 Les Graphes conceptuels
Les graphes conceptuels ont été conçus en s’inspirant des graphes existentiels de Charles
Sanders Peirce et des réseaux sémantiques utilisés en intelligence artificielle. Leur but est
d’exprimer des connaissances sous une forme logique précise compréhensible par des
humains et adapté à un traitement automatisé. Facilement interprétables en langage naturel,
les graphes conceptuels peuvent servir d’intermédiaire pour traduire différents formalismes.
Leur aspect graphique permet, quant à lui, une lecture facile des connaissances tout en
assurant un cadre formel.
- Les graphes existentiels et les réseaux sémantiques
Peirce a développé un système de diagrammes appelés graphes existentiels, qui représentent
les relations structures élémentaires dans un phénomène. Les graphes existentiels représentent
donc des relations incluant les relations entre un ensemble de prémisse et une conclusion. Ils
sont utiles pour vérifier quelles conclusions sont garanties par les prémisses. Ce système a été
à l’origine conçu par Peirce pour résoudre de complexes problèmes de logique.
L'utilisation des graphes en représentation des connaissances pour l'IA vient de l'idée de
représenter graphiquement des concepts et leurs liens. Le premier outil proposé est le réseau
sémantique introduit en 1968 par Quillian. Son modèle de réseau avait pour ambition de
constituer un modèle de la mémoire humaine. Par ailleurs, les graphes sont souvent utilisés
pour abstraire les informations pertinentes et se concentrer seulement sur la topologie d'un
problème, le graphe constituant un espace du problème. [19]
18
- Définition des graphes conceptuels
Un graphe conceptuel est graphe orienté bipartite. Il possède deux types de nœuds différents :
les nœuds conceptuels et les nœuds relationnels. Chaque arc relie deux nœuds de type
différent. Certains nœuds conceptuels peuvent ne pas être reliés. Les concepts et relations
possèdent tous deux un type et les relations ont une valence représentant le nombre de
concepts qui leurs sont reliés. On appelle signature d’une relation la liste des types des
concepts liés à la relation. Deux relations du même type auront nécessairement la même
signature. Les types sont organisés en hiérarchies structurées par une relation de
subsomption.
- Les différentes notations
Les graphes conceptuels sont définis par une syntaxe abstraite, indépendante de toute
notation, mais ce formalisme peut être représenté au moyen de différentes notations concrètes.
Un graphe conceptuel peut être représenté sous forme graphique appelée DF (pour Display
Form en anglais), sous forme du format d’échange CGIF (Conceptual Graph Interchange
Form) ou sous forme linéaire LF (Linear Form). Chaque graphe conceptuel possède
également une représentation équivalente en logique des prédicats grâce aux format
d’échange de connaissances KIF (Knowledge Interchange Format).
Exemple : Every cat is on a mat
Dans le format DF, les rectangles représentent les concepts et les cercles les relations. Le
format linéaire LF, permet d’écrire :
[Cat: ∀]->(On)->[Mat].
Etant donné que le format CGIF s’exprime avec un sous-ensemble d’unicode on ne peut
utiliser le symbole ∀ qui est remplacé par @every :
[Cat: @every*x] [Mat: *y] (On ?x ?y)
ou encore :
(On [Cat: @every] [Mat])
La formule équivalente au format KIF s’écrit :
forall ((?x Cat)) (exists ((?y Mat)) (On ?x ?y)))
Le graphe conceptuel peut également être représenté sous forme de prédicats :
(∀x:Cat)( ∀y:Mat)on(x,y).
19
III La représentation des connaissances au service du Data
Mining
1. Objectifs
Pour les caisses d’allocations familiales, ce thème de recherche trouve des applications
appropriées par exemple pour extraire des modèles traduisant le comportement des
allocataires ainsi que leur relation avec leurs interlocuteurs à l’intérieur des centres. Dans le
cadre du SID de nombreuses données sur les allocataires et les différents contacts ont été
collectés. On peut donc envisager la mise au point de différents modèles visant à améliorer la
prise de contact, la pertinence des informations transmises aux allocataires, la vitesse de
traitement des dossiers, la satisfaction des clients ou même à diminuer les coûts de traitement.
Cependant, il est impératif qu’un dialogue avec un expert du domaine soit instauré afin de
déterminer les objectifs les plus importants pour les CAF et pour lesquels il serait facilement
possible de valider les résultats. De plus, il pourrait être intéressant de définir ces objectifs en
fonction des différents utilisateurs menés à utiliser le système.
Une fois le choix des objectifs effectué il s’agira de développer une ontologie permettant la
représentation de connaissances. Ces connaissances pourront tout aussi bien représenter une
« mémoire d’entreprise » contenant toutes les informations et procédures utilisées dans le
domaine du contact allocataire que les connaissances propres à certains agents et pouvant être
floues ou se contredire. L’ontologie devra également modéliser les différentes actions
possibles par les agents, ainsi que les croyances sur certains modèles acquises par expérience.
Parallèlement au développement de l’ontologie, un travail sur les mesures d’intérêt subjectif
doit être effectué afin de permettre l’émergence de modèles surprenants ou utilisables par les
agents des caisses d’allocations familiales. Dans le cadre d’un outil d’aide à la décision il
faudrait envisager de pouvoir également aider l’utilisateur à estimer des priorités.
Pour finir sur les objectifs, on ne peut oublier de parler des contraintes : une ontologie possède
un cycle de vie et doit être maintenue, pour cela les utilisateurs devront pouvoir simplement la
mettre à jour. Il est alors nécessaire qu’un système de vérification soit intégré afin de s’assurer
que l’ontologie demeure exploitable par des moyens algorithmiques.
2. Utilisation
Les nombreux algorithmes de data mining existants permettront l’élaboration de modèles.
L’ontologie et les mesures d’intérêts subjectives peuvent intervenir de deux façons
différentes :
- en étant intégrés directement dans un algorithme d’extraction de connaissances
- en étant utilisés en filtre pour sélectionner les meilleurs modèles générés par un
algorithme.
Le choix de la méthode dépend bien évidemment de l’algorithme utilisé qui diffère selon la
tâche que l’on effectue. En voici quelques exemples :
20
- Le classement ou classification supervisée
La classification supervisée est une tâche de prédiction de variables catégorielles. Elle
s'effectue en deux étapes : dans la première un modèle décrivant un ensemble de classes ou
concepts est construit en analysant les attributs des exemples de la base de données. Chaque
exemple appartient à une classe spécifique définie par son attribut de classe. L'ensemble des
exemples ayant contribué à la construction du modèle constitue l'ensemble d'apprentissage.
Etant donné que la classe de chaque exemple est fournie, cette phase est également appelée
« apprentissage supervisé ». Dans la deuxième étape le modèle est utilisé pour classer des
exemples appartenant à un ensemble de test différent de l'ensemble d'apprentissage ; la
précision du modèle sur l'ensemble de test pour lequel nous connaissons la classe de chacun
des exemples est évaluée. Les structures les plus couramment utilisés sont les arbres de
décision.
- La classification non supervisée :
A la différence de la classification supervisée, la classification non-supervisée (ou encore
clustering) traite un ensemble d'exemples dont l'appartenance à une classe est inconnue. Son
rôle est de regrouper les exemples en classes, groupes dans lesquels les exemples sont très
similaires mais entre lesquels ces exemples sont très différents. La classification non
supervisée doit donc découvrir les classes implicitement définies dans les données ; le concept
de similarité revêt ici une importance capitale.
- La recherche d'associations :
Cette autre tâche que peut accomplir la fouille de données a pour but de trouver
d'intéressantes associations ou corrélations entre les attributs d'un ensemble de données. A la
différence de la tâche de classification le conséquent d'une règle d'association peut contenir
plusieurs attributs, et tous les attributs peuvent être présents dans les prémisses. En ce sens,
les règles d'association sont symétriques et celles de classification asymétriques.
3. Comment comparer ces descriptions de connaissances avec les modèles obtenus ?
Les mesures d’intérêt subjectif vont devoir s’adapter à l’algorithme utilisé, différent selon la
tâche à effectuer. Il est donc important d’étudier les différents critères à établir pour comparer
les modèles générés aux connaissances contenues dans l’ontologie. Ces critères de
comparaisons peuvent également être dépendants du type de connaissances considéré
(description d’une action, connaissance du domaine, connaissance à priori d’un modèle). Ces
critères peuvent être des mesures de distances entre structures de connaissances, la présence
de contradictions logiques entre connaissances et modèles ou encore la perturbation que
pourrait engendrer un modèle s’il devait être intégré dans l’ontologie.
Des travaux ont déjà été effectués dans un domaine similaire, cependant ils diffèrent de nos
objectifs car les seules connaissances modélisées étaient les croyances ou les impressions des
utilisateurs sur un modèle particulier (méthode des templates, impressions générales, attentes
des utilisateurs). De plus la représentation des connaissances choisie était de la même forme
que les modèles générés, c'est-à-dire des règles. Bien entendu ce choix se justifie par un
besoin de simplifier la recherche de modèles intéressants mais notre ambition est de réunir
une « mémoire d’entreprise » qui pourrait être utilisable pour différentes tâches (classement,
21
clustering, recherche d’associations) et permettrait
de gagner beaucoup en terme
d’expressivité. Un autre type de solution proposé est celui de Piatesky-Shapiro au travers du
système KEFIR qui est dédié à l’analyse de déviations. Nous pourrions envisager pour notre
projet la création d’un système dédié, cependant à l’inverse du système de santé américain
toutes les données des CAF ne sont pas numériques, un système basé sur les déviations ne
peut donc être utilisé. De plus il serait intéressant que la solution théorique proposée puisse
inclure une démarche data-mining réutilisable pour d’autres types d’applications CRM que la
gestion du contact allocataire.
Conclusion
Ce rapport d’avancement de la thèse avait pour but de justifier l’orientation des travaux de
recherches sur les domaines des mesures d’intérêt subjectif et de la représentation des
connaissances. Les prochaines étapes de travail vont consister d’une part à approfondir les
différentes solutions algorithmiques permettant d’extraire de l’ontologie les connaissances
nécessaires à l’évaluation de l’intérêt des modèles générés et d’autre part à modéliser le
processus du traitement du dossier allocataire afin de préparer le terrain à la création d’une
ontologie. Cette modélisation pourrait notamment s’inspirer des travaux sur la modélisation
de processus effectués par Yves Callejas avec le CNEDI. Une partie importante de la
démarche va donc consister à la mise en place de contacts avec différents partenaires afin
d’établir une meilleure communication sur les travaux existants et permettre un accès
simplifié à la connaissance et l’expérience de l’entreprise sur le contact allocataire.
22
Bibliographie
[1] Charu C. Aggarwal. Human-computer cooperative system for effective high dimensional
clustering. In Knowledge Discovery and Data Mining, pages 221-226, 2001.
[2] Mihael Ankerst, Martin Ester, and Hans-Peter Kriegel. Towards an effective cooperation
of the user and the computer for classification. In Knowledge Discovery and Data Mining,
pages 179-188, 2000.
[3] Yiming Ma. Bing Liu, Wynne Hsu. Identifying non-actionable association rules. In CM
SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2001),
2001.
[4] E. J. Horvitz, J. S. Breese, and M. Henrion. Decision theory in expert systems and
artificial intelligence. International Journal of Approximate Reasoning, 2 :247-302, 1988.
[5] Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri
Verkamo. Finding interesting rules from large sets of discovered association rules. In Nabil R.
Adam, Bharat K. Bhargava, and Yelena Ye- sha, editors, Third International Conference on
Information and Knowledge Management (CIKM'94), pages 401-407. ACM Press, 1994.
[6] Bing Liu, Wynne Hsu, and Shu Chen. Using general impressions to analyze discovered
classification rules. In Knowledge Discovery and Data Mining, pages 31-36, 1997.
[7] Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns
using user expectations. Knowledge and Data Engineering, 11(6) :817-832, 1999.
[8] B. Padmanabhan and A. Tuzhilin. Unexpectedness as a measure of interestingness in
knowledge discovery, 1999.
[9] Balaji Padmanabhan and Alexander Tuzhilin. Small is beautiful : discovering the minimal
set of unexpected patterns. In Knowledge Discovery and Data Mining, pages 54-63, 2000.
[10] G. Piatetsky-Shapiro and C. Matheus. The interestingness of deviations, 1994.
[11] A. Silberschatz and A. Tuzhilin. What makes patterns interesting in knowledge discovery
systems. Ieee Trans. On Knowledge And Data Engineering, 8 :970-974, 1996.
[12] Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness
in knowledge discovery. In Knowledge Discovery and Data Mining, pages 275-281, 1995.
[13] E. Suzuki. Autonomous discovery of reliable exception rules. In Third International
Conference on Knowledge Discovery and Data Mining, pages 259-263, 1997.
[14] Bruno Bachimont. Engagement sémantique et engament ontologique : conception et
réalisation d’ontologies en ingénierie des connaissances in Ingénierie des connaissances,
Evolutions récentes et nouveaux défis, Jean Charlet, Manuel Zacklad, Gilles Kassel, Didier
Bourigault, Eyrolles 2000, ISBN 2-212-09110-9
23
[15] M. Fernandnez, A. Gomez-Perez, and N. Juristo, METHONTOLOGY : From ontological
arts towards ontological engineering. In Proceedings of the AAAI97 Spring Symposium
Series on Ontological Engineering, Stanford, USA, pages 33—40, March 1997
[16] M. Uschold and Gruininger M. Ontologies : Principles, methods and applications.
Knowledge Engineering Review, Vol. 11:2, 93-136, 1996. Also avaible as AIAI-TR-1991
from AIAI, The university of Edinburgh
[17] Gómez-Pérez, A. ; Fernandez, M. ; De Vivente, A. Towards a method to conceptualize
domain ontologies Workshop on ontological engineering. ECAI’96. 1996 Pages 41-51
[18] Riichiro Mizoguchi and Mitsuri Ikeda. Towards ontology engineering In Proceedings of
the Joint 1997 Pasific Asian Conference on Expert Systems / Singapore International
Conference on Intelligent Systems, pp. 259*-266, 1997.
[19] Site web : http://www.limsi.fr/Individu/erika/representations.html
[20] Laurent BRISSON, Etude de mesures d’intérêt, pour modèles extraits par des techniques
de data mining, Mémoire de DEA, Juin 2003.
24
Téléchargement