Construction d`ontologies a partir de texte

publicité
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
09.02.2002
INGÉNIERIE DES CONNAISSANCES
CONSTRUCTION D’ONTOLOGIES À PARTIR DE TEXTES (1)
Outils de traitement automatique des langues
pour la construction d’ontologies à partir de textes
Didier BOURIGAULT
Equipe de Recherche en Syntaxe et Sémantique
CNRS - Université Toulouse le Mirail
et
Groupe « Terminologie et Intelligence Artificielle »
AFIA – GDR I3
[email protected]
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
1
Conclusion
Plan
l
l
l
l
l
l
Introduction et position
Les candidats termes
L’étiquetage morphosyntaxique
L’analyse distributionnelle
L’interface
Conclusion
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
2
1
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Construction d’ontologie à partir de textes
l
Les connaissances sont accessibles dans les textes.
Les connaissances sont produites, transmises essentiellement dans les
textes. Autres sources :
– les spécialistes
– les ressources existantes : ontologies métier, thesaurus, lexiques, dictionnaires
spécialisés, etc.
l
l
Les contextes d’utilisation des ontologies sont (de plus en plus)
des applications de traitement de l’information textuelle
Ex : recherche d’information, filtrage, résumé, classification de documents,
extraction d’information
è L’ontologie doit être construite à partir de textes pour permettre un
meilleur traitement des textes.
Des outils de traitement automatique des langues rendent
réalisable la tâche de construction d’ontologie à partir de textes.
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
3
Conclusion
Le corpus
l
Corpus :
Ensemble de textes que l’ingénieur de la connaissance rassemble pour
élaborer l’ontologie
Type de textes : documentation technique, transcription d’entretiens,
articles scientifiques, ...
Construire le corpus est une tâche délicate…
spécialistes
Ingénieur
de la connaissance
ressources
corpus
Ontologie
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
4
2
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Ontologie, ressource terminologique
l
l
Ressource terminologique (RT) :
une description du vocabulaire utilisé dans un domaine spécialisé,
élaborée pour une application de traitement de l’information
(= une représentation des connaissances du domaine)
Types de RT
–
–
–
–
–
–
–
thesaurus pour système d’indexation automatique
lexique bilingue pour système d’aide à la traduction
lexique sémantique pour système d’extraction d’information
réseau lexical pour système de recherche d’information
index hypertextuel pour documentation électronique
index thématique pour ouvrage « papier »
…
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
5
Conclusion
Postulat : ontologie et point de vue
l
l
l
Soit un « domaine »,
communauté d’acteurs liée à une pratique
il n’existe pas UNE ontologie de ce domaine.
Il y a autant de ressources terminologiques que de type
d’applications.
La construction de la ressource terminologique est guidée
par un point de vue, celui de l’application cible
la sélection des unités (termes, concepts) et le mode de
description (structuration) dépendent de l’application cible.
IC
corpus
Application
Ressource
terminologique
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
6
3
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Outils de traitement automatique des langues (TAL)
l
Ingénierie des connaissances et TAL
L’approche sur corpus n’est possible que parce que des outils et des
méthodes d’analyse de corpus sont disponibles.
l
Outils d’analyse de corpus pour l’aide à la construction de
ressources terminologiques à partir de corpus
Les outils analysent le corpus et proposent, l’ingénieur de la
connaissance dispose et modélise.
groupe « Terminologie et intelligence artificielle » (AFIA, GDR I3)
corpus
Application
IC
Ressource
terminologique
Outils
de TAL
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
7
Conclusion
Outils linguistiques
l
Les outils effectuent des traitements de type linguistique
(vs statistique)
catégorie grammaticale
– nom, verbe, adjectif, …
morphologie
variation morphologique
– genre et nombre pour les noms, les adjectifs
– personne, temps, voie pour les verbes
groupe syntaxique
syntaxe
– syntagme nominal
– syntagme verbal
relation syntaxique
– sujet de verbe, complément de verbe ou de nom, épithète
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
(sémantique)
«‹∞›»
8
4
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Exemple : liste de candidats termes
l
candidats termes (CT)
mot ou suite de mots susceptible d’être retenue comme entrée
(terme, concept) dans une ressource terminologique
Noms
Syntagmes nominaux
connaissance
modèle
système
concept
domaine
problème
méthodes
type
cas
relation
exemple
objets
niveau
tâche
terme
1757
924
839
771
713
561
530
514
513
490
482
467
459
451
436
acquisition des connaissances
base de connaissances
résolution de problème
123
modèle conceptuel
ingénierie des connaissances
point de vue
système d'information
87
modèle d'expertise
représentation des connaissances 53
génie logiciel
candidat terme
structure prédicative
42
gestion des connaissances
méthode de résolution de problèmes
modélisation des connaissances
40
133
128
122
105
98
55
46
46
41
40
corpus : articles du livre IC200 (Charlet et al. 2000)
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
9
Conclusion
Structuration de la liste des candidats termes
l
dépendance syntaxique
Chaque terme complexe se décompose en une Tête et une Exapnsion
ontologie ~
T
---- disponible
---- définie
---- explicite
---- formelle
---- référentielle
---- régionale
---- résultante
---- spécialisée
---- universelle
~ de base de connaissance
E
---- concepteur
---- conception
---- construction
---- maintenance
---- raffinement
---- structure
---- usage
---- validation
---- vérification
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
10
5
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Propositions de liens entre candidats termes
l
relation syntagmatique
exemples :
[Nom Propre] est un [SN]
Un [SN] est un [SN]
LEXTER est un logiciel d'extraction de
terminologie . [Assadi]
LEXTER
logiciel d’extraction de terminologie
MANTEX est un logiciel en cours
d'expérimentation , dont la fonction est de
mettre en évidence dans des textes des
regroupements signicatifs de mots [Frath]
MANTEX
logiciel en cours d’expérimentation
Un GC est un graphe bipartie étiqueté ,
i.e. un graphe utilisant deux types de
noeuds ( sommets ) . [Nobécourt]
graphe conceptuel
Un mécanisme de coordination est un
construit, consistant en un protocole de
coordination et en un artefact [Roche]
mécanisme de coordination
graphe bipartie étiqueté
construit
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
«‹∞›»
An. distributionnelle
Interface
11
Conclusion
Regroupement de candidats termes
l
proximité distributionnelle
Deux termes sont rapprochés s’ils apparaissent dans les mêmes
contextes syntaxiques.
ontologie
taxinomie
contextes
insertion dans ~
classer dans ~
structurer ~
organisation de ~
réaliser ~
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
12
6
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
La première brique : l’étiquetage morphosyntaxique
l
Étiqueteur :
Outil de traitement automatique des langues dont la fonction est
d’attribuer à chaque mot d’un texte une catégorie grammaticale
(nom, verbe, adjectif, …)
En général, les étiqueteurs sont aussi des lemmatiseurs : ils
fournissent le lemme des mots.
– Lemme : forme canonique du mot (infinitif pour le verbe, la forme au
singulier pour le nom, la forme au masculin singulier pour l’adjectif)
l
Pour le français :
Cordial analyseur, Sylex, WinBrill, …
Un éqiqueteur est un outil d’ingénierie linguistique dont la fonction
chaque mot d ’un texte une catégorie morphosyntaxique.
N°
mot
lemme
Catégorie
1
Un
un
DETIMS
2
étiqueteur
étiqueteur
NCMS
3
est
être
VINDP3S
4
un
un
DETIMS
5
outil
outil
NCMS
6
d'
de
PREP
7
ingénierie
ingénierie
NCFS
8
linguistique
linguistique
ADJSIG
Ingénierie
des
connaissances
–
Constructuction
d’ontologies...
9
dont
dont
PRI (D. Bourigault)
10
...
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
est d’associer à
(déterminant)
(nom)
(verbe)
(déterminant)
(nom)
(préposition)
(nom)
(adjectif)
« ‹ relatif)
∞›»
(pronom
An. distributionnelle
Interface
13
Conclusion
Extraction de candidats termes complexes
l
Deux techniques simples et robustes, basée sur la structure
interne des unités
patrons élémentaires
NOM de NOM
NOM ADJ
ADJ NOM
expression maximale
ADJ? NOM [NOM | ADJ | de]+ [NOM | ADJ]
(…) cet outil est un logiciel d’extraction de termes complexes qui (…)
logiciel d’extraction
extraction de termes
termes complexes
logiciel d’extraction de termes complexes
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
14
7
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Extraction de candidats termes complexes
l
Limites : analyse « étroite »
sur-génération, sous-génération, pas de structuration
restrictif quant aux structures
– Prépositions autres que « de », déterminants
– Syntagmes verbaux
l
Nécessité d’une analyse syntaxique « large »
Structure syntaxique des phrases
logiciel d’extraction de termes complexes
logiciel
extraction de termes complexes
extraction
termes complexes
termes
complexes
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
15
Conclusion
Analyse syntaxique
l
identification des relations syntaxiques entre les mots de la
phrase:
–
–
–
–
–
–
l
sujet de verbe
complément d’objet direct de verbe
complément d’objet indirect de verbe
complément de nom
complément d’adjectif
épithète de nom
exercice :
Le petit garçon donne une boite pleine de bonbons à la fraise à sa
sœur.
SUJ
?
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
16
8
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Corrigé
Le petit garçon donne une boite pleine de bonbons à la fraise à sa sœur.
Régi
relation
recteur
petit
épithète de
garçon
garçon
sujet de
donne
boite
complément d’objet de
donne
pleine
épithète de
boite
de bonbons
complément de l’adjectif
pleine
à la fraise
complément du nom
bonbons
à sa sœur
complément d’objet indirect de
donne
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
«‹∞›»
An. distributionnelle
Interface
17
Conclusion
Ambiguïté de rattachement adjectival :
'Nom Prep Nom Adj'
?
Contexte
(1) La discontinuité est marquée par les réfractions d'ondes séismiques.
(2) Il se crée une vague d'érosion remontante qui creuse une gorge.
(3) Se constitue ainsi une plaine de bordure karstique.
Analyses concurrentes
(1)
(2)
(3)
a- réfractions d' [ ondes séismiques ]
b- [ réfractions d' ondes ] séismiques
a- vague d' [ érosion remontante ]
b- [ vague d' érosion ] remontante
a- plaine de [ bordure karstique ]
b- [ plaine de bordure ] karstique
Quelle stratégie de désambiguïsation ?
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
18
9
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Ambiguïté de rattachement prépositionnel :
'Vb Det Nom Adj en Nom'
?
Contexte d'extraction
(4) L'érosion a disséqué le plateau rocheux en chevrons.
(5) On observe une charge importante en trouble dans les rivières
(6) Il faut distinguer les roches pauvres en magnésium.
Analyses concurrentes
(4)
a- disséquer [ le plateau [ rocheux en chevron ] ]
b- disséquer [ [ le plateau rocheux ] en chevron ]
c- [ disséquer [ le plateau rocheux ] ] en chevron
(5)
a- observer [ une charge [ importante en trouble ] ]
b- observer [ [ une charge importante ] en trouble ]
c- [ observer [ une charge importante ] ] en trouble
(6)
a- distinguer [ les roches [ pauvres en magnésium ] ]
b- distinguer [ les roches pauvres ] en magnésium ]
c- [ distinguer [ les roches pauvres ] ] en magnésium
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
19
Conclusion
Comment résoudre les ambiguïtés de rattachement
l
Utiliser des ressources sémantiques externes
Des ressources générales ? WordNet, dictionnaires généraux,
ontologies universelles, …
Non
Des ressources spécialisées : dictionnaires spécialisés, thesaurus,
ontologies métiers, …
Eventuellement
l
S’appuyer sur le corpus : apprentissage endogène
(LEXTER/SYNTEX)
Le système acquiert par lui-même les informations susceptibles de lui
permettre de résoudre les cas d’ambiguïté de rattachement.
Le corpus :
– Objet d’analyse
– Source d’information
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
20
10
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Où est la sémantique ?
Ressources sémantiques
(spécialisées/générales)
Corpus
(d’apprentissage)
ici
pas là
textes...
ici
IC
Outils de
TAL
RT
Système
de TI
pas là
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
21
Conclusion
Analyse distributionnelle
l
l
l
Principe : Z. Harris
Technique :
regrouper les termes qui apparaissent dans des contextes syntaxiques
identiques
concept de « double-clique »
Exemple :
termes
base de connaissance
modèle de l’expertise
ontologie
contextes
élaborer ~
utiliser ~
maintenance de ~
structure de ~
construction de ~
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
22
11
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Exemples de double-cliques
termes
logiciel
méthode
modèle
outil
système
contextes
~ permettre
utiliser ~
utilisation de ~
construction de ~
validation de ~
développement de ~
développer ~
offrir ~
termes
concept
entité
relation
primitive
contextes
définir ~
type de ~
représenter ~
description de ~
modéliser ~
propriété de ~
nombre de ~
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
23
Conclusion
Liste des candidats termes extraits par Lexter
d’un article de Biebow & Szulmann
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
24
12
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
Interface
Conclusion
Liste des candidats termes dont
«modèle conceptuel » est en
expansion
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
Introduction
Candidats termes
Étiq. morphosyntaxique
An. Syntaxique
An. distributionnelle
«‹∞›»
Interface
25
Conclusion
Conclusion
l
l
l
l
Construire les ontologie à partir de textes
C’est une nécessité.
C’est une tâche ardue : le « mur des mots »
Les outils :
Travaillent sur la forme (morphologie, syntaxe), pas le sens
Fonction : construire un ensemble structuré de mots et syntagmes
Il n’y pas de critères statistiques décisifs pour filtrer, mais l’utilisation de
critères numériques permet de guider le travail
Les outils permettent une lecture « efficace » du corpus
C’est l’ingénieur de la connaissance qui analyse et modélise
Compétences en analyse de corpus
Il reste à préciser une méthodologie
Alternance :
– analyse guidée par les résultats des outils d’analyse de corpus (« bottom up »)
– Analyse guidée par les spécification de l’application (« top down »)
Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault)
«‹∞›»
26
13
Téléchargement