1
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »1
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
INGÉNIERIE DES CONNAISSANCES
CONSTRUCTION D’ONTOLOGIES À PARTIR DE TEXTES (1)
Outils de traitement automatique des langues
pour la construction d’ontologies à partir de textes
Didier BOURIGAULT
Equipe de Recherche en Syntaxe et Sémantique
CNRS - Université Toulouse le Mirail
et
Groupe « Terminologie et Intelligence Artificielle »
AFIA – GDR I3
09.02.2002
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »2
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Plan
lIntroduction et position
lLes candidats termes
lL’étiquetage morphosyntaxique
lL’analyse distributionnelle
lL’interface
lConclusion
2
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »3
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Construction d’ontologie à partir de textes
lLes connaissances sont accessibles dans les textes.
Les connaissances sont produites, transmises essentiellement dans les
textes. Autres sources :
les spécialistes
les ressources existantes : ontologies métier, thesaurus, lexiques, dictionnaires
spécialisés, etc.
lLes contextes d’utilisation des ontologies sont (de plus en plus)
des applications de traitement de l’information textuelle
Ex : recherche d’information, filtrage, résumé, classification de documents,
extraction d’information
è L’ontologie doit être construite à partir de textes pour permettre un
meilleur traitement des textes.
lDes outils de traitement automatique des langues rendent
réalisable la tâche de construction d’ontologie à partir de textes.
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »4
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Le corpus
lCorpus :
Ensemble de textes que l’ingénieur de la connaissance rassemble pour
élaborer l’ontologie
Type de textes : documentation technique, transcription d’entretiens,
articles scientifiques, ...
Construire le corpus est une tâche délicate…
corpus
Ingénieur
de la connaissance
Ontologie
ressources
spécialistes
3
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »5
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Ontologie, ressource terminologique
lRessource terminologique (RT) :
une description du vocabulaire utilisé dans un domaine spécialisé,
élaborée pour une application de traitement de l’information
(= une représentation des connaissances du domaine)
lTypes de RT
– thesaurus pour système d’indexation automatique
lexique bilingue pour système d’aide à la traduction
lexique sémantique pour système d’extraction d’information
réseau lexical pour système de recherche d’information
index hypertextuel pour documentation électronique
index thématique pour ouvrage « papier »
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »6
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Postulat : ontologie et point de vue
lSoit un « domaine »,
communauté d’acteurs liée à une pratique
lil n’existe pas UNE ontologie de ce domaine.
Il y a autant de ressources terminologiques que de type
d’applications.
lLa construction de la ressource terminologique est guidée
par un point de vue, celui de l’application cible
la sélection des unités (termes, concepts) et le mode de
description (structuration) dépendent de l’application cible.
corpus
IC
Ressource
terminologique
Application
4
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »7
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Outils de traitement automatique des langues (TAL)
lIngénierie des connaissances et TAL
L’approche sur corpus n’est possible que parce que des outils et des
méthodes d’analyse de corpus sont disponibles.
groupe « Terminologie et intelligence artificielle » (AFIA, GDR I3)
lOutils d’analyse de corpus pour l’aide à la construction de
ressources terminologiques à partir de corpus
Les outils analysent le corpus et proposent, l’ingénieur de la
connaissance dispose et modélise.
Outils
de TAL
corpus
IC
Ressource
terminologique
Application
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »8
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Outils linguistiques
lLes outils effectuent des traitements de type linguistique
(vs statistique)
catégorie grammaticale
nom, verbe, adjectif, …
variation morphologique
genre et nombre pour les noms, les adjectifs
personne, temps, voie pour les verbes
groupe syntaxique
syntagme nominal
syntagme verbal
relation syntaxique
sujet de verbe, complément de verbe ou de nom, épithète
morphologie
syntaxe
(sémantique)
5
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »9
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
lcandidats termes (CT)
mot ou suite de mots susceptible d’être retenue comme entrée
(terme, concept) dans une ressource terminologique
Exemple : liste de candidats termes
connaissance 1757
modèle 924
système 839
concept 771
domaine 713
problème 561
méthodes 530
type 514
cas 513
relation 490
exemple 482
objets 467
niveau 459
tâche 451
terme 436
corpus : articles du livre IC200 (Charlet et al. 2000)
Noms
acquisition des connaissances 133
base de connaissances 128
résolution de problème 123
modèle conceptuel 122
ingénierie des connaissances 105
point de vue 98
système d'information 87
modèle d'expertise 55
représentation des connaissances 53
génie logiciel 46
candidat terme 46
structure prédicative 42
gestion des connaissances 41
méthode de résolution de problèmes 40
modélisation des connaissances 40
Syntagmes nominaux
Ingénierie des connaissances Constructuction d’ontologies... (D. Bourigault) « »10
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion
Structuration de la liste des candidats termes
---- disponible
---- définie
---- explicite
---- formelle
---- référentielle
---- régionale
---- résultante
---- spécialisée
---- universelle
ontologie ~
---- concepteur
---- conception
---- construction
---- maintenance
---- raffinement
---- structure
---- usage
---- validation
---- vérification
~ de base de connaissance
ldépendance syntaxique
Chaque terme complexe se décompose en une Tête et une Exapnsion
T E
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!