DEPARTEMENT D`INFORMATIQUE MEMOIRE Melle Fyad Houda

publicité
DEPARTEMENT D’INFORMATIQUE
MEMOIRE
Présenté par
Melle Fyad Houda
En vue de l’obtention du
DIPLÔME DE MAGISTER
Spécialité Informatique
Option : Informatique et Automatique
Intitulé
Technique de Bio-Mining pour la représentation, la gestion et l’extraction des
informations associées aux séquences d’ADN
Soutenu le
/
/
devant le jury composé de :
Président :
Mr Beldjilali. B
Professeur
Université d’Oran
Examinateur :
Mr Belalem. G
Maître de Conférences
Université d’Oran
Examinateur :
Mr .Senouci .M
Maître de Conférences
Université d’Oran
Rapporteur :
Mr. Bouamrane. K
Maître de Conférences
Université d’Oran
Rapporteur :
Mr. Atmani. B
Maître de Conférences
Université d’Oran
2010-2011
Dédicaces
mes très chers parents qui ont toujours été là pour moi, et qui
m'ont donné un magnifique modèle de labeur et de
persévérance. J'espère qu'ils trouveront dans ce travail toute ma
reconnaissance et tout mon amour.
mon cher frère Samir Mounir.
tous mes ami(e)s je les remercie pour leur dévouement et leur
amitié sans faille.
Remerciements
Au terme de ce travail, qu’il me soit permis d’exprimer mes plus vifs remerciements à :
Mr Bouamrane K. Maître de Conférences et Chef du Département d’Informatique à
l’Université d’Oran pour avoir accepté de diriger ce travail et avoir bien voulu y consacrer son
temps. Ses conseils, sa disponibilité et sa précieuse aide qui m’ont guidé tout le long de la
conduite de cette étude.
Mr Atmani B. Maître de Conférences à l’Université d’Oran pour avoir accepté également de
m’encadrer. Ses orientations, ses précieux conseils m’ont permis d’avancer dans mes
recherches.
Mr Beldjilali B. Professeur à l’Université d’Oran pour m’avoir accueilli dans son équipe
Informatique & Automatique et pour m’avoir fait l’honneur de présider ce jury. Qu’il trouve
ici l’expression de mon profond respect.
Mr Belalem G. Maître de Conférences à l’Université d’Oran pour avoir accepté d’examiner ce
travail, qu’il trouve ici l’expression de ma reconnaissance.
Mr Senouci M. Maître de Conférences à l’Université d’Oran pour avoir accepté de juger ce
travail, qu’il trouve ici le témoignage de ma reconnaissance.
Je tiens à remercier aussi toutes les personnes qui ont contribué de près ou de loin à la
réalisation de ce travail.
Liste des figures
Figure 1.1 Architecture type d’un système d’E.C.D
10
Figure 1.2 Chaîne de traitement dans un processus E.C.T
11
Figure 2.1 Composants des ontologies
28
Figure 2.2 Classification des ontologies selon l’objet à modéliser
30
Figure 2.3 Typologie des ontologies selon le type de connaissances à modéliser
31
Figure 3.1 Cycle de vie des ontologies
55
Figure 4.1 Schématisation de l’approche
58
Figure 4.2 Exemple d’une entrée de fiche d’ESTs
61
Figure 4.3 Processus d’apprentissage et d’extraction de K.E.A
68
Figure 4.4 Extrait du résultat obtenu pour 100 fiches d’ESTs (Phase de test).
77
Figure 4.5 Format des données manipulées
81
Figure 4.6 Importation du fichier CH.arff sous TANAGRA
82
Figure 4.7 Chargement des données sous TANAGRA
82
Figure 4.8 Définition des données sous TANAGRA
83
Figure 4.9 Définition de la méthode du Clustering sous TANAGRA
84
Figure 4.10 Nombres de clusters construits par la méthode du Clustering
84
Figure 4.11 Résultat du Clustering
85
Figure 4.12 Résultat des corrélations du Clustering
86
Figure 4.13 Résultat de la variation des clusters
87
Figure 4.14 Résultat du dendrogramme
88
Figure 4.15 Ontologie « Etapes du cycle cellulaire des champignons »
95
Figure 4.16 Ontologie « Tissus cellulaire des champignons »
98
Figure 4.17 Ontologie « Caractéristiques des souches des champignons »
100
Figure 4.18 Ontologie « Conditions de culture des champignons »
103
Figure 4.19 Architecture générale de l’application
108
Figure 4.20 Cas d’utilisation de tous les utilisateurs
110
Figure 4.21 Cas d’utilisation de l’expert du domaine
110
Figure 4.22 Cas d’utilisation de l’administrateur
111
Figure 4.23 Architecture du module consultation
112
Figure 4.25 Architecture du module exploitation
113
Figure 4.26 Architecture du module enrichissement
113
Figure 4.24 Diagramme de séquence de la recherche d’information par mots-clés
114
Figure 4.27 Diagramme de séquence de la mise à jour de l’ontologie via la BDD
114
Figure 5.1 Interface principale de l’application
120
Figure 5.2 Menu Fichier
121
Figure 5.3 Menu Recherche
121
Figure 5.4 Menu Mise à jour
122
Figure 5.5 Interface de l’ontologie biologique du domaine
123
Figure 5.6 Interface de la recherche par mots-clés
124
Figure 5.7 Prétraitement des fiches d’ESTs
125
Figure 5.8 Calcul de TF*IDF des termes des fiches d’ESTs
126
Figure 5.9 Résultat du clustering des termes des fiches d’ESTs
126
Figure 5.10 Connexion à la base de données
127
Figure 5.11 Mise à jour dite « locale » de l’ontologie biologique du domaine
128
Figure 5.12 Ajout d’un concept de l’ontologie « Cellular cycle steps.OBO »
129
Figure 5.13 La table ontologie avant la mise à jour
129
Figure 5.14 La table ontologie avant et après la mise à jour (au niveau d’EasyPHP)
130
Figure 5.15 La table ontologie après la mise à jour
130
Figure A.1 Cycle de vie de N.crassa
146
Figure A.2 Cycle de vie de P.anserina
147
Figure B.1 Procédé d’obtention des ESTs
151
Figure D.1 Résultats de l’extraction automatique des deux métriques pour un échantillon
157
d’apprentissage =500 fiches d’ESTs (Neurospora crassa)
Figure D.2 Résultats de l’extraction automatique des deux métriques pour un échantillon
158
d’apprentissage =1 000 fiches d’ESTs (Neurospora crassa)
Figure D.3 Résultats de l’extraction automatique des deux métriques pour un échantillon
159
d’apprentissage =5 000 fiches d’ESTs (Neurospora crassa)
Figure D.4 Résultats de l’extraction automatique des deux métriques pour un échantillon
160
d’apprentissage =10 000 fiches d’ESTs (Neurospora crassa)
Figure D.5 Résultats de l’extraction automatique des deux métriques pour un échantillon
161
d’apprentissage =50 000 fiches d’ESTs (Neurospora crassa)
Figure D.6 Résultats de l’extraction automatique des deux métriques pour un échantillon
d’apprentissage =100 000 fiches d’ESTs (Neurospora crassa)
162
Liste des tableaux
Tableau 3.1 Méthodes et Méthodologies de l’ingénierie ontologique
43
Tableau 4.1 Détail des informations expérimentales de P.anserina
63
Tableau 4.2 Détail des informations expérimentales de N.crassa (1/4)
64
Tableau 4.3 Détail des informations expérimentales de N.crassa (2/4)
65
Tableau 4.4 Détail des informations expérimentales de N.crassa (3/4)
66
Tableau 4.5 Détail des informations expérimentales de N.crassa (4/4)
67
Tableau 4.6 Résultats de l’extraction manuelle des termes (aspect morphologique)
70
Tableau 4.7 Résultats de l’extraction manuelle des termes (aspect expérimental)
71
Tableau 4.8 Résultat de la construction du modèle pour la métrique TF*IDF
75
Tableau 4.9 Résultat de la construction du modèle pour la métrique
76
Première occurrence
Tableau 4.10
L’effet de la taille de l’échantillon test sur le corpus global
Tableau 4.11 Trois exemples d'extraction de termes avec l'outil KEA pour trois expériences
78
79
(colonne 2) complétée par le biologiste (colonne 3)
Tableau 4.12
Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des
92
champignons ». (1/3)
Tableau 4.13
Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des
93
champignons ». (2/3)
Tableau 4.14
Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des
94
champignons ». (3/3)
Tableau 4.15 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des
96
champignons ». (1/2)
Tableau 4.16 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des
champignons ». (2/2)
97
Tableau 4.17 Classes et hiérarchie des classes de l’ontologie « Caractéristiques des souches des
99
champignons »
Tableau 4.18
Classes et hiérarchie des classes de l’ontologie « conditions de culture des
101
champignons » (1/2)
Tableau 4.19
Classes et hiérarchie des classes de l’ontologie « conditions de culture des
102
champignons » (1/2)
Tableau 4.20 Propriétés des classes de l’ontologie
104
Tableau 4.21 Relations des classes de l’ontologie
104
Tableau 4.22 Instances des classes de l’ontologie
105
Tableau A.1 Comparaison entre N.crassa et P.anserina
149
Tableau B.1 dbEST - Nombre d'EST par organisme
154
Résumé
Un des problèmes majeurs rencontré par les biologistes, est l’extraction et
l’exploitation des données qui les intéressent à travers les multiples ressources disponibles sur
le Web. Ce problème n’est pas simple en raison de la multiplicité des ressources,
l’hétérogénéité et la variabilité des formats, les mises à jour inégales, la redondance des
nomenclatures, etc. Par conséquent, un recours à la fouille de données pour l’extraction de
données particulières apporterait une solution à ce problème.
Ainsi, la fouille de données ou plus particulièrement la fouille de textes dans notre cas
d’application, est un domaine de recherche qui vise à résoudre les problèmes de surcharge
d’informations et à faciliter la découverte de connaissances cachées dans les documents. En
effet, la plupart des informations exploitées par les biologistes sont sous forme textuelle et
écrites en langage naturel à partir desquelles il s’agit d’extraire les éléments susceptibles de
constituer des connaissances pertinentes de telle sorte qu'un biologiste puisse obtenir des
réponses claires à une requête spécifique. Traditionnellement, deux approches permettent une
telle extraction :
w L’approche linguistique basée sur la définition de patrons lexico-syntaxiques.
w L’approche statistique basée sur la découverte des termes-clés.
Dans le contexte de notre application qui vise à exploiter les informations en langage
naturel associées à des données biologiques de séquences biologiques, les ESTs (Expressed
Sequence Tags), nous avons utilisé un extracteur de termes-clés, basé sur des principes
statistiques appelé Automatic Keyphrase Extraction (K.E.A). Ensuite, nous avons construit
quatre ontologies à partir de termes extraits afin de représenter les connaissances associées
aux séquences issues des deux champignons modèles Neurospora crassa et Podospora
anserina. Enfin, avec l’utilisation du clustering, nous montrons comment les termes des
ontologies obtenues peuvent être exploités pour l’évaluation du niveau d’expression des
gènes.
Mots clés : fouilles de textes, ontologie, corpus de textes, extraction
terminologique, champignons modèles, Neurospora crassa, Podospora anserina,
Expressed Sequence Tags (EST), clustering.
Abstract
A major problem faced by biologists, is the extraction and exploitation of data of
interest across multiple resources available on the Web. This problem is not simple because of
the multiplicity of resources, heterogeneity and variability of formats, unequal updates and
redundancy of classifications, etc. Therefore, we consider that use of data mining to extract
specific data would provide a solution to this problem.
Thus, data mining, or more specifically the text mining application in our case, is an
area research that aims to solve problems of information overload and facilitate the discovery
of hidden knowledge in documents. Indeed, most information used by biologists are written in
text form and natural language from which it is to extract information that may be relevant
knowledge so that a biologist can get clear answers to a specific request. Traditionally, two
approaches allow such extraction:
w The linguistic approach based on the definition of lexico-syntactic patterns.
w The statistical approach based on the discovery of key terms.
In the context of our application that aims to exploit the information in natural
language associated with biological data of biological sequences, the ESTs (Expressed
Sequence Tags), we used an extractor key terms based on statistical principles called
Automatic Keyphrase Extraction (KEA). Next, we constructed four ontologies from terms
extracted to represent the knowledge associated with sequences from the two fungi models
Neurospora crassa and Podospora anserina. Finally, with the use of clustering, we show how
the terms of ontologies obtained can be used to evaluate the level of gene expression.
Keywords: text mining, ontology, texts, terminology extraction, fungi models,
Neurospora crassa, Podospora anserina, Expressed Sequence Tags (EST) clustering.
Sommaire
Introduction générale
1
Partie 1. Etat de l’art
Chapitre 1. L’Extraction de Connaissances à partir de Textes
1. Introduction
2. Extraction de Connaissances à partir de Données (ECD)
2.1. Généralités
2.2. Architecture d’un système type d’ECD
2.3. Fouille de données (FDD)
3. De la fouille de données à la fouille de textes
3.1. Processus d’Extraction de Connaissances à partir de Textes (ECT)
3.2. Acquisition itérative et incrémentale des connaissances
3.3. Fouille de textes (FDT).
4. Domaine d’application : La biologie
4.1. Difficultés récurrentes des textes en biologie
4.2. Méthodes de FDT pour la biologie.
4.3. Quelques outils de FDT pour la biologie
5. Conclusion
8
8
8
9
10
11
11
12
13
16
16
20
23
24
Chapitre 2. Les ontologies
1. Introduction
2. Définitions des ontologies
2.1. Du point de vue de la Métaphysique
2.2. Du point de vue de l’ingénierie des connaissances
3. Composants de l’ontologie
4. Typologies d’ontologie
4.1. Typologie selon le degré de formalisme
4.2. Typologie selon l’objet à modéliser
4.3. Typologie selon le degré de granularité
4.4. Typologie selon le type de connaissances à modéliser
5. Représentation des ontologies
6. Utilité des ontologies en ingénierie des connaissances
7. Exemples de ressources ontologiques dans le domaine de la biologie
7.1. Ontologies biologiques et bio-informatiques
7.2. Ontologies des champignons
7.3. Ontologies associées aux expérimentations
8. Conclusion
26
26
26
27
28
29
29
30
31
31
33
34
36
36
37
38
39
Chapitre 3. La conception d’ontologies à partir de corpus de
textes
1. Introduction
2. Méthodes et méthodologie de construction des ontologies
2.1. Construction d’Ontologie à partir de zéro
2.2. Construction d’Ontologie par réutilisation
2.3. Construction collaborative
3. Construction d’ontologies à partir de corpus de textes
3.1. Constitution d'un corpus
3.2. Extraction de termes
3.3. Extraction de relations
3.4. Nécessité de l’intervention humaine pour la construction d’ontologie
4. Rôle des statistiques textuelles pour la construction d’ontologie
5. Rôle des grammaires rationnelles pour la construction d’ontologie
6. Editeurs d’ontologies
6.1. Les outils orientés ontologisation
6.2. Les outils orientés conceptualisation
7. Cycle de vie des ontologies
8. Conclusion
42
42
43
44
44
44
45
46
47
48
49
50
53
53
54
55
56
Partie 2. Conception et mise en œuvre
Chapitre 4. La conception
1. Introduction
2. Expérimentation
2.1. Collecte des données
2.2. Structure des données d’expression : Les ESTs
2.3. Extraction des termes candidats
2.4. Résultats de l’extraction des termes
2.5. Exploitation des termes de l’ontologie pour le clustering
3. Conception
3.1. Choix de la méthode de construction de l’ontologie
3.2. Architecture du système
3.3. Le module consultation
3.4. Le module exploitation
3.5. Le module enrichissement
4. Conclusion
0 59
59
59
60
61
69
80
89
89
107
112
112
113
115
Chapitre 5. L’implémentation
1. Introduction
2. Environnement de développement
2.1. Choix du langage de développement
2.2. Choix de l’éditeur de l’ontologie
2.3. Choix du S.G.B.D
3. Description du système
3.1. Interface principale
3.2. Description de la barre de menu
3.3. Cas d’utilisation du système
4. Conclusion
117
117
118
118
119
120
120
121
122
130
Conclusion générale et perspectives
131
Références bibliographiques
133
Annexes
143
Introduction générale
Introduction générale
Les programmes de séquençage de génomes engendrent en masse de nouvelles
données. Ces données sont stockées dans des banques de données qui se sont diversifiées et
développées notamment dans le cadre de projets de recherche internationaux. Ainsi, les
banques de biomolécule ou de génomes comme EMBL (European Molecular Biology
Laboratory) et NCBI (National Center for Biotechnology Information), sont devenues des
sources de données indispensables pour la recherche en biologie. Elles constituent la mémoire
des données biologiques issues des séquençages, rassemblant les résultats publiés dans la
littérature scientifique pour en permettre la diffusion.
Ces quantités de données diversifiées, produites par le séquençage complet ou partiel
des génomes et aussi par les multiples approches expérimentales associées, conduit le
biologiste à faire face à une masse de données, et l’oblige à recourir à des outils informatiques
adéquats pour une recherche pertinente et une exploitation optimale des données concernant
son domaine. Or, les données de la biologie se caractérisent par leur hétérogénéité car elles
sont exprimées généralement en langage naturel (utilisées dans les publications ou dans les
descriptions des données d’expérimentation par exemple), elles constituent donc un support
de communication dont il est difficile d’extraire automatiquement de l’information.
Pour répondre à ce besoin de standardisation, de récentes recherches se sont orientées
vers l’utilisation d’une représentation avancée des connaissances : les ontologies. L’utilisation
des ontologies est une des solutions envisagées pour fournir un vocabulaire commun pour la
description d'un aspect de la biologie, à travers la construction d’ontologies accompagnant des
tâches de bioinformatique et de biologie moléculaire. Ceci afin d’offrir aux utilisateurs un
accès transparent à ces ressources.
1
Introduction générale
Les ontologies ont été largement acceptées par la communauté des biologistes comme
moyen de standardisation des termes et des concepts biologiques, mais aussi pour permettre la
facilitation de l’échange de ces données entre les bases de données de séquences. Par
exemple, les termes de la « Gene Ontology » enrichissent les bases de données moléculaires
et permettent la description de fonctions moléculaires, des processus biologiques et des
composants cellulaires associées aux séquences nucléiques et protéiques [Fro, 04].
Dès lors, l'accès à ces informations est un enjeu central pour les chercheurs qui
peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Cependant,
les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail
d'analyse des documents sélectionnés pour extraire l'information pertinente. Ainsi, la
recherche d'information à l'aide de mots-clés offre des performances intéressantes en termes
de rapidité de traitement.
Ainsi, l’objectif est de fouiller les données d'expression à la lumière des protocoles
expérimentaux mis en œuvre. Pour prendre en charge le contexte d'une expérimentation
biologique, différentes caractéristiques ont été prises en considération. La première concerne
l’échantillon biologique. En effet, les espèces doivent être précisées, mais aussi leur stade de
développement et, si besoin, l'organe ou le tissu étudié. Comme les variations spécifiques des
conditions de culture agissent sur la morphologie ou le développement spatio-temporel des
organismes, ces aspects « conditions de culture » doivent également être pris en charge. Enfin,
un dernier biais pourrait provenir des étapes spécifiques du protocole expérimental suivi lors
de l'extraction des molécules à séquencer ; la spécificité de cette partie technique a donc
également été enregistrée.
Dans cette optique, notre travail concerne les données relatives à des champignons
microscopiques filamenteux, en particulier, Neurospora crassa et Podospora anserina. Il
s’agit d’en exploiter les données associées aux ESTs (Expressed Sequences Tag) qui sont
disponibles dans les bases de séquences publiques.
2
Introduction générale
Notre contribution porte sur deux volets :
1. La proposition d’un système basé sur une ontologie permettant de faciliter
l’exploitation des données relatives aux expériences réalisées sur les deux
champignons filamenteux. L’ensemble des termes de l’ontologie du domaine ont été
extraits grâce à l’extracteur de termes Automatic Keyphrase Extraction (K.E.A). En
s’inspirant des quatre vocabulaires eVoc réalisés pour l’homme et la souris [Kel, 03]
et en vue d'exploiter les données d'ESTs associées à plusieurs champignons, nous
souhaitons prendre en compte les aspects expérimentaux associés à leur acquisition.
Une étude d'expression constitue une mesure de l'expression de l'ensemble des gènes à
un temps donné de la vie du champignon. Il est alors nécessaire de décrire le
champignon étudié et les spécificités associées s'il s'agit d'un mutant (ontologie
« caractéristiques des souches »). Comme les conditions de culture du champignon
avant la mesure influencent cette dernière, il est nécessaire de décrire, d'une part le
protocole expérimental de la culture (ontologie « conditions de cultures ») et d'autre
part, l'étape de croissance atteinte par le champignon au moment de la mesure. Pour
spécifier cette étape de croissance, nous avons conçu deux ontologies, l'une décrivant
l'aspect temporel (ontologie « étapes du cycle cellulaire ») et l'autre l'aspect spatial
(ontologie « types cellulaires »). Pour décrire une donnée d'EST, nous avons alors
recours à 4 ontologies parallèles et complémentaires et la liaison entre elles se fera à
l'usage, lors de la caractérisation d'un EST par la liste des termes issus de chacune des
ontologies.
2. L’utilisation d’une méthode d’apprentissage non supervisé : le clustering dont
l’objectif est de procéder à une classification du type regroupement par similitude, est
effectué en se basant sur la valeur de la métrique TF×IDF des termes contenus dans
les fiches d’EST. Ainsi, les expériences regroupées ensemble correspondent à des
termes de valeurs proches ou identiques impliquant des conditions d’expériences
quasi-similaires et pouvant être liée à une « activité » biologique de ces expériences.
3
Introduction générale
Ce mémoire est organisé en cinq chapitres organisés en deux parties :
v La première partie présente l’état de l’art relatif aux domaines en lien avec nos
travaux. Elle comprend trois chapitres :
Ø Le chapitre 1 : L’Extraction de Connaissances à partir de Textes (E.C.T)
Définit les concepts d’extraction de connaissances, de fouille de textes, puis
expose les difficultés d’extraction d’information dans les textes biologiques et
enfin, décrit quelques unes des méthodes et outils proposés dans la littérature
pour tenter de résoudre ces problèmes d’extraction.
Ø Le chapitre 2 : Les Ontologies
Aborde la notion d’ontologie : son origine, divers définitions d’auteurs, ses
composants, ses typologies, ainsi que de l’utilité des ontologies en ingénierie
des connaissances et quelques exemples d’ontologies biologiques et
bioinformatiques.
Ø Le chapitre 3 : La conception d’Ontologies à partir de corpus de textes
Donne un aperçu des différents travaux de la littérature en lien avec la
construction d’ontologies. Il précise notamment les travaux relatifs à leur
construction à partir de textes, ensuite éditeurs d’ontologie et cycle de vie sont
présentés.
v La deuxième partie décrit la conception et la mise en œuvre de notre application. Elle
comprend les deux chapitres suivants :
Ø Le chapitre 4 : La conception
Détaille d’abord l’expérimentation dans le cadre de notre mémoire à savoir
l’effectif manipulé, ainsi que les cirières pris en compte pour les deux types
d’extraction manuelle et automatique et commente les résultats obtenus par
l’extraction manuelle, l’extraction automatique grâce au logiciel K.E.A et de la
nécessité de l’intervention humaine dans ce cas de figure. Ce chapitre
4
Introduction générale
comprend aussi la phase de construction de l’ontologie biologique du domaine,
en spécifiant la méthode choisie à cet effet. Aussi, la présentation de
l’architecture qui exploite cette ontologie en détaillant les différents modules
de ce système.
Ø Le chapitre 5 : L’implémentation
Présente l’environnement de développement de notre application en expliquant le
choix des outils utilisés, et la description du système développé par des captures
d’écran de ses différentes interfaces.
Enfin, les résultats obtenus ont été repris dans une conclusion générale, où quelques
orientations et perspectives de continuité des travaux ont été également mentionnées.
Les quatre annexes ont été organisées de la façon suivante :
Ø Annexe A : Expose des généralités sur les organismes biologiques modèles, en
particulier de Neurospora crassa et Podospora anserina, choisis dans le cadre
de cette étude en présentant une description de ces derniers, notamment à
travers leurs cycles de vie, ainsi qu’une comparaison des deux organismes.
Ø Annexe B : Donne une définition des données biologiques manipulées
(Expressed Sequence Tags (EST), la procédure d’obtention de ces derniers,
présente un aperçu des différentes banques de données existantes.
Ø Annexe C : Décrit le détail de la méthode choisie de la construction de
l’ontologie (la méthode de l’Université de STANDFORD).
Ø Annexe D : Donne les résultats sous formes de graphes de l’extraction
automatique des termes-clés pour les deux métriques TF×IDF et Première
occurrence pour différentes tailles d’échantillon d’apprentissage.
5
Première Partie
Etat de l’Art
5
Chapitre 1
L’Extraction de Connaissances à
partir de Textes
Plan
1. Introduction
2. Extraction de Connaissances à partir de Données (ECD)
2.1. Généralités
2.2. Architecture d’un système type d’ECD
2.3. Fouille de données (FDD)
3. De la fouille de données à la fouille de textes
3.1. Processus d’Extraction de Connaissances à partir de Textes (ECT)
3.2. Acquisition itérative et incrémentale des connaissances
3.3. Fouille de textes (FDT)
4. Domaine d’application : La biologie
4.1. Difficultés récurrentes des textes en biologie
4.2. Méthodes de FDT pour la biologie
4.3. Quelques outils de FDT pour la biologie
5. Conclusion
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
1. Introduction
Les principes de l’extraction de connaissances à partir de textes ont été introduits
afin d'aider les décideurs dans l'analyse des informations issues des sources
électroniques. Aussi, différentes techniques automatiques sont proposées pour inférer
de nouvelles connaissances, potentiellement utiles, à partir de gros volumes de
données textuelles. Ces connaissances correspondent à des modèles ou des relations à
priori inconnues mais qui existent de façon implicite dans les textes. L’intérêt des
connaissances extraites est validé en fonction du but de l’application.
Ainsi, du fait de l'importance croissante du contenu électronique et des médias
électroniques pour le stockage et l’échange de documents textuels, un intérêt est
apparu de plus en plus croissant, pour des méthodes et des outils qui peuvent aider à
retrouver l'information enfouie dans les textes de documents. En effet, le volume des
informations disponibles croit de plus en plus vite notamment sur Internet (plus de
80% est sous forme textuelle) [Cha, 04]. Ces informations, sont nombreuses et se
présentent sous différentes formes (langages naturels et HTML) et elles ont différents
supports (sites Web et bibliothèques numériques). Il devient de plus en plus difficile
de trouver des informations correspondant au besoin d’un utilisateur et d’en extraire
des connaissances utiles et cachées dans les documents d’où le recours à la fouille de
textes.
Ce chapitre définit les concepts d’extraction de connaissances et de fouille de
textes ainsi que la description de quelques méthodes et outils utilisés pour permettre
une meilleure facilitation d’exploitation des connaissances implicites contenues dans
les corpus textuels qui dans notre cas concernent le domaine de la biologie.
2. Extraction de Connaissances à partir de Données (E.C.D)
2.1. Généralités
L'Extraction de Connaissances à partir de Données (E.C.D), est définie par
[Fay, 96] comme : « un processus non trivial d’identification de structures
inconnues, valides et potentiellement exploitables dans les bases de données ».
8
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
L’ECD est un processus d’extraction de connaissances à partir de données. Il
consiste à analyser des données brutes pour en extraire des connaissances exploitables.
Ces dernières vont permettre à un expert d’avoir une vision synthétique d’un domaine
donné.
Le processus est dirigé par un analyste qui selon ses objectifs va appliquer
des méthodes de fouille de données (FDD) sur des données préalablement
sélectionnées pour déduire des modèles du domaine.
D’après Fayyad [Fay, 96], le processus d’ECD peut être divisé en plusieurs étapes :
o
La sélection, permet de créer un ensemble de données à étudier,
o
Le prétraitement, vise à enlever le bruit et à définir une stratégie pour
traiter les données manquantes,
o
La transformation, où l’on recherche les meilleures structures pour
représenter les données en fonction de la tâche,
o
La fouille de données, la fouille proprement dite est la définition de la
tâche : classification, recherche de modèles,… et la définition des
paramètres appropriés,
o
L’interprétation et l’évaluation, pendant lesquelles les patrons extraits
sont analysés. La connaissance qui en est ainsi déduite est alors stockée dans
la base de connaissances.
2.2. Architecture d’un système type d’ECD
Selon Ghalamallah [Gha, 09], un système d’ECD s’articule autour des
composantes suivantes :
o Une ou plusieurs bases de données et leurs systèmes de gestion, pour le
traitement des masses de données volumineuses.
o
Une base de connaissances qui permet à la fois la gestion des
connaissances et la résolution des problèmes liés au domaine des données.
9
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
Le système utilise une base de connaissances (par exemple une ontologie du
domaine) qui est enrichie grâce aux nouvelles connaissances inférées par le
système.
o
Un système FDD pouvant s’appuyer sur des techniques symboliques
comme l’extraction des règles d’association, la classification par treillis de
Galois, ou l’induction par des arbres de décision.
o
Et une interface se chargeant des interactions avec l’analyste et de la
visualisation des résultats. L’analyste et l’expert sont chargés de guider les
recherches et de valider les connaissances extraites.
Figure 1.1 Architecture type d’un système d’E.C.D.
2.3. Fouille de données
Il existe souvent une confusion entre les concepts Fouille de Données
(FDD) et l’ECD, certains auteurs les considèrent comme synonymes. Or, la FDD (ou
le Data Mining en anglais) n’est qu’une des étapes du processus d’ECD. Elle se réfère
souvent à l’ensemble des outils et méthodes permettant d’accéder aux donnés et de les
analyser afin d’en extraire des modèles implicites, en prévision d’une utilisation
future.
La fouille de données ou le Data Mining, (DM) est l’ensemble des
méthodes et techniques destinées à l’exploration et l’analyse de bases de données
informatiques, de façon automatique ou semi-automatique, en vue de détecter dans ces
10
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
données des règles, des associations, des tendances inconnues ou cachées, des
structures particulières restituant l’essentiel de l’information utile [Tru, 05].
3. De la fouille de données à la fouille de textes
Par analogie avec l’extraction de connaissances à partir de données (ECD), la
« découverte de connaissances à partir de bases de données textuelles » (DCT)
[Had, 02] ou « l’extraction de connaissances à partir de textes » (ECT) [Che, 04] ou
encore en anglais le « Knowledge Discovery in Textual Databases » (KDT)
[Fel, 95], est un domaine qui vise à analyser de grandes collections de documents non
structurés dans le but d'extraire des modèles (ou connaissances) intéressants, non
triviaux et potentiellement utiles.
3.1. Processus d’Extraction de Connaissances à partir de Textes
Figure 1.2 Chaîne de traitement dans un processus d’E.C.T.
Un texte est considéré comme une entité porteuse d’une information qu’il
faut préparer, représenter et organiser pour utiliser des outils de fouille de données et
valider les résultats de la fouille. La transformation des données textuelles en
connaissances se compose donc de trois principales étapes [Bou, 08]:
(1) La modélisation du contenu des textes ;
(2) Les outils de fouille de données proprement dits ;
(3) Le module d’analyse des résultats et leur validation.
11
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
Durant l’étape de modélisation du contenu, le texte est sélectionné et
prétraité. La phase de prétraitement peut être plus ou moins élaborée : elle peut inclure
l’élimination de mots vides (mots grammaticaux) ou une normalisation plus poussée
des textes dans le cas d’un corpus plus technique. Ainsi, le choix des unités d’analyse
peut faire appel aux connaissances linguistiques (extraction des termes, des relations
sémantiques entre eux) ou simplement statistique, avec la recherche des n-grammes
dans les textes (séquences de mots adjacents qui se répètent dans le corpus). Les deux
techniques peuvent être combinées lorsqu’il s’agit de choisir, parmi les unités
extraites, celles qui ont un poids discriminant (indexation automatique). Cette
modélisation permet l’extraction de données à partir des textes sous une forme de
représentation de type : un texte = {un ensemble de mots-clés}. C’est une
représentation communément utilisée en recherche d’information car cette
représentation permet d’utiliser, par la suite, des outils de FDT. [Bou, 08]
De la même façon que pour un processus d’ECD, les outils de FDT
constituent le module calculatoire d’un système d’ECT. Les algorithmes de fouille de
données ont démontré par le passé leurs capacités à traiter de grandes masses de
données, ce qui permet d’envisager de les réutiliser et de les adapter pour traiter les
données très volumineuses extraites des textes. Par conséquent, l’utilisation des
techniques existantes en fouille de données semble intéressante dans un processus de
fouille de textes. [Bou, 08]
La contribution de l’analyste est indispensable pour les étapes d’analyse et
de validation des connaissances potentielles extraites car ces deux étapes ne peuvent
pas se faire de façon automatique. Le processus d’ECT est semi-automatique. Ce n’est
qu’une fois les résultats validés qu’ils prennent le statut de connaissances. Ces
connaissances peuvent alimenter une base de connaissances ou être exploitées à
nouveau par le processus de ECT afin d’affiner la modélisation des textes. Nous
appelons, par la suite, cette base de connaissances l’ontologie du domaine. [Bou, 08]
3.2. Acquisition itérative et incrémentale des connaissances
Le processus d’ECT n’est pas linéaire comme le suggère à première vue la
figure 1.2. Il est possible d’effectuer un retour entre deux ou plusieurs étapes
12
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
successives de la chaîne de traitement afin d’améliorer le résultat de chaque étape et
d’affiner, au final, le résultat du processus. Cet aspect indique le caractère itératif du
processus d’ECT [Che, 04].
L’ECT est aussi un processus alimentant un système à base de
connaissances : les connaissances extraites sont stockées dans la base pour être
réutilisées dans d’autres applications et mises à jour le cas échéant. Chaque étape du
processus de fouille de textes s’appuie sur l’étape qui la précède. La chaîne de
traitement pour le processus de FDT est incrémentale. Les éléments d’information
identifiés dans une étape servent à enrichir l’étape suivante et ainsi de suite [Che, 04].
La chaîne de traitement pour le processus d’ECT décrite rend le travail de
l’analyste efficace en lui donnant accès prioritairement à des connaissances rares et/ou
potentiellement nouvelles. L’analyste doit avoir le rôle de prise de décision finale pour
valider ou pas les connaissances extraites, filtrées et jugées pertinentes par rapport au
domaine des textes fouillés. En cela, le processus de ECT se démarque du processus
classique de ECD qui place l’analyste au centre du processus pour effectuer toutes les
opérations de prétraitement des données, d’interprétation et de validation de
connaissances extraites à partir de données [Che, 04].
3.3. Fouille de textes
Tout comme la fouille de données (FDD) une confusion subsiste entre
l’expression : extraction de connaissances à partir de textes (ECT) et la fouille de
textes (FDT) ou « Text Mining » (TM) qui en est une étape centrale. La FDT suggère
qu’il s’agit de l’exploration de textes dans le but de retrouver l’information utile
enfouie dans le texte. Quelques définitions citées ci-après explicitent le concept :
o
« La fouille de textes (ou text mining) peut être définie comme
l’application de méthodes calculatoires et de techniques sur des données textuelles
dans le but de retrouver l’information pertinente, intrinsèque et la connaissance
précédemment inconnue » [Dop, 07].
o
« Le texte mining est définit comme étant le Data Mining sur des
données textuelles » [Nas, 01].
13
Chapitre 1.
o
L’Extraction de Connaissances à partir de Textes
« La fouille de textes doit prospecter des pépites de nouvelles
connaissances dans les montagnes de textes qui sont devenues accessibles aux
recherches sur ordinateur grâce à la révolution de l'information et à l'interconnexion
des réseaux » [Luc, 00].
Il ressort de ces définitions que la fouille de textes ou le text mining peut
être vu comme un champ d’application du « Data Mining » (DM) aux textes ou du
« Knowledge Discovery in Databases » (KDD) aux textes. Le text mining réfère ainsi
à l’ensemble des techniques et méthodes du Data Mining, en vue de retrouver, dans les
textes de documents de grandes bases de données textuelles, l’information pertinente,
utile et précédemment inconnue.
La FDT fait appel principalement à deux disciplines à savoir la statistique et
la linguistique. Ces deux disciplines s’intéressent à l’analyse de texte à différents
niveaux qui sont les suivants :
o
Approche linguistique
Au plan linguistique, plusieurs niveaux d’analyse sont considérés :
w
L’analyse syntaxique qui permet de définir les unités textuelles
de base et qui s’intéresse à la place relative de chaque mot. Certaines
mesures utiles en sont issues : placé avant, placé après, tant de mots
maximum, etc. [Khe, 06]
w
L’analyse lexicale s’intéresse à la terminologie (origines des
mots, relations, inclusions, synonymies, etc.). [Khe, 06]
w
L’analyse morphologique s’occupe des variations dans la forme
des mots (orthographes, radicaux, suffixes, préfixes, troncatures,
inflexions, etc.). Elle manipule les morphèmes (mots simples, radicaux,
dérivations, racines anciennes : grec, latin). [Khe, 06]
14
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
w
L’analyse sémantique s’intéresse à la notion de contenu donc au
sens, aux concepts véhiculés par les textes et aux réseaux qui les
unissent. [Khe, 06]
Approche statistique
o
Coté statistique plusieurs décompositions sont proposées en
fonction de la nature des méthodes :
w
Les méthodes quantitatives basées essentiellement sur les
dénombrements,
corrélations,
distributions,
associations.
[Jou, 03]
w
Les méthodes exploratoires et notamment l’analyse de données
avec une approche plus qualitative. [Jou, 03]
w
Les méthodes relationnelles avec la théorie de graphes, les
réseaux de neurones, les réseaux bayésiens. [Jou, 03]
Vis à vis des fonctionnalités recherchées, la découverte de modèles
endogènes, a priori inconnus, s’appuie sur quatre types d’approches complémentaires :
w
Une approche descriptive issue de la statistique descriptive, de
l’analyse des données et des représentations graphiques.
w
Une approche structurante se basant sur les méthodes de
classification automatique supervisées (classes prédéfinies,
représentants de classes) ou non supervisées (hiérarchies,
regroupements),
sur
la
reconnaissance
des
formes
et
l’apprentissage automatique [Jou, 03].
w
Une approche explicative qui permet de faire le lien entre faits à
expliquer
et
variables
explicatives
(analyses
multidimensionnelles [Jou, 03]) et permet aussi de catégoriser
de nouveaux éléments en fonction de classes prédéfinies.
15
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
w
Une approche prédictive qui est tournée vers l’avenir, le
composant temps y jouant parfois un rôle important. Elle
conduit à la recherche de séquences (évolutions absolue ou
relative, trajectoires, stratégies, …) par l’analyse factorielle
multiple (AFM) et à la prédiction de certains comportements
(achat, panne, développement, rupture, …) par la recherche
d’associations [Jou, 03].
4. Domaine d’application : La biologie
L'importance de la FDT pour la biologie s'est accélérée en réponse à
l'avènement des expérimentations biologiques à haut, voire à très haut débit. Des
exemples d'application de FDT aux données biologiques incluent la recherche
automatisée dans un ensemble de gènes impliqués dans une expérimentation,
l'annotation de listes de gènes avec des concepts issus de la « Gene Ontology »,
l'amélioration de la recherche d'homologie, la gestion des résultats de recherche dans
la littérature, l'aide à l'entretien de bases de données et le peuplement de bases de
données [Lor, 09].
En effet, la FDT s'insère dans l'analyse des données bioinformatiques de deux
manières, ou plutôt à deux moments distincts. D'une part au début de la chaîne, en
aidant à l'analyse des résultats générés par les expériences, assistant ainsi les
chercheurs à conduire un projet de l'expérimentation à la publication, et d'autre part, à
la fin de la chaîne, en aidant le scientifique à exploiter le flux de publications issues de
Medline1 par exemple (une moyenne de 1875 nouvelles entrées par jour en 2005)
[Lor, 09].
4.1. Difficultés récurrentes des textes en biologie
Un des principaux problèmes qui fait de l’extraction d’information en
biologie une tâche complexe est l'absence de nomenclatures et de conventions
d'écriture claire. Pour de très nombreux phénomènes en biologie, il n'existe aucun
1
MEDLINE est une base de données bibliographique qui couvre tous les domaines médicaux
16
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
standard commun à l'appellation d'entités nouvellement élucidées et différentes
communautés peuvent utiliser la même dénomination pour représenter deux entités
distinctes.
Plusieurs niveaux de complexité s'additionnent. D'une part, les conventions
adoptées diffèrent entre les différents domaines d'expertise et les communautés qui
composent la biologie. D'autre part, les nomenclatures établies pour certains types de
concepts biologiques (par exemple, les allèles, les gènes et les protéines) sont
différenciées selon l'organisme biologique étudié [Oli, 02].
Il est à noter qu'il existe des tentatives d'harmonisation de la nomenclature
dans des niches restreintes telles que les bases de données terminologiques « HUGO »
et « Flybase2 » qui définissent respectivement les standards des noms de gènes
humains et de la drosophile. Néanmoins, ceci ne reste que des recommandations à
l'intention des scientifiques et aucune obligation d'adoption de ces standards n'est à ce
jour imposée.
La validation du respect d'une nomenclature spécifique lors de la demande de
parution d'un article s'effectue à la discrétion du journal scientifique concerné.
Finalement, le nombre d'entités biologiques est très grand. Par exemple, et dans le
cadre très restreint des gènes humains, « HUGO » recense au premier trimestre 2007
environ 24700 noms officiels de gènes, 29300 alias et 2970 dénominations obsolètes.
En théorie, les termes et les concepts manipulés devraient être mono-référentiels,
chaque terme ne devant correspondance qu'à un seul concept et vice-versa. En
pratique, les documents regorgent d'ambigüités.
o Homonymie
Un même nom peut se référer à différentes entités. Ce problème est
fréquemment
observé
dans
la
dénomination
d'objets
biologiques
non
fonctionnellement liés entre différentes espèces animales ou entre différentes
communautés scientifiques. Un autre exemple d'homonymie en biologie est le nom
2
http ://flybase.bio.indiana.edu/
17
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
partagé à la fois par les gènes et les protéines. Il est parfois complexe de savoir si le
nom est celui d'un gène ou d'un produit du gène. Il est à noter que la tâche de
désambigüisation des homonymes est ardue, même pour un lecteur humain. D'après
une étude menée par [Hat, 01], trois annotateurs spécialistes du domaine de la
biologie moléculaire ne se sont accordés que 78% de fois sur la forme effective
protéique, ARN ou gène des entités nommées à partir d'un corpus conséquent d'articles
du domaine.
Quelques conventions typographiques existent afin de distinguer
certaines formes classiques d'homonymie et reposent sur la différenciation
majuscule/minuscule et la mise en italique. Néanmoins peu de journaux en ligne
respectent ces conventions typographiques et préfèrent réserver l'utilisation des
italiques et des majuscules à d'autres fins, et notamment à la mise en relief du texte. De
plus, les styles souligné, gras et italique sont très souvent perdus lors du formatage des
publications dans les bases de données bibliographiques. [Tua, 04] ont quantifié ces
ambigüités pour les gènes au sein des ressources lexicales Mouse Genome
Informatics, spécialisée dans la terminologie relative à la souris, FlyBase, pour la
drosophile, WormBase, pour le vers, et Saccharomyces Genome Database, pour la
levure. Les résultats montrent qu'entre 0 et 10% des noms au sein de chaque
terminologie présentent des ambigüités. Le nombre d'ambiguïtés par nom allant de 2 à
10 et la plupart étant due à la présence de synonymes et autres alias et non à cause des
noms officiels.
o Synonymie
Il est courant qu'une molécule biologique soit nommée en fonction
de sa fonction biologique particulière, à différents niveaux hiérarchiques (exemple:
une « ATP dependent RNA helicase » est un sous type de « RNA helicase »), de sa
similarité de séquence ou de la présence de motifs de séquence particuliers (exemple :
« DEAD/H Box-5 »), sa masse moléculaire (exemple: « protein p68 »), ou encore de
la combinaison de toutes ces situations (exemple : « RNA helicase p68 »). Néanmoins
ces différentes nomenclatures ne sont pas exclusives et très généralement cohabitent
afin de donner plusieurs noms synonymes à une molécule.
18
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
Dans le cas des protéines, il est d'usage de leur donner le nom des
gènes qui les codent. Les noms de protéines basés sur les gènes d'origine sont
spécifiques à un organisme. En revanche, les noms de molécules contenant des
références à des fonctions biologiques ou à des masses moléculaires sont généralement
utilisés indépendamment de la taxonomie. Par exemple : « DRH1 » et « DBP2 » sont
les noms d'une même protéine mais produite soit par A. Thaliana soit par S. Cerevisiae
respectivement [Lor, 09].
o Acronymie
Une variation de termes banale et partagée par l'ensemble des
documents à caractère technique est l'utilisation d'acronymes. Il est toutefois important
de signaler qu'il n'existe aucune règle stricte pour définir un acronyme en biologie à la
différence d'autres domaines scientifiques. La définition d'un acronyme peut entrainer
différents problèmes précédemment relevés : tout d'abord la variabilité des formes
synonymes d'acronymes. Par exemple : « NFKB » et « NF Kappa B » sont deux
formes acronymiques concurrentes de la protéine « Nuclear Factor-Kappa B » et
retrouvées de manière indifférentes dans les textes. D'autre part la génération d'un
acronyme peut créer une ambigüité homographique. Par exemple : l'acronyme « GR »
sert à définir deux protéines distinctes, le « Glucocorticoid Receptor » et la
« Glutathione Reductase ».
o Evolution des nomenclatures
De nouvelles entités biologiques sont constamment découvertes et
nommées. A un instant donné le contenu des banques de données terminologiques ne
peut correspondre aux dernières évolutions de la nomenclature en cours. De nombreux
noms d'entités biologiques sont aussi supprimés de la nomenclature officielle lorsque
ceux-ci sont jugés obsolètes. Ceci est particulièrement vrai lorsque la dénomination
d'une entité repose sur des propriétés fonctionnelles qui par la suite ont été jugées
erronées ou pas assez précises. Ces anciennes dénominations peuvent aussi être
réutilisées pour nommer de nouvelles entités distinctes.
19
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
4.2. Méthodes de FDT pour la biologie
Dans cette section, seront détaillées les méthodes de la FDT utilisées dans le
domaine de la biologie pour l’identification des termes et des interactions entre eux, et
seront présentés par la suite quelques outils basés sur ces techniques.
o Identification des termes
·
Méthodes basées sur les dictionnaires
Ces méthodes utilisent des ressources terminologiques
existantes (dictionnaire, lexique, thésaurus…) dans le but de localiser les occurrences
des termes dans les textes. L’application de la version simple de ces méthodes, c'est-àdire faire la correspondance directe entre les entrées du dictionnaire et les entités
textuelles ne donne pas de résultats satisfaisants du point de vue précision et rappel.
Ces mauvais résultats sont dus essentiellement à des problèmes d’homonymie (en
anglais par exemple, des mots communs comme ‘and’, ‘by’ ou ‘for’ sont détectés
comme noms de gènes) et des problèmes de variations linguistiques liés à (i) la
ponctuation (mdm-2 et mdm2), (ii) l’utilisation de l’alphabet grec (p53alpha et p53a),
et (iii) l’ordre des mots (integrin alpha4 et alpha4 integrin) [Khe, 06].
Afin
de
remédier
à
ces
problèmes,
beaucoup
d’améliorations ont été ajoutées à ces méthodes telles que l’utilisation de dictionnaire
de synonymes, le filtrage des mots vides et le traitement des variations. [Kra, 00]
proposent de coder les dictionnaires et les textes avec le code nucléique (l’alphabet
formé de 4 lettres {A, C, G, T}) et d’utiliser l’algorithme BLAST utilisé pour
l’alignement des séquences ADN pour identifier les termes qui ont une similarité forte.
L’expérience menée sur un corpus de test et la base GenBank a donné de bons
résultats.
·
Méthodes basées sur les règles
Ces méthodes reposent sur la création (manuelle) de règles
d’extraction basées sur les particularités spécifiques à une classe de termes. Ces
particularités peuvent être (i) morphologiques : les mots se terminant par –ase et –in
20
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
peuvent être considérés comme des enzymes ou des protéines et (ii) orthographiques :
les termes vérifiant l’expression régulière [az] + [0-9] peuvent être considérés comme
des gènes (une séquence de lettres suivi d’une séquence de chiffres).
[Fuk, 98] propose une méthode pour la reconnaissance automatique
des noms de protéines : Ils exploitent le fait que les noms des protéines sont souvent
en majuscules et comportent des caractères spéciaux et des chiffres. Quant à [Hob,
00], il a adapté un outil de reconnaissance automatique d’entités nommées standard
(FASTUS [Hob, 97]) pour la reconnaissance des noms de gènes et de protéines. Cet
outil est basé sur une cascade de transducteurs à états finis qui permettent de
reconnaître des unités complexes (par exemple : « 3,4-dehydroproline »).
D’autres utilisent des règles d’associations qui permettent de mettre
en évidence des corrélations entre des éléments textuels. Un corpus prétraité est utilisé
pour l’extraction de ces règles qui sont ensuite présentées à un expert du domaine pour
les valider. Une fois validées, les règles d’associations sont classifiées selon des
mesures probabilistes et appliquées sur les textes afin d’extraire des termes du
domaine. [Che, 05] présentent une méthodologie de fouille de textes biologiques en
utilisant les règles d’associations.
·
Méthodes basées sur les techniques d’apprentissage
Comme pour toutes les méthodes basées sur les algorithmes
d’apprentissage, ces méthodes ont pour principe de détecter des particularités
caractérisant une classe de termes à partir de données d’apprentissage (corpus déjà
traité manuellement en affectant les termes à des classes prédéfinies).
A chaque classe, l’algorithme affecte des caractéristiques
souvent orthographiques (c’est-à-dire une combinaison de lettres et de chiffres, terme
commençant par une lettre majuscule) ou morphosyntaxiques (les patrons
d’extraction). Ces informations sont ensuite utilisées par des algorithmes de
classification standard qui classent les termes dans leurs catégories adéquates.
Plusieurs expériences ont été réalisées en utilisant différents algorithmes de
classification, par exemple [Col, 00] se sont basés sur les chaînes cachées de Markov
21
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
(HMM) alors que [Kaz, 02] ont utilisé les machines à vecteurs de support (SVM). Ces
méthodes sont gourmandes en temps et en ressources; en outre, elles sont confrontées
à un autre problème qui est le manque de corpus déjà traité pour effectuer leur
apprentissage. En effet, la majorité des expériences sont réalisées sur le même corpus
GENIA [Kim, 03].
Le projet pluridisciplinaire CADERIGE [Néd, 01] fait
intervenir plusieurs équipes françaises de compétences différentes (biologie,
apprentissage et TALN) dans le but de concevoir des outils d’analyse de données
biologiques à partir des textes et en se basant sur les techniques d’apprentissage. Un
éditeur d’annotation a été développé et une méthode d’apprentissage de patrons
d’extraction a été mise au point.
o Identification des interactions
L’explication de phénomènes biologiques, se base généralement sur
la détection d’une interaction entre gènes, protéines ou molécules. Bien qu’une partie
de ces interactions soit stockée dans des bases de données, une grande partie d’entre
elles est exprimée en langue naturelle et donc stockée dans les publications du
domaine. Plusieurs méthodes de fouille de textes biomédicaux pour l’extraction de ces
interactions ont été proposées.
Pour la détection d’interaction de types gène-gène ou gèneprotéine, [Néd, 04] propose une méthode composée de trois étapes : (1) la sélection
d’un ensemble de fragments de textes contenant ce genre d’interactions, (2)
l’utilisation d’algorithmes d’apprentissage sur ces fragments pour définir des règles
d’extraction et (3) l’application des règles sur les documents pour extraire les
interactions.
[Sha, 02] propose une méthode d’extraction de relations
fonctionnelles entre les gènes. L’hypothèse consiste à dire que si deux gènes
apparaissent régulièrement dans des documents traitant le même phénomène (même
séparément), alors une relation pourrait exister entre ces deux gènes. Ils font appel à
des modèles statistiques qui décrivent la fréquence des mots dans les documents afin
22
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
de les classifier selon des thèmes pour déduire ensuite les fonctions des gènes qui
apparaissent dans ces documents.
[Rin, 00] propose un système d’extraction d’informations sur les
relations qu’entretiennent gènes, médicaments et cellules. Il s’agit de trouver des
relations du type : ‘Dans les cellules de type C, l’expression du gène G est inhibée (ou
activée) par le médicament M’, ou du type : ‘Les cellules du type C acquièrent une
résistance (ou une sensibilité) au médicament M quand le gène G s’exprime’. Le
système est basé sur la reconnaissance de la cooccurrence dans une même phrase d’un
gène, d’un type cellulaire et d’un médicament.
D’autres travaux sur le même thème sont présentés dans [Sta, 02] et
[Sha, 03]. Les résultats de ces systèmes permettent de créer des réseaux d’interaction
entre gènes et protéines qui peuvent jouer un rôle important dans l’interprétation des
résultats d’une expérience.
4.3. Quelques outils de FDT pour la biologie
o
Medminer : est un système qui a été conçu spécialement pour
les biologistes travaillant sur l’expression des gènes. Il permet d’effectuer des
recherches sur plusieurs gènes à la fois dans la base documentaire PubMed afin de
trouver les corrélations entre eux. Les résultats renvoyés par le moteur de recherche de
PubMed sont ainsi filtrés, classifiés dans des catégories prédéfinies par le biologiste.
Le filtrage est fait, soit par le calcul des fréquences des termes dans les documents,
soit par le calcul des co-occurrences entre les termes.
o
PubMiner : combine des techniques d’apprentissage (HMM et
SVM) avec des techniques de TALN pour traiter les résumés de la base PubMed afin
d’en extraire des entités nommées (gène, protéine) et de possibles interactions entre
elles [Eom, 04]. Ce système permet la visualisation des résultats sous la forme d’un
graphe, où les nœuds représentent les noms des gènes et des protéines et les arcs
représentent les interactions possibles ; l’utilisateur garde toujours un lien entre le
graphe et les documents textes traités.
23
Chapitre 1.
L’Extraction de Connaissances à partir de Textes
o
Textpresso : [Mul, 04] propose un système d’extraction et de
recherche d’informations pour les articles du domaine biomédical. TextPresso se base
sur une ontologie définie pour décrire les connaissances présentes dans les textes. Il
identifie les termes (instances des concepts de l’ontologie) en utilisant des expressions
régulières et les encadre avec des balises XML directement dans le texte. Il offre aussi
un ensemble d’interfaces dédiées pour interroger efficacement les annotations en se
basant sur l’ontologie. Notons que Textpresso (i) intègre les annotations (XML)
directement dans le texte ce qui rend leur utilisation par un autre système très difficile
et (ii) nécessite la définition d’un nombre très grand d’expressions régulières (des
milliers) pour pouvoir extraire les termes pertinents.
5. Conclusion
Dans ce chapitre, nous avons introduit de façon générale les notions relatives à
l’extraction de connaissances et la fouille de données textuelles. Puis nous avons
essayé de décrire les principales difficultés dans les textes biologiques et les
différentes solutions (méthodes et outils) proposées par la littérature afin de les
résoudre.
Cette quantité importante et hétérogène d’informations contenue dans les textes
biologiques écrites généralement en langage naturel à fait « naître » un besoin de
standardisation à travers l’établissement de terminologies et de vocabulaires communs
pour capturer les concepts biologiques. Cette description des données et des
hiérarchies pour classifier les concepts est appelée « ontologie ».
24
Chapitre 2
Les Ontologies
Plan
1. Introduction
2. Définitions des ontologies
2.1. Du point de vue de la Métaphysique
2.2. Du point de vue de l’ingénierie des connaissances
3. Composants de l’ontologie
4. Typologies d’ontologie
4.1. Typologie selon le degré de formalisme
4.2. Typologie selon l’objet à modéliser
4.3. Typologie selon le degré de granularité
4.4. Typologie selon le type de connaissances à modéliser
5. Représentation des ontologies
6. Utilité des ontologies en ingénierie des connaissances
7. Exemples de ressources ontologiques dans le domaine de la biologie
7.1. Ontologies biologiques et bio-informatiques
7.2. Ontologies des champignons
7.3. Ontologies associées aux expérimentations
8. Conclusion
Chapitre 2.
Les Ontologies
1. Introduction
Les années 80 ont vu le développement de nombreux Systèmes Experts (SE)
réalisant des tâches variées (ex : diagnostic, conception, planification, maintenance) dans
des domaines également variés (ex : médecine, ingénieries mécanique et électronique,
robotique, finance). L’expérience de leur développement a toutefois montré que la
construction d’une Base de Connaissances (BC) était un processus complexe et
nécessitant un temps considérable. Le souhait des développeurs est dès lors de pouvoir
réutiliser et partager des BCs ou, tout le moins, des parties de la BC.
Cette question de la réutilisation et du partage de BCs est donc difficile et
implique plusieurs dimensions. C’est ainsi, qu’au début des années 90, des chercheurs
réunis au sein du projet américain « Knowledge Sharing Effort », soutenus notamment
par la DARPA (Defense Advanced Research Projects Agency), décident de s’attaquer au
problème en privilégiant la représentation explicite du sens. Ils nomment « ontologie »
une telle représentation.
La définition explicite et la délimitation précise du concept ontologie soulève un
questionnement qui est tout à la fois d’ordre philosophique, épistémologique, cognitif et
technique.
2. Définitions des ontologies
2.1. Du point de vue de la Métaphysique
Ontologie est un terme qui est tout d'abord apparu en Philosophie comme
une branche de la Métaphysique qui s'intéresse à l'existence, à l'être en tant qu'être et aux
catégories fondamentales de l'existant. En effet, ce terme est construit à partir des racines
grecques ontos qui veut dire ce qui existe, l’Etre, l’existant, et logos qui veut dire l’étude,
le discours, d’où sa traduction par l’étude de l’Etre et par extension de l’existence
[Bah, 06]. L'origine de la notion d'ontologie remonte donc à Aristote (384-322.BC), bien
que le terme lui-même soit plus récent. Dans la Métaphysique, il est expliqué que la
réalité se présente sous la forme d'individualités uniques et particulières (Platon, Socrate)
qu'il faut aborder à partir de concepts généraux (philosophe, homme, être vivant)
[Dia, 06]. Pour penser un être existant, il faut définir des propriétés (substance, qualité,
26
Chapitre 2.
Les Ontologies
quantité, lieu, temps, situation ?), regroupées par Aristote en dix catégories qui, selon lui,
appartiennent à la réalité et ne sont pas de simples constructions mentales. Les propriétés
ainsi utilisées pour caractériser les concepts ne sont pas sans évoquer les attributs utilisés
aujourd'hui dans différents modèles de représentations de connaissances. Le travail sur
l'ontologie consiste donc à déterminer ce qui est universel d'un être, par delà ses
représentations particulières. Après Aristote, c'est Porphyre, philosophe grec du troisième
siècle de notre ère, qui a attaché son nom à l'étude de l'ontologie, à la fois sur un plan
religieux et sur un plan « scientifique », en insistant, pour la catégorisation des êtres, sur
les traits qui les opposent (catégorisation par identité et différence). On peut y voir
l'origine de l'organisation taxinomique en usage dans différents domaines scientifiques.
Cette approche des ontologies est reprise par Roche [Roc, 03] dans le système Ontologos
ainsi que Bachimont [Bac, 00]. Depuis, différents philosophes et mathématiciens ont
travaillé sur la notion d'ontologie et sur le travail de catégorisation, qui lui est connexe.
Le courant philosophique reste très présent, et connaît aujourd'hui un regain d'activité.
2.2. Du point de vue de l’ingénierie des connaissances
Plusieurs définitions du concept ontologie ont été proposées dans le
domaine de l’Intelligence Artificielle. Ces définitions sont souvent des raffinements de
définitions déjà proposées et/ou sont complémentaires avec elles. Neeches et ses
collègues [Nee, 91] furent les premiers à proposer une définition à savoir : «Une
ontologie définit les termes et les relations de base du vocabulaire d’un domaine ainsi
que les règles qui indiquent comment combiner les termes et les relations de façon à
pouvoir étendre le vocabulaire». En 1993, Gruber [Gru, 93] donne la définition
suivante : «Une ontologie est spécification explicite d’une conceptualisation» qui est
jusqu’à présent la définition la plus citée dans la littérature en intelligence artificielle.
Cette définition a subit des raffinements par l’auteur Borst [Bor, 97] qui définit
l’ontologie comme une «Spécification formelle d’une conceptualisation partagée». Ces
deux définitions sont regroupées dans celle de Studer [Stu, 98] comme «Spécification
formelle et explicite d’une conceptualisation partagée». Pour Guarino & Giaretta
[Gua, 95] «Une ontologie est une spécification rendant partiellement compte d’une
conceptualisation». Swartout et ses collègues [Swa, 97] la définissent comme suit : «Une
ontologie est un ensemble de termes structurés de façon hiérarchique, conçue afin de
27
Chapitre 2.
Les Ontologies
décrire un domaine et qui peut servir de charpente à une base de connaissances». La
même notion est également développée par Gomez [Gom, 04] « Les ontologies visent à
capturer les connaissances consensuelles de façon générique afin de faciliter leur
réutilisation et leur partage d’une application à une autre et d’un groupe de chercheurs
à un autre. Les ontologies sont généralement construites de façon coopérative par des
gens localisés à différents endroits ».
3. Composants de l’ontologie
Toutes les définitions précédemment citées s’accordent sur le fait que les
ontologies fournissent un vocabulaire commun d’un domaine et définissent la
signification des termes et les relations entre ces derniers. La formalisation des
connaissances de ces ontologies est mis en place grâce à différents types de composants
à savoir : concepts (ou classes), propriétés (ou attributs), instances (ou individus),
relations et axiomes (ou règles) :
Figure 2.1 Composants des ontologies.
o Concepts : Sont des notions (ou objets) permettant la description d’une tâche,
d’une fonction, d’une action, d’une stratégie ou d’un processus de raisonnement,
etc. ils peuvent être abstraits ou concrets, élémentaires ou composés, réels ou
fictifs. Habituellement, les concepts sont organisés en taxonomie [Bah, 06].
o Propriétés : Sont les attributs, les caractéristiques des concepts ou des relations.
o Instances : Constituent la définition extensionnelle de l’ontologie, elles sont
utilisées pour représenter des éléments dans un domaine [Bah, 06].
o Relations : Sont les liens organisant les concepts de façon à représenter un type
d’interaction entre les concepts d’un domaine. Elles sont formellement définies
28
Chapitre 2.
Les Ontologies
comme tout sous ensemble d’un produit de n ensembles, c’est-à-dire R :
C1*C2*…….*Cn.
o Axiomes : Permettent de définir la sémantique des termes (classes relations),
leurs propriétés et toutes contraintes quant à leur interprétation. Ils sont définis à
l’aide de formules bien formées de la logique du premier ordre en utilisant les
prédicats de l’ontologie [Bah, 06].
4. Typologies d’ontologie
Après avoir défini les différents composants de l’ontologie, la section suivante
décrit les différents types d’ontologies les plus courants dans la littérature. Cette
classification est en fonction (1) du niveau de formalisme du modèle, (2) des objets
qu’elles modélisent, (3) du degré de granularité des connaissances et (4) du type de
connaissances à modéliser.
4.1. Typologie selon le degré de formalisme
Pour Guarino [Gua, 97] les ontologies peuvent être de natures variables,
suivant le type de langage utilisé et donc allant d’un degré de formalisation zéro à une
formalisation totale. Quatre distinctions sont mises au jour :
o Ontologies informelles : elles sont exprimées en langue naturelle.
o Ontologies semi-informelles : elles sont exprimées dans une forme de langue
naturelle structurée et limitée. Cela permet d’augmenter la clarté de l’ontologie
tout en réduisant l’ambiguïté [Psy, 07].
o Ontologies semi-formelles : elles sont exprimées dans un langage artificiel et
défini formellement.
o Ontologies formelles : elles sont exprimées dans un langage artificiel disposant
d’une sémantique formelle, permettant de prouver des propriétés de cette
ontologie. L’intérêt de ces ontologies est la possibilité d’effectuer des
vérifications sur l’ontologie : complétude, non-redondance, cohérence, etc.
[Psy, 07].
29
Chapitre 2.
Les Ontologies
4.2. Typologie selon l’objet à modéliser
Psychés [Psy, 07] propose que la classification peut également se faire en
fonction des objets que modélisent les ontologies pour répondre à un objectif précis:
Figure 2.2 Classification des ontologies selon l’objet à modéliser.
o Ontologies de représentation de connaissances : modélisent les représentations
primitives utilisées pour la formalisation des connaissances sous un paradigme
donné.
o Ontologies de domaine : modélisent les connaissances réutilisables dans des
domaines précis. Ces ontologies fournissent les concepts et les relations
permettant de couvrir les vocabulaires, activités et théories de ces domaines
[Cho, 09]. Les concepts des ontologies de domaine sont souvent des
spécialisations de concepts définis dans des ontologies de niveau supérieur.
o Ontologies de niveau supérieur (ou générique): modélisent les concepts très
généraux auxquels les racines des ontologies de plus bas niveaux devraient être
liées. Cependant, il existe plusieurs ontologies de niveau supérieur et qui sont
divergentes. Afin de résoudre ce problème, l’organisation de standardisation IEEE
tente de développer une ontologie de niveau supérieur qui soit standard.
o Ontologies d’applications : modélisent les connaissances requises pour des
applications spécifiques. Les ontologies d’applications spécialisent souvent le
vocabulaire des ontologies de domaine et des ontologies de tâches [Cho, 09].
o Ontologies de tâches : modélisent les vocabulaires relatifs à une tâche ou une
activité générique en spécialisant certains termes des ontologies de niveau
supérieur [Cho, 09].
30
Chapitre 2.
Les Ontologies
4.3. Typologie selon le degré de granularité
Cette classification des ontologies selon Guarino [Gua, 97] est en
fonction du niveau de granularité, c'est-à-dire du niveau de détail des objets de la
conceptualisation. Ainsi, selon l’objectif opérationnel de l’ontologie, une connaissance
plus ou moins fine du domaine est nécessaire et des propriétés considérées comme
accessoires dans certains contextes peuvent se révéler indispensables pour d’autres
applications. On peut relever alors deux types de granularités.
o Granularité fine : cela correspond à des ontologies très détaillées, possédant un
vocabulaire riche capable d’assurer une description détaillée des concepts
pertinents d’un domaine [Psy, 07].
o Granularité large : cela correspond à un vocabulaire moins détaillé. Les
ontologies de haut niveau ont par exemple une granularité large, car les notions
sur lesquelles elles portent peuvent être raffinées par des notions plus spécifiques
[Psy, 07].
4.4. Typologie selon le type de connaissances à modéliser
Les ontologies sont classifiées dans la figure 2.3. [Lor, 02] sur la base de
leur force d’expression, c’est à dire sur la base de l’information que l’ontologie doit
exprimer :
Figure 2.3 Typologie des ontologies selon le type de connaissances à modéliser.
31
Chapitre 2.
Les Ontologies
o Vocabulaires contrôlés : C’est une liste finie de termes, un ensemble de sens
lexicaux associés à des traits syntaxiques, morphologiques et sémantiques.
o Glossaires : Ce sont des listes de termes avec leurs significations. Les
significations sont le plus souvent exprimées par des énoncés en langue naturelle
qui sont principalement destinés à des agents humains.
o Thesauri : Ils ajoutent aux glossaires la sémantique ressortant des définitions des
relations entre les termes (comme la relation de synonymie). Généralement, ils ne
fournissent pas la structure hiérarchique explicite, bien que celle-ci puisse être
déduite des spécifications de termes plus larges ou plus proches.
o Hiérarchies Is-a informelles : Cette catégorie inclut la plupart des ontologies du
web. Ce sont des ontologies où une notion vague de généralisation et de
spécialisation est fournie bien que ce ne soit pas une hiérarchie stricte de sousclasse (ex : Yahoo !).
o Hiérarchies Is-a formelles : Ce sont des ontologies où les concepts sont organisés
selon une hiérarchie de sous-classe stricte. Le concept d’héritage est toujours
applicable dans ce type d’ontologie. Cette ontologie peut inclure uniquement des
noms de classe.
o Instances formelles : Les ontologies incluant des relations d’instances formelles
sont une extension naturelle des ontologies appliquant une structure de hiérarchie
stricte.
o Cadres : Ce sont des ontologies dont les concepts sont décrits en terme de
propriétés caractéristiques. Le fait d’inclure des propriétés dans la description du
concept devient intéressante dans la mesure où l’on peut appliquer le principe
d’héritage sur ces propriétés.
o Restriction de valeur : Ces ontologies permettent d’appliquer des restrictions aux
valeurs associées aux propriétés (ex : nombre maximum de noms pour décrire le
concept).
32
Chapitre 2.
Les Ontologies
o Contraintes de logique générale : Ces ontologies sont celles qui ont la plus
grande force d’expression. Par exemple, ces ontologies peuvent être basées sur
des équations mathématiques qui utilisent des valeurs d’autres propriétés ou les
propriétés peuvent être exprimées comme des énoncés logiques.
5. Représentation des ontologies
Penser une ontologie ne peut se faire sans un formalisme pour la représenter afin
de décrire les termes d'une ontologie. Il existe divers langages dont les plus connus sont :
o XML1 (Extensible Markup Language): est un langage permettant de générer
des balises pour la structuration de données et de documents. Il permet la
représentation et l’échange de documents semi-structurés.
o XML-Schéma : permet de définir la structure, les contraintes, et la sémantique de
documents XML. Ce langage n’est pas vu comme un langage d’ontologies car il a
été créé pour vérifier la structure de documents XML. Les primitives qu’il met en
place sont plutôt orientées application que concept. En effet, la sémantique définie
dans le document est interprétable dans le contexte de l’opération faite sur le
document mais ne permet pas d’établir des inférences en dehors de ce contexte.
XML et XML-schéma sont considérés comme des langages définissant le format
de « message » alors qu’un langage d’ontologies a pour but de « représenter » la
connaissance.
o RDF 2 (Resource Description Framework): permet d’encoder, d’échanger et de
réutiliser des métadonnées structurées. Il a été créé pour gérer les métadonnées de
documents XML mais peut également être utilisé pour des ontologies. Il permet
de définir des ressources avec des propriétés et des états.
o RDF-Schéma : définit les relations entre ces ressources. Le pouvoir sémantique
de ces deux langages est limité car les axiomes ne peuvent pas être directement
décrits. Le type des relations (symétrique, transitive, …etc.) ne peut être spécifié.
1
2
www.w3.org/XML
www.w3.org/RDF/
33
Chapitre 2.
Les Ontologies
o OWL3 (Web Ontology Language) : doit permettre de représenter des ontologies,
en particulier sur le Web. Il est fondé sur la syntaxe RDF/XML et est dédié
totalement à la représentation des ontologies. OWL est destiné à être utilisé
lorsque les informations contenues dans les documents doivent être traitées par
des applications logicielles, c'est-à-dire lorsqu’elles ne sont pas simplement
montrées à l’utilisateur. Il existe trois sous-langages d’OWL offrant des capacités
d’expression croissantes : OWL Lite, OWL DL et OWL Full.
o Le langage du projet OBO (Open Biomedical Ontologies) : Le projet OBO est
une initiative d'un groupe de développeurs d'ontologies dans le domaine
biomédical, qui s'est mis d'accord sur un nombre de principes spécifiant les
bonnes pratiques pour le développement d'ontologies biomédicales. Les principes
édictés reposent sur l'objectif d'interopérabilité entre les différentes ontologies
développées. Un langage formel commun est fourni pour la représentation des
ontologies. Il est conçu pour permettre la prise en compte de plusieurs métadonnées, et comprend un mécanisme d'historisation. Parmi les principes édictés
par le projet OBO citons :
1. Chaque ontologie doit avoir un identifiant unique au sein de OBO;
2. Chaque ontologie doit inclure des définitions textuelles pour chacun de ses
termes ;
3. Les ontologies au sein d’OBO doivent être développées de façon
collaborative.
6. Utilité des ontologies en ingénierie des connaissances
Plusieurs chercheurs se sont intéressés à la finalité des exploitations des
ontologies. Dans ce qui suit est présentée l’utilité des ontologies au sein des systèmes à
base de connaissances (SBC) et du Web Sémantique :
o Les connaissances du domaine d’un SBC : Les ontologies servent à représenter
les connaissances du domaine d’un SBC. En particulier, elles servent de squelette
à la représentation des connaissances du domaine dans la mesure où elles
3
www.w3.org/OWL/
34
Chapitre 2.
Les Ontologies
décrivent les objets, leurs propriétés et la façon dont ils peuvent se combiner pour
constituer des connaissances du domaine complètes.
o La communication : Les ontologies peuvent intervenir dans la communication
entre personnes, organisations et logiciels [Usg, 96]. En effet, les ontologies
servent par exemple, à créer au sein d’un groupe ou d’une organisation un
« vocabulaire conceptuel commun ». Dans ce cas, on est plutôt dans le cadre
d’une ontologie informelle. Dans le cas de la communication entre personnes et
systèmes, l’ontologie est formelle et sert en général une tâche précise dans le SBC
ou le système d’information. L’ontologie est un puissant moyen pour lever les
ambiguïtés dans les échanges.
o L’interopérabilité : le développement et l’implantation d’une représentation
explicite d’une compréhension partagée dans un domaine donné, peut améliorer la
communication, qui à son tour permet une plus grande réutilisation, un partage
plus large et une interopérabilité plus étendue [Usg, 96]. L’interopérabilité est
donc une spécialisation de la communication qui permet de répertorier les
concepts que des applications peuvent s’échanger même si elles sont distantes et
développées sur des bases différentes.
o L’aide à la spécification de systèmes : La plupart des logiciels conventionnels
sont construits avec une conceptualisation implicite et que la nouvelle génération
des systèmes utilisant les travaux en intelligence artificielle devrait être basée sur
une conceptualisation explicitement représentée [Miz, 96]. En effet, l’ontologie
fournit une classification des objets que doit manipuler le système.
o L’indexation et la recherche d’information : Dans le Web Sémantique, les
ontologies y sont utilisées pour déterminer les index conceptuels décrivant les
ressources sur le Web.
o Le partage des connaissances : En annotant les ressources du Web ou d’une
organisation sur la base d’un vocabulaire commun s’adossant à une ontologie, il
est possible de rendre l’accès au Web plus performant et mieux adapté aux
besoins des usagers.
35
Chapitre 2.
Les Ontologies
7. Exemples de ressources ontologiques dans le domaine de la biologie
Le recours à des vocabulaires contrôlés ou à des ontologies s’est fait
rapidement sentir pour capturer les concepts biologiques présents en vue du
traitement automatique des annotations généralement écrites en langage naturel.
La construction, la fusion, l'utilisation et la réutilisation des ontologies constituent
quelques-uns des défis actuels en bioinformatique :
7.1. Ontologies biologiques et bio-informatiques
o Le projet GO (Gene Ontology) : vise à fournir un vocabulaire structuré pour des
domaines spécifiques biologiques permettant de décrire les produits des gènes
(protéines ou ARNm) des organismes. Il comprend trois ontologies parallèles qui
sont de plus en plus utilisés par la communauté bioinformatique: fonctions
moléculaires, processus biologiques et composants cellulaires.
o Le vocabulaire contrôlé eVoc : offre un système qui associe des données
d'expression (issues de puces à ADN, expériences SAGE ou ESTs) à un ensemble
de vocabulaires hiérarchiques [Kel, 03]. eVoc se compose de quatre vocabulaires
contrôlés orthogonaux appropriés pour décrire et comparer l'expression des gènes
chez l'homme et la souris.
o Le consortium HUGO (Gene Nomenclature Committee) : est né d'une volonté
d'uniformiser la désignation des gènes, propose une terminologie uniforme pour
29 000 gènes humains [Wai, 02].
o TAMBIS : est une plate-forme basée sur une ontologie globale, la Tao (TAMBIS
Ontologie) décrivant les ressources associées aux données génomiques et à leur
manipulation, caractérisant ainsi les logiciels et les bases de donné [Ste, 00].
o Le projet européen HKIS : vise à concevoir une architecture d'intégration qui
tienne compte à la fois des bases de données publiques (GenBank) et de données
biologiques privées (données du transcriptome, comme les informations
médicales ou cliniques des patients). Basé sur une ontologie de concepts
disponibles dans les bases moléculaires et combiné à une formalisation des
36
Chapitre 2.
Les Ontologies
scénarios de traitements des données de l'utilisateur, HKIS propose un chemin de
navigation dans des bases de données successives et permettant de répondre à la
requête de l'utilisateur [Coh, 04].
o Le projet OBO (Open Biomedical Ontology) : est une collaboration des
développeurs d'ontologies scientifiques dont le but est de créer des ontologies de
référence dans le domaine biologique et biomédical.
o La plate-forme NCBO (National Center for Biomedical Ontology) : développe
et maintient une application Web appelée BioPortail qui permet aux chercheurs
d'accéder et d'utiliser des ontologies biomédicales. Il recense 194 ontologies
telles que GO, National Cancer Institute Thesaurus, International Classification of
Diseases, Foundational Model of Anatomy [Jon, 09].
o La plate-forme OLS (Ontology Lookup Service) : quant à elle, a été créée pour
intégrer des ontologies biomédicales et les mettre à la disposition du public à
travers une base de données unique. Elle contient plus de 80 ontologies.
7.2. Ontologies des champignons
Les deux champignons modèles d’intérêt sont des organismes à cycle de
reproduction court, faciles à gérer dans les laboratoires et accessibles aux méthodologies
de
la génétique classique et de la biologie moléculaire. Ils sont pluricellulaires et
filamenteux, mais différents du champignon unicellulaire le plus étudié, Saccharomyces
cerevisiae. Plusieurs ontologies décrivant les champignons existent, mais les objectifs, la
spécificité de l’espèce, ou le spectre diffèrent de nos besoins.
o La FAO (Fungal Anatomy Ontology) : est un vocabulaire contrôlé décrivant
l'anatomie
des
trois
grands
phylums
de
champignons,
ascomycètes,
basidiomycètes et zygomycètes. Son large spectre, en contrepartie, ne la rend pas
assez détaillée pour notre usage.
o L’APO
(Ascomycete
Phenotype
Ontology) :
décrit
les
observations
phénotypiques des ascomycètes, mais elle est principalement enrichie par les
37
Chapitre 2.
Les Ontologies
phénotypes mutants de S. cerevisiae qui ne sont pas partagés par nos
champignons.
o La FWO (Fungal Web Ontology) : est une ontologie développée pour l'analyse à
grande échelle des relations génétiques entre les enzymes et les connaissances
disponibles sur les champignons [Sha, 05]. La FWO réutilise et intègre différentes
ressources: la base de données de littérature et de taxonomie du NCBI, une autre
base de données taxonomique appelée NEWT, la base de données des enzymes,
BRENDA, la base de données dédiée à la levure, Saccharomyces Genome
Database, et la base de données dédiée au champignon N. crassa. La FWO
associe gènes et produits des gènes mais elle manque de données d'expression.
o Le projet AFTOL-2 (Assembling the Fungal Tree of Life) : vise à recenser
certaines séquences de gènes. Les quelques gènes d'intérêt sont choisis pour être
partagés entre tous les champignons dans le but d'améliorer leur taxonomie.
o La CCO (Cell Cycle Ontology) : est encore une autre ontologie qui intègre et
gère la connaissance sur les composants du cycle cellulaire et de ses aspects
régulateurs pour
différentes espèces. Elle est espèce spécifique, et concerne
seulement deux champignons unicellulaires, S. cerevisiae et S. pombe.
7.3. Ontologies associées aux expérimentations
L’annotation efficace, la récupération et le partage des résultats
expérimentaux sont des problèmes de la biologie moderne. Les ontologies peuvent aider
dans ces tâches, car elles incarnent la connaissance abstraite nécessaire à l'intégration de
données et d'analyses. Ainsi, une description formelle des expériences est extrêmement
importante pour l'organisation et l'exécution des expériences en biologie.
Par exemple, les bio-puces du projet
MGED (Micro-array Gene
Expression) prévoient des termes pour annoter tous les aspects d'une expérience de puces
à ADN de sa conception avec la définition des hybridations, à la préparation de
l'échantillon biologique et des protocoles utilisés pour hybrider l'ARN sur la puce et
analyser les données. Les termes MGED sont fournis sous la forme d'une ontologie : ils
sont organisés en classes avec des propriétés, et sont bien définis. Ils permettent des
38
Chapitre 2.
Les Ontologies
requêtes structurées concernant les éléments des expériences. Les descriptions du
comment et du pourquoi chaque expérience a été réalisée sont nécessaires et pour les
descriptions du matériel biologique (biomatériaux) et de certains traitements utilisés dans
l'expérience, les termes peuvent provenir de ressources externes qui sont spécifiées dans
l'ontologie. Les logiciels utilisant l'ontologie proposent des formulaires pour l'annotation,
remplissent directement les bases de données, ou éditent des fichiers dans le format
établit MAGE-ML.
Ainsi, l'ontologie sera utilisée directement par les utilisateurs pour annoter
leurs expériences sur bio-puces ainsi que par les développeurs de logiciels et de bases de
données [Gue, 05]. Comme les ESTs, les expériences de microarray concernent des
données d'expression, mais d'une manière très différente. Les données d’ESTs sont les
premières données d'expression (le premier EST date du 26/05/1992), tandis que, des
données de bio-puces, plus récentes ont pu bénéficier des réflexions concernant les
ontologies qui se sont déroulées à la même époque. L'ontologie MGED, mise au point
avec les applications pratiques des bio-puces ne peut être utilisée pour la description des
ESTs.
8. Conclusion
Les ontologies sont définies pour un objectif donné et expriment un point de vue
partagé par une communauté. Conçues pour répondre aux problèmes posés par
l’intégration des connaissances au sein des systèmes informatiques, les ontologies
apparaissent désormais comme une solution pour la manipulation de l’information au
niveau sémantique. La diversité et la puissance des applications potentielles des
ontologies laissent à penser que leur place au sein des systèmes d’information ne peut que
croître. Si les principaux projets utilisant des ontologies ne visent pour le moment que la
gestion de connaissances au niveau sémantique, les ontologies pourraient permettre à
terme la création de systèmes capables non seulement de gérer des connaissances mais
aussi de raisonner sur ces connaissances et, pourquoi pas, d’en produire de nouvelles.
Dans ce chapitre, les premières notions liées aux ontologies ont été présentée à
savoir leurs définitions, leurs composants, leurs typologies, leurs utilités et quelques
applications domaines de la biologie. Cette revue, bien que n'étant pas exhaustive car ce
39
Chapitre 2.
Les Ontologies
domaine est assez vaste aujourd'hui, mais introduit les éléments nécessaires qui
permettent d'aborder le chapitre suivant à savoir les méthodes et outils de construction
des ontologies.
40
Chapitre 3
La construction d’ontologies à
partir de corpus de textes
Plan
1. Introduction
2. Méthodes et méthodologie de construction des ontologies
2.1. Construction d’Ontologie à partir de zéro
2.2. Construction d’Ontologie par réutilisation
2.3. Construction collaborative
3. Construction d’ontologies à partir de corpus de textes
3.1. Constitution d'un corpus
3.2. Extraction de termes
3.3. Extraction de relations
3.4. Nécessité de l’intervention humaine pour la construction d’ontologie
4. Rôle des statistiques textuelles pour la construction d’ontologie
5. Rôle des grammaires rationnelles pour la construction d’ontologie
6. Editeurs d’ontologies
6.1. Les outils orientés ontologisation
6.2. Les outils orientés conceptualisation
7. Cycle de vie des ontologies
8. Conclusion
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
1. Introduction
La conception d’ontologies est une tâche difficile qui nécessite la mise en place de
procédés élaborés afin d’extraire la connaissance d’un domaine, manipulable par les systèmes
informatiques et interprétable par les êtres humains. Deux types de conception existent : la
conception entièrement manuelle et la conception reposant sur des apprentissages. Plusieurs
principes et méthodologies ont été définis pour faciliter la génération manuelle. Ces principes
se basent sur des fondements philosophiques et suivent des procédés de modélisation
collaboratifs. Cependant, ce procédé de génération est très coûteux en temps et pose surtout
des problèmes de maintenance et de mise à jour. La conception automatique d’ontologies
commence à émerger comme un sous-domaine de l’ingénierie des connaissances. Face à la
masse croissante de documents présents sur le Web et aux avancées technologiques dans le
domaine de la recherche d’information, de l’apprentissage automatique et du traitement
automatique des langues, de nouveaux travaux portent sur la recherche d’un procédé plus
automatique de génération d’ontologies. Ce mécanisme mène généralement à la conception
d’ontologies dites légères.
Dans les travaux de Gargouri [Gar, 03], différents types d’approches sont distingués
en fonction du support sur lequel elles se basent : à partir de textes, de dictionnaires, de bases
de connaissance, de schémas semi-structurés et de schémas relationnels.
Dans ce chapitre, quelques unes des méthodes de construction d’ontologie seront
exposées. Par la suite, la méthodologie de construction d’ontologies à partir de corpus de
textes sera expliquée en détail, car elle est d'un intérêt particulier dans le cadre de notre étude
pour l’acquisition des informations expérimentales des deux champignons filamenteux. Enfin,
quelques outils et le cycle de vie des ontologies seront décrits.
2. Méthodes et méthodologie de construction des ontologies
Les travaux sur la construction des ontologies ont débuté dans les années 1990
[Gub, 95], [Grü, 95], [Bla, 98], [Usc, 95], [Fer, 97], [Gua, 98], [Cor, 03], [Jar, 02] et [Aus,
00]. Il existe plus de 33 méthodes décrites dans la littérature. Le tableau ci-dessous donne un
aperçu de ces méthodes et méthodologies.
42
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
Méthodes et méthodologies de construction des ontologies
Approche
collaborative
Méthode de l’université de
STANDFORD
Methontology
Onions- Ontologic Integation of
Naive Sources
[Hol, 02]
[Nat, 02]
[Flg, 02]
[Gan, 02]
FCA-merge
Modèle en V
On-To-Knowledge
KRAFT
[Stu, 01]
[Ste, 01]
[Sta, 01]
[Jfs, 00]
PROMPT
Infosleuth
(KA) 2
Method for Reengineering
[Nom, 00]
[Hwa, 99]
[Dec, 99]
[Gpb, 99]
Méthodologie
Ontobroker
SENSUS
SISM
[Ngu, 97]
[Ash, 97]
[Swa, 97]
[Are, 97]
Mikrokosmos
PhysSys
Approche unifiée
Enterprise
[Mah, 96]
[Bor, 96]
[Umk, 95]
[Umk, 95]
Ontolingua
TOVE - Toronto Virtual
Enterprise
Common KADS &
KACTUS
Menelas
[Far, 95]
[Grf, 95]
[Mar, 94], [Wie, 94]
[Bou, 94]
Plinius
Projet KACTUS
Cyc
[Mar, 94]
[Sch, 92]
[Lea, 90]
Tableau 3.1 Méthodes et Méthodologies de l’ingénierie ontologique. [Cho, 09]
Ces méthodes peuvent être classées comme suit :
1. Les méthodes et méthodologies pour la construction d'ontologies en partant de zéro ;
2. Les méthodes pour la réingénierie d'ontologies ;
3. Les méthodes de construction coopérative d'ontologies.
2.1. Construction d’Ontologie à partir de zéro
Elle est basée majoritairement sur l’extraction d’ontologies à partir de textes.
La méthode TERMINAE est un exemple de cette approche. Elle se base sur les étapes de
43
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
Constitution d’un corpus (documents techniques, comptes rendus, livres de cours, etc.), à
partir d’une analyse des besoins de l’application visée, Etude linguistique, pour identifier des
termes et des relations lexicales, en utilisant des outils de traitement de la langue naturelle
comme LEXER, Normalisation sémantique, conduisant à des concepts et des relations
sémantiques définis dans un langage semi-formel, et Formalisation et intégration des
concepts au sein d’une Base de Connaissance formelle. [Dia, 06]
2.2. Construction d’Ontologie par réutilisation
Elle est basée sur l’intégration ou fusion avec d’autres ontologies. Ceci
nécessite très souvent une étape d’alignement, qui identifie les concepts et les relations que
ces ontologies ont en commun. Des exemples de propositions méthodologiques ou techniques
concernant cette approche sont trouvables dans ONIONS ou PROMPT. [Dia, 06]
2.3. Construction collaborative
Ces travaux cherchent davantage à mettre en valeur et assister la nécessaire
collaboration entre les concepteurs des ontologies, en mettant à leur disposition des dispositifs
de discussion et de gestion de versions différentes des ressources en cours de construction.
[Dia, 06]
3. Construction d’ontologies à partir de corpus de textes
Dans cette section, nous allons expliquer la méthodologie de construction d’ontologies
à partir de corpus de textes, car elle est d'un intérêt particulier dans le cadre de notre travail
pour l’acquisition des informations expérimentales des champignons d’étude (voir chapitre 4).
La construction d’ontologies à partir de textes vise à la mise en œuvre à partir
d’éléments qui peuvent être extraits de ces textes. Cette construction fait intervenir différents
domaines (Recherche d’information, Ingénierie des Connaissances, Traitement Automatique
des Langues) qui peuvent être associées aux différentes phases de cette méthodologie.
44
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
3.1. Constitution d'un corpus
Afin de mettre en place la construction d’ontologies à partir de textes, il est
tout d’abord nécessaire de constituer l’ensemble des documents sur lequel reposera cette
élaboration. Cette tâche de constitution du corpus est à la fois primordiale et délicate. Puisque,
d’une part, le corpus est la source d’information essentielle pour tout le processus de
construction et d’autre part, il restera, une fois le processus achevé, l’élément de
documentation de la ressource construite, il doit être composé avec un maximum de
précautions méthodologiques. Dans ce domaine, il n’est hélas pas encore possible de définir a
priori des instructions méthodologiques très précises pour encadrer la tâche de sélection des
sources textuelles qui viendront constituer le corpus. Au-delà des problèmes techniques ou
politiques de disponibilité des textes, cette collecte doit se faire avec l’aide des spécialistes et
en fonction de l’application cible visée. Il convient en effet de s’assurer auprès des
spécialistes que les textes choisis ont un statut suffisamment consensuel pour éviter toute
remise en cause ultérieure de la part d’utilisateurs ou de leur part. Par ailleurs, il convient de
prévoir d’emblée une boucle de rétroaction au cours de laquelle une première version du
corpus sera modifiée et enrichie en fonction d’une première phase d’analyse des résultats
fournis par les outils de Traitement Automatique du Langage Naturel (TALN) sur cette
version initiale. [Her, 06]
Le critère de la taille est évidemment important, même s’il est impossible de
donner un chiffre idéal. Le choix est ici encore un compromis. Le corpus doit être
suffisamment « gros » pour justifier que des outils de traitement de la langue soient
nécessaires pour le dépouiller de façon efficace. Mais il doit être suffisamment petit et/ou
redondant pour pouvoir être appréhendé de façon globale par l’analyste, même à l’aide
d’outils de TALN. Une fourchette entre 50 000 et 200 000 mots semble raisonnable. Les
projets prenant le Web comme source de textes font rapidement exploser ces chiffres, posant
par la même des problèmes spécifiques, comme celui de la définition d’un « échantillon »
pertinent pour l’étude. [Her, 06]
Enfin, dans la majorité des cas, le corpus sera hétérogène dans le sens où il aura
été constitué en rassemblant des textes d’origine variée. Il est alors absolument nécessaire de
procéder à un balisage du corpus qui permettra aux outils d’analyse, et ainsi qu’à l’analyste,
45
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
de repérer les différents sous-corpus pour procéder éventuellement à des analyses
contrastives. [Her, 06]
3.2. Extraction de termes
Cette tâche consiste à extraire un ensemble de termes candidats pour
représenter les concepts d’une ontologie. Ces termes peuvent être extraits selon deux
approches : syntaxique ou statistique. L’approche syntaxique analyse le rôle grammatical des
mots dans ces textes, alors que l’approche statistique repose sur la fréquence d’apparition des
mots dans les textes.
w Approche syntaxique
Ces approches utilisent certaines informations syntaxiques dans le choix des
termes et supposent que le document a déjà subi une analyse morphologique et une analyse
syntaxique. Parmi ces approches, nous citons deux familles : les approches basées sur patrons
morpho-syntaxiques et les approches basées sur règles de transformation [Khe, 06].
o Utilisation de patrons morpho-syntaxiques
C’est l’une des techniques les plus utilisées pour l’extraction de termes. Les
systèmes basés sur cette technique supposent que les termes à extraire obéissent à des
régularités syntaxiques stables. Ces systèmes prennent en entrée un ensemble de patrons
constitués d’une suite de catégories grammaticales et qui peuvent être par exemple : NOM
NOM / ADJQ NOM / NOM PREP NOM...Toutes les occurrences de mots correspondant à
ces patrons sont extraites comme des candidats termes potentiels.
o Utilisation des règles de transformation
Ces méthodes permettent d’extraire des termes complexes à partir de
connaissances extérieures servant de référence. Généralement, elles identifient des variantes
de termes fournis par un thésaurus ou un vocabulaire contrôlé.
46
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
w Approche statistique
Ces approches utilisent seulement les co-occurrences de mots. Le principe est
que si deux mots co-occurrent souvent dans un certain type de contexte, alors ils peuvent être
regroupés dans un terme. Le calcul de co-occurrences varie selon le contexte et selon les
besoins. Il peut se faire dans le même document, le même paragraphe, la même phrase, ou
dans une certaine distance [Khe, 06].
w Approche mixte
Ces approches combinent des méthodes à orientation statistique et des
méthodes à orientation syntaxique. Elles utilisent généralement des calculs statistiques afin
d’affiner leurs méthodes d’extraction linguistique [Khe, 06].
3.3. Extraction de relations
Après avoir présenté quelques approches d’extraction de candidats-termes,
nous allons voir les différentes approches proposées pour extraire des relations sémantiques
entre ces termes. Nous présentons trois grandes familles à savoir : l’étude statistique,
l’exploitation des contextes syntaxiques et l’utilisation de marqueurs.
w Extraction des relations par étude statistique
Ces approches reposent sur le principe que les termes qui co-occurrent
ensemble ont de fortes chances d’être liés par des relations sémantiques. Elles exploitent donc
la distribution des termes dans le document/corpus en utilisant des techniques de fouille
basées sur des méthodes statistiques. Ces méthodes n’extraient pas vraiment des relations
mais proposent un nuage de termes, à partir duquel un expert pourrait déduire des relations ou
des classes conceptuelles [Khe, 06].
w Extraction des relations par exploitation des contextes syntaxiques
Comme pour les premières, ces approches exploitent le principe de
co-occurrence des termes pour la détection des relations. Par contre, elles utilisent la
distribution syntaxique des termes à la place des calculs statistiques pour extraire les relations.
47
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
w Extraction des relations par l’utilisation des marqueurs
Ces approches se basent sur les traces linguistiques qui signalent les
relations sémantiques dans le texte (ces traces peuvent être liées, soit à la langue, soit au
domaine) pour construire des marqueurs permettant la détection de ces relations. Un marqueur
peut être considéré comme une formule linguistique que les mots désignant une relation dans
le texte doivent vérifier [Khe, 06].
3.4. Nécessité de l’intervention humaine pour la construction d’ontologie
Aucun outil ou méthode ne permet aujourd’hui de créer de façon totalement
non supervisée des ressources sémantiques de bonne qualité [Bie, 05]. Il faut sous-entendre ici
des ressources suffisamment profondes, dont la couverture soit suffisamment large et dont les
erreurs dans les analyses soient suffisamment négligeables.
La plupart des outils disponibles pour la construction d’ontologie à partir de
textes [Gom, 03] sont décrits comme nécessitant l’intervention humaine à différents niveaux :
o Procurer des données ou connaissances initiales : plusieurs méthodes et outils de
construction d’ontologie requièrent que des experts fournissent des données ou
connaissances pour initialiser la construction semi-automatique. Par exemple,
certaines méthodes de construction d’ontologie [Gom, 03] recommandent que des
experts de domaine choisissent les documents utilisés pour la construction d’ontologie
de domaine afin de s’assurer que toutes les notions pertinentes au domaine soient
couvertes par ces documents.
w Raffiner les informations extraites : beaucoup de méthodes et outils ne permettent
d’extraire que des ontologies superficielles qui peuvent souvent nécessiter des
raffinements. Par exemple, la plupart des méthodes d’extraction pour la construction
d’ontologie ne portent que sur l’extraction de concepts à partir de noms communs
[Bie, 05]. Dans ce cas, des raffinements peuvent être nécessaires afin d’ajouter des
relations non taxonomiques aux ontologies par exemple. Un autre exemple OntoDL
[Bui, 04] dont les règles d’extraction et les résultats d’extraction peuvent être raffinés
par le développeur.
48
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
w Valider les informations extraites : les taux d’erreurs pour les informations extraites à
partir de corpus sont parfois élevés et/ou peuvent nécessiter des validations par des
experts. Par exemple le système On-to-Knowledge [Gom et al, 03] extrait des
relations d’hyponymie mais avec un fort taux d’erreurs.
4. Rôle des statistiques textuelles pour la construction d’ontologie
o La fréquence de terme est proportionnelle au nombre de fois qu’un terme apparaît
dans un document. Ce nombre est généralement normalisé par le nombre de tous les
termes dans un document afin d’éviter les biais pour de longs documents. La
fréquence de terme est parfois utilisée pour (i) l’identification de termes pertinents
d’un corpus ou (ii) directement pour l’identification de candidats de concepts (ou
d’instances de concepts) et de relations [Gom, 03]; les termes et couplages de termes
dont les fréquences relatives sont plus grandes dans un corpus de domaine que dans un
corpus général sont parfois proposés à l’expert respectivement comme candidats de
concepts et comme candidats de relations.
o TF-IDF (Term Frequency - Inverse Document Frequency) [Lav, 07] est une mesure
statistique utilisée pour évaluer l’importance (le poids) d’un mot dans un document
d’un corpus. L’importance croit proportionnellement avec le nombre d’occurrences du
mot dans le document mais est contrebalancée par la fréquence du mot dans le corpus.
La fréquence inverse du document (IDF) pour un terme donné est une mesure de
l’importance générale de ce terme (c’est le logarithme du nombre de tous les
documents divisé par le nombre de documents contenant ce terme): pour un terme ti ,
TF-IDF = TF x IDF où IDF = log (nombre de documents / nombre de documents
contenant le terme ti). Un haut poids TF-IDF est atteint avec une haute fréquence d’un
terme dans un document donné et une faible occurrence de ce terme dans les
documents du corpus. TF-IDF tend à filtrer les termes communs. TF-IDF est parfois
utilisé comme métrique de similarité pour mesurer la distance entre termes [Gom, 03]:
la métrique permet ainsi de regrouper les termes similaires en concepts communs. TFIDF est également utilisé pour détecter les termes pertinents à un domaine donné
[Gom, 03].
49
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
o L’analyse sémantique latente [Lav, 07] est une technique d’extraction et de
représentation de la signification contextuelle des mots par calculs statistiques sur un
large corpus textuel. L’idée de base est que l’agrégation des contextes où les mots
apparaissent et n’apparaissent pas fournit un ensemble de contraintes déterminant la
signification des mots et la similarité avec les autres mots. L’analyse sémantique
latente utilise une matrice de termes de documents décrivant les occurrences des
termes dans les documents. La matrice est creuse avec les rangées correspondant à des
documents et les colonnes correspondant aux termes. La métrique TF-IDF est souvent
utilisée afin de pondérer les occurrences des termes (le poids d’une entrée donnée dans
la matrice est proportionnel au nombre de fois qu’un terme apparaît dans un
document). Les poids des termes rares sont ajustés de façon à refléter leurs
importances relatives. L’analyse sémantique latente transforme la matrice de termes de
documents en un espace de concepts latents (agrégation de contextes d’apparition des
termes) permettant de mettre en relations termes et concepts, ainsi que documents et
concepts. La notion de concept issue de l’analyse sémantique latente est supportée par
l’hypothèse distributionnelle de Richard Harris [Lav, 07] selon laquelle les mots qui
tendent à apparaître dans des contextes similaires ont des sens similaires. Dans les
deux cas, la co-occurrence de termes est interprétée comme un indicateur de proximité
sémantique. De façon générale, l’extraction de connaissances ontologiques à partir de
textes non structurés repose sur l’hypothèse distributionnelle des mots dans les textes.
5. Rôle des grammaires rationnelles pour la construction d’ontologie
Une grammaire rationnelle est un ensemble d’expressions (couples, triplets, schémas,
patrons, etc.) ordonnées définissant un langage [Lav, 07]. Dans le contexte de l’analyse de
texte, la grammaire spécifie la composition des phrases d’un langage naturel.
o Les modèles N-grams [Lav, 07] sont considérés par certains comme des grammaires
rationnelles stochastiques; c’est-à-dire des modèles hybrides représentant les
propriétés statistiques et compositionnelles des textes. Les modèles N-grams
modélisent des séquences de termes (mots, lettres, etc.) avec des N-grams qui sont des
sous-séquences de N termes. Ils permettent de déterminer la probabilité d’un mot étant
donné les N-1 mots précédents. Les séquences à fortes probabilités permettent de
déterminer les séquences de mots fortement associés, telles les collocations (e.g.
50
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
“cordon bleu”), où chaque séquence de mots pourra être mise en correspondance avec
un concept. Les N-grams permettent également de comparer les contextes
d’occurrences.
o Les patrons d’expressions contiennent des termes et des variables auxquelles peuvent
être associées des contraintes. Les patrons d’expressions sont unifiés avec des textes
de façon à instancier les patrons avec des fragments de textes satisfaisant aux
structures et aux contraintes des patrons. Les patrons d’expressions permettent de
spécifier des relations et/ou des arguments de ces relations afin d’extraire des mots
correspondant aux relations ou aux arguments. Par exemple, ils sont parfois utilisés
pour l’extraction des relations d’hyponymie (relation sémantique de subordination ou
d’appartenance à une classe de plus bas niveau) [Gom, 03]: sachant que Shakespeare
est un hyponyme de poète, à partir du patron correspondant à la séquence “poète …
Shakespeare” on peut trouver dans un texte l’expression “poète tel que Shakespeare”
et faire l’hypothèse que “X tel que Y “ indique une relation d’hyponymie entre X et Y.
Inversement, à partir du patron “X tel que Y“ on peut trouver dans un corpus les
couples de mots X et Y qui sont possiblement en relations d’hyponymie. La même
approche peut être appliquée avec d’autres types de relations lexicales: relations de
hypernymie (inverse de l’hyponymie), synonymie, antonymie, méronymie (relation
entre la partie et le tout), etc. Les patrons de mots sont souvent utilisés pour raffiner
des ontologies existantes. Cependant, les taux d’erreurs sont parfois élevés et des
vérifications par des experts sont souvent nécessaires [Gom, 03].
o Les grammaires morphologiques modélisent les constituants morphologiques des
mots (morphèmes lexicaux et morphèmes grammaticaux). Elles permettent de
déterminer la similarité des termes au niveau des morphèmes lexicaux et de faire
abstraction des différences grammaticales (e.g. “cheval” et “chevaux” sont des termes
dont les morphèmes lexicaux sont similaires). Les grammaires morphologiques sont
souvent implémentées avec des automates à états finis. Dans le contexte de la
construction d’ontologie à partir de textes, les grammaires morphologiques sont
utilisées pour le prétraitement des textes afin d’obtenir des morphèmes lexicaux à
partir desquels d’autres traitements sont effectués. Par exemple, les matrices de termes
utilisées pour l’analyse sémantique latente peuvent contenir des morphèmes lexicaux
obtenus après prétraitement des textes.
51
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
o Les grammaires syntaxiques modélisent les structures syntaxiques des phrases. Ces
grammaires permettent de distinguer les relations de dépendances syntaxiques entre
les mots qui sont généralement spécifiés par leurs propriétés morpho-syntaxiques: e.g.
l’expression “les poules couvent” peut être analysée comme étant composée d’un
syntagme verbal (le verbe couver à l’indicatif présent) ayant pour sujet syntaxique un
syntagme nominal (les poules, où poule est un nom commun pluriel défini). Dans le
contexte de construction d’ontologie à partir de textes, les grammaires syntaxiques
permettent de regrouper les termes selon les similarités syntaxiques. Par exemple, dans
l’outil SVETLAN [Gom, 03], les termes nominaux qui dans le corpus ont des relations
syntaxiques similaires avec les mêmes termes verbaux sont agrégués sous le même
concept: l’hypothèse est que les verbes et leurs relations syntaxiques permettent de
catégoriser les noms. Cependant les analyseurs syntaxiques sont relativement peu
employés pour la création d’ontologie; les grammaires syntaxiques sont souvent peu
accessibles pour la plupart des langues et leurs couvertures sont souvent insuffisantes
pour de grand corpus de textes.
o Les grammaires sémantiques modélisent les informations sémantiques associées aux
phrases. Au niveau sémantique, les termes sont généralement classifiés comme des
objets, des événements ou des états. Les informations sémantiques portent sur les
propriétés de ceux-ci (e.g. objet animé) et sur leurs relations (e.g. relation causale entre
un objet et un évènement). Les grammaires sémantiques sont parfois intégrées aux
grammaires syntaxiques puisque ces premières dépendent souvent de ces dernières.
Dans le contexte de construction d’ontologie à partir de textes, les grammaires
sémantiques permettent de regrouper les termes selon leurs similarités sémantiques.
Par exemple, OntoExtract [Gom, 03] génère des taxonomies (ontologies légères) à
partir d’analyse basée sur des grammaires sémantiques. Cependant, comme pour le cas
des analyseurs syntaxiques, les analyseurs basés sur des grammaires sémantiques sont
encore relativement peu employés pour la création d’ontologie à cause des ressources
insuffisantes pour la plupart des langues ou pour couvrir de grands corpus de textes.
52
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
6. Editeurs d’ontologies
Il existe de nombreux outils permettant de construire des ontologies. Une classification
selon [Fur, 04] distingue : les outils orientés ontologisation et ceux orientés
conceptualisation.
6.1. Les outils orientés ontologisation
Parmi ces outils nous avons choisi de décrire Protégé 2000, OntoEdit et
WebOnto et dans ce qui suit car ce sont les outils les plus utilisés.
o Protégé 2000 [Mar, 08]: Protégé 2000 est une interface modulaire permettant
l'édition, la visualisation, le contrôle (vérification des contraintes) d'ontologies,
l'extraction d'ontologies à partir de sources textuelles, et la fusion semi-automatique
d'ontologies. Le modèle de connaissances sous-jacent à Protégé 2000 est issu du
modèle des frames et contient des classes (concepts), des instances des classes et des
propriétés, ainsi que des facettes (valeurs des propriétés et contraintes). Protégé est un
éditeur d’ontologies pour les différents langages : XML, RDF et OWL.
o OntoEdit [Mar, 08]: OntoEdit (Ontology Editor) est un environnement de
construction d'ontologies qui permet l'édition des hiérarchies de concepts et de
relations et l'expression d'axiomes algébriques portant sur les relations, et de propriétés
telles que la généricité d'un concept. Des outils graphiques dédiés à la visualisation
d'ontologies sont inclus dans l'environnement. OntoEdit intègre un serveur destiné à
l'édition d'une ontologie par plusieurs utilisateurs. Un contrôle de la cohérence de
l'ontologie est assuré à travers la gestion des ordres d'édition. Enfin, un plug-in nommé
ONTOKICK offre la possibilité de générer les spécifications de l'ontologie par
l'intermédiaire de questions de compétences.
o WebOnto [Mar, 08]: WebOnto du Knowledge Media Institute de l’Open University,
est une application Web pour naviguer et développer collaborativement les ontologies.
Il supporte la navigation collaborative, la création et l’édition d’ontologies sur le Web.
Les ontologies WebOnto sont implémentées dans le langage OCML. Le langage
OCML est une combinaison des frames et de la logique de premier ordre et permet de
53
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
représenter les concepts, la taxinomie des concepts, les relations, les fonctions, les
axiomes et les instances. WebOnto distingue quatre types d’ontologies : ontologie de
domaine, ontologie de tâche, ontologie de méthode, et ontologie d’application. Il
supporte l’inclusion d’ontologie au moyen des interfaces graphiques. En ce qui
concerne l’édition collaborative d’ontologie, WebOnto est le seul outil qui procure
cette fonctionnalité, il permet aux ingénieurs des connaissances de tenir des
discussions sur les changements et les mises à jour des ontologies lors d’édition ou de
navigation, en mode synchrone et asynchrone.
6.2. Les outils orientés conceptualisation
Les outils les plus fréquemment utilisés pour la conceptualisation sont
TERMINAE, OntoBuilder et Text-To-Onto :
o TERMINAE [Bie, 99] : Cet outil a été développé au LIPN de l’Université ParisNord, permet à travers l’outil d’ingénierie linguistique LEXTER, d’extraire d’un
corpus textuel les candidats termes d’un domaine. TERMINAE utilise des techniques
d’analyse syntaxique de texte pour proposer à l’utilisateur des termes candidats pour
les concepts du domaine et les différents sens des concepts donnés par les usages qui
en sont faits dans le corpus. Le modèle de représentation de TERMINAE est celui des
Logiques de Description, un export des ontologies dans le langage OIL est même
possible pour la validation de l’ontologie.
o Text-To-Onto : Cet outil a été développé à l’institut AIFB de l’Université de
Karlsruhe3, offre les mêmes fonctionnalités d’extraction d’ontologie à partir de corpus
ou de documents Web, mais en utilisant des ontologies existantes [Mae, 01]. Il est
intégré à la plateforme logicielle KAON (KArlsruhe ONtology and Semantic Web
Infrastructure) d’édition et de maintenance d’ontologie [Boz, 02]. KAON utilise le
modèle de connaissance de RDFS et est orienté vers l’utilisation des ontologies sur le
Web, l’application KAON Portal permettant la recherche et le parcours d’ontologie
via un navigateur Web.
54
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
7. Cycle de vie des ontologies
Étant donné que les ontologies sont destinées à être utilisées comme des composants
logiciels dans des systèmes informatiques répondant à des objectifs opérationnels différents,
leur développement doit s’appuyer sur les mêmes principes que ceux appliqués en génie
logiciel. En particulier, elles doivent être considérées comme des objets techniques évolutifs
et posséder un cycle de vie spécifique. Les activités liées à une ontologie peuvent être
regroupées en trois catégories [Bla, 98] :
o Des activités de gestion de projet : planification, contrôle, assurance qualité.
o Des activités de développement : spécification, conceptualisation, formalisation.
o Des activités de support : évaluation, documentation, gestion de la configuration.
Figure 3.1 Cycle de vie des ontologies.
La figure 3.1 représente les différentes activités qui expliquent que le cycle de vie
préconisé est un cycle par prototypes : la vie d’une ontologie passe par les états suivants :
spécification des besoins, conception (normalisation, formalisation et opérationnalisation)
déploiement et diffusion, utilisation, évaluation et enfin évolution et maintenance. Le cycle de
vie par évolution de prototypes permet à l’ontologiste de retourner de n’importe quel état à
n’importe quel autre si une certaine définition manque ou est erronée. Ainsi, ce cycle de vie
permet l’inclusion, le déplacement ou la modification de définitions n’importe quand durant le
cycle de vie de l’ontologie. L’acquisition, la documentation et l’évaluation de connaissances
sont des activités de support qui sont effectuées pendant la majorité de ces états.
55
Chapitre 3.
La conception d’ontologies à partir de corpus de textes
Fernandez et ses collègues [Fer, 97] insistent sur le fait que les activités de
documentation et d’évaluation sont nécessaires à l’étape du processus de construction
d’ontologie, l’évaluation précoce permettant de limiter la propagation d’erreurs.
8. Conclusion
La capture de la connaissance nécessaire pour l’élaboration d’une ontologie peut être
réalisée à partir de plusieurs principes et méthodologies. Les différentes méthodologies
proposées dans la littérature insistent sur l’importance de spécifier la tâche pour laquelle
l’ontologie est construite. Cette tâche conditionne les éléments de connaissance qui devront
être collectés ainsi que le niveau de formalisation nécessaire pour que l’ontologie soit
manipulée par le système.
Aussi, l’élaboration d’ontologies à partir de textes permet de faciliter la conception
d’ontologies légères. Elle peut reposer soit sur une analyse statistique des termes apparaissant
dans les documents, soit sur une analyse syntaxique qui consiste à analyser le rôle
grammatical des mots qui les composent. Ces deux approches permettent d’aider à extraire les
termes qui définiront le lexique de l’ontologie du domaine.
Nous proposons de construire une ontologie à partir d’un corpus de textes biologiques
permettant de capturer la sémantique associée au contexte expérimental d'expression
associées aux séquences d’ESTs de deux champignons filamenteux dont les termes-clés sont
extraits par une approche statistique.
56
Deuxième Partie
Conception & Mise en œuvre
Chapitre 4
La Conception
Plan
1. Introduction
2. Expérimentation
2.1. Collecte des données
2.2. Structure des données d’expression : Les ESTs
2.3. Extraction des termes candidats
2.4. Résultats de l’extraction des termes
2.5. Exploitation des termes de l’ontologie pour le clustering
3. Conception
3.1. Choix de la méthode de construction de l’ontologie
3.2. Architecture du système
3.3. Le module consultation
3.4. Le module exploitation
3.5. Le module enrichissement
4. Conclusion
Figure 4.1 Schématisation de l’approche.
58
Chapitre 4.
La Conception
1. Introduction
Ce chapitre présente d’abord l’expérimentation effectuée à travers la définition
du corpus à partir duquel la ressource terminologique est établie, l’extraction manuelle
et statistique automatique des termes-clés (ou termes-candidats) grâce à l’outil K.E.A
et les critères choisis pour la construction de l’ontologie biologique pour ces deux
champignons. Ensuite, la conception de l’ontologie biologique à partir des termes
précédemment extraits en spécifiant la méthode choisie à cet effet, leur exploitation
par le logiciel TANAGRA pour le clustering, y est expliquée. Enfin, la présentation de
l’architecture qui exploite cette ontologie en détaillant les différents modules de ce
système, est décrite.
2. Expérimentation
Une entrée d’une fiche d’ESTs dans une base de données de séquences
biologiques est définie par au moins deux entités : les informations relatives à la
description de l'entrée, et sa séquence. Ainsi, l'utilisation de ses données est possible
selon de deux moyens : le premier, appelé recherche par similarité, utilise
uniquement la séquence d’entrée pour déterminer la ou les séquences les plus proches
de la séquence utilisée. Le deuxième moyen recherche des termes-clés directement
dans les champs des entrées renseignées dans bases de données de séquences.
Dans cette étude, la deuxième méthode a été adoptée : utiliser des termes-clés
afin d’identifier les informations associées au contexte des expériences qui ont conduit
à une certaine catégorie de séquences d’ADN : Les ESTs (Expressed Sequence Tags)
(Annexe B), depuis l'extraction des molécules jusqu’à leur séquençage. Ainsi, deux
modèles de champignons multicellulaires Neurospora crassa et Podospora anserina
(Annexe A) ont été choisis car ils sont enrichis par des données d'expression.
2.1. Collecte des données
Un corpus (de terminologie anglo-saxonne) a été constitué des données
provenant de la base de séquences générale, Genbank (au NCBI), et concerne
Neurospora crassa, avec 277147 fiches d’EST provenant de 22 expériences et
Podospora anserina avec 51286 fiches d’EST issues de 07 expériences. Pour une
59
Chapitre 4.
La Conception
meilleure «couverture» du domaine, ces informations ont été complétées par plusieurs
articles et thèses qui traitent du cycle de développement des champignons d'intérêt.
Une approche bottom-up a été suivie pour l'extraction de termes issus des
données afin de construire l’ontologie biologique du domaine. La figure 4.1 illustre les
différentes étapes de l’expérimentation afin d’aboutir à l’ontologie biologique des
deux organismes.
2.2. Structure des données d’expression : Les ESTs
La partie "EST" de la base de données de séquences NCBI est constituée
d’entrées, chaque entrée correspondant à une séquence d’EST (Expressed Sequence
Tag) d’un organisme donné. Un exemple d’une entrée (fiche) d’EST est présenté en
figure. Chaque fiche d’EST est composée de quatre parties :
·
La première partie regroupe toutes les données générales d’une
séquence d’EST tel que son identifiant, son numéro d’accession,
identifiant de son clone, les primer utilisés, etc.
·
La deuxième partie correspond à la séquence d’EST proprement dite
obtenue après expérimentation. Dans notre exemple la séquence d’EST
à une de {A, T, G, C} qui pendant l’expérience 4 heure de croissance
végétative a donné ce résultat, la date de création et de mise à jour de la
séquence sont aussi spécifiés. Un commentaire est parfois rajouté en
complément d’information dans cette partie.
·
La troisième partie les détails de l’expérimentation effectués sur un
organisme donné tels que : nom de la souche, type de tissus, les
différents milieux utilisés, la durée de l’expérimentation, etc. (Partie
encadrée en rouge qu’on voudrait exploiter).
·
La quatrième partie donne le nom de(s) soumetteurs(s), le laboratoire
et son adresse qui ont obtenu la séquence ainsi que le(s) des différents
auteurs qui ont cités ces travaux dans leurs articles.
60
Chapitre 4.
La Conception
GenBank: GH279783.1
G688P583FB6.T0 Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light Neurospora crassa cDNA, mRNA sequence
IDENTIFIERS
dbEST Id:
EST name:
GenBank Acc:
GenBank gi:
63312709
G688P583FB6.T0
GH279783
218211571
CLONE INFO
DNA type:
cDNA
PRIMERS
PolyA Tail:
Unknown
SEQUENCE
ACGCCTTCGCTAGCTACACCTGAGGCCCTCATCGATCATCCACACGATACTCTCATCTGGAACTGAGTCGAAAAAGACATCAAGATTACGAGCCTCT
TCTTTCCACCAAAACCCAATGGTTGTGCAACGAGATCCCAGACTATGAAGCCAAGCTTGGTTGCCCTCCGCCATTCGCAAAGACAACCCCGTCCCAC
CAATCAAGCCTTGATCCCAAGGGGCAAGCGGTGGAAGCCACCGCAGAAGCCACATTCTTCTGGAGCTCAACCATTCTCTTCTGGTCGCCAGTAGGG
TCACTGGATTCGGGCTGCAGAGCCCAGTCAAGAAACTCGTTGGTGTAGTTGGGGGTGAAGTCTGGAACGCCGAGACGTTGACCATATTTGGTGACC
TTGGACCAGTCGCGCTCGACGTTCTTGAGGTCCTCGGAGAAGTATGCGTAGCTGCGCTCAAAGATCTTTCTGTTGAGCTCAGTGCCCATGACAGGC
TTGAAGTCGACATACTCCTTCCACGCAGCGTCCGGGTTGGCCAGGACAAAGTCAGTGGCCTTCTTGACGGCGCGCATAAAGGCCCGAACCTTGTCT
GGGTTCTGCGAGATGAAGGTCTCGTTGCCAATGTAGAGAATCGAGCAGAAGCAGCAGCATCAGAGTTCCGCGAGCTCGTCGATGCGAAGCATCTG
AACGTCGGCCTTGTCCCGGCCCTGGGAAGCAGCACTCTCAGCTCATCATCTGCACGTTCTCGAGCGATACGCGTCATCTCCTCCTGATATGACTTG
AGACGTCATGCGCAGCGGACGGCGTGTAATCGGCAGGAGTCAGGCCGTAGT
Entry Created: Dec 17 2008
Last Updated: Dec 17 2008
COMMENTS
Sequenced under the project name G688 at the Broad Institute (www.broad.mit.edu)
LIBRARY
Lib Name:
Organism:
Strain:
Sex:
Vector:
R. Site 1:
R. Site 2:
Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light
Neurospora crassa
Mauriceville
A
pBluescriptSKXhoI
EcoRI
Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225) using the PolyAttract SYSI kit from Promega. Cells were
grown in 1X Vogel's medium/0.5% arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm. First-strand cDNA
containing methyl-C was synthesized using an oligo-dT primer bearing a XhoI site to enable directional cloning. After second-strand synthesis, cDNA
was subjected to fractionation using a CL-2B Sepharose size fractionation column. After addition of EcoRI adapters, digestion with XhoI, cDNA with size
above 1 kb was ligated to XhoI/EcoRI-digested UNIZAP XR Lambda arms and the ligation products packaged into Lambda particles. The Lambda cDNA
library was amplified. Mass-excision of the amplified library was accomplished to produce pBluescript phagemid for cDNA sequencing.
SUBMITTER
Name:
Matthew S. Sachs
Lab:
Department of Biology
Institution: Texas A&M University
Address:
College Station, TX 77843-3258, USA
Tel:
979 845 5930
Fax:
979 845 2891
E-mail:
[email protected]
CITATIONS
Title:
Neurospora crassa EST Sequencing
Authors:
Basturkmen,M., Xu,J., Shi,M., Loros,J., Nelson,M., Henn,M., Kodira,C., Lennon,N., Green,L., Galagan,J., Birren,B., Dunlap,J., Sachs,M.S.
Year:
2008
Status:
Unpublished
Figure 4.2 Exemple d’une entrée de fiche d’EST.
2.3. Extraction des termes candidats
Un terme candidat est un mot ou une séquence de mots susceptibles d'être retenus
comme terme par un terminologue [Des, 08] ou par un analyste et de fournir les étiquettes
des concepts [Des, 08]. Ces termes représentent les concepts d’une ontologie qui peuvent être
extraits selon deux approches : syntaxique ou statistique. L’approche syntaxique analyse le
61
Chapitre 4.
La Conception
rôle grammatical des mots dans ces textes, alors que l’approche statistique repose sur la
fréquence d’apparition des mots dans les textes.
o
Extraction manuelle des termes
Dans un premier temps, nous avons extraits manuellement les termes en choisissant
une fiche d’EST par expérience pour les deux champignons d’étude. Les tableaux (de 4.1 à
4.5) décrivent les détails des informations expérimentales de Neurospora crassa et Podospora
anserina.
62
Lib Name (Nom de la library)
Mycelium grown for 48h
Ascospores 20h after germination
trigger
Young perithecia of less than 48h
Perithecia older than 48h
Rapamycin induced mycelium
hetR/hetV incompatible mycelium
Senescent mycelium
LIBRARY
EXP.1
EXP.2
EXP.3
EXP.4
EXP.5
EXP.6
EXP.7
Podospora
anserina
Podospora
anserina
Podospora
anserina
Podospora
anserina
Podospora
anserina
Podospora
anserina
Podospora
anserina
S mat+
S mat+
S mat+
S mat+
S mat+
S mat+
s
Strain
(Souche)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Sex
(Sexe)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Organ
(Organe)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Tissue type
(Type de tissus)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Develop. stage
(Stade de develp)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Vector
(Vecteur)
Tableau 4.1 Détail des informations expérimentales de P.anserina.
Organism
(Organisme)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
R. Site 1
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
R. Site 2
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Cell type
(Type
cellulaire)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
63
Lab host
(Lab hôte)
Neurospora crassa SSH Library AR01
Neurospora crassa cDNA - 1 hour Nitrogen Deprivation After 9 hours Vegetative Growth
Neurospora crassa cDNA - 1 hour Glucose Deprivation After 9 hours Vegetative Growth
Neurospora crassa cDNA - 1 hour Heat Shock After 9 hour Vegetative Growth
Neurospora crassa cDNA - 24 hours Vegetative Growth
Neurospora crassa cDNA - 7 hours Vegetative Growth
Neurospora crassa cDNA - 1 hour Osmotic Stress After 9 hours Vegetative Growth
Neurospora crassa cDNA - 7 Days Post-Cross Sexual Growth
EXP.2
EXP.3
EXP.4
EXP.5
EXP.6
EXP.7
EXP.8
EXP.9
A
A
A
A
A
Mauriceville
Mauriceville
FGSC 2225 (Mc1 A)
Mauriceville
FGSC 2225 (Mc1 A)
Mauriceville
FGSC 2225
(Mc1 A)
Mauriceville-1c
mat A (FGSC 2225) and ORS
mat a (FGSC 2490)
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
A
RIEN
Mauriceville
FGSC 2225
(Mc1 A)
Neurospora crassa
Mauriceville
A
Mauriceville
FGSC 2225
(Mc1 A)
Neurospora crassa
Neurospora crassa
RIEN
RIEN
Neurospora crassa
A
Sex
(Sexe)
Mauriceville
Strain (Souche)
Neurospora crassa
Organism
(Organisme)
Tableau 4.2 Détail des informations expérimentales de N.crassa.(1/4)
Neurospora crassa cDNA - 1 hour Oxidative Stress After 9 hours Vegetative Growth
Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light
EXP.1
EXP.10
Lib Name (Nom de la library)
LIBRARY
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Organ
(Organe)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
64
Tissue type
(Type de
tissus)
Neurospora crassa cDNA - 48 hours Unfertilized Growth in Crossing
Medium
Neurospora crassa evening cDNA library
Neurospora crassa morning cDNA library
Neurospora crassa sexual cDNA library, Uni-zap vector system
Mycelial
Subtracted Mycelial
Perithecial
Subtracted Perithecial
Conidial
Subtracted Conidial
Westergaards
Nelson et al. (1997) conidial library
EXP.11
EXP.12
EXP.13
EXP.14
EXP.15
EXP.16
EXP.17
EXP.18
EXP.19
EXP.20
EXP.21
EXP.22
Mating type A
Mating type A
Mating type a (fluffy),
fertilized
Mating type a (fluffy),
fertilized
Mating type A
Mating Type A
Mating Type A
wild type
74-OR23-IV A
(FGSC 2489)
74-OR23-IV A
(FGSC 2489)
fl a
fl a
(FGSC 4347)
74-OR23-IV A
74-OR23-IV A
(FGSC 2489)
74-OR23-IV A
(FGSC 2489)
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
Neurospora crassa
74-OR23-IV A
RIEN
bd, frq7 A
Neurospora crassa
Neurospora crassa
RIEN
Strain 30-7 (bd;
A)
Neurospora crassa
Mating Type A
RIEN
RIEN
Sex
(Sexe)
Mauriceville
Strain (Souche)
Neurospora crassa
Organism
(Organisme)
Tableau 4.3 Détail des informations expérimentales de N.crassa.(2/4)
Lib Name (Nom de la library)
LIBRARY
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Organ
(Organe)
Conidia
Unfertilized sexual tissue
Conidia
Conidia
Perithecia
Perithecia (fruiting bodies)
Mycelium
Mycelium
perithecia (fruiting bodies)
65
tissue harvested following 22hr growth in
dark
tissue harvested following 22hr growth in
dark
RIEN
Tissue type
(Type de tissus)
pBluescriptSK-
pGEM-T
pBluescriptSK-
pBluescriptSK-
pBluescriptSK-
pBluescriptSK-
pBluescriptSK-
pBluescriptSK-
pBluescriptSK-
pBluescriptSK-
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
EXP.2
EXP.3
EXP.4
EXP.5
EXP.6
EXP.7
EXP.8
EXP.9
EXP.10
Vector
(Vecteur)
RIEN
Develop. stage
(Stade de
develp)
EXP.1
LIBRARY
XhoI
XhoI
XhoI
XhoI
XhoI
XhoI
XhoI
XhoI
RIEN
XhoI
R. Site 1
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Cell type (Type
cellulaire)
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
E. coli MosBlue
RIEN
Lab host
(Lab hôte)
66
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Four separate cultures were incubated in
1X Vogel's/1% sorbose/0.1% sucrose for 9 h at 30 degrees C with orbital shaking at 200 rpm, and then to each was added (final
concentrations indicated) either (1) 10 mM hydrogen peroxide (2) 750 micromolar sodium arsenite (3) 2.0 mM dithiothreitol
and (4) 50 micromolar cadmium chloride and incubation was continued for 1 h.
Poly(A) mRNA was purified from a 7 day crossing-culture of Mauriceville-1c mat A (FGSC 2225)crossed with ORS mat a
(FGSC 2490). Cells were grown in Westergaard's medium for 5 days prior to initiating crossing.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's
medium/2% sucrose for 9 h at 30 degrees C with orbital shaking at 200 rpm; sodium chloride was added to a final
concentration of 0.68M and incubation continued for 1 h.
Poly(A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's
medium/2% sucrose for 7 h at 34 degrees C with orbital shaking at 125 rpm.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's
medium/2% sucrose for 24 h at 30 degrees C with orbital shaking at 200 rpm.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's
medium/2% sucrose for 9 h at 30 degrees C and then for 1 h at 45 degrees C with orbital shaking at 200 rpm.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's
medium/2% glucose for 9 h at 30 degrees C with orbital shaking at 200 rpm, and then for 1 h in 1X Vogel's medium lacking
glucose.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's
medium/2% sucrose for 9 h at 30 degrees C with orbital shaking at 200rpm, and then for 1 h in 1X Vogel's medium lacking
ammonium nitrate.
Transcripts down-regulated in N. crassa nuc-2A mutant strain grown under Pi shortage at acid pH.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225) using the PolyAttract SYSI kit from
Promega. Cells were grown in 1X Vogel's medium/0.5% arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with
orbital shaking at 125 rpm.
DESCRIPTION
Tableau 4.4 Détail des informations expérimentales de N.crassa. (3/4)
EcoRI
EcoRI
EcoRI
EcoRI
EcoRI
EcoRI
EcoRI
EcoRI
RIEN
EcoRI
R. Site 2
pBlueScript SK (-)
Fruiting Body
EXP.22
EXP.21
EXP.20
EXP.19
EXP.18
germinating conidia
RIEN
pBluescriptSK-
pBlueScript
SK (-)
Perithecia
EXP.17
Unfertilized sexual
stage
pBlueScript
SK (-)
Mycelium
EXP.16
pBlueScript SK (-)
pBlueScript
SK (-)
Mycelium
Germinating conidia
pBluescriptSK-
sexual
EXP.14
pBlueScript SK (-)
pBluescriptSK-
RIEN
EXP.13
germinating conidia
pBluescriptSK-
RIEN
EXP.12
EXP.15
pBluescriptSK-
Vector
(Vecteur)
RIEN
Develop. stage
(Stade de develp)
EXP.11
LIBRARY
RIEN
EcoRI
EcoRI
RIEN
EcoRI
RIEN
EcoRI
EcoRI
XhoI
XbaI
XbaI
XhoI
RIEN
XhoI
XhoI
RIEN
XhoI
RIEN
XhoI
XhoI
EcoRI
EcoRI
EcoRI
EcoRI
R. Site 2
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
RIEN
Cell type
(Type
cellulaire)
RIEN
E. coli
E. coli
RIEN
E. coli
RIEN
E. coli
E. coli
E. coli strain
SOLR
RIEN
RIEN
RIEN
Lab host
(Lab hôte)
mRNA isolated from germinating conidia, grown in 1x Vogel's, 2% sucrose for 4.5 hours.
Westergaard's medium (Nitrogen limiting). Floating mycelial mats grown at 25C for 36 hours.
mRNA isolated from germinating conidia, grown in 1x Vogel's, 2% sucrose for 4.5 hours.
mRNA isolated from germinating conidia, grown in 1x Vogel's, 2% sucrose for 4.5 hours.
67
mRNA isolated from 5 day old perithecia (fruiting bodies) of the fluffy strain fl a (Mating type a), fertilized
with conidia from 74-OR23-IV A (Mating type A).
mRNA isolated from 5 day old perithecia (fruiting bodies) of the fluffy strain fl a (Mating type a), fertilized
with conidia from 74-OR23-IV A (Mating type A).
2% sucrose for 24 hours.
2% sucrose for 24 hours.
5' end of cDNA cloned into EcoRI site of pBluescript; 3' end of cDNA cloned into XhoI site of pBluescript.
See: Bell-Perdersen,D., et al. PNAS 93:13096,1996. 5' end of cDNA cloned into XbaI site of pBluescript; 3'
end of cDNA cloned into EcoRI site of pBluescript.
See: Bell-Perdersen,D., et al. PNAS 93:13096,1996. 5' end of cDNA cloned into XbaI site of pBluescript; 3'
end of cDNA cloned into EcoRI site of pBluescript.
Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Two cultures were grown in
Westergaard's medium (synthetic cross medium) for 48 h at 25 degrees C, one with orbital shaking at 200 rpm,
and one without shaking..
DESCRIPTION
Tableau 4.5 Détail des informations expérimentales de N.crassa. (4/4)
R. Site 1
Chapitre 4.
La Conception
Extraction automatique des termes
o
Dans un deuxième temps, nous avons utilisé l’approche statistique associée à
un outil d’extraction automatique : Automatic Keyphrase Extractor (K.E.A) [Jon, 02] qui
identifie les termes-clés (termes candidats) par le calcule de valeurs deux métriques : TF×IDF
et Première occurrence pour chaque terme-candidat.
·
Outil
d’extraction
des
termes-clés :
K.E.A
(Automatic
Keyphrase
Extraction)
K.E.A extrait automatiquement les termes-clés à partir de textes intégraux des
documents. L'ensemble de tous termes-candidats dans un document sont identifiés à l'aide du
traitement lexical, des métriques sont calculées pour chaque terme, et un apprentissage
automatique est utilisé pour générer un classificateur qui détermine les termes qui devraient
être assignés comme étant des termes clés.
Un modèle de prédiction est construit à partir de documents d’apprentissage
avec les termes-clés connue, puis utilise le modèle de trouver termes-clés dans les nouveaux
documents. Deux métriques sont calculées dans l'algorithme : TF×IDF et Première
occurrence.
Figure 4.3 Processus d’apprentissage et d’extraction de K.E.A.
68
Chapitre 4.
La Conception
Le processus d’extraction K.E.A est décrit dans la figure 4.3 comporte deux phases :
1. Apprentissage : un modèle est créé pour l'identification des termes-clés en utilisant
des documents d’apprentissage où les termes-clés de l’auteur sont connus.
2. Extraction : les termes-clés sont choisis à partir d'un nouveau document, en
utilisant le modèle ci-dessus.
2.4. Résultats de l’extraction des termes
o
Résultats de l’extraction manuelle des termes
Le tableau 4.6 donne le résultat de l’extraction manuelle des termes pour
l’aspect morphologique et le tableau 4.7 donne le résultat de l’extraction manuelle des termes
pour l’aspect expérimentale à partir d’une fiche d’EST par expérience pour les deux
champignons d’étude.
69
{Mauriceville-1c (FGSC_2225), Nuc-2, 74-OR 23-IV (FGSC_2489), bd_frq7, bd_30-7, fl (FGSC_4347), ORS (FGSC_2490)}
{Mating type A, Mating type a, S mat+, s}
RIEN
{Perithecia (fruiting bodies), Mycelium, Conidia}
{ Mycelium, Perithecia, Fruiting Body, Germinating conidia, Sexual stage,Unfertilized sexual stage}
{pBluescriptSK(-), pGEM-T}
{XhoI, EcoRI}
{XhoI, EcoRI}
RIEN
{E. coli, Mos-Blue, E. coli strain SOLR}
Strain (Souches)
Sex (Sexe)
Organ (Organe)
Tissus type
(Types de tissus)
Develop. stage
(Stades de développement)
Vector
(Vecteur)
R. Site 1
R. Site 2
Cell type
(Type cellulaire)
Lab host
(Laboratoire hôte)
Tableau 4.6 Résultats de l’extraction manuelle des termes (aspect morphologique).
Valeurs
Critères
70
{Amino-acid (Arginine), Sugar (Glucose, Sucrose), Vitamines (Biotin)}
{Pi shortage}
{Acid}
{Morning, Evening}
{Osmostic stress, Oxidative stress, Heat shock stress}
{Constant light, Dark}
{ Speed--0 rpm, Speed--125 rpm, Speed--200 rpm}
Supplements
(Suppléments)
Inssuficiences
(Insuffisances)
PH medium
(PH du milieu)
Relevent moment
(Moment de prélèvement)
Stress (Stress)
Light (Lumière)
Orbital Staking (Agitation)
Tableau 4.7 Résultats de l’extraction manuelle des termes (aspect expérimental).
{1h, 4h, 4 h et ½, 7h, 9h, 22h, 24h, 36h, 48h, 2days, 5days, 7days}
{Vogel's medium, Vogel's medium lacking glucose, Vogel's medium lacking ammonium nitrate., Westergaard's medium, Westergaard's medium (Nitrogen limiting) }
Medium
(Milieux de culture)
Duration
(Durée)
Valeurs
Critères
71
Chapitre 4.
o
La Conception
Résultats de l’extraction automatique des termes
·
Phase d’apprentissage : Durant cette phase le corpus de textes passe par trois
étapes principales :
-
Etape 1 : Prétraitement des documents
Chaque fiche d’EST est traitée séparément ; tout format ou
structuration du document est supprimé, le but étant de normaliser le texte c’est-à-dire de
diminuer « le bruit » et améliorer la qualité du processus global. Voici le résultat de la fiche
après normalisation:
{Poly (A) mRNA was purified from the Mauriceville 1c mat A strain (FGSC 2225)
using the PolyAttract SYSI kit from Promega Cells were grown in 1X Vogel's
medium 0.5% arginine 50(ng/ml) biotin 2% glucose for 4 h at 30 degree C with orbital
shaking at 125 rpm}.
Ensuite, un Tokenzieur est appliqué pour le découpage du texte en
token (mots et ponctuation) et pour étiqueter les mots du texte c’est-à-dire, chaque mot est
identifié comme étant un nom, un verbe ou un complément, etc. Voici un exemple pour la
première phrase de texte :
{Poly(A /NP, ) ) ), mRNA /NN, was /VBD, purified/VVN, from/IN, the DT,
Mauriceville-1c/NP, mat_A/NN, strain/NN, ( ( (, FGSC_2225/NP, ) ) ), using/VVG,
the/ DT, PolyAttract/NP, SYSI/NP, kit/NN, from /IN, Promega NP }.
Enfin, un Lemmatiseur (chaque mot devient masculin singulier) est
aussi employé ainsi qu’un radicaliseur (chaque mot est rendu à sa forme racine) exemple :
{were devient be, grown devient grow et shaking devient shak}.
-
Etape 2 : Génération des termes-candidats
Chaque mot du corpus de textes est considéré par l’outil K.E.A dont la
stratégie de sélection des termes fait appel à la méthode de Naïve Bayes détermine si oui ou
non ce mot est un terme-candidat ou pas.
72
Chapitre 4.
La Conception
-
Etape 3 : Construction du modèle
D’abord, deux métriques sont calculées pour chaque termes-candidats
TFXIDF, une mesure de la fréquence d’une phrase dans un document par rapport à sa rareté
dans l’utilisation générale, et la First occurrence, qui est la distance dans le document de la
première phrase apparente.
w TFXIDF : Cette métrique compare la fréquence d'utilisation d’une phrase dans un
document particulier avec la fréquence de cette expression dans l'usage général. La
formule de TFXIDF pour P phrase dans le document D est:
ࢀࡲ ൈ ࡵࡰࡲ ൌ
Où
ࢌ࢘ࢋࢗሺࡼǡ ࡰሻ
ࢊࢌሺࡼሻ
ൈ െ࢒࢕ࢍ૛
࢙࢏ࢠࢋሺࡰሻ
ࡺ
1. freq (P, D) est le nombre de fois où P se produit dans D
2. seize : taille (D) est le nombre de mots dans D
3. df (P) est le nombre de documents contenant P dans le corpus global
4. N est la taille du corpus global
- Le deuxième terme de l'équation est le log de la probabilité que cette phrase apparaît dans
tout document du corpus (annulé parce que la probabilité est inférieure à un). Si le document
n’ai t pas une partie du corpus global, df (P) et N sont tout les deux incrémentés à un avant
que le terme soit évalué, afin de simuler son apparition dans le corpus.
w Première occurrence : La deuxième fonction, la première occurrence, est calculée
selon le nombre de mots qui précèdent la première apparition de la phrase, divisé par
le nombre de mots dans le document. Le résultat est un nombre entre 0 et 1 qui
représente la façon dont une grande partie du document précède la première apparence
de la phrase.
Ensuite, une table de discrétisation pour chaque métrique est générée à partir des
données d'apprentissage. Un tableau est donné avec une série de plages de valeurs de chaque
métrique. Cette discrétisation est réalisée en utilisant la méthode de discrétisation supervisée
décrite dans les travaux de [Med, 05].
73
Chapitre 4.
La Conception
Les tableaux (de 4.8 à 4.9) montrent un du résultat de la construction du modèle
d’apprentissage obtenu par l’extraction automatique des termes effectué pour un échantillon
de 500 fiches d’ESTs en fonction de la métrique TF*IDF et Première occurrence. Des
graphes qui spécifient les résultats de ces métriques sur notre corpus biologique en fonction
de la taille de l’échantillon d’apprentissage sont donnés en Annexe D.
74
0.03060736
P [TF*IDF | yes]
0.07125777
0.00314136
Rang de discrétisation
0.023912
0.01151832
15
[0.15825-inf]
0.06169297
0.13507853
11
[0.009388-0.015174]
0.01004304
0.02198953
7
[0.002828-0.002877]
0.06169297
0.26910995
3
[0.001001-0.001114]
Tableau 4.8 Résultat de la construction du modèle pour la métrique TF*IDF.
0.06701571
14
[0.071499-0.15825]
13
[0.062838-0.071499]
P [TF*IDF | no]
0.21472979
0.00047824
P [TF*IDF | yes]
0.00104712
0.06910995
10
[0.006038-0.009388]
9
[0.003702-0.006038]
P [TF*IDF | no]
0.06312769
0.00047824
P [TF*IDF | yes]
0.00628272
0.07434555
6
[0.002511-0.002828]
5
[0.001381-0.002511]
P [TF*IDF | no]
0.06073649
0.03252033
P [TF*IDF | yes]
0.06701571
2
[0.000885-0.001001]
0.14136126
1
[-inf-0.000885]
P [TF*IDF | no]
Caractéristique : TF*IDF
0.1300813
0.00104712
12
[0.015174-0.062838]
0.08464849
0.00104712
8
[0.002877-0.003702]
0.1539933
0.13089005
4
[0.001114-0.001381]
75
3
0.17852029
P [première occurrence | yes]
0.13221957
0.21063608
0.10835322
0.00104275
Tableau 4.9 Résultat de la construction du modèle pour la métrique Première occurrence.
0.00104275
P [première occurrence | no]
19
[0.615385-inf]
18
[0.307692-0.615385]
17
[0.258621-0.307692]
0.00208551
0.0071599
0.08400955
P [première occurrence | yes]
0.06673618
0.00047733
0.00104275
P [première occurrence | no]
15
[0.246154-0.25]
14
[0.241379-0.246154]
13
[0.215686-0.241379]
0.00104275
0.00954654
0.22529833
P [première occurrence | yes]
0.03128259
0.00095465
0.00104275
P [première occurrence | no]
11
[0.173077-0.2]
10
[0.125-0.173077]
9
[0.08-0.125]
0.00104275
0.03389021
0.02386635
P [première occurrence | yes]
0.28467153
0.00047733
0.00104275
P [première occurrence | no]
7
[0.072727-0.078947]
6
[0.06-0.072727]
5
[0.057971-0.06]
0.00104275
[0.051282-0.054545]
0.06252983
0.13031026
P [première occurrence | yes]
0.07090719
Rang de discrétisation
0.00047733
0.00104275
2
[0.05-0.051282]
1
[-inf-0.05]
P [première occurrence | no]
Caractéristique : Première occurrence
4
0.00047733
0.13451512
[0.25-0.258621]
16
0.00047733
0.07194995
/[0.2-0.215686]
12
0.00047733
0.05109489
[0.078947-0.08]
8
0.00047733
0.06673618
[0.054545-0.057971]
76
Chapitre 4.
La Conception
·
Phase de test : Pour sélectionner des termes-clés d'un nouveau document,
K.E.A détermine les termes candidats et les valeurs des métriques associées, le modèle
construit lors de la phase d’apprentissage est appliqué. Lorsque le modèle Naïve de Bayes est
utilisé sur un terme candidat avec les deux métriques deux quantités sont calculées:
ሾ›‡•ሿ ൌ
ܻ
ܻ൅ܰ
TF×IDF ሾ–ȁ›‡•ሿdistanceሾ†ȁ›‡•ሿ
(1)
Et une équation similaire est calculée pour P[no], où Y est le nombre d’instances positives
dans le fichier d’apprentissage —que l’auteur à identifier comme étant des termes-clés— et N
est le nombre d’instances négatives— les termes-candidats qui ne le sont pas. (L’estimateur
Laplace est utilisé pour éviter la probabilité zéro. Simplement Y et N sont remplacés par Y+1
et N+1.)
Une probabilité totale est calculée de la façon suivante :
‫ ݌‬ൌ ሾ‫ݏ݁ݕ‬ሿȀሺሾ‫ݏ݁ݕ‬ሿ ൅ ሾ݊‫݋‬ሿሻ
(2)
La figure 4.4 suivante donne un extrait du résultat de l’extraction des nouveaux termes-clés
obtenu lors de la phase de test effectué pour un échantillon de 100 fiches d’ESTs de N.crassa.
-- Reading instance
-- Converting instance
-- Document: 4VG1
-- Keyphrases and feature values:
'neurospor cr','Neurospora crassa',0,0.05,0.669565,1,True
strain,strain,0,0.25,0.669565,2,True
-- 2.0 correct
-- Reading instance
-- Converting instance
-- Document: 4VG0
-- Keyphrases and feature values:
'neurospor cr','Neurospora crassa',0,0.05,0.669565,1,True
strain,strain,0,0.25,0.669565,2,True
-- 2.0 correct
-- Reading instance
-- Converting instance
-- Document: 7VG7
-- Keyphrases and feature values:
fgsc,FGSC,0.014516,0.28,0.669565,1,True
'neurospor cr','Neurospora crassa',0,0.06,0.669565,2,True
strain,strain,0,0.24,0.669565,3,True
-- 3.0 correct
-- Reading instance
-- Converting instance
-- Document: 7VG6
-- Keyphrases and feature values:
fgsc,FGSC,0.014516,0.28,0.669565,1,True
'neurospor cr','Neurospora crassa',0,0.06,0.669565,2,True
strain,strain,0,0.24,0.669565,3,True
-- 3.0 correct
Figure 4.4 Extrait du résultat obtenu pour 100 fiches d’ESTs (Phase de test).
77
Chapitre 4.
La Conception
Au cours de notre expérimentation, nous avons voulu évaluer l’effet de la taille de
l’échantillon test sur le corpus global. Le tableau 4.10 indique le nombre moyen de termescandidats extraits durant cette phase de test :
Taille de
100
500
1 000
5 000
10 000
50 000
100 000
fiches
fiches
fiches
fiches
fiches
fiches
fiches
test
d'ESTs
d'ESTs
d'ESTs
d'ESTs
d'ESTs
d'ESTs
d'ESTs
Nombre moyen
4.23
4.28
4.07
4.2
3.95
3.94
3.94
des termes-
+/-
+/-
+/-
+/-
+/-
+/-
+/-
candidats
0.99
0.94
1.03
1.01
1.03
1.03
1.03
l'échantillon de
extraits
Tableau 4.10 L’effet de la taille de l’échantillon test sur le corpus global.
o
Nécessité de l’intervention de l’expert
Nous reprenons le paragraphe précédemment écrit dans le chapitre 3 du
mémoire « Aucun outil ou méthode ne permet aujourd’hui de créer de façon totalement non
supervisée des ressources sémantiques de bonne qualité [Lav, 07]. La plupart des outils
disponibles pour la construction d’ontologie à partir de textes sont décrits comme nécessitant
l’intervention humaine [Lav, 07] à différents niveaux ».
Car dans notre cas, il est nécessaire de valider les termes choisis par K.E.A à ce
stade par les experts pour ces termes qui représentent « la prière angulaire » de notre
ontologie biologique.
Le tableau 4.11 expose trois exemples de trois expérimentations dont les
termes-clés ont été extraits selon un modèle construit par apprentissage à partir d’un ensemble
de 100 000 fiches d’EST (colonne 2) dont la terminologie a été complétée par le biologiste
(colonne 3).
78
3
2
Neurospora crassa
Crossing Medium
Neurospora crassa
Organism:
neurospor cr, neurospora crassa, strain,strain
nuc-2A, mutant strain, Pi shortage, acid pH
orbital shaking, 200 rpm, without
shaking.
Westergaard’s medium, 48 h, 25 degrees C, with
FGSC neurospor cr, neurospora crassa cr med,
cross medium, shak, shaking, strain, strain
Mauriceville-1c, mat A, strain (FGSC 2225),
,orbital shaking 125 rpm.
50(ng/ml) biotin, 2% glucose 4 h 30 degree C
(FGSC 2225), Vogel's medium,0.5% arginine,
Neurospora crassa, Mauriceville-1c, mat A, strain
Termes complétés par le biologiste
mauricevil 1c ma, Mauriceville-1c mat, fgsc,
strain
1c ma, Mauriceville-1c mat, fgsc, FGSC, strain,
neurospor cr,' neurospora crassa cr, mauricevil
Termes extraits par K.E.A
Tableau 4.11 Trois exemples d'extraction de termes avec l'outil KEA pour trois expériences (colonne 2) complétée par le biologiste (colonne 3).
at acid pH.
Description: Transcripts down-regulated in N. crassa nuc-2A mutant strain grown under Pi shortage
Neurospora crassa SSH Library AR01
Lib Name:
C, one with orbital shaking at 200 rpm, and one without shaking.
Two cultures were grown in Westergaard’s medium (synthetic cross medium) for 48 h at 25 degrees
Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225).
Mauriceville
Organism:
Strain:
Neurospora crassa cDNA - 48 hours Unfertilized Growth in
Lib Name:
arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm.
using the Poly Attract SYSI kit from Promega. Cells were grown in 1X Vogel's medium/0.5%
Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225)
A
Sex:
Neurospora crassa
Organism:
Mauriceville
Lib Name:
1
Strain:
Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light
Description
N°
79
Chapitre 4.
La Conception
2.5. Exploitation des termes de l’ontologie pour le Clustering
o
Présentation du logiciel TANAGRA
TANAGRA est un logiciel « open source » librement accessible sur le web et gratuit
de Data Mining destiné à l’enseignement et à la recherche, diffusé sur internet
(http://eric.univ-lyon2.fr/~ricco/tanagra). Il implémente une série de méthodes de fouilles de
données issues du domaine de la statistique exploratoire, de l’apprentissage automatique et
des bases de données.
Son premier objectif est d’offrir aux étudiants et aux experts d’autres domaines
(médecine, bio-informatique, marketing, etc.) une plate-forme facile d’accès, respectant les
standards des logiciels actuels, notamment en matière d’interface et de mode de
fonctionnement, il doit être possible d’utiliser le logiciel pour mener des études sur des
données réelles.
Le second objectif est de proposer aux chercheurs une architecture leur facilitant
l’implémentation des techniques qu'ils veulent étudier, de comparer les performances de ces
algorithmes. TANAGRA se comporte alors plus comme une plateforme d'expérimentation
qui leur permettrait d'aller à l'essentiel en leur épargnant toute la partie ingrate de la
programmation de ce type d'outil, notamment la gestion des données.
o
Utilisation du Clutering par TANAGRA
·
Description des données
Pour la construction du « Clustering » dans TANAGRA, le fichier CH.arff
(figure 4.5) où figurent à la fois les 29 attributs qui correspondent aux différentes fiches
d’ESTs des deux champignons et les valeurs calculées TF×IDF des différents termes extraits
de ces fiches, est utilisé.
80
Chapitre 4.
La Conception
@relation champignons
@attribute ASC real
@attribute HET real
@attribute MYC-PA real
@attribute PER-OLD real
@attribute RAM real
@attribute SEN real
@attribute YOU-PER real
@attribute OX real
@attribute S-CO real
@attribute SSH real
@attribute S-PER real
@attribute 7VG real
@attribute 24VG real
@attribute CO real
@attribute GD real
@attribute MO real
@attribute ND real
@attribute OST real
@attribute PER-NC real
@attribute SE real
@attribute S-MYC real
@attribute WES real
@attribute 4VG real
@attribute MYC-NC real
@attribute NEL real
@attribute UG real
@attribute 7PC real
@attribute EV real
@attribute HS real
Description des attributs (variables)
manipulés
@data
1,928
2,857
6,954
1,406
1,353
1,313
1,283
0,052
1,257
1,842
1,731
0,012
1,179
1,936
2,873
1,564
2,391
1,073
2,489
1,557
1,436
1,364
1,315
2,061
1,083
2,156
1,405
1,388
1,325
1,281
1,285
1,922
1,781
0,275
1,256
1,8
1,694
1,729
1,181
0,255
1,646
1,164
1,385
2,057
0,682
0,938
1,637
1,375
1,283
1,279
1,244
-0,24
1,421
2,116
0,063
1,369
2
0,818
1,081
1,281
1,111
1,147
1,448
1,163
1,21
1,543
1,524
1,078
1,203
1,182
1,052
1,124
1,27
1,044
1,092
1,523
1,109
1,17
2,771
1,034
1,042
1,64
1,1
1,062
2,862
1,023
1
1,363
1,02
0,982
1,631
1,03
0,94
2,426
1,115
0,688
5,118
1,017
0,893
1,037
1,01
0,879
1,24
1,006
0,844
1,442
1,001
0,822
1,58
0,993
0,686
2,055
0,991
0,783
1,674
0,942
1,338
1,299
1,259
1,207
1,206
-0,17
0,94
1,015
1,083
1,082
1,079
1,077
0,484
0,842
1,026
1,125
1,118
1,112
1,105
0,379
0,768
0,963
1,131
1,122
1,114
1,106
0,376
0,833
0,938
1,105
1,099
1,093
1,088
0,693
0,842
1,054
1,058
1,057
1,056
1,054
0,811
0,834
1,016
1,049
1,048
1,047
1,046
0,907
0,638
0,967
1,08
1,076
1,072
1,068
0,983
0,812
0,955
1,037
1,037
1,037
1,036
0,991
0,574
0,853
1,065
1,062
1,058
1,055
1,113
0,791
0,907
1,029
1,029
1,028
1,028
1,134
0,767
0,879
1,026
1,026
1,026
1,025
1,209
0,627
0,785
1,046
1,044
1,042
1,04
1,481
0,456
0,844
1,037
1,036
1,035
1,033
1,398
0,542
0,814
1,034
1,033
1,032
1,03
1,519
0,66
0,829
1,02
1,02
1,02
1,02
1,353
0,646
0,795
1,015
1,016
1,016
1,016
1,308
0,628
0,683
1,014
1,015
1,015
1,015
1,479
0,569
0,614
1,009
1,01
1,011
1,011
1,433
0,714
0,734
1,002
1,004
1,004
1,005
1,264
1,222
1,662
1,595
0,251
1,549
1,147
1,189
1,528
1,496
0,215
1,451
1,13
0,862
1,166
1,251
1,221
1,198
1,163
0,126
1,164
1,425
1,417
0,191
1,371
1,116
1,073
1,187
1,221
0,194
1,103
1,285
1,259
0,308
1,121
1,297
1,273
0,118
1,085
1,185
1,182
0,259
1,055
1,104
1,111
0,395
1,047
1,072
1,103
0,732
1,064
1,069
1,146
1,079
1,036
1,022
1,082
0,97
1,055
1,071
1,12
1,458
1,028
1,02
1,057
1,187
1,026
1,041
1,058
1,566
1,036
1,099
1,081
2,125
1,033
1,063
1,055
1,838
1,028
1,026
1,026
1,57
1,019
0,993
1
1,306
1,016
0,964
0,979
1,183
1,014
0,93
0,977
1,423
1,011
0,897
0,951
1,255
1,005
0,896
0,943
1,076
1,235
1,088
1,22
1,085
1,263
1,089
1,171
1,068
1,13
1,064
1,117
1,054
1,12
1,052
1,114
1,046
1,117
1,041
1,072
1,035
1,068
1,03
1,071
1,027
1,041
1,025
1,01
1,022
0,983
1,016
0,946
1,018
0,954
1,012
0,924
1,01
0,928
1,006
……….
Description des observations
Figure 4.5 Format des données manipulées.
·
Importation du fichier
Pour charger les données, le menu FILE / NEW est activé. Une boîte de
dialogue apparaît, pour spécifier le répertoire adéquat. Nous sélectionnons le fichier CH.arff,
puis nous validons.
81
Chapitre 4.
La Conception
1
2
Figure 4.6 Importation du fichier CH.arff sous TANAGRA.
TANAGRA permet de charger automatiquement les données du fichier CH.arff. Il
indique que 29 variables et 47 observations ont bien été importées.
Fichier CH .arff
chargé
Figure 4.7 Chargement des données sous TANAGRA.
82
Chapitre 4.
·
La Conception
Définition des variables
Les variables de l’analyse sont définies avec l’insertion du composant
« DEFINE STATUS » dans le diagramme en utilisant le raccourci de la barre d’outils. Dans
l’onglet « INPUTT » sont placés toutes les variables.
Figure 4.8 Définition des données sous TANAGRA.
·
Définition de la méthode : Le Clustering
Il nous reste alors à placer le composant VARHCA (onglet CLUSTERING) dans le
diagramme, par glisser-déposer. Pour visualiser les résultats, nous activons le menu
contextuel VIEW.
83
Chapitre 4.
La Conception
Figure 4.9 Définition de la méthode du Clustering sous TANAGRA.
o Résultats du Clustering
Le résumé de la partition ou « CLUSTER SUMMARY » décrit le nombre de
clusters construits (3 clusters dans notre cas) et le nombre de fiches d’ESTs contenues dans
chaque cluster : 6 fiches d’ESTs pour le premier cluster, 18 fiches d’ESTs pour le second et
5 fiches d’ESTs pour le troisième cluster. La variabilité expliquée ou « VARIATION
EXPLAINED » indique la valeur propre expliquée à l’intérieur de chaque groupe. La
proportion expliquée ou « PROPORTION EXPLAINED » indique la proportion de la
valeur propre expliquée à l’intérieur du groupe. La valeur de la variabilité est égale à 0,9237
pour le premier cluster de ce groupe.
Figure 4.10 Nombres de clusters construits par la méthode du Clustering.
84
Chapitre 4.
La Conception
La liste des variables par cluster « CLUSTER MEMBERS » et les
« R-SQUARE VALUES » recensent les variables dans chaque groupe. Plusieurs indicateurs
permettent d’apprécier la qualité de l’affectation : « OWN CLUSTER » indique le R² de la
variable avec son groupe c’est-à-dire le carré de la corrélation de la variable avec le
représentant de la classe, le premier axe de l’ACP sur les variables composant le groupe ;
« NEXT CLOSEST » indique le R² de la variable avec le groupe le plus proche, si cette
valeur est plus grande que la première, il y a matière à s’inquiéter.
L’indicateur (1-R² ratio) indique justement le rapport entre (1-R² own cluster) et (1-R²
next closest). Plus petite est sa valeur, meilleure est l’affectation de la variable au groupe. Si
elle est supérieure à 1, cela voudrait dire que la variable est plus corrélée avec un autre cluster
qu’avec son propre groupe d’appartenance.
Figure 4.11 Résultat du Clustering.
Dans notre exemple, VARHCA a proposé une typologie en 3 clusters, 84,51% de la
variabilité totale est restituée par ce partitionnement. Les variables semblent bien assorties à
85
Chapitre 4.
La Conception
leurs classes respectives. Dans le pire des cas, 1-R² ratio est égal à 0.5958 pour la variable ND
(Nitrogen Deprivation) dans le 2ème cluster.
Interprétation des classes. Le tableau des corrélations des variables avec les clusters
(« CLUSTER CORRELATIONS – STRUCTURE ») permet d’interpréter les groupes de
variables. Il faut le lire en parallèle avec le tableau précédent.
Figure 4.12 Résultat des corrélations du Clustering.
Nous disposons des corrélations de chaque variable avec l’ensemble des classes.
Lorsque que la corrélation est supérieure à 0.7 (ou inférieure à –0.7), ce paramètre est
modifiable, elle est mise en surbrillance et elle est recensée dans la colonne MEMBERS.
Dans l’idéal, chaque variable ne devrait être significativement corrélée qu’avec une et une
seule classe.
86
Chapitre 4.
La Conception
La première classe associe les variables : SEN, YOU-PER, OX, S-CO, SSH, S-PER,
7VG, 24VG. Ces variables sont fortement corrélées ensembles. Les autres variables sont très
peu corrélées avec cette classe.
La deuxième classe associe les variables : MO, ND, OST, PER-NC, SE, S-MYC,
WES, 4VG, MYC-NC, NEL, UG, 7PC, EV, HS.
La troisième classe associe les variables : 24VG, CO, GD, MO, ND, OST, PER-NC,
SE, NEL, UG, EV.
Il est possible sur les détails de la variation des clusters grâce au tableau suivant et son
dendrogramme associé.
Figure 4.13 Résultat de la variation des clusters.
87
Chapitre 4.
La Conception
Figure 4.14 Résultat du dendrogramme.
88
Chapitre 4.
La Conception
3. Conception
Cette partie présente la conception de l’ontologie biologique du domaine, ainsi que
l’architecture du système qui va exploiter cette dernière pour répondre aux requêtes des
utilisateurs en tenant compte de la sémantique de cette dernière.
3.1. Choix de la méthode de construction de l’ontologie
Après les étapes de standardisation des extractions et de sélection des termes dans
la partie précédente, l'ontologie est construite selon la méthode proposée par l'Université de
STANFORD [Noy, 02] (voir Annexe C), car elle comporte des phases claires, simples et
faciles à comprendre. L’éditeur d'ontologie « Protégé » et « OBO Edit » ont été également
utilisés. Tout comme dans l'approche eVoc [Kel, 03], il a été décidé de créer quatre ontologies
afin de caractériser de manière complémentaire et quasi indépendante les aspects clés du
contexte d'une expérience.
o Critères
Les critères pertinents pour orienter et évaluer une ressource terminologie ou
ontologie
sont présentés dans les travaux de [Bou, 03] : clarté, cohérence et capacité
évolutive à définir un vocabulaire afin de décrire un domaine donné. Ces critères sont utilisés
lors de la construction de notre ressource.
La terminologie concernant la morphologie des organismes a été prise en
considération ainsi que le côté expérimental de la culture. Les caractéristiques
morphologiques concernent le type de souche qui peut être sauvage ou mutant, les stades de
développement (du cycle sexué ou asexué) ou les types cellulaires de l'étude (ex. mycélium,
thalle, périthèce, etc.) Pour le côté expérimental, le milieu de culture peut être soit adapté à la
croissance soit au croisement, il peut contenir des suppléments moléculaires tels que des
sucres, des acides aminés, ou des vitamines comme nutriments des champignons. La culture
peut subir un choc thermique, un stress oxydatif ou osmotique, etc.
89
Chapitre 4.
La Conception
o Etapes de la construction de l’ontologie du domaine (Avec la méthode
proposée par l'Université de Stanford)
Etape 1 : Déterminer le domaine et la portée de l'ontologie :
·
Le domaine que couvre l'ontologie concerne les expériences réalisées sur les deux
champignons filamenteux (N.crassa et P.anserina) avant d’obtenir la séquence
d’EST, c’est-à-dire la description de l’échantillon biologique et des conditions de
culture.
·
Le but de l'utilisation de notre ontologie est celui d’associer une information
concernant l’échantillon biologique à chaque fiche d’EST. L’objectif de cette
information ajoutée est de pouvoir définir des ensembles d’EST à partir d’un
terme/critère de l’ontologie pour guider des études d’expression des gènes associés.
·
L'ontologie doit répondre aux requêtes des utilisateurs en proposant une description de
l’échantillon biologique (souche, espèce) et de l’expérience conduite (conditions de
culture, cycle de développement lors du prélèvement).
·
L'ontologie sera utilisée par les bio-informaticiens pour la caractérisation des fiches
d’EST.
·
L'ontologie sera maintenue et enrichie par des experts du domaine : les biologistes et
les bio-informaticiens
Etape 2 : Réutiliser des ontologies existantes :
Les ontologies mentionnées dans « l’état de l’art » présentent certaines limitations par
rapport aux besoins de l’étude. De notre point de vue le niveau de détail de certaines
ontologies biologiques est soit trop profond (CCO) ou trop grand (FAO) ; certaines ontologies
sont espèces spécifiques, et souvent associées aux espèces modèles telles que la levure
unicellulaire S. cerevisiae (APO, CCO) ou l’homme (eVOC, HGNC), et ne peuvent donc pas
être appliquées aux espèces de champignons de l’étude N.crassa et P.anserina ; ou bien nous
poursuivons d'autres objectifs ou ressources (GO, FWO, AFTOL-2, MGED, Tao, HKIS).
Pour toutes ces raisons, et pour nous focaliser sur les champignons de l'étude, N.crassa et
90
Chapitre 4.
La Conception
P.anserina, nous avons développé notre propre une ontologie propre a été développée à partir
de, afin de fouiller les données associées aux EST à l'aide d'un modèle de connaissance du
contexte expérimental.
Etape 3 : Énumérer les termes importants de l'ontologie :
L'étude faite sur le domaine (grâce notamment à l’extraction automatique des termes)
a permis de dégager une liste importante de termes. Ne pouvant pas les énumérer tous nous
nous contentons de quelques exemples : mycélium, périthèces, hyphes, souches, conditions de
culture, durée de la culture etc.
Etape 4 : Définir les classes et la hiérarchie des classes :
Les tableaux (de 4.12 à 4.19) ci-après décrivent les différentes classes et les sous
classes associées qui ont pu être déterminées lors de notre étude. Les figures (de 4.15 à 4.18)
sont les quatre ontologies construites à partir de ces tableaux.
91
Cellular cycle steps
Cellular cycle steps
Cellular cycle steps
Cellular cycle steps
Cellular cycle steps
Asexual cycle steps
Asexual cycle steps
Asexual cycle steps
Mycelium growth
Sexual cycle steps
Spore germination
Conidium formation
macro-conidium
micro-conidium
Thallus growth
Mutinucleate
differentiation
Uninucleate
differentiation
Différenciation d’une cellule de micro-conidie contenant au plus un nucleus par cellule.
Différenciation d’une cellule macro-conidie contenant plus d’un nucleus par cellule.
Formation de la conidie du champignon produite durant la phase asexuée.
Croissance du thalle.
Germination de la structure de multiplication végétative ou de reproduction du champignon.
92
Etapes du cycle sexué : Reproduction qui abouti à une méiose ou fertilisation. Les deux parents se reproduisent.
Croissance de la partie végétative du champignon.
Etapes du cycle asexué : Reproduction qui n’abouti pas une méiose ou fertilisation. Un seul des parents se reproduit.
Germination d’une spore se formant dans un asque du champignon.
Série d’événements qui se observée dans une cellule où se produit la division et la duplication.
Description
Tableau 4.12 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des champignons ». (1/3)
Asexual cycle steps
Cellular cycle steps
-
Sous classes
Ascospore germination
Cellular cycle steps
Classes
Concepts
Sexual cycle steps
Sexual cycle steps
Sexual cycle steps
Sexual cycle steps
Meiose
Perithecuim
Proto-perithecium
Sexual organ differentiation
Sexual organ differenciation
Cellule de micro-conidie du champignon.
Cellule de l’ascogone du champignon.
Différenciation des organes sexués.
Cellule de Proto-périthécium.
Cellule du périthèce du champignon.
Phase de reproduction du champignon.
Fusion des gamètes mâles et femelles.
Différenciation d’une spore contenue dans un asque.
Description
Tableau 4.13 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des champignons ». (2/3)
Micro-conidium (MALE)
Sexual organ differenciation
Sexual cycle steps
Fertilization
Ascogonium (FEMALE)
Sexual cycle steps
Sous classes
Ascospore differentiation
Classes
Concepts
93
Fertilization
Pseudo-homothalism
Individus sexuellement différents (mais indéterminés).
Individus sexuellement identiques.
Individus sexuellement différents.
Partie végétative de l’hyphe.
Cellule de Périthèce jeunes (<48h).
Cellule de Périthèce âgée (>48h).
Description
Tableau 4.14 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des champignons ». (3/3)
Fertilization
Homothalism
Proto-perithecium
Ascogenous hypha
Fertilization
Perithecuim
Young perithecium
Heterothalism
Perithecuim
Sous classes
Old perithecium
Classes
Concepts
94
Figure 4.15 Ontologie « Etapes du cycle cellulaire des champignons ».
95
Cellular types
Cellular types
Cellular types
Cellular types
Mycelium
Perithecium
Proto-perithecium
Thallus
Cellule de macro-conidie contenant plus d’un nucleus par cellule.
Cellule de micro-conidie contenant au plus un nucleus par cellule.
Cellule Thalle du champignon.
Cellule de Proto-périthèce du champignon.
Cellule de périthèce du champignon.
Partie végétative des champignons.
Cellule unique en forme de filament plus ou moins ramifié.
Cellule du champignon produite lors de la phase asexuée.
Cellule pour la dissémination d’asque du champignon.
Sac contenant les spores du champignon.
Type des cellules du champignon.
Description
Tableau 4.15 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des champignons ». (1/2)
Conidium
Cellular types
Hypha
Mutinucleate macro-conidium
Cellular types
Conidium
Conidium
Cellular types
Ascus
Uninucleate micro-conidium
Cellular types
-
Sous classes
Ascospore
Cellular types
Classes
Concepts
96
Trychogyne
Crozier
Self-fertile thallus
Cellule Trygogyne du champignon.
Cellule sous forme de crosse, qui va subir une méiose.
Thalle auto-fertile du champignon.
Cellule ascogène du champignon.
Cellule de l’ascogone aérien du champignon.
Mycélium contenant plus d’un nucleus par cellule.
Cellule de la partie aérienne de l’hyphe.
Description
Tableau 4.16 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des champignons ». (2/2)
Ascogenous cell
Ascogenous cell
Thallus
Proto-perithecium
Perithecium
Ascogenous hyphae
Ascogenous cell
Mycelium
Hypha
Sous classes
Multinucleate mycelium
Aerial hypha
Classes
Concepts
97
Figure 4.16 Ontologie « Types cellulaire des champignons ».
98
Strain
Strain types
Strain types
Vegetative incompatibility
Mutant (Souche mutante)
Wild (Souche sauvage)
Souches de référence.
Souches issues des expériences en laboratoire.
Individus incompatibles végétativement.
Types de souches du champignon.
Caractères morphologiques d’un champignon.
Description
Tableau 4.17 Classes et hiérarchie des classes de l’ontologie « Caractéristiques des souches des champignons ».
Strain
-
Sous classes
Strain types
Strain features (Souche)
Classes
Concepts
99
Figure 4.17 Ontologie « Caractéristiques des souches des champignons ».
100
Culture condition
Culture condition
Culture condition
Culture condition
Culture condition
Culture condition
Culture medium
Culture medium
Culture duration
Culture medium
Light
Orbital Staking
Relevent moment
Stress
Cross medium
Growth medium
Décrit les milieux permettant la croissance du champignon.
Décrit les milieux permettant la reproduction du champignon.
Décrit les stress subi par le champignon.
Décrit le moment de prélèvement du champignon.
Décrit l’utilisation ou non de l’agitation dans l’expérience.
Décrit l’utilisation ou non de la lumière dans l’expérience.
Décrit les milieux de culture du champignon.
Décrit les durées de culture du champignon.
Décrit les conditions de culture du champignon.
Description
Tableau 4.18 Classes et hiérarchie des classes de l’ontologie « conditions de culture ». (1/2)
-
Sous classes
Culture condition
Classes
Concepts
101
Stress
Orbital Staking
Orbital Staking
Temperature stress
With Orbital Staking
Without Orbital Staking
Décrit la non utilisation de l’agitation dans l’expérience.
Décrit l’utilisation de l’agitation dans l’expérience.
Décrit le stress par variation de température subi par le champignon.
Décrit le stress oxydatif subi par le champignon.
Décrit le stress osmotique subi par le champignon.
Décrit les additifs rajoutés au milieu de culture.
Décrit le PH du milieu de culture du champignon.
Décrit les insuffisances du milieu de culture du champignon.
Description
Tableau 4.19 Classes et hiérarchie des classes de l’ontologie « conditions de culture ». (2/2)
Stress
Oxidative stress
Culture medium
Supplements
Stress
Culture medium
PH medium
Osmostic stress
Culture medium
Sous classes
Insufficiences
Classes
Concepts
102
Figure 4.18 Ontologie « Conditions de culture des champignons ».
103
Chapitre 4.
La Conception
Etapes 5 & 6 : Définir les propriétés des classes, les relations et leurs facettes
Les deux tableaux suivants décrivent respectivement les propriétés et les relations des
différents concepts de l’ontologie :
o Description des propriétés des classes
Propriété
Description
Concept concerné
Type
Cardinalité
Nom_concept
Nom du concept
Tous
Chaine de
1, 1
caractères
Synonyme
Synonymes d’un
Tous
Chaine de
concept
caractères
Définition du
Définition
Tous
Chaine de
concept
Nom_scientifique
0, n
1, 1
caractères
Nom scientifique
Souches (Strain)
Chaine de
1, n
caractères
Tableau 4.20 Propriétés des classes de l’ontologie.
o Description des relations
Relation
Concept
source
Concept
cible
Description
Cardinalité
Avoir(1)
Champignon
Conditions de
culture
Représente les conditions de
culture du champignon.
1, n
Avoir(2)
Conditions
culture
de
Milieu de culture
Représente les milieux de culture
du champignon.
1, n
Se produire
Conditions
culture
de
Moment de
prélèvement
Représente les moments de
prélèvement du champignon.
1, n
Subir
Conditions
culture
de
Stress
Représente le stress induit dans le
champignon.
1, n
Tableau 4.21 Relations des classes de l’ontologie.
104
Chapitre 4.
La Conception
Etape 7 : Créer les instances des classes dans la hiérarchie.
Les instances constituent l'ensemble des objets des classes. Le tableau suivant décrit
les différentes instances associées à chaque classe de l’ontologie :
Classe
Instances
Mutant
{Mauriceville-1c (FGSC_2225), Nuc-2, 74-OR 23-IV (FGSC_2489), bd_frq7, bd_30-7,
fl (FGSC_4347), ORS (FGSC_2490)}
Vegetative incompatibility
{het-S_het-s system, het-R_het-V system}
Culture duration
{1h, 4h, 4 h et ½, 7h, 9h, 22h, 24h, 36h, 48h, 2j, 5j}
Temperature Stress
{25°C, 30°C, 34°C, 45°C, 58°C, 120°C}
With Orbital Staking
{Speed--125 rpm, Speed--200 rpm}
Insufficiences
{Pi shortage}
PH medium
{Acid}
Amino-acid
{Arginine, Leucine, Lysine, Méthionine, Tryptophane}
Sugar
{Glucose, Sucrose}
Vitamines
{Biotin}
Osmostic stress
{Sodium chloride}
Oxidative stress
{Hydrogen peroxyde, Dithiothreitol, Cadium chloride}
Cross medium
{ M2 medium, Westergaard medium}
Growth medium
{G medium, MR medium, RG medium, Sorbose medium, Vogel medium}
Light
{Constant light, Dark}
Relevent moment
{Morning, Evening}
Tableau 4.22 Instances des classes de l’ontologie.
105
Chapitre 4.
La Conception
o Aspects spatio-temporels du développement des organismes
Du fait du domaine d'application, nous avions à prendre en compte l'aspect spatiotemporel des termes liés aux stades de développement des champignons. Par exemple, le
terme « périthèce » désigne l'organe de fructification des champignons, mais il définit
également un moment précis de leur cycle de vie. Deux solutions sont possibles : soit
construire une ontologie unique de «développement», soit construire une ontologie pour
chaque aspect, l’une pour l'espace et l'autre pour le temps. L'organisation d'une ontologie
unique de développement semble aussi complexe que le développement de l'organisme et
nécessite une combinaison de différents types de lien entre les concepts. Sur la base de ce qui
a été fait pour le vocabulaire contrôlé eVoc [Kel, 03], la deuxième possibilité a été retenue et
deux ontologies distinctes ont été conçues. Ces deux ontologies sont plus faciles à représenter
et à organiser. Des concepts ont été dupliqués dans chaque ontologie quand ils incluent à la
fois des aspects espace et temps et seul le type de lien « is-a » a été utilisé.
o Protocole de construction
Les termes sélectionnés ont été répartis dans les quatre aspects du contexte d'une
expérience d'expression des gènes : caractérisation de la souche étudiée, les conditions de
culture maintenues jusqu'à l'extraction des molécules exprimées, l'organe ou le tissu extrait, et
les stades de développement de l'organisme au moment de l'extraction.
Les figures (de 4.15 à 4.18) sont des vues schématiques des quatre ontologies créées
(les nœuds en jaune représentent les concepts tandis que les nœuds en orange sont des
exemples d’instances des concepts). L’ontologie « étapes du cycle cellulaire » a six niveaux
de ramification, représentent les différentes étapes du cycle du champignon, y compris les
stades sexués et asexués. L’ontologie « types cellulaires » contient cinq niveaux, et décrie les
différents organes ou tissus qui sont impliqués dans le développement des champignons.
Certains concepts sont communs avec l’ontologie « étapes du cycle cellulaire » en raison de
leur fonction spatiale et temporelle. L'ontologie des caractéristiques des « souches » se
compose de trois niveaux de ramification. Les souches de champignons peuvent être de type
sauvage ou mutant dont les valeurs sont par exemples Mauriceville-1c (FGSC 2225), Nuc-2,
74 ou 23 IV (FGSC 2489). Les souches présentent également des incompatibilités végétatives
résultant de différences génétiques à des loci spécifiques et chaque champignon possède son
106
Chapitre 4.
La Conception
propre système (par exemple "R /V" pour N.crassa et "het-S/het-s" pour P.anserina) [Lou,
00]. L’ontologie « conditions de culture », dispose de quatre niveaux de ramification. Cinq
caractéristiques sont décrites. Le milieu de culture qui peut être de croissance ou de
croisement, contenir un supplément ou présenter un manque d'éléments nutritifs comme des
vitamines, des acides aminés, ou des sucres. Deux aspects temporels sont pris en compte : la
durée de la culture (1, 7, ou 24 heures, 5 ou 7 jours par exemples), et le moment du
prélèvement (matin ou le soir). La lumière est soit constante ou absente. Et enfin, les stress
subis par les champignons lors de leurs développements peuvent être dûs à une variation de
température ou de la concentration d'oxydant.
3.2. Architecture du système
L’objectif de notre système est de faciliter la consultation (visualisation),
l’exploitation et la gestion des données relatives aux expériences réalisées sur les deux
champignons filamenteux à travers l’ontologie biologique du domaine. Cette ontologie qui est
subdivisée en quatre sous ontologies que sont : « le cycle de développement », « le tissus
cellulaire », « les caractéristiques des souches » et « les conditions de culture » représentants
les différents aspects morphologiques et expérimentales d’un champignon. L’architecture
générale du système est illustrée dans le schéma ci-après :
107
Chapitre 4.
La Conception
Figure 4.19 Architecture générale de l’application.
Nous allons détailler dans les parties qui suivent le rôle des différents modules du
système, nous proposons de modéliser leurs fonctionnements ainsi que les fonctionnalités qui
doivent être fournies à l’utilisateur grâce aux diagrammes UML.
Nous allons commencer par délimiter notre système et définir les fonctionnalités
principales dont il doit disposer ainsi que les différents types d’utilisateurs qui les effectuent.
108
Chapitre 4.
La Conception
o Acteurs et fonctions principales du système
Les besoins fonctionnels couverts par le prototype peuvent être synthétisés en
quatre grandes familles :
·
La visualisation (consultation) d’informations ;
·
La recherche d’informations ;
·
L’exploitation d’informations ;
·
Et la gestion (mise à jour) d’informations.
Les acteurs représentent le rôle humain dans notre système, leurs interactions
avec le système sont représentées sous forme de cas d’utilisation dans ce qui suit. Les acteurs
dans notre système peuvent être :
·
Utilisateur de l’ontologie (les Biologistes, les Bio-informaticiens ou les
Informaticiens)
·
Expert du domaine (les Biologistes, les Bio-informaticiens)
·
Administrateur l’ontologie (les Bio-informaticiens ou Informaticien)
o Cas d’utilisation commun à tous les utilisateurs
Ce diagramme représente les cas d’utilisations d’un utilisateur quelconque,
autrement dit, les fonctionnalités que doit fournir le système à tous ses utilisateurs. Ces
fonctionnalités sont :
·
Chargement de l'interface de choix : lorsque l'utilisateur se connecte au système,
l'interface du choix est chargée, ce qui va permettre à l’utilisateur de choisir le mode
adéquat et ensuite le chargement de l'interface choisit (1: Consulter, 2: Exploiter, 3:
Enrichir).
·
Affichage du contenu de l'ontologie : dans le cas ou l’utilisateur choisit de consulter
l'ontologie, une représentation de l'ontologie sous forme d'un arbre est visualisée.
·
Affichage d'informations concernant un concept choisit : lorsque l'utilisateur
choisit un concept, les informations relatives à ce concept sont affichées.
109
Chapitre 4.
·
La Conception
Recherche d’un concept dans l’ontologie : l’utilisateur à la possibilité de rechercher
manuellement un concept ou à l’aide d’une requête saisie.
Figure 4.20 Cas d’utilisation de tous les utilisateurs.
o Cas d’utilisation de l’expert du domaine
Ce diagramme représente les cas d’utilisations d’un expert du domaine.
Figure 4.21 Cas d’utilisation de l’expert du domaine.
110
Chapitre 4.
La Conception
Les fonctionnalités que doit fournir le système à l’expert du domaine sont décrites comme
suit :
·
Chargement des fiches d’ESTs : l’expert du domaine peut exploiter les données
expérimentales contenues dans les fiches d’ESTs préalablement prétraitées en
décomposant le texte des fiches en termes et en normalisant les termes extraits.
·
Calcul des fréquences des termes : un calcul de fréquence exemple la mesure
TF-IDF est effectuée sur les termes précédemment extraits.
·
Affichage du Clustering : Après le calcul des fréquences, l’expert à la possibilité
d’évaluer la similitude ou non de la fonction des gènes en utilisant le Clustering.
o Cas d’utilisation de l’administrateur
Ce diagramme représente les cas d’utilisations de l’administrateur de l’ontologie :
Figure 4.22 Cas d’utilisation de l’administrateur.
Les fonctionnalités que doit fournir le système à l’administrateur sont :
·
S’identifier : la mise à jour est une tâche délicate d’où la nécessité de s’identifier pour
garantir une sécurité de l’information.
·
Mise à jour des informations : Cette mise à jour consiste en l’ajout, suppression et
modifications des concepts, de leur définition et de leurs synonymes.
111
Chapitre 4.
La Conception
3.3. Le module consultation (Description)
Ce module est aux utilisateurs voulant visualiser sous forme d’arborescence le
contenu des quatre ontologies en proposant pour chaque concept sélectionné : son nom, sa
définition, le(s) synonymes, le concept père et le(s) concept(s) fils associés. Il permet aussi
d’effectuer une recherche manuelle ou par mot-clé d’un concept donné. L’architecture de ce
module est la suivante :
Figure 4.23 Architecture du module consultation.
3.4. Le module exploitation (Description)
Ce module est destiné aux utilisateurs désirant avoir une « idée » sur l’activité des
gènes associés aux deux champignons. Chaque fiche d’EST est constituée d’un ensemble de
termes à qui on leurs calcule la métrique TF*IDF puis grâce au logiciel TANAGRA un
clustering est réalisé. Chaque groupe correspondrait à des distances entre termes de fiche
dESTs proche (ou éloigné selon le cas) et que (peut être) l’expert du domaine pourra
déterminer l’activité des gènes. L’architecture de ce module est la suivante :
112
Chapitre 4.
La Conception
Figure 4.24 Architecture du module exploitation.
3.5. Le module enrichissement (Description)
Ce module est le noyau du système, il a pour but de mettre à jour les
informations de l’ontologie. L’administrateur s’identifie grâce à un mot de passe qui lui
permet d’accéder soit au fichier ONTO-BIO.obo qu’il veut modifier ou bien la base de
données. L’architecture de ce module est la suivante :
Figure 4.25. Architecture du module enrichissement.
113
Chapitre 4.
La Conception
Pour une représentation claire et précise des fonctionnalités fournies par du
module consultation, un diagramme de séquence (ou de scénario) est présenté. Ce diagramme
offre une représentation dynamique du système. Il montre pas à pas le séquencement des
actions constituant le cas du processus de recherche d’informations (ici par mots-clés) :
Figure 4.26 Diagramme de séquence de la recherche d’information par mots-clés.
Le diagramme de séquence suivant décrit la mise à jour de l’ontologie via la
BDD qui se trouve dans EasyPHP pour le module enrichissement.
Figure 4.27 Diagramme de séquence de mise à jour de l’ontologie via la BDD.
114
Chapitre 4.
La Conception
4. Conclusion
Ce chapitre aborde l’expérimentation effectuée dans le cadre de ce mémoire à savoir
l’effectif manipulé, ainsi que les cirières pris en compte pour les deux types d’extraction
manuelle et automatique et commente les résultats obtenus par l’extraction manuelle,
l’extraction automatique grâce au logiciel K.E.A et de la nécessité de l’intervention humaine
dans ce cas de figure. Ce chapitre comprend aussi la phase de construction de l’ontologie
biologique du domaine, en spécifiant la méthode choisie à cet effet. Ainsi que la présentation
de l’architecture qui exploite cette ontologie en détaillant les différents modules de ce
système.
Dans ce qui suit, est présenté l’environnement de développement de notre application
en expliquant le choix des outils utilisés, et la description du système développé à travers des
captures d’écran de ses différentes interfaces.
115
Chapitre 5
L’Implémentation
Plan
1. Introduction
2. Environnement de développement
2.1. Choix du langage de développement
2.2. Choix de l’éditeur de l’ontologie
2.3. Choix du S.G.B.D
3. Description du système
3.1. Interface principale
3.2. Description de la barre d’outils
3.3. Cas d’utilisation du système
4. Conclusion
Chapitre 5.
L’implémentation
1. Introduction
Après avoir décrit la conception de l’ontologie des champignons filamenteux, nous
allons à présent entamer la partie réalisation du système que nous avons baptisé « COSEC »
(Construction Ontologique à partir de Séquences d'Expression de Champignons). Dans la
première partie de ce chapitre, est présenté l’ensemble des outils de développement utilisés.
Dans la seconde partie, le processus d’implémentation du système est détaillé, ainsi que les
principales interfaces qui le composent à travers des fenêtres de capture.
2. Environnement de développement
Pour implémenter le prototype, nous avons dû faire un choix concernant les outils de
développement. Nous citons dans cette section ces outils tout en mentionnant les raisons qui
nous ont amenés à les utiliser.
2.1. Choix du langage de développement
Dans la partie programmation du système de recherche d’information nous
avons utilisé le langage JAVA. Ce langage nous a paru beaucoup plus une évidence qu’un
choix, vu que les outils que nous utilisant sont entièrement développés en JAVA. De plus la
plupart de ces outils ont des problèmes de compatibilité avec les autres langages dans leur
version actuelle. De plus nous avons choisi ce langage pour ses qualités, à savoir :
· JAVA est un langage orienté objet simple, qui réduit le risque des erreurs
d’incohérences,
· Il est indépendant de toute plate forme, il est possible d’exécuter des programmes
JAVA sur tous les environnements qui possèdent une Java Virtual Machine (JVM),
· Il est doté d’une riche bibliothèque de classes, comprenant la gestion des interfaces
graphiques (fenêtres, menus, graphismes, boites de dialogue, contrôles), la
programmation multithread (multitâche), la gestion des exceptions,
· Il permet d’accéder d’une manière simple aux fichiers et aux réseaux (notamment
Internet),
· Il permet un accès aux bases de données simplifié soit a travers la passerelle JDBCODBC ou a travers un pilote JDBC spécifique au SGBD,
117
Chapitre 5.
L’implémentation
· Il est caractérisé aussi par la réutilisation de son code ainsi que la simplicité de sa mise
en œuvre.
2.2. Choix de l’éditeur d’ontologies
L’implémentation de notre ontologie biologique s’est effectuée à travers l’éditeur
d’ontologies OBO-Edit 2.0. Plusieurs raisons ont motivé notre choix :
· OBO-Edit est un éditeur d’ontologies open source et gratuit,
· OBO-Edit possède une interface modulaire, ce qui permet son enrichissement par des
modules additionnels (plugins),
· OBO-Edit permet l’édition et la visualisation d’ontologies,
· OBO-Edit permet le contrôle de la cohérence de l’ontologie par des vérifications de
contraintes,
· OBO-Edit est un éditeur d’ontologies développé et maintenue par le « Consortium
Gene Ontology » pour les ontologies dans le domaine de la biologie.
2.3. Choix du SGBD
Le Système de Gestion de Bases de Données que nous avons choisi pour
implémenter notre base de données des deux champignons filamenteux est MySQL. MySQL
est un SGBDR (Système de Gestion de Base de Données Relationnelles) fonctionnant sur
diverses plates-formes matérielles sous différents systèmes d’exploitation.
L’une des principales qualités de MySQL est d’être un logiciel libre, c'est-à-dire
gratuit et open source (les sources du logiciel sont disponibles dans le site
http://www.mysql.com). Il possède de nombreuses caractéristiques qui font de lui un SGBDR
robuste et puissant. Il est considéré parmi les systèmes libres les plus avancés.
·
Il permet la définition et la manipulation des données,
·
Il permet d’assurer l’intégrité et la cohérence des données,
·
Il permet la sauvegarde et la restauration des données
·
Il reconnaît la plupart des spécifications SQL,
118
Chapitre 5.
·
L’implémentation
Il intègre des bibliothèques pour de nombreux langages, afin de permettre d’accéder
aux enregistrements à partir de programmes écrits en : Java (JDBC), langage C/C++,
Perl…etc.
·
Et enfin, la gestion des accès concurrents.
L’interface PhpMyAdmin
PhpMyAdmin est un outil entièrement écrit en PHP qui fournit une interface simple et
très complète pour administrer une base MySQL. La plupart des commandes de l’utilitaire
MySQL peuvent s’effectuer par l’intermédiaire de PhpMyAdmin, les opérations possibles
dépendant bien sûr des droits de l’utilisateur qui se connecte à la base. Voici une liste des
principales possibilités :
·
Créer et détruire des bases de données (sous le compte root de MySQL),
·
Créer, détruire, modifier la description des tables,
·
Consulter le contenu des tables, modifier certaines lignes ou les détruire, etc.
·
Exécuter des requêtes SQL interactivement,
·
Charger des fichiers dans des tables et, réciproquement, récupérer le contenu de tables
dans des fichiers ASCII,
·
Administrer MySQL.
Connexion Java/MySQL
Pour connecter l’application à la base de données, nous avons utilisé l’interface JDBC.
JDBC (acronyme qui signifie « Java Data Base Connectivity»), est un ensemble de classes
Java qui permettent de se connecter à une base de données, généralement distante sur le
réseau, et d’interroger cette base afin d’en extraire des données. La principale caractéristique
de JDBC est le fait qu’elle est complètement indépendante de tout SGBD, c’est-à-dire qu’il
peut être utilisé pour accéder à une base Oracle, PostgreSQL ou MySQL, etc.
3. Description du système
L’interface homme/machine représente l’élément clé dans l’utilisation de tout système
informatique. Ainsi, les interfaces de notre système sont conçues de manière à être simples,
faciles d’utilisation et de compréhension. Ce système (prototype) permettra à l’utilisateur
119
Chapitre 5.
L’implémentation
d’exploiter l’ontologie des champignons filamenteux, de consulter ses concepts et de voir les
informations sur ses concepts. Dans ce qui suit nous allons présenter le prototype réalisé à
travers des captures d’écran.
3.1. Interface principale
L’interface illustrée par la figure ci-dessous représente l’interface principale de
notre application :
1
2
3
4
Figure 5.1 Interface Principale de l’application.
1) Choix du type de tâche à effectuer : On a le choix entre Consulter, Exploiter ou
Enrichir l’ontologie du domaine.
2) Botton Valider : validation du choix.
3) Botton Annuler : annulation du choix.
4) Botton Quitter : sortie de l’application.
120
Chapitre 5.
L’implémentation
3.2. Description de la barre de Menus
On trouve la barre de menus dans les interfaces suivantes : Consulter, Exploiter
ou Enrichir. Elles ont toutes les mêmes composants.
v Le menu Fichier
Figure 5.2 Menu Fichier.
·
Ouvrir : Permet l’ouverture (ou le chargement) de l’ontologie du domaine.
·
Imprimer : Permet l’impression de l’arborescence de tous les concepts de
l’otologie.
·
Quitter : Permet sortir de l’application.
v Le menu Rechercher
Figure 5.3 Menu Rechercher.
·
Par exploitation de l’arborescence : Dans ce mode de recherche l’utilisateur peut
accéder à tous les concepts de l’ontologie. Son principe est de permettre aux
utilisateurs de faire une recherche et découvrir les concepts de l’ontologie en
navigant sur cette dernière représentée sous forme d’une arborescence.
·
Recherche par mots clés : Dans ce mode de recherche il est possible d’accéder
directement à un concept de l’ontologie par saisie d’une requête, toutefois la
connaissance de quelques mots clés du domaine est nécessaire pour faire ce type
de recherche. Ce mode permet de faire des recherches sur l’ensemble des données
contenues dans l’ontologie à partir d’un mot précis ou d’un mot approchant qui se
trouve dans la requête.
121
Chapitre 5.
L’implémentation
v Le menu Mise à jour
Figure 5.4 Menu Mise à jour.
·
Mise à jour concepts : Permet d’ajouter, de supprimer ou de modifier le contenu
des concepts.
·
Mise à jour ontologies : Permet d’ajouter, de supprimer ou de modifier le contenu
des ontologies.
v Le menu A propos : Permet de représenter la présentation et la version du logiciel.
3.3. Cas d’utilisation du système
La section qui suit décrit les différentes possibilités qui sont offertes à
l’utilisateur selon la tâche sélectionnée.
·
Cas1 : Consulter
Si l’utilisateur choisi la tâche Consulter, il lui sera possible de visualiser l’ontologie
du domaine (c’est-à-dire les 4 sous ontologies) et les informations associées à chaque
concepts à savoir : la définition et le(s) synonyme(s), ainsi que le concept père et le(s) fils
comme le montre la figure ci-dessous :
122
Chapitre 5.
L’implémentation
1
2
3
4
5
Figure 5.5 Interface de l’ontologie biologique du domaine.
1) LE CONCEPT SELECTIONNE : représente le nom du concept sélectionné.
2) LA DEFINITION : donne la définition du concept sélectionné.
3) LES SYNONYMES : affiche le ou les synonymes du concept sélectionné.
4) LE CONCEPT PERE : c’est le concept ascendant du concept sélectionné.
5) LE CONCEPT FILS : le ou les concept(s) fils du concept sélectionné.
L’utilisateur a aussi la possibilité d’effectuer une recherche sur un concept selon les
deux modes précédemment décrits. La figure suivante correspond au mode de recherche par
mots clés :
123
Chapitre 5.
L’implémentation
1
3
2
4
5
6
7
Figure 5.6 Interface de la recherche par mots-clés.
1) MOT CLE A SAISIR : Zone de saisie du mot clé.
2) RESULTATS DE LA RECHERCHE : Résultat du ou des concepts trouvés à partir du
mot clé saisi.
3) L’ONTOLOGIE CONCERNEE : Numéro de l’ontologie contenant le mot clé.
4) LA DEFINITION : Définition du ou des concepts trouvés à partir du mot clé.
5) LES SYNONYMES : Synonyme(s) du ou des concepts trouvés à partir du mot clé.
6) LE CONCEPT PERE : Concept père du ou des concepts trouvés à partir du mot clé.
7) LE CONCEPT FILS : Concept fils du ou des concepts trouvés à partir du mot clé.
·
Cas 2 : Exploiter
Si l’expert du domaine choisi la tâche Exploiter, il lui sera possible demander le
Clustering des fiches d’ESTs (Expressed Sequence Tags) pour permettre de proposer une
fonction biologique liée à l’expérience.
124
Chapitre 5.
L’implémentation
w D’abord, les termes des fiches d’ESTs sont prétraités (décomposition et normalisation) :
Décomposition
+
Normalisation
Figure 5.7 Prétraitement des fiches d’ESTs.
125
Chapitre 5.
L’implémentation
w Ensuite, les fréquences des termes des fiches d’ESTs sont calculées (métrique TF*IDF) :
Figure 5.8 Calcul de TF*IDF des termes des fiches d’ESTs.
w Enfin, les termes des fiches d’ESTs dont la métrique TF*IDF a été calculée sont
enregistrés (en format .arff) pour être utilisé par TANAGRA qui établira le Clustering
correspondant :
Figure 5.9 Résultat du clustering des termes des fiches d’ESTs par TANAGRA.
126
Chapitre 5.
·
L’implémentation
Cas 3 : Enrichir
Pour pouvoir utiliser notre application l’administrateur système doit d’abord
lancer le serveur web EasyPHP pour se connecter à la base de données. Ensuite,
l’administrateur spécifie le nom d’utilisateur et le mot de passe, qu’il saisi au niveau
de notre application comme est illustré dans la figure suivante :
Figure 5.10 Connexion à la base de données.
Grâce au Menu mise à jour, l’administrateur peut enrichir l’ontologie du domaine en
effectuant les opérations d’ajout, de suppression et de modification des données. Pour
ce faire l’administrateur choisi soit de mettre à jour « localement » ou « globalement »
les données.
v Si l’administrateur effectue une mise à jour dite « locale », cette dernière se répercute
que sur les fichiers .OBO des quatre sous ontologies :
1) Ontologie : Sélectionne une ontologie.
2) Nom concept père : Nom du concept père du concept sélectionné.
3) ID père : Identifiant du concept père du concept sélectionné.
4) Nom concept courant : Nom du concept sélectionné.
5) ID fils: Identifiant du concept sélectionné.
6) Définition : définition du concept sélectionné.
7) Synonymes : Synonyme(s) du concept sélectionné.
8) Créé le : date de création du concept sélectionné.
9) Créé par : auteur de création du concept sélectionné.
10) Fichier .OBO de l’ontologie sélectionnée.
127
Chapitre 5.
·
L’implémentation
Bouton Nouveau : Permet à l’administrateur d’accéder à une nouvelle interface
permettant d’ajouter un concept et les informations qui lui sont associées.
·
Bouton Supprimer : Permet à l’administrateur de supprimer un concept et les
informations qui lui sont associées.
·
Bouton Modifier : Permet à l’administrateur de modifier un concept et les informations
qui lui sont associées.
·
Bouton Enregistrer : Permet à l’administrateur d’enregistrer les modifications apportées
concept et les informations qui lui sont associées.
Figure 5.11 Mise à jour dite « locale » de l’ontologie biologique du domaine.
L’interface suivante correspond à celle que l’administrateur doit remplir lors de
l’opération de l’ajout.
128
Chapitre 5.
L’implémentation
Identifiant du nouveau concept
Figure 5.12 Ajout d’un concept de l’ontologie « Cellular cycle steps.OBO ».
v Si l’administrateur effectue une mise à jour dite « globale », cette dernière se
répercutera sur la base de données créée et définie sous MySQL. Il possible
d’effectuer ces modifications sur les ontologies, leurs synonymes et leurs concepts.
Nous allons illustrer par un exemple l’ajout d’une nouvelle ontologie (une cinquième)
et voir sa mise à jour effective dans EasyPHP :
Figure 5.13 La table ontologie avant la mise à jour.
129
Chapitre 5.
L’implémentation
Figure 5.14 La table ontologie avant et après la mise à jour (au niveau d’EasyPHP).
Nouvelle ontologie
Figure 5.15 La table ontologie après la mise à jour.
4. Conclusion
Dans ce chapitre nous avons présenté l’implémentation de notre système de recherche
d’information. Nous avons tout d’abord présenté l’environnement de développement ainsi que
les différents outils utilisés, puis nous avons donné une description détaillée du système à
travers des fenêtres de capture qui représentent les interfaces de ce dernier, qui sont conçues
de manière à être conviviales et simples d’utilisation. Cette étape nous a aussi permis de nous
familiariser avec les outils utilisés pour le développement du système.
130
Conclusion générale et perspectives
Conclusion générale et perspectives
Notre approche vise la construction d’ontologie de deux champignons filamenteux
modèles. Durant cette mise en œuvre il était important de bien effectuer le passage du niveau
documents textuels au niveau ontologique, en définissant de façon rigoureuse les entités
manipulées et en faisant intervenir les techniques de TAL et de fouille de textes pour les
déterminer. Cette contribution concerne un type de données particulières : Les informations
associées aux EST (Expressed sequence Tags) chez Neurospora crassa et Podospora anserina.
A ce titre, nous avons évoqué dans notre approche l’utilisation d’un outil de
Traitement Automatique de la Langue : K.E.A. Ce dernier appartient à la deuxième classe des
méthodes d’acquisition terminologique qui extrait des termes candidats, les méthodes
statistiques. La base de données de référence dans cette étude étant NCBI (terminologie
anglo-saxonne).
Cette technique a permis l’extraction d’un certain nombre de termes à partir des fiches
d’EST auxquels nous avons ajouté les termes n’apparaissant pas dans les fiches d’EST, et à
partir de quelques documents spécialisés dans le domaine. Nous sommes parvenus à un
vocabulaire contrôlé consistant permettant la construction d’ontologies. Le résultat de cette
extraction a abouti à une cinquantaine de termes que nous avons répartis en termes liés aux
processus biologiques et en termes liés aux conditions imposées pendant la culture.
Dans un premier temps, les termes de Neurospora cressa et Podosopora anserina ont
été fusionné car ces derniers sont relativement proches morphologiquement. Dans un
deuxième temps, nous avons eu à prendre en considération un aspect important concernant les
termes à savoir l’aspect spatio-temporel associé à un même terme ; exemple : perithecium
(périthèce) qui est un moment défini du cycle mais aussi un organe. Deux solutions ont été
envisageables, soit construire une ontologie pour chaque aspect, spatial et temporelle ou bien
une ontologie unique de « développement ».
Nous avons préféré et ce en s’inspirant de ce qui a été réalisé pour le vocabulaire
contrôlé « eVoc », d’opter pour une ontologie modulaire qui comporte quatre ontologies
(Ontologie du développement du cycle cellulaire du champignon, types cellulaires, souches et
131
Conclusion générale et perspectives
conditions de culture du champignon). Ceci nous a permis de mettre en évidence les différents
aspects morphologiques et expérimentaux des deux champignons filamenteux modèles.
Cette dernière est modulaire pour plus de flexibilité et de facilitation de mises à jour.
Ces informations ont été exploitées par une approche statistique d’extraction de termes. Les
premiers résultats obtenus montrent que la stratégie adoptée est relativement pertinente.
Cependant, des améliorations, notamment en ce qui concerne la couverture par des documents
spécialisés, doivent encore être apportées pour que cette ontologie puisse être effectivement
opérationnelle sur toutes les ressources biologiques.
En perspective à ce travail, nous envisageons :
Ø De développer un module d’enrichissement d’ontologie du système.
Ø D’enrichir notre ontologie le plus possible avec l’aide des experts du domaine pour
envisager une éventuelle intégration de ces ressources à l’ontologie du domaine.
Ø De pouvoir associer la « Gene Ontology » aux ontologies précédemment définies
pour une possibilité d’intégration et de comparaison avec notre ontologie.
Ø De conceptualiser une ontologie d’un organisme supérieur tel que : Arabidopsis
thaliana et la comparer avec l’ontologie construite pour les champignons.
132
Références bibliographiques
5
[Bac, 00]
:
B. Bachimont. Engagement sémantique et engagement ontologique :
conception et réalisation d'ontologies en ingénierie des connaissances.
Ingénierie des connaissances, Evolutions récentes et nouveaux défis, 2000.
[Bah, 06]
:
D. Bahloul. Une approche hybride de gestion des connaissances basée sur
les ontologies : application aux incidents informatiques, Thèse de Doctorat,
Université de Lyon (France), 2006.
[Bou, 03]
:
D. Bourigault, D et N. Aussenac-Gilles. N. Construction d’ontologies à
partir de textes. Journal Traitement Automatique des Langues Naturelles
2003, p. 9-11, 2003.
[Bou, 08]
:
F. Boubekeur-Amirouche. Contribution à la définition de modèles de
recherche d'information flexibles basés sur les CP-Nets, Thèse de Doctorat,
Université de Toulouse III- Paul Sabatier (France), 2008.
[Bor, 97]
:
W. N. Borst. «Construction of Engineering Ontologies.» Center for
Telematica and Information Technology, University of Tweenty, Enschede,
NL, 1997.
[Cha, 04]
:
F. Chantelot, A. Claude, V. Zoonekynd. Interaction entre gènes :
extraction d’information d’un corpus de résumés d’articles de recherche,
Rapport, p. 1-3, France, 2004.
[Che, 04]
:
H. Cherfi. Étude et réalisation d’un système d’extraction de connaissances
à partir de textes, Thèse de Doctorat, Université d’Henri Poincaré –Nancy 1
(France), 2004.
[Che, 05]
:
H. Cherfi, A. Napoli et Y.Toussaint. Towards a Text Mining
Methodology Using Association Rules Extraction, Soft Computing Journal,
2005.
[Cho, 09]
:
O. Chourabi. Un cadre ontologique générique de modélisation, de
capitalisation et de partage de Connaissances Métiers Situées en Ingénierie
Système, Thèse de Doctorat, Université de la Manouba (France), 2009.
[Coh, 04]
:
S. Cohen Boulakia, S. Lair, N. Stransky, S. Grazian, F. Radvany, E.
Barillot, C. Froidevaux. Selecting Biomedical Data Sources according to
User Preferences. ISMB/ECCB’04 Bioinformatics Volume 20 Supplement
1, pages i86–i93, 2004.
134
[Col, 00]
:
N. Collier, C. Nobata, et J. Tsujii. Extracting the Names of Genes and
Gene Products with a Hidden Markov Model. In Proc. of COLING 2000, p.
201–207, 2000.
[Cop, 97]
:
E. Coppin, R. Debuchy, S. Arnaise, M. Picard. Mating Types and
Sexual Development in Filamentous Ascomycetes, Microbiology end
Molecular Biology Reviews, Volume. 61, No. 4, p. 413, USA, 1997.
[Des, 08]
:
S. Despres et S. Szulman. Réseau terminologique versus Ontologie. Revue
TOTh 2008, p. 6-7, 2008.
[Dia, 06]
:
G. Diallo. Une architecture à base d’Ontologies pour la gestion unifiée des
données structurées et non structurées, Thèse de Doctorat, Université de
Joseph Fourier – Grenoble I (France), 2006.
[Dop, 07]
:
H-A. Do Prado. Emerging Technologies Of Text Mining: Techniques And
Applications / Hercules Antonio Do Prado & Edilson Ferneda, Editors.
ISBN 978-1-59904-373-9 (Hardcover) -- ISBN 978-1-59904-375-3
(Ebook), 2007.
[Eom, 04]
:
J. Eom et B. Zhang. PubMiner: Machine Learning-based Text Mining for
Biomedical Information Analysis. In Genomics & Informatics Volume.
2(2) p. 99- 106, 2004.
[Esp, 08]
:
E. Espagne, O. Lespinet, F. Malagnac, C. Da Silva, O. Jaillon, B. M
Porcel, A. Couloux, J-M. Aury, B. Ségurens, J.Poulain, V. Anthouard,
S. Grossetete, H. Khalili, E. Coppin, M. Déquard-Chablat, M. Picard,
V. Contamine, S. Arnaise, A. Bourdais, V. Berteaux-Lecellier, D.
Gautheret, R-P. de Vries, E. Battaglia, P. M Coutinho, E. GJ Danchin,
B. Henrissat, R. EL Khoury, A. Sainsard-Chanet, A. Boivin, B. PinanLucarré, C. H Sellem, R. Debuchy, P. Wincker, J. Weissenbach, P.
Silar. The genome sequence of the model ascomycete fungus Podospora
anserina, Genome Biology, Volume 9, Issue 5, 2008.
[Fay, 96]
:
U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD Process for
Extracting Useful Knowledge from Volumes of Dated, Communications Of
The ACM, Volume 39, No. 11, 1996.
135
[Fel, 95]
:
R. Feldman et I. Dagan. Knowledge Discovery In Textual Databases
(KDT). Dans In Proceedings Of The First International Conference On
Knowledge Discovery And Data Mining (KDD-95), Pages 112–117,
Montréal (Canada), 1995.
[Fro, 04]
:
C. Froidevaux et S. Cohen Boulakia. Intégration de Sources de Données
Génomiques du Web. 2004.
[Fuk, 98]
:
K. Fukuda, T. Tsunoda, A. Tamura, T. Takagi. Toward information
extraction: identifying protein names from biological papers. PSB, p.705–
716, 1998.
[Gaa, 05]
:
M-V. Gaad. Genomic conflicts in Podospora anserina, Thèse de Doctorat,
Université de Wageningen, 2005.
[Gar, 03]
:
Y.Gargouri. Maintenance d’ontologies de domaine à partir d’analyses
textuelles, Thèse de Doctorat, 2003.
[Gha, 09]
:
I. Ghalamallah. Proposition d'un modèle d'analyse exploratoire
multidimensionnelle dans un contexte d'Intelligence Economique, Thèse de
Doctorat, Université de Toulouse III - Paul Sabatier (France), 2009.
[Gom, 04]
:
A. Gómez-Pérez, F-L. Mariano, C.Oscar. Theoretical Foundations of
Ontology, Chapter 1 of Ontological Engineering: with examples from the
areas of Knowledge Management, e-Commerce and the Semantic Web.
Springer-Verlag, p. 1–45, 2004.
[Gru, 93]
:
T. Gruber. «A translation approach to portable ontology specifications. »
Knowledge Acquisition Journal, academic Press, 1993.
[Gua, 97]
:
N. Guarino. Some organizing principles for a unified top-level ontology.
Proceedings of the AIII Spring Symposium on Ontological Engineering,
1997.
[Gua, 95]
:
N. Guarino et P. Giaretta. «Ontologies and Knowledge Bases: Towards a
Terminological Clarification.» In Towards Very Large Knowledge Bases:
Knowledge Building and Knowledge Sharing, Mars N. J. I., Amsterdam:
IOS Press, 1995.
[Gué, 05]
:
E. Guérin. Intégration de données pour l’analyse du transcriptome : mise
en œuvre par l’entrepôt GEDAW (Gene expression data warehouse), Thèse
de Doctorat, Université Renne (France), 2005.
136
[Had, 02]
:
M. Hatem Haddad. « Extraction Et Impact Des Connaissances Sur Les
Performances Des Systèmes De Recherche d’Information », Thèse de
Doctorat, Université de Joseph Fourier (France). 2002.
[Hat, 04]
:
D. Hatsch. Interaction hôte/pathogène : étude du modèle Humulus lupulus
/ Fusarium graminearum. Identification, génomique et transcriptomique du
pathogène,Thèse de Doctorat, Université de Louis PasteurStrasbourg I
(France), 2004.
[Hat, 01]
:
V. Hatzivassiloglou, P. Duboué, A. Rzhetsky. Disambiguating proteins,
genes, and RNA in text: a machine learning approach. Bioinformatics,
17(1): p. 97-106, 2001.
[Her, 06]
:
N.Hernandez, J.Mothe. TtoO: une méthodologie de construction
d’ontologie de domaine à partir d’un thésaurus et d’un corpus de référence,
RAPPORT INTERNE IRIT, 2006.
[Hob, 97]
:
J.R. Hobbs, D. Appelt, J. Bear, D. Israel, M. Kameyama, M. Stickel.
FASTUS: A Cascaded Finite-State Transducer for Extracting Information
From Natural- Language Text. Finite-State Language Processing.,
Cambridge: MIT press. 383-406, 1997.
[Hob, 00]
:
J.R. Hobbs. Information extraction from biomedical text. Journal
Biomedical Informatics. In Proceedings of Pac Symposium Biocomputers.
p. 541-552, 2000.
[Kaz, 02]
:
J. Kazama, T. Makino, Y. Ohta, et J. Tsujii. Tuning SVM for biomedical
named entity recognition. In Proceedings of the workshop on NLP in the
biomedical domain, 2002.
[Kel, 03]
:
J. Kelso, J. Visagie, G. Theiler, A. Christoffels, S. Bardien, D. Smedley,
D. Otgaar, G. Greyling, C. Victor Jongeneel, M.I. McCarthy, T. Hide,
W. Hide. eVOC: A Controlled Vocabulary for Unifying Gene Expression
Data. Journal of Genome Research. 13:1223–1227. 2003.
[Khe, 06]
:
M-K. Khelif. Web sémantique et mémoire d’expériences pour l’analyse du
transcriptome, Thèse de Doctorat, Université de Nice-Sophia Antipolis
(France), 2006.
[Kim, 03]
:
J.D. Kim, T. Ohta, Y. Tateisi, J. Tsujii. GENIA corpus -semantically
annotated corpus for bio-textmining. Bioinformatics 19 (Suppl. 1), i180182, 2003.
137
[Kra, 00]
:
M. Krauthammer, A. Rzhetsky, P. Morozov et C. Friedman. Using
BLAST for identifying gene and protein names in journal articles. Gene
259(1-2) p. 245-52, 2000.
[Jon, 09]
:
C. Jonquet, N. Shah, M.A. Musen. Un service Web pour l’annotation
sémantique de données biomédicales avec des ontologies. 2009.
[Jou, 03]
:
W. Jouini. Les méthodes et techniques d’Extraction de Connaissances de
Bases de données, Rapport de synthèse, 2003.
[Lav, 07]
:
B. Lavoie. Notion d'ontologie et construction d'ontologie à partir de corpus
de textes. Programme de doctorat en informatique cognitive (Synthèse de
lectures). Université Québec (Canada), 2007.
[Lor, 02]
:
G. Lortal. État de l’art Ontologies et Intégration/Fusion d’ontologies,
Rapport de synthèse 2009.
[Lor, 09]
:
J. Lorec. Extraction d’informations sur la régulation transcriptionnelle à
partir de gènes à partir d’articles biomédicaux, Thèse de Doctorat,
Université de Nantes (France), 2009.
[Lou, 00]
:
G. Loubradou et B. Turcq. Vegetative incompatibility in filamentous fungi:
a roundabout way of understanding the phenomenon. Res. Microbiol. vol.
151-4, p. 239-245, 2000.
[Luc, 00]
:
M. Lucas. Mining In Textual Mountains, An Interview With Marti Hearst.
Mappa
Mundi
Magazine,
Trip-M,
005,
1–3.
Http:
//Mappa.Mundi.Net/Trip-M/Hearst/, 2000.
[Mar, 08]
:
L.Marcheix. CONCEPTION D’UNE ONTOLOGIE A PARTIR D’UN
THESAURUS
SPECIALISE
DANS
LE
DOMAINE
DE
L’ARCHEOLOGIE ET DES SCIENCES DE L’ANTIQUITE, Thèse de
Doctorat, Vincennes – Saint-Denis, Paris 8 (France), 2008.
[Med, 05]
:
O. Medelyan. Automatic Keyphrase Indexing with a Domain-Specific
Thesaurus, Thèse de Doctorat, Université Albert-Ludwigs- (Nouvelle
Zélande), 2005.
138
[Még, 02]
:
K. Mégy. Analyse in-silico de profils d’expression de gènes humain à
partir d’une étude statistique des ESTs, Thèse de Doctorat, Université
d’Aix-Marseille II (France), 2002.
[Miz, 96]
:
R. Mizoguchi et M. Ikeda «Towards Ontological Engineering (AI-TR-961).», Osaka: ISIR, Osaka, 1996.
[Mor, 02]
:
A. Morget et F. Rechenmann. Modélisation des données biologiques,
Medecine sciences 2002, Volume 18, Issue 3.
[Mul, 04]
:
H.M. Muller, E.E. Kenny, P.W. Sternberg, Textpresso: an ontologybased information retrieval and extraction system for biological literature.
PLoS Biologie, E309, 2004.
[Nas, 01]
:
V. Nastase et S. Szpakowicz. «Word sense disambiguation in Roget's
thesaurus using WordNet ». In: Proceedings of the NAACL 2001
Workshop on WordNet and Other Lexical Resources, Pittsburgh, 2001.
[Nee, 91]
:
R. Neeches, R. E. Fikes, T. Finin, T. R. Gruber, T. Senator et W. R.
Swartout. «Enabling technology for knowledge sharing.» AI Magazine.
Volume. 12, No 3, 1991.
[Néd, 01]
:
C. Nédellec et A. Nazarenko. Application de l'apprentissage à la recherche
et à l'extraction d'information - Un exemple, le projet Caderige :
identification d'interactions géniques. In Actes de la Journée thématique
Exploration de données issues d'Internet, 2001.
[Néd, 04]
:
C. Nédellec et A. Nazarenko. Machine learning for information extraction
in genomics state of the art and perspectives. In: Sirmakessis, S. (ed.): Text
Mining and its Applications. Studies in Fuzzi. and Soft Comp. 138.
Springer Verlag, Berlin Heidelberg New York 99-118, 2004.
[Noy, 02]
:
N.F Noy et D. McGuinness. Développement d’une ontologie 101 : Guide
pour la création de votre première ontologie. Stanford (USA). 2002.
[Oli, 02]
:
D. Oliver, D. Rubin, J. Stuart, M. Hewett, T. Klein, R. Altman.
Ontology development for a pharmacogenetics knowledge base. In Pacific
Symposium on Biocomputing, p. 65-76, 2002.
139
[Psy, 07]
:
V. Psyché. RÔLE DES ONTOLOGIES EN INGÉNIERIE DES EIAH :
CAS D’UN SYSTÈME D’ASSISTANCE AU DESIGN PÉDAGOGIQUE,
Université du Québec à Montréal (Canada), Thèse de Doctorat, 2007.
[Raj, 09]
:
N. Raju. Neurospora as a model fungus for studies in cytogenetics and
sexual biology at Stanford, Journal of Biosciences, Volume 34, No.1, p.
139–142, Inde, 2009.
[Rin, 00]
:
T.C. Rindflecsh, L.Tanabe, J.N.Weinstein, L.Hunter. EDGAR:
extraction of drugs, genes and relations from the biomedical literature.
Proceedings of the Pac Symposium of Biocomputers, p. 517-528, 2000.
[Roc, 03]
:
C. Roche. The differentia principle as a cornerstone for ontology.
Knowledge Management and Philosophy, Workshop in WM 2003
Conference, Luzern, 2003.
[Sea, 72]
:
T. Seale. Life Cycle of Neurospora crassa Viewed by Scanning Electron
Microscopy, Microbiology end Molecular Biology Reviews, Volume 113,
No. 2, p. 1016, USA, 1972.
[Sha, 05]
:
A. Shaban-Nejad. Design and Development of an Integrated Formal
Ontology for Fungal Genomics. Université Québec (Canada), Thèse de
Doctorat, 2005.
[Sha, 02]
:
H. Shatkay, S. Edwards et M. Boguski. Information retrieval meets gene
analysis. IEEE Intelligent System (Special Issue on Intelligent Systems in
Biology). 17:45-53, 2002.
[Sha, 03]
:
H. Shatkay, S. Edwards et M. Boguski. Mining the biomedical literature
in the genomic era: an overview. Journal of Computational Biology, 10,
821–855, 2003.
[Sta, 02]
:
Staab S. Mining information for functional genomics. IEEE Intelligent
System 17-66, 2002.
[Ste, 00]
:
R. Stevens, P. Baker, S. Bechhofer, A. Jacoby, N.W. Paton, C.A. Goble,
A. Brass. TAMBIS: Transparent access to multiple bioinformatics
information sources. Journal of Bioinformatics.16: 184–185, 2000.
[Stu, 98]
:
R. Studer, V. R. Benjamins, D. Fensel. «Knowledge engineering:
Principles and Methods.» Data Knowledge Engineering, Volume 25, No 12, 1998.
140
[Swa, 97]
:
B. Swartout, R. Patil, K. Knight et T. Russ. «Towards Distributed Use of
Large Scale Ontologies.» Spring Symposium Series on Ontological
Engineering, Stanford University, CA, 1997.
[Tru, 05]
:
S. Trufféry. Data mining et statistique décisionnelle (l’intelligence des
bases de données). Université de Renne 1 et de Paris dauphine, Livre 2005.
[Tua, 04]
:
O. Tuason, L. Chen, H. Liu, J. Blake, et C. Friedman. Biological
nomenclatures: Source of lexical knowledge and ambiguity. In Proceedings
of the Pacific Symposium of Biocomputing, number 9, p. 238-249, 2004.
[Usg, 96]
:
M. Uschold et M. Grüninger «Ontologies: Principles, Methods and
Applications». Journal of Knowledge Engineering Review. vol. 11, no 2,
1996.
[Wai, 02]
:
H.M. Wain, R.C. Lovering, E.A. Bruford, M.J. Lush, M.W. Wright, S.
Povey. Guidelines for Human Gene Nomenclature. Journal of Genomics.
Vol. 79, Num. 4, 2002.
[Wol, 04]
:
F. Wollman, S. Ball, H. Barbier-Brygoo, S. Blanc, E. Blee, A. Borgel,
C. Boyen, J-F. Briat, É. Coppin, D. de Vienne, S. Delrot, C. Dumas, V.
Gomord, A-M. Justin, T. Langin, Y. Meyer, J. Millet, J-P. Reichheld,
D. Roby, N. Schwebel, M. Vantard. « BIOLOGIE VÉGÉTALE »,
Rapport de conjoncture, Chapitre27, p.593-594, France, 2004.
141
Annexes
5
Annexe A
5
Annexe A
Les champignons filamenteux
1. Introduction
L’utilisation d’organismes biologiques comme modèles est incontournable pour faire
progresser la connaissance, en particulier pour accéder à la biologie des organismes dans son
ensemble. La place de plus en plus grande faite à la génétique a conduit à un recentrage
progressif sur des organismes présentant un cycle de reproduction court, facile à gérer en
laboratoire et accessible à toutes les méthodologies de génétique classique et moléculaire.
[Wol, 04]
Inclus dans le monde végétal et des micro-algues, les champignons filamenteux
représentent des modèles pour des créneaux thématiques originaux qui engendrent des
connaissances de portée générale. Plusieurs espèces de champignons filamenteux non
pathogènes du groupe des Ascomycètes sont utilisées comme systèmes modèles. Neurospora
crassa, constitue une référence dans le domaine, mais il existe également des modèles dits de
« tradition française » en particulier Podospora anserina. [Wol, 04]
L’intérêt des champignons en biologie végétale ne se limite pas aux recherches sur les
champignons phytopathogènes. Les champignons font l’objet de travaux originaux sur la
structure et la stabilité et l’expression des gènes et des génomes, le métabolisme et la
physiologie, la biologie du développement et de la reproduction. Ainsi, les champignons
filamenteux ont ouvert des pistes originales pour aborder les problèmes liés à la reproduction
sexuée. Dans un autre domaine, les recherches récentes concernant la plasticité des génomes
de champignons a permis de montrer le rôle des éléments transposables dans la création de la
variabilité génétique, et d’identifier deux mécanismes d’inactivation de gènes chez
Neurospora crassa.
2. Champignons filamenteux modèles : Neurospora crassa et Podospora anserina
Les travaux de cette thèse se sont focalisés sur les deux champignons modèles,
Neurospora crassa et Podospora anserina : le champignon filamenteux Podospora anserina
est un organisme utilisé pour l’étude génétique et moléculaire de plusieurs processus
biologiques et Neurospora crassa dont le génome est déjà séquencé, est l’espèce la plus
proche de Podospora anserina. Ces deux champignons appartiennent au même ordre, celui
des Sordariales.
144
Annexe A
Les champignons filamenteux
En tant qu’espèce modèle, Neurospora crassa a été rendue célèbre par son rôle dans la
naissance de la biologie moléculaire. C’est en effet grâce à la génétique de Neurospora que
George W. Beadle et Edward Tatum ont pu établir la célèbre relation « un gène - une
enzyme »1. L’étude de Podospora anserina montre qu’on aurait tort de se limiter à un unique
modèle tel que Neurospora crassa. Malgré leur relative proximité, les deux espèces
présentent en effet des différences importantes. L’étude de P.anserina donne accès à d’autres
phénomènes biologiques que celle de N.crassa. En particulier, les hyphes de P.anserina
subissent un phénomène de sénescence qui a établi ce champignon, depuis plusieurs
décennies, comme un modèle d’étude des mécanismes du vieillissement. Chez N.crassa, au
contraire, la sénescence n’est pas observée de façon systématique. Par ailleurs, P.anserina ne
présente pas ou avec une efficacité moindre, les phénomènes d’extinctions géniques qui sont
particulièrement efficaces chez N.crassa, ce qui permet de développer chez le second des
technologies impossibles à mettre en œuvre chez le premier.
2.1. Cycle de développement de Neurospora crassa
Les espèces de Neurospora sont majoritairement haploïdes2, passant la plupart
de leurs cycles de vie à l'état haploïde. Cependant, les diverses espèces de Neurospora
présentent un des trois cycles de vie différents dits hétérothallique3 homothallique4 ou pseudohomothallique. L’hétérothallisme des espèces de Neurospora crassa est le plus étudié; son
cycle général est présenté dans la figure A.1.
Pendant la phase asexuée, la germination et la croissance d'une spore asexuée
haploïde (conidie) produit une masse de filaments emmêlés (hyphes), qui constituent une
colonie. Les hyphes5 n'ont aucune paroi ainsi, une colonie est essentiellement une cellule
contenant beaucoup de noyaux haploïdes. Une colonie bourgeonne des millions de conidies
des hyphes aériens, des macro-conidies multi-nucléées et des micro-conidies uni-nucléées, et
ceux-ci se dispersent et répètent le cycle asexué si elles se trouvent et demeurent sur un
substrat approprié. [Raj, 09]
1
http://www.genoscope.cns.fr/externe/HistoireBM/#beadle.
2
Haploïdes : Cellule contenant n chromosomes.
Hétérothallique : Reproduction sexuée produite par un seul mycélium ayant des polarités différentes, l'un de signe (+),
l'autre de signe (-)
4
Homothallique : Reproduction sexuée produite par un seul mycélium.
5
Hyphes : Ensemble des filaments d'un champignon.
3
145
Annexe A
Les champignons filamenteux
Dans la phase sexuée, quand les colonies du type sexuel différent entrent en
contact, leurs parois cellulaires et les noyaux fusionnent formant beaucoup de noyaux
diploïdes transitoires à l'intérieur de fructifications appelées périthèces. Chaque noyau
diploïde subit la méiose6. Les quatre produits haploïdes d'une méiose restent ensemble dans
un sac appelé un asque chez Neurospora crassa chacun des quatre produits de la méiose subit
encore une autre division mitotique, ayant pour résultat une octade de huit ascospores dans
chaque asque. Les ascospores7 germent et produisent des hyphes ayant pour résultat des
colonies. [Raj, 09]
Figure A.1 Cycle de vie de N.crassa. [Sea, 72]
2.2. Cycle de développement de Podospora anserina
Podospora anserina est un ascomycète8 filamenteux hétérothallique, dont le
cycle de type haplobiontique présente plusieurs caractéristiques intéressantes :
Dans les conditions appropriées (c’est-à-dire après l'épuisement des nutriments dans le
milieu de culture), les mycéliums9 de chaque type sexuel (mat+ et mat-) différencient à la fois
des gamètes reproducteurs mâles et des organes reproducteurs femelles. La fécondation ne se
produit qu'entre un organe mâle (et un seul) et un seul organe femelle de type sexuel opposé.
6
Méiose : Phase de reproduction du champignon.
Ascomycète : Champignon dont la reproduction sexuée consiste en la formation d'asques.
8
Ascospores : Spore de reproduction sexuée formée dans un asque.
9
Mycélium : Ensemble des hyphes ou des filaments d'un champignon.
7
146
Annexe A
Les champignons filamenteux
Pour ceci, l'organe femelle produit une extension cytoplasmique, le trichogyne qui attrape une
micro-conidie de type sexuel opposé. Le noyau fécondant entre dans l'ascogone. Un point
intéressant est que la caryogamie10 ne se produit pas immédiatement. [Gaa, 05]
D'abord, les deux noyaux se divisent dans un cytoplasme commun pour former un
syncytium. Les noyaux migrent ensuite par paires de types sexuels opposés dans des cellules
spécialisées, les hyphes ascogènes. Ces hyphes donnent naissance après une ou deux divisions
à des cellules spécialisées, les crochets (ou crozier en anglais), où les deux noyaux se divisent
de manière synchrone. Un septum spécial est mis en place et donne naissance à une cellule à
deux noyaux, un mat+ et un mat-. Cette fusion est suivie immédiatement de la méiose, d'une
mitose post méiotique et de la formation de 4 ascospores bi-nuclées ou 5 ascospores 3 binuclées et 2 uni-nuclées. Tout ceci se produit dans une structure protectrice spécialisée, le
périthèce11. Le processus dans les conditions optimales prend environ 4 jours, au bout
desquels les ascospores sont éjectées à l'extérieur du périthèce par un mécanisme qui fait
intervenir une forte turgescence12. [Gaa, 05]
Figure A.2 Cycle de vie de P.anserina. [Cop, 97]
10
11
12
Caryogamie : Fusion du noyau mâle et du noyau femelle.
Périthèce : organe de fructification sexuée en forme d'urne ou de bouteille présentant à son sommet une ouverture l'ostiole.
Turgescence : état cellulaire associé à l'élongation de la cellule causée par une entrée d'eau dans cette même cellule.
147
Annexe A
Les champignons filamenteux
3. Comparaison des deux champignons
Le tableau1 ci-dessous dresse un comparatif entre les deux champignons filamenteux
d’intérêt. Cette comparaison concerne trois aspects : l’écologie, la croissance végétative et la
reproduction.
o Par écologie, est désigné l’environnement dans lequel évoluent naturellement les deux
organismes. Ainsi, N.crassa préfère un milieu (ou un habitat) où les plantes sont tuées
par le feu et un climat chaud pour se développer alors que pour P.anserina, il est
restreint et se trouve notamment sur les déjections des herbivores.
o Pour la croissance végétative, elle se caractérise par une production de pigment orange
chez N.crassa et un pigment vert chez P.anserina, un taux de croissance élevé est
observé chez N.crassa par rapport à P.anserina pour qui il est moyen, enfin la
sénescence est observée chez P.anserina ce qui n’est pas le cas pour N.crassa
o Pour la reproduction asexuée des deux champignons, elle n’existe pas chez P.anserina
alors que pour N.crassa se caractérise par la germination de conidies. La durée d’une
génération durant la phase sexuée est d’une semaine pour P.anserina dont la
physiologie du type sexuel est pseudo-homothallique et de trois semaines pour
N.crassa avec une physiologie du type sexuel strictement hétérothallique.
148
Annexe A
Écologie
Les champignons filamenteux
Neurospora crassa
Podospora anserina
Préfère les plantes tuées par le feux
Restreint, sur les déjections des herbivores
Biotopes souvent de grande taille et à faible
compétitivité
Toujours des petits biotopes et de haute compétitivité
Préfère les climats chauds
Répandu dans le monde
Elevé à (9 cm / jour)
Moyen (7 mm / jour)
Syndrome du vieillissement
Généralement immortel avec certaines souches du
vieillissement
Sénescence dans toutes les souches étudiées
Interférences sur les hyphes
Non encore décrites
Présente
Pigmentation
Caroténoïdes (orange)
Mélanines (vertes)
Reproduction asexuée
Efficace avec la germination des conidies
Non
Durée d'une génération sexuée
Trois semaines
Une semaine
Physiologie du type sexuel
Strictement hétérothallique
Pseudo-homothallique
Dormance des ascospores
Oui
Non
Déclenchement de la germination des
ascospores
Choc thermique à 60 ° C ou produits chimiques (par
exemple, le furfural)
Passage par la voie digestive des herbivores dans la nature
(Dans un milieu minimum nutritif contenant de l'acétate
d'ammonium dans les laboratoires)
Habitat
Distribution
Croissance végétative Taux de croissance
Reproduction
Tableau A.1 Comparaison entre N.crassa et P.anserina. [Esp, 08]
149
Annexe A
Les champignons filamenteux
4. Conclusion
Les deux champignons filamenteux d’intérêt que sont Neurospora crassa et
Podospora anserina ont été présentés à travers une description des différentes étapes de leur
développement. Aussi, La comparaison de ces deux organismes montre qu’ils peuvent être
considérés à la fois comme étant suffisamment proches et éloignés, pour qu’une comparaison
de données expérimentales qui leur sont associées puisse être intéressante.
Dans ce qui suit, nous allons définir un type particulier de séquences : les EST
(Expressed Sequence Tags) qui sont de plus en plus utilisés par les biologistes pour trouver
les informations sur les fonctions de gènes d’organismes divers et pour évaluer le taux
d’expression des gènes associés.
150
Annexe B
5
Annexe B.
Les données de biologie moléculaire
1. Introduction
Dans l'état actuel des connaissances, une méthode employée en génomique depuis
plusieurs années,
repose sur l'emploi des séquences partielles d'ADN complémentaire
(ADNc). Ces séquences partielles, nommées Expressed Sequence Tags (ESTs) sont
accumulées par millions dans les banques de données depuis les années 1990.
La comparaison d'un EST avec une séquence génomique conduit en effet au repérage
de zones homologues qui, normalement, correspondent à des gènes exprimés. Ainsi la
détection des gènes dans les séquences d'ADN par le biais des ESTs et la détection de leur
profil d'expression font donc un usage intensif de ces données, qui ont été déterminantes pour
le succès de nombreux travaux récents en génétique moléculaire [Hat, 04].
2. Définition des Expressed Sequence Tags (ESTs)
Les ESTs (Expressed Sequence Tags) sont de courts fragments représentant les gènes
exprimés dans une cellule dans un temps donné. Ils sont régulièrement utilisés pour mesurer
le taux d’expression des gènes [Meg, 02].
Figure B.1 Procédé d’obtention des ESTs. [Meg, 02]
151
Annexe B.
Les données de biologie moléculaire
3. Procédure d’obtention des ESTs
Différents laboratoires publiques et compagnies privées se sont lancés dans des
programmes de séquençage d'ADNc à partir de prélèvements spécifiques. Les étapes suivies
pour l'obtention d'EST sont les suivantes [Meg, 02] :
o On considère la séquence génomique d'un chromosome. Les gènes des cellules
eucaryotes (non bactériennes), ont leurs séquences généralement codantes (appelées
'exons') interrompues par des 'introns' (séquences de gène situées entre deux 'exons' et
dont la fonction est encore inconnue).
o La transcription est initiée ; elle se définit comme la copie d'une molécule d'ADN par
la création d’une molécule d'ARN. La molécule d'ARN directement synthétisée à
partir du modèle ADN, reste dans le noyau de la cellule et est traitée par un complexe
enzymatique qui enlève tous les introns. Cette étape est appelée épissage.
o Construction d'une banque d'ADNc : à partir d'un tissu ou de cellules en culture, les
ARNm sont purifiés, transformés en ADNc (copie double brin des ARNm) et
finalement clonés ce qui produit une librairie de clones.
o Séquençage des ESTs : de nombreux clones sont séquencés de manière systématique,
mais partielle (pour réduire le temps et le coût). Chaque fragment d'ADNc cloné est
séquencé une seule fois ('single-pass') sur quelques centaines de nucléotides
(généralement de 300 à 600 paires de base) à partir de chacune de ses extrémités : on
obtient ainsi des banques de séquences, avec un taux relativement important d'erreurs
dans les séquences (de 1 à 3%).
4. Banques de données de séquences
Les banques de données de séquences en biologie moléculaire constituent un outil
indispensable à l'activité quotidienne du chercheur amené à travailler avec des séquences.
Elles représentent une source précieuse d'informations, dont l'exhaustivité permet
théoriquement d’effectuer des recherches efficaces et globales sur les connaissances du
moment au sujet de tel gène ou de telle protéine. Un autre intérêt de ces bases réside dans
l'information qui accompagne les séquences (i.e. annotations, expertises, bibliographies). Ces
152
Annexe B.
Les données de biologie moléculaire
informations peuvent parfois constituer les rares annotations disponibles sur certaines
séquences. Enfin la présence de références à d'autres bases permet d'avoir accès à d'autres
informations complémentaires. Ainsi, en fonction de la nature de l’information produite par
ces séquences, deux types de banques peuvent être distinguées :
o Celles qui correspondent à une collecte des données la plus exhaustive possible et qui
offrent finalement un ensemble plutôt hétérogène d'informations dites banques de
séquences généralistes exemple : EMBL1, GenBank2, DDBJ3[Mor, 02].
o Celles qui correspondent à des données plus homogènes établies autour d'une
thématique et qui offrent une valeur ajoutée à partir d'une technique particulière ou
d'un intérêt suscité par un groupe d'individus dites banques de séquences spécialisées
exemple : enzymes, pathologies, gène et expression, etc [Mor, 02].
Banques d'ESTs
Les ESTs, par leur nature, constituent une catégorie de séquences nucléotidiques à
part, et une ressource essentielle pour les biologistes. Le NCBI et l'EBI produisent chacun une
banque ne contenant que des ESTs. D'autre part, il existe plusieurs banques spécialisées dans
le traitement et l'analyse des EST, offrant différents niveaux d'analyse et d'interprétation de
cette information.
La banque d'EST fournie par le NCBI est dbEST4, celle-ci est une division de
GenBank qui regroupe toutes les séquences issues du séquençage des ESTs. En date du 15
avril 2005, dbEST contient plus de 26 millions de séquences représentant plus de 800
organismes. Sa forte croissance est due aux nombreux programmes de séquençage d'EST qui
ont été mis en œuvre ces dernières années. Les organismes les plus représentés dans dbEST
sont : Homo sapiens (22% des séquences) et Mus musculus (16%), le tableau 2 reprend une
liste non exhaustive d'organismes et met en évidence le nombre d'EST pour chacun d'entre
eux [Hat, 04].
1
http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/topembl.html
2
http://www.ncbi.nlm.nih.gov/Web/GenBank
3
http://www.ddbj.nig.ac.jp
4
http://www.ncbi.nlm.nih.gov/dbEST
153
Annexe B.
Les données de biologie moléculaire
Organisme
Homme (Homo Sapiens)
Vache (Bos taurus)
Chien (Canis familiaris)
Souris (Mus musculus)
Rat (Rattus norvegicus)
Sanglier (Sus scrofa)
Poule (Gallus gallus)
Poisson (Danio Rerio)
Cione (Ciona intestinalis)
Nombre d'EST
6 054 956
59 2603
323 129
4 334 174
691 988
435 156
532 239
606 296
684 319
Tableau B.1 dbEST - Nombre d'EST par organisme.
La banque dbEST centralise donc les séquences EST issues des différents projets de
séquençage. Cette banque présente une forte redondance due au fait que ces séquences ont été
obtenues à partir de clones pris au hasard dans de nombreuses banques d'ADNc établies à
partir de divers tissus. Par conséquent, des EST peuvent correspondre à des parties
différentes, souvent (mais pas toujours) chevauchantes d'un même gène exprimé [Hat, 04].
5. Conclusion
La quantité de données dans le domaine de la biologie ne cesse d'augmenter en
particulier avec le séquençage des génomes de différents organismes mais également la
grande diversification des informations produites (i.e. séquences primaires, structures
moléculaires, cartographie, collection de clones...). Toutes ces informations sont regroupées
soit dans des banques de données de séquences dites « généralistes » ou « spécifiques ».
Dans ce qui précède, nous avons présenté un type particulier de séquences : les ESTs
(Expressed Sequence Tags), leur procédure d’obtention et le nombre de séquences d’ESTs de
quelques d’organismes. Cependant, ces ESTs sont généralement exploités pour leur partie
séquence mais les informations textuelles associées qui renseignent sur le protocole
expérimental sont ignorées.
De ce fait, un recours à la fouille de données, plus précisément la fouille de textes
apporterait une solution pour exploiter au mieux ces informations inconnues et
potentiellement utiles pour le biologiste.
154
Annexe C
5
Annexe C
La méthode de STANFORD de construction des ontologies
Présentation
Il existe une multitude de méthodes d’ingénierie ontologique mais l’absence de
directives structurées et communes ralentisse le développement d’ontologie à l’intérieur et
entre les équipes, l’extension de n’importe quelle ontologie, la possibilité de réutilisation de
l’ontologie.
On entend par méthodologie, les procédures de travail, les étapes, qui décrivent le
pourquoi et le comment de la conceptualisation puis de l’artefact construit. Dans ce qui va
suivre les étapes générales de la méthode de STANDFORD [Noy, 02] pour la construction
des ontologies sont décrits ci-après. Elle comporte sept étapes qui sont les suivantes :
1. Déterminer le domaine et la portée de l’ontologie.
2. Réutiliser des ontologies existantes.
3. Enumérer les termes importants de l’ontologie.
4. Définir les classes et la hiérarchie de classes.
5. Définir les propriétés des classes (les attributs).
6. Définir les facettes des attributs.
7. Créer des instances des classes dans la hiérarchie ou exemples.
Détaillons maintenant ces étapes :
Etape 1 : Déterminer le domaine et la portée de l’ontologie. Cette étape se fait en répondant
aux questions ci-dessous tout au long de la conception de l’ontologie et qui aident à définir la
portée du domaine de l’ontologie :
·
Quel est le domaine que va couvrir l’ontologie ?
·
Dans quel but utiliserons-nous l’ontologie ?
·
A quels types de questions l’ontologie devra-t-elle fournir des réponses ?
·
Qui va utiliser et maintenir l’ontologie ?
157
Annexe C
La méthode de STANFORD de construction des ontologies
Afin de mieux cerner la portée de l’ontologie on peut recourir aux questions de compétence,
c'est-à-dire les questions auxquelles le système projeté est censé répondre. Ces questions
permettent de savoir si l’ontologie contient suffisamment d’informations pour répondre aux
questions et s’il y a une nécessité de détail dans les réponses ou de représentation d’un
domaine particulier.
Etape 2 : envisager une éventuelle réutilisation des ontologies existantes. Dans tout domaine
de recherche, il est utile de profiter de ce que les autres ont fait afin d’en tirer les informations
et ainsi permettre d’élargir le travail et l’affiner pour répondre aux besoins. Il est intéressant
d’importer des ontologies déjà existantes (dans le même domaine) et les adapter à nos
besoins.
Etape 3 : Enumérer les termes importants de l’ontologie. Il est important d’établir en premier
lieu une liste complète des termes concernant le domaine d’intérêt, et cela sans se soucier de
la catégorisation de ces derniers dans des classes ou dans une hiérarchie. On peut extraire ces
termes à partir de produits terminologiques comme les corpus, les thésaurus, les taxonomies
etc. les questions à se poser pour établir cette liste sont les suivantes :
·
Sur quels termes souhaiterons-nous discuter ?
·
Quelles sont les propriétés de ces termes ?
·
Que veut-on dire par ces termes ?
Etape 4 : Définir les classes et la hiérarchie de classes. A partir de la liste de l’étape
précédente, on commence par définir les classes en sélectionnant les termes qui décrivent des
objets ayant une existence indépendante. Ce sont ces termes qui constitueront les classes de
l’ontologie. Il faut ensuite organiser ces classes dans une taxonomie hiérarchique en suivant la
règle suivante : « Si une classe A est super classe d’une classe B alors toute instance de B est
aussi une instance de A.» Il existe différentes approches qui permettent la définition d’une
hiérarchie des classes, il n’y a pas de meilleure méthode. Cela dépend en fait du point de vue
du développeur :
·
Un procédé de développement de haut en bas : c’est une approche systémique qui
commence par une définition des concepts les plus généraux du domaine et se poursuit
par la spécialisation des concepts.
158
Annexe C
·
La méthode de STANFORD de construction des ontologies
Un procédé de développement de bas en haut : commence par la définition des
classes les plus spécifiques, appelées feuilles de la hiérarchie, et se poursuit avec le
regroupement de ces classes en concepts plus généraux.
·
Un procédé combiné de développement : représente une combinaison des deux
approches précédentes, c’est l’approche la plus souvent utilisée par les développeurs
en raison du fait que les concepts du milieu sont en général plus descriptifs du
domaine. Au tout début, les concepts les plus saillants sont définis ensuite ils sont
généralisés ou spécialisés selon le cas.
Etape 5 : Définir les propriétés des classes (les attributs) Dans cette étape, on devra décrire la
structure interne des concepts tirés pendant l’étape précédente. Les propriétés définissent la
structure interne et les caractéristiques des classes. La plupart des termes restants (qui ne sont
pas des classes) ont de fortes chances de représenter les propriétés de ces classes. Chaque
propriété sera ensuite rattachée comme attribut à la classe qu’elle décrit. Il faut ensuite
prendre en considération les classes et les sous-classes, ainsi un attribut doit être rattaché à la
classe la plus générale pouvant avoir cette propriété et toutes les sous-classes de cette classe
héritent cet attribut. On peut citer quelques recommandations :
·
Les attributs inverses : on parle d’attributs inverses quand la valeur d’un attribut
dépend de la valeur d’un autre attribut. Il est parfois plus commode de stocker
l’information dans les deux sens bien que cela paraisse redondant.
·
Valeurs par défaut : une valeur par défaut d’un attribut est une valeur particulière qui
est la même pour la plupart des instances d’une classe. Le système renseigne
automatiquement cette valeur par défaut à chaque création d’une nouvelle instance
appartenant à une classe comportant cet attribut.
·
Nommer les classes et les attributs : il faut définir une convention de nomination des
classes et attributs et y adhérer complètement. Cela permet de mieux comprendre
l’ontologie et d’éviter les erreurs les plus fréquentes de modélisation.
Etapes 6 : définir les facettes des attributs. Les attributs peuvent avoir plusieurs facettes. Les
facettes les plus communes décrivent :
159
Annexe C
·
La méthode de STANFORD de construction des ontologies
Le type de valeur des attributs : désigne le type de valeur pouvant être affectée à un
attribut. Les plus typiques sont les suivants : chaîne de caractère, nombre ou enveloppe
ou entier, booléen, énuméré (précise une liste de valeurs spécifiques autorisées pour
l’attribut), instance (permet de définir des relations entre les concepts).
Remarque : ici « instance » est un type d’attribut offert par l’éditeur d’ontologies Protégé. Ce
type indique que la propriété est une relation entre la classe comportant cet attribut et celle
spécifiée avec l’attribut. Exemple : pour modéliser la relation « avoir_père » entre les deux
classes « père » et « enfant », il suffit d’ajouter une propriété de type « instance » dans la
classe « enfant » qui a le nom « avoir_père ». La classe cible est la classe père.
·
Le nombre de valeur ou cardinalité : désigne le nombre de valeurs qu’un attribut
peut avoir. Une cardinalité peut être unique (autorise une seule valeur) ou multiple
(autorise plusieurs valeurs). Il utile de spécifier pour un attribut une cardinalité
minimale et une cardinalité maximale.
·
Le domaine et le rang d’un attribut : l’étendue ou le rang d’un attribut représente
les classes autorisées pour les attributs de type « Instance ». Le domaine d’un attribut
représente les classes autorisées auxquelles cet attribut est rattaché ou les classes dont
l’attribut décrit les propriétés.
Etape 7 : créer les instances. Cette étape consiste à créer les instances qui représentent des
entités réelles des classes. On commence par créer une instance individuelle de la classe
choisie puis on la renseigne avec les valeurs des attributs.
160
Annexe D
5
Figure D.1 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =500 fiches d’ESTs (Neurospora crassa).
162
Figure D.2 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =1 000 fiches d’ESTs (Neurospora crassa).
163
Figure D.3 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =5 000 fiches d’ESTs (Neurospora crassa).
164
165
Figure D.4 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =10 000 fiches d’ESTs (Neurospora crassa).
166
Figure D.5 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =50 000 fiches d’ESTs (Neurospora crassa).
167
Figure D.6 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =100 000 fiches d’ESTs (Neurospora crassa).
Téléchargement